CN113728316A - 确定方法、生成方法、维度压缩方法、显示方法以及信息处理装置 - Google Patents
确定方法、生成方法、维度压缩方法、显示方法以及信息处理装置 Download PDFInfo
- Publication number
- CN113728316A CN113728316A CN201980095477.3A CN201980095477A CN113728316A CN 113728316 A CN113728316 A CN 113728316A CN 201980095477 A CN201980095477 A CN 201980095477A CN 113728316 A CN113728316 A CN 113728316A
- Authority
- CN
- China
- Prior art keywords
- vector
- compressed
- text
- word
- vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 230000010365 information processing Effects 0.000 title claims abstract description 48
- 239000013598 vector Substances 0.000 claims abstract description 420
- 230000006835 compression Effects 0.000 claims abstract description 47
- 238000007906 compression Methods 0.000 claims abstract description 45
- 230000008569 process Effects 0.000 claims description 34
- 230000002441 reversible effect Effects 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims 2
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 31
- 238000000605 extraction Methods 0.000 description 30
- 235000019580 granularity Nutrition 0.000 description 14
- 239000000284 extract Substances 0.000 description 12
- 230000006870 function Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000009466 transformation Effects 0.000 description 7
- 230000009467 reduction Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种确定方法、生成方法、维度压缩方法、显示方法以及信息处理装置。信息处理装置确定与检索条件所包含的文本中包含的任意的单词相应的向量。信息处理装置参照存储表示与多个向量分别相应的单词是否包含于多个文本文件中的每个文本文件的存在与否信息的存储部,并基于与多个向量中的与确定出的向量的相似度为基准以上的向量建立有对应关系的存在与否信息,来确定多个文本文件中的包含任意单词的文本文件。
Description
技术领域
本发明涉及确定方法等。
背景技术
在以往的检索技术等中,在对专业书籍等的文本压缩编码的情况下,对文本进行词法分析,并生成对单词和文本上的单词的偏移量建立了对应关系的倒排索引,用于文本检索。例如,若指定检索查询(检索对象的文本),则使用倒排索引,确定与检索查询的单词对应的偏移量,检索包含检索查询的单词的文本。
专利文献1:日本特开2006-119714号公报
专利文献2:日本特开2018-180789号公报
专利文献3:日本特开2006-146355号公报
专利文献4:日本特开2002-230021号公报
非专利文献1:岩崎雅二郎,《在高维向量数据中实现高速的附近检索的NGT的公开》,<https://techblog.yahoo.co.jp/lab/searchlab/ngt-1.0.0/>,2019年3月12日检索。
然而,在上述的现有技术中,在专业书籍等的文本和检索查询的文本中,存在由于单词、句子的粒度的表述波动原因而无法检索的情况。
例如,由于上述的倒排索引对单词和其偏移量建立了对应关系,所以即使意思相同,也难以检索与检索查询的单词不一致的单词。
发明内容
在一个侧面,本发明的目的在于提供一种抑制由与检索查询的文本的表述波动引起的检索精度的降低的确定方法、生成方法、维度压缩方法、显示方法以及信息处理装置。
在第一方案中,计算机执行以下的处理。计算机受理检索条件所包含的文本。计算机确定与受理的文本所包含的任意的单词相应的向量。计算机参照存储部,该存储部中与和多个文本文件中的至少任意一个文本文件所包含的多个单词相应的多个向量分别建立对应地存储表示与多个向量分别相应的单词是否包含于多个文本文件中的每个文本文件的存在与否信息,并基于与多个向量中的与确定出的向量的相似度为基准以上的向量建立有对应关系的存在与否信息,来确定多个文本文件中的包含任意单词的文本文件。
能够抑制由与检索查询的文本的表述波动引起的检索精度的降低。
附图说明
图1是用于对本实施例的信息处理装置的处理进行说明的图(1)。
图2是用于对本实施例的信息处理装置的处理进行说明的图(2)。
图3是表示本实施例的信息处理装置的结构的功能框图。
图4是表示单词向量表的数据结构的一个例子的图。
图5是表示维度压缩表的数据结构的一个例子的图。
图6是表示单词索引的数据结构的一个例子的图。
图7是表示同义词索引的数据结构的一个例子的图。
图8是表示同义句索引的数据结构的一个例子的图。
图9A是用于对基底向量的分散配置进行说明的图。
图9B是用于对维度压缩进行说明的图。
图10是用于说明对倒排索引散列化的处理的一个例子的图。
图11是用于对维度还原进行说明的图。
图12是用于对还原散列化的位图的处理进行说明的图。
图13是表示图表信息的一个例子的图。
图14是表示本实施例的信息处理装置的处理步骤的流程图(1)。
图15是表示本实施例的信息处理装置的处理步骤的流程图(2)。
图16是表示由生成处理部生成的多个同义词索引的一个例子的图。
图17是表示实现与本实施例的信息处理装置同样的功能的计算机的硬件结构的一个例子的图。
具体实施方式
以下,基于附图对本申请所公开的确定方法、生成方法、维度压缩方法、显示方法以及信息处理装置的实施例进行详细说明。此外,本发明并不被该实施例所限定。
实施例
图1和图2是用于对本实施例的信息处理装置的处理进行说明的图。首先,对图1进行说明。如图1所示,信息处理装置的维度压缩部150b获取单词向量表140a。单词向量表140a是保持各单词的向量的信息的表。单词向量表140a所包含的各单词的向量是使用Word2Vec等预先计算出的向量,例如,为200维的向量。
维度压缩部150b通过对单词向量表140a的各单词的向量进行维度压缩,来生成维度压缩单词向量表140b。维度压缩单词向量表140b是保持维度压缩后的各单词的向量的信息的表。维度压缩单词向量表140b所包含的各单词的向量为三维向量。
维度压缩部150b将成分分解为200维的200根各向量aiei(i=1~200)等分地分散配置成圆状。“ei”是基底向量。在以下的说明中,将成分分解而成的向量记作基底向量。维度压缩部150b选择一个质数的基底向量,并对该基底向量累计将其它维度的基底向量正交变换所得的值。维度压缩部150b通过对用质数“3”分割且分散的3个质数的基底向量执行上述处理,将200维的向量维度压缩成三维向量。例如,维度压缩部150b通过分别计算质数“1”、“67”、“131”的基底向量的值,维度压缩成三维向量。
此外,在本实施例中,作为一个例子,作为三维向量来进行说明,但也可以为其它维度的向量。通过选择用质数“3以上”分割且分散的质数的基底向量,虽然是不可逆的,但能够实现高精度的维度还原。此外,若增大分割的质数,则精度提高,但压缩率降低。在以下的说明中,适当地将200维的向量记作“向量”,将维度压缩成三维的向量记作“压缩向量”。
信息处理装置的生成处理部150c受理多个文本文件10A。文本文件10A是具有多个由多个单词构成的句子的文件。生成处理部150c通过基于字典信息15将多个文本文件10A分别编码为单词单位,来生成多个文本压缩文件10B。
生成处理部150c在基于文本文件10A生成文本压缩文件10B时,生成单词索引140c、同义词索引140d、同义句索引140e、句子向量140f、动态字典140g。
字典信息15是对单词和代码建立对应关系的信息(静态字典)。生成处理部150c参照字典信息15,将文本文件10A的各单词分配给代码,并压缩。生成处理部150c对文本文件10A的单词中的未存在于字典信息15的单词、频率较低的单词分配动态代码并压缩,并将这样的单词和动态代码登录至动态字典140g。
单词索引140c对单词的代码(或者,单词ID)和这样的单词的代码的位置建立对应关系。单词的代码的位置用文本压缩文件10B的偏移量来表示。在多个文本压缩文件10B中,可以任意地定义偏移量。例如,若将前一个文本压缩文件的最后一个单词的代码的偏移量设为“N”,则下一个文本压缩文件的第一个单词的代码的偏移量能够连续为“N+1”。
同义词索引140d对单词的压缩向量和与这样的压缩向量对应的单词的代码的位置建立对应关系。单词的代码的位置用文本压缩文件10B的偏移量来表示。在这里,即使是不同的单词的代码,对作为同义词的单词也分配同一压缩向量。例如,在单词A1、A2、A3分别是“リンゴ”(日语)“apple”(英语)“pomme”(法语)这样的同义词的情况下,单词A1、A2、A3的压缩向量具有几乎相同的值。
同义句索引140e对句子的压缩向量和与这样的压缩向量对应的句子的位置建立对应关系。文本压缩文件10B的句子的位置为句子所包含的单词的代码中第一个单词的代码的位置。生成处理部150c通过累计句子所包含的各单词的压缩向量来计算句子的压缩向量,并储存至句子向量表140f。生成处理部150c分别计算文本文件10A所包含的各句子的压缩向量的相似度,并将相似度为阈值以上的多个句子分类到同一组。生成处理部150c将属于同一组的各句子确定为同义句,并分配同一压缩向量。此外,句子向量按每个句子分配三维压缩向量。另外,也可以将各句子向量按出现顺序与圆建立对应关系地分散配置,将多个句子一并压缩。
如上述那样,本实施例的信息处理装置在生成对单词向量表140a维度压缩而成的维度压缩单词向量表140b,压缩文本文件10A的情况下,生成压缩向量、以及定义与压缩向量对应的同义词、同义句的出现位置的同义词索引140d、同义句索引140e。同义词索引140d是对属于同一同义词的各单词分配同一压缩向量,且定义与压缩向量对应的单词(同义词)出现的位置的信息。另外,同义句索引140e是对属于同一同义句的各句子分配同一压缩向量,并定义与压缩向量对应的句子(同义句)出现的位置的信息。因此,与对各个单词、句子分配200维的向量的方法相比,能够减少数据量。
移至图2的说明。信息处理装置的提取部150d若受理检索查询20A,则基于维度压缩单词向量表140b,提取特征单词21和特征句子22。
例如,提取部150d计算检索查询20A所包含的多个句子的压缩向量。首先,提取部150d从维度压缩单词向量表140b获取一个句子所包含的多个单词的压缩向量,并将获取的单词的压缩向量还原为200维的向量。
提取部150d将成分分解为200维的各基底向量等分地分散配置成圆状。提取部150d通过选择由维度压缩部150b选择的用质数“3”分割而成的三个质数“1”、“67”、“131”的基底向量以外的一个基底向量,并对选择出的基底向量累计对质数“1”、“67”、“131”的基底向量进行正交变换所得的值,来计算选择出的一个基底向量的值。例如,提取部150d对与“2~66、68~130、132~200”对应的各基底向量反复执行上述处理。通过进行上述处理,提取部150d将检索查询20A所包含的各单词的压缩向量还原成200维的向量。
接着,提取部150d通过累计一个句子所包含的多个单词的向量,来计算句子的向量。提取部150d对检索查询20A所包含的其它句子也同样地计算句子的向量。
提取部150d通过累计检索查询20A所包含的多个句子的向量,来计算检索查询20A的向量。在以下的说明中,将检索查询20A的向量(200维)记作“查询向量”。
提取部150d对查询向量的各维度的值进行降序排序,并确定上位的几个维度。在以下的说明中,将上位的几个维度记作“特征维度”。提取部150d提取检索查询20A所包含的多个句子中的包含多个特征维度的向量的值的句子,作为特征句子22。另外,提取部150d提取检索查询20A所包含的多个单词中的包含多个特征维度的向量的值的单词,作为特征单词21。
确定部150e对特征单词21的压缩向量和同义词索引140d的压缩向量进行比较,确定与特征单词21的压缩向量的相似度为阈值以上的同义词索引140d的压缩向量。确定部150e基于与确定出的压缩向量对应的偏移量,从多个文本压缩文件10B中检索与特征单词21对应的文本压缩文件,并将检索出的文本压缩文件生成为第一候补列表31。
确定部150e对特征句子22的压缩向量和同义句索引140e的压缩向量进行比较,确定与特征句子22的压缩向量的相似度为阈值以上的同义句索引140e的压缩向量。确定部150e基于与确定出的压缩向量对应的偏移量,并从多个文本压缩文件10B中检索与特征句子22对应的文本压缩文件,并将检索出的文本压缩文件生成为第二候补列表32。
如上述那样,在给出检索查询20A的情况下,信息处理装置确定检索查询20A的特征维度,并确定包含多个特征维度的向量的值的特征单词21以及特征句子22。信息处理装置基于特征单词21的压缩向量和同义词索引140d,来生成第一候补列表31。信息处理装置基于特征句子22的压缩向量和同义句索引140e,来生成第二候补列表32。由于在特征单词21、特征句子22、同义词索引140d、同义句索引140e中使用的压缩向量是三维向量,所以能够在抑制相似度计算成本的同时检测出包含与检索查询20A相似的单词、句子的文本压缩文件。
接下来,对本实施例的信息处理装置的结构的一个例子进行说明。图3是表示本实施例的信息处理装置的结构的功能框图。如图3所示,该信息处理装置100具有通信部110、输入部120、显示部130、存储部140以及控制部150。
通信部110是经由网络等,与未图示的外部装置执行数据通信的处理部。通信部110对应于通信装置。例如,通信部110也可以从外部装置接收文本文件10A、字典信息15、检索查询20A等信息。
输入部120是用于对信息处理装置100输入各种信息的输入装置。输入部120对应于键盘、鼠标、触摸面板等。例如,利用者也可以操作输入部120来输入检索查询20A。
显示部130是显示从控制部150输出的各种信息的显示装置。显示部130对应于液晶显示器、触摸面板等。例如,显示部130显示由确定部150e确定的第一候补列表31、第二候补列表32。
存储部140具有文本文件10A、文本压缩文件10B、单词向量表140a、维度压缩单词向量表140b、单词索引140c、同义词索引140d、同义句索引140e。存储部140具有句子向量表140f、动态字典140g、字典信息15、检索查询20A、第一候补列表31、第二候补列表32。存储部140对应于RAM(Random Access Memory:随机存取存储器)、ROM(Read Only Memory:只读存储器)、闪存(Flash Memory)等半导体存储器元件、HDD(Hard Disk Drive:硬盘驱动器)等存储装置。
文本文件10A是包含多个句子的信息。句子是包含多个单词的信息。例如,句子与句子通过标点符号、句号等分隔。在本实施例中,在存储部140登录多个文本文件10A。
文本压缩文件10B是压缩文本文件10A所得的信息。例如,通过基于字典信息15,以单词单位压缩文本文件10A,来生成文本压缩文件10B。
单词向量表140a是保持每个单词的向量的信息的表。图4是表示单词向量表的数据结构的一个例子的图。如图4所示,单词向量表140a对单词ID和单词的向量建立对应关系。单词ID唯一识别单词。此外,也可以代替单词ID,利用在字典信息15等中定义的单词的代码。向量是使用Word2Vec等预先计算出的向量,例如,为200维的向量。
维度压缩单词向量表140b是保持维度压缩后的各单词的压缩向量的信息的表。图5是表示维度压缩表的数据结构的一个例子的图。如图5所示,维度压缩单词向量表140b对单词ID和单词的压缩向量建立对应关系。此外,也可以代替单词ID,利用单词的代码。
单词索引140c对单词的代码(或者,单词ID)和这样的单词ID的位置(偏移量)建立对应关系。图6是表示单词索引的数据结构的一个例子的图。在图6所示的单词索引140c中,横轴表示文本压缩文件10B的偏移量。纵轴对应于单词ID。例如,在单词ID“A01”的行与偏移量“2”的列相交的部分设置标志“1”。因此,单词ID“A01”的单词的代码表示位于文本压缩文件10B的偏移量“2”。
本实施例中使用的偏移量是依次连结多个文本压缩文件10B的情况下的偏移量,表示距第一个文本压缩文件10B的偏移量。虽然省略图示,但在单词索引140c中设定有成为文本压缩文件间的缝隙的偏移量。后述的同义词索引140d的偏移量、同义句索引140e的偏移量也相同。
同义词索引140d对单词的压缩向量和与这样的压缩向量对应的单词的代码的位置(偏移量)建立对应关系。图7是表示同义词索引的数据结构的一个例子的图。在图7所示的同义词索引140d中,横轴表示文本压缩文件10B的偏移量。纵轴对应于单词的压缩向量。对属于同一同义词的多个单词,分配同一压缩向量。例如,在同义词的压缩向量“W3_Vec1”的行与偏移量“1”、“6”相交的部分设置标志“1”。因此,属于压缩向量“W3_Vec1”的同义词的多个单词的代码中的任意一个代码表示位于文本压缩文件10B的偏移量“1”、“6”。此外,由于以一定的阈值分割同义词的压缩向量的各维度,所以压缩向量具有一定的粒度。
同义句索引140e对句子的压缩向量和与这样的压缩向量对应的句子的位置(偏移量)建立对应关系。文本压缩文件10B的句子的位置为句子所包含的单词的代码中第一个单词的代码的位置。图8是表示同义句索引的数据结构的一个例子的图。在图8所示的同义句索引140e中,横轴表示文本压缩文件10B的偏移量。纵轴对应于句子的压缩向量。对属于成为同一意思的同义句的多个句子分配同一压缩向量。例如,在同义句的压缩向量“S3_Vec1”的行与偏移量“3”、“30”相交的部分设置标志“1”。因此,属于压缩向量“S3_Vec1”的同义句的多个句子中任意一个句子的第一个单词的代码表示位于文本压缩文件10B的偏移量“3”、“30”。此外,由于以一定的阈值分割同义句的压缩向量的各维度,所以压缩向量具有一定的粒度。
句子向量表140f是保持句子的压缩向量的信息的表。动态字典140g是对压缩编码时出现的低频率的单词、未登录至字典信息15的单词和代码动态地建立对应关系的信息。字典信息15是对单词和代码建立对应关系的信息(静态字典)。
检索查询20A具有成为检索对象的句子的信息。检索查询20A也可以是具有多个句子的文本文件。
第一候补列表31是具有基于从检索查询20A中提取的特征单词21检测的文本压缩文件10B的列表。
第二候补列表32是具有基于从检索查询20A中提取的特征句子22检测的文本压缩文件10B的列表。
返回到图3的说明。控制部150具有受理部150a、维度压缩部150b、生成处理部150c、提取部150d、确定部150e以及图表生成部150f。控制部150能够由CPU、MPU(MicroProcessing Unit:微处理单元)等来实现。另外,控制部150也能够通过ASIC(ApplicationSpecific Integrated Circuit:专用集成电路)、FPGA(Field Programmable Gate Array:现场可编程门阵列)等硬接线逻辑来实现。
受理部150a是从通信部110或输入部120受理各种信息的处理部。受理部150a在受理了多个文本文件10A的情况下,将多个文本文件10A登录至存储部140。受理部150a在受理了检索查询20A的情况下,将检索查询20A登录至存储部140。
维度压缩部150b是通过对单词向量表140a的各单词的向量进行维度压缩,来生成维度压缩单词向量表140b的处理部。图9A是用于对基底向量的分散配置进行说明的图。首先,维度压缩部150b将成分分解为200维的200根基底向量aiei(i=1~200)等分地分散配置成圆状(半圆状)。此外,成分分解前的向量A与成分分解后的各基底向量aiei的关系由式(1)来定义。
[式1]
如图9A所示,维度压缩部150b对于200根基底向量a1e1~a200e200,将正(实线+圆形箭头)分散配置在右侧半圆,将负(虚线+圆形箭头)分散配置在左侧半圆。假设各基底向量所形成的角度相等。例如,维度压缩部150b从基底向量a1e1~a200e200中选择用质数“3”分割的质数的基底向量。在本实施例中,作为一个例子,维度压缩部150b选择基底向量a1e1、基底向量a67e67以及基底向量a131e131。
图9B是用于对维度压缩进行说明的图。首先,维度压缩部150b通过相对于基底向量a1e1分别对剩余的基底向量a2e2~a200e200进行正交变换,并累计正交变换后的各基底向量a2e2~a200e200的值,来计算基底向量a1e1的值。
如图9B所示,维度压缩部150b通过相对于基底向量a67e67分别对剩余的基底向量a1e1(实线+箭头)、a2e2、a3e3~a66e66、a68e68~a200e200进行正交变换,并累计正交变换后的各基底向量a1e1~a66e66、a68e68~a200e200的值,来计算基底向量a67e67的值。
维度压缩部150b通过相对于基底向量a131e131分别对剩余的基底向量a1e1~a130e130、a132e132~a200e200进行正交变换,并累计正交变换后的各基底向量a1e1~a130e130、a132e132~a200e200的值,来计算基底向量a131e131的值。
维度压缩部150b将对200维的向量进行维度压缩所得的压缩向量的各成分设为“基底向量a1e1的值、基底向量a67e67的值、基底向量a131e131的值”。由此,200维的向量能够维度压缩成用质数“3”分割的三维向量。此外,维度压缩部150b也可以使用KL展开等进行维度压缩。维度压缩部150b通过对单词向量表140a的各单词分别执行上述的维度压缩,来生成维度压缩单词向量表140b。
生成处理部150c受理多个文本文件10A,对文本文件10A所包含的字符串执行词法分析,将字符串分割成单词单位。生成处理部150c基于字典信息15,以单词单位压缩多个文本文件10A所包含的单词,生成多个文本压缩文件10B。生成处理部150c对文本文件10A的单词和字典信息15进行比较,将各单词压缩成代码。生成处理部150c对文本文件10A的单词中的不存在于字典信息15的单词分配动态代码并压缩,并将这样的单词和动态代码登录至动态字典140g。
与上述的压缩编码同时,生成处理部150c基于文本文件10A,生成单词索引140c、同义词索引140d、同义句索引140e、句子向量表140f。
对生成处理部150c生成“单词索引140c”的处理的一个例子进行说明。生成处理部150c在从前端扫描文本文件10A的单词并压缩的过程中,在命中规定的单词ID(单词的代码)的情况下,确定距前端的偏移量,并对确定出的偏移量和单词ID相交的单词索引140c的部分设定标志“1”。生成处理部150c通过反复执行上述处理,生成单词索引140c。将单词索引140c的各部分的初始值设为“0”。
对生成处理部150c生成“同义词索引140d”的处理的一个例子进行说明。生成处理部150c在从前端扫描文本文件10A的单词并压缩的过程中,从维度压缩单词向量表140b中获取与压缩的单词对应的压缩向量。在以下的说明中,将该获取的压缩向量适当地记作“对象压缩向量”。
生成处理部150c计算对象压缩向量与具有同义词索引140d的一定的粒度的各同义词的压缩向量的相似度,并确定同义词索引140d的各压缩向量中的与对象压缩向量的相似度最大的压缩向量。生成处理部150c在同义词索引140d中,在确定出的压缩向量的行与对象压缩向量的单词的偏移量的列的相交的部分设定标志“1”。
例如,生成处理部150c基于式(2),来计算压缩向量的相似度。在式(2)中,示出计算向量A与向量B的相似度,来评价压缩向量的相似度的情况。
[式2]
生成处理部150c通过反复执行上述处理,生成同义词索引140d。此外,将同义词索引140d的各部分的初始值设为“0”。
对生成处理部150c生成“同义句索引140e”的处理的一个例子进行说明。生成处理部150c通过在从前端扫描文本文件10A的单词并压缩的过程中,从维度压缩单词向量表140b中获取从一个句子的第一个单词(代码)到这样的一个句子的终端的单词(代码)的各单词(代码)的压缩向量,并累计获取的各压缩向量,来计算一个句子的压缩向量。此外,句子的第一个单词是文章的最初的单词、或标点符号后面的单词。句子的终端的单词是标点符号之前的单词。在以下的说明中,将计算出的句子的压缩向量适当地记作“对象压缩向量”。
生成处理部150c计算对象压缩向量与具有同义句索引140e的一定的粒度的各同义句的压缩向量的相似度,并确定同义句索引140e的各压缩向量中的与对象压缩向量的相似度最大的压缩向量。生成处理部150c基于式(2),计算对象压缩向量与各压缩向量的相似度。生成处理部150c在同义句索引140e中,在确定出的压缩向量的行与句子的第一个单词相对于对象压缩向量的偏移量的列相交的部分设定标志“1”。
生成处理部150c通过反复执行上述处理,来生成同义句索引140d。此外,将同义句索引140e的各部分的初始值设为“0”。
然而,生成处理部150c在生成单词索引140c、同义词索引140d、同义句索引140e时,为了减少运算量,也可以不使用式(2),与具有一定的粒度的压缩向量的各个基底向量的阈值建立对应关系。另外,为了减少信息量,也可以使各倒排索引140c、140d、140e分别散列化。
图10是用于对使倒排索引散列的处理的一个例子进行说明的图。在图10中说明的例子中,假设32位寄存器,并基于“29”和“31”的质数(底数),将单词索引140c的各行的位图散列化。在这里,作为一个例子,对根据位图b1生成散列化位图h11以及散列化位图h12的情况进行说明。
位图b1表示提取具有单词索引(例如,图6所示的单词索引140c)的行获得的位图。散列化位图h11是通过底数“29”散列化的位图。散列化位图h12是通过底数“31”散列化的位图。
生成处理部150c将位图b1的各位的位置除以一个底数得到的余数的值与散列化位图的位置建立对应关系。在该位图b1的位的位置设定有“1”的情况下,生成处理部150c进行在建立有对应关系的散列化位图的位置设定“1”的处理。
对根据位图b1生成底数“29”的散列化位图h11的处理的一个例子进行说明。首先,生成处理部150c将位图b1的位置“0~28”的信息复印在散列化位图h11。接着,由于位图b1的位的位置“35”除以底数“29”所得的余数为“6”,所以位图b1的位置“35”与散列化位图h11的位置“6”建立对应关系。由于在位图b1的位置“35”设定有“1”,所以生成处理部150c在散列化位图h11的位置“6”设定“1”。
由于位图b1的位的位置“42”除以底数“29”所得的余数为“13”,所以位图b1的位置“42”与散列化位图h11的位置“13”建立对应关系。由于在位图b1的位置“42”设定有“1”,所以生成处理部150c在散列化位图h11的位置“13”设定“1”。
生成处理部150c通过对位图b1的位置“29”以上的位置反复执行上述处理,来生成散列化位图h11。
对根据位图b1生成底数“31”的散列化位图h12的处理的一个例子进行说明。首先,生成处理部150c将位图b1的位置“0~30”的信息复印到散列化位图h12。接着,由于位图b1的位的位置“35”除以底数“31”所得的余数为“4”,所以位图b1的位置“35”与散列化位图h12的位置“4”建立对应关系。由于在位图b1的位置“35”设定有“1”,所以生成处理部150c在散列化位图h12的位置“4”设定“1”。
由于位图b1的位的位置“42”除以底数“31”所得的余数为“11”,所以位图b1的位置“42”与散列化位图h12的位置“11”建立对应关系。由于在位图b1的位置“42”设定有“1”,所以生成处理部150c在散列化位图h12的位置“11”设定“1”。
生成处理部150c通过对位图b1的位置“31”以上的位置,反复执行上述处理,来生成散列化位图h12。
生成处理部150c通过对单词索引140c的各行进行基于上述的折叠技术的压缩,来散列单词索引140c。此外,底数“29”、“31”的散列化位图被赋予生成源的位图的行(编码的单词的种类)的信息。在图10中,对生成处理部150c将单词索引140c散列化的情况进行了说明,但对同义词索引140d、同义句索引140e也同样地进行散列化。
返回到图3的说明。提取部150d计算检索查询20A所包含的多个句子的压缩向量。首先,提取部150d从维度压缩单词向量表140b中获取一个句子所包含的多个单词的压缩向量,并将获取的单词的压缩向量还原成200维的向量。维度压缩单词向量表140b的压缩向量是将基底向量a1e1的值、基底向量a67e67的值、基底向量a133e133的值分别设为维度的值的向量。
图11是用于对维度还原进行说明的图。在图11中,作为一个例子,对基于以质数“3”分割的基底向量a1e1、基底向量a67e67、基底向量a131e131,还原基底向量a45e45的值的情况进行说明。提取部150d通过对基底向量a45e45,累计对基底向量a1e1、基底向量a67e67、基底向量a131e131进行正交变换所得的值,来还原基底向量a45e45的值。
提取部150d对于其它基底向量,也通过与基底向量a45e45同样地反复执行上述处理,将三维压缩向量还原成200维的向量。
接着,提取部150d通过使用维度压缩单词表140b,累计一个句子所包含的多个单词的向量,来计算句子的向量。提取部150d对于检索查询20A所包含的其他句子也同样地计算句子的向量。另外,提取部150d通过累计检索查询20A所包含的多个句子的向量,来计算检索查询20A的“查询向量”。
提取部150d对查询向量的各维的值进行降序排序,确定上位的“特征维度”。提取部150d提取检索查询20A所包含的多个句子中包含多个特征维度的向量的值的句子,作为特征句子22。另外,提取部150d提取检索查询20A所包含的多个单词中包含多个特征维度的向量的值的单词,作为特征单词21。提取部150d将特征单词21的信息以及特征句子22的信息输出至确定部150e。
确定部150e对特征单词21的压缩向量和同义词索引140d的压缩向量进行比较,确定与特征单词21的压缩向量的相似度为阈值以上的同义词索引140d的压缩向量。确定部150e基于与确定出的压缩向量对应的偏移量,从多个文本压缩文件10B中检索与特征单词21对应的文本压缩文件,并将检索出的文本压缩文件生成为第一候补列表31。
在确定部150e计算特征单词21的压缩向量与同义词索引140d的压缩向量的相似度的情况下,利用式(2)。在这里,将与特征单词21的压缩向量的相似度为阈值以上的同义词索引140d的压缩向量记作“相似压缩向量”。
在存在多个相似压缩向量的情况下,确定部150e按相似度的降序对相似压缩向量排序,按相似度从大到小的顺序对相似压缩向量标注等级。在生成第一候补列表31的情况下,确定部150e基于与相似度更大的相似压缩向量对应的偏移量,将检索到的文本压缩文件登录至第一候补列表31。确定部150e也可以按等级顺序,将文本压缩文件登录至第一候补列表31。
确定部150e对特征句子22的压缩向量和同义句索引140e的压缩向量进行比较,确定与特征句子22的压缩向量的相似度为阈值以上的同义句索引140e的压缩向量。确定部150e基于与确定出的压缩向量对应的偏移量,从多个文本压缩文件10B中检索与特征句子22对应的文本压缩文件,并将检索出的文本压缩文件生成为第二候补列表32。
确定部150e基于字典信息15和动态字典140g,对登录至第一候补列表31的各文本压缩文件10B进行解码,并使解码出的第一候补列表31输出至显示部130并显示。另外,确定部150e也可以将解码出的第一候补列表31发送至发送出检索查询20A的外部装置。
在确定部150e计算特征句子22的压缩向量与同义句索引140e的压缩向量的相似度的情况下,利用式(2)。在这里,将与特征句子22的压缩向量的相似度为阈值以上的同义句索引140e的压缩向量记作“相似压缩向量”。
在存在多个相似压缩向量的情况下,确定部150e按相似度的降序对相似压缩向量排序,并按相似度从大到小的顺序对相似压缩向量标注等级。在生成第二候补列表32的情况下,确定部150e基于与相似度更大的相似压缩向量对应的偏移量,将检索出的文本压缩文件登录至第二候补列表32。确定部150e也可以按等级顺序,将文本压缩文件登录至第一候补列表31。
确定部150e基于字典信息15和动态字典140g,对登录至第二候补列表32的各文本压缩文件10B进行解码,并使解码出的第二候补列表32输出至显示部130并显示。另外,确定部150e也可以将解码出的第二候补列表32发送至发送了检索查询20A的外部装置。
然而,在同义词索引140d以及同义句索引140e被散列化的情况下,确定部150e还原被散列化的位图。图12是用于对还原被散列化的位图的处理进行说明的图。在这里,作为一个例子,对确定部150e基于散列化位图h11以及散列化位图h12来还原位图b1的情况进行说明。
确定部150e根据底数“29”的散列化位图h11,生成中间位图h11’。确定部150e将散列化位图h11的位置0~28的值分别复印到中间位图h11’的位置0~28。
确定部150e对中间位图h11’的位置29以后的值反复执行对每“29”分别复印散列化位图h11的位置0~28的值的处理。在图12所示的例子中,示出在中间位图h11’的位置29~43的位置复印了散列化位图h11的位置0~14的值的例子。
确定部150e根据底数“31”的散列化位图h12生成中间位图h12’。确定部150e将散列化位图h12的位置0~30的值分别复印到中间位图h12’的位置0~30。
确定部150e对中间位图h12’的位置31以后的值反复执行对每“31”,分别复印散列化位图h12的位置0~30的值的处理。在图12所示的例子中,示出在中间位图h12’的位置31~43的位置复印了散列化位图h12的位置0~12的值的例子。
确定部150e若生成中间位图h11’和中间位图h12’,则通过对中间位图h11’和中间位图h12’进行“与”运算,来还原散列前的位图b1。确定部150e对于其它被散列的位图,也能够通过反复执行同样的处理,来还原与单词的代码对应的各位图(还原同义词索引140d以及同义句索引140e)。
图表生成部150f是若经由输入部120等,受理文本文件10A(或者,文本压缩文件10B)的指定,则基于指定的文本文件10A,来生成图表信息的处理部。图13是表示图表信息的一个例子的图。图13所示的图表G10是示出与文本文件10A所包含的各单词的压缩向量对应的位置和该单词的分散状态的图表。图表G11是示出与文本文件10A所包含的各文的压缩向量对应的位置和该句子的迁移状态的图表。图表G12是示出与将文本文件10A的多个句子向量累计所得的压缩向量对应的位置的图表。图表G10~G12的横轴是对应于压缩向量中的第一维度的轴,纵轴是对应于第二维度(与第一维度不同的维度)的轴。例如,在绘制大学教学大纲(讲座大纲)的情况下,将横轴设为时代、阳历,将纵轴设为与地域、场所相关的维度。此外,预先设定有第一维度以及第二维度,它们的值从三维压缩向量通过正交变换分别累积变换而成。
对图表生成部150f生成图表G10的处理的一个例子进行说明。图表生成部150f对文本文件10A所包含的字符串进行词法分析,并从前端开始依次提取单词。图表生成部150f通过对维度压缩单词向量表140b和提取出的单词进行比较,确定压缩向量,并根据确定出的压缩向量,反复执行在与第一维度的值以及第二维度的值对应的图表G10的位置绘制点的处理,来生成图表10。
对图表生成部150f生成图表G11的处理的一个例子进行说明。图表生成部150f对文本文件10A所包含的字符串进行词法分析,并从前端开始依次提取句子。图表生成部150f对每个句子执行对句子所包含的各单词和维度压缩单词向量表140b进行比较,确定单词的压缩向量,并通过累计句子所包含的单词,计算句子的压缩向量的处理。图表生成部150f通过对各句子的压缩向量,反复执行在与第一维度的值以及第二维度的值对应的图表G11的位置绘制点的处理,来生成图表10。图表生成部150f也可以按照文本文件10A所包含的句子的出现顺序,连接图表G11的点。
对图表生成部150f生成图表G12的处理的一个例子进行说明。图表生成部150f对文本文件10A所包含的字符串进行词法分析,从前端开始依次提取句子。图表生成部150f对每个句子执行对句子所包含的各单词和维度压缩单词向量表140b进行比较,确定单词的压缩向量,并通过累计句子所包含的单词,计算句子的压缩向量的处理。另外,图表生成部150f通过累计各句子的压缩向量,计算文本文件10A的压缩向量。图表生成部150f通过对文本文件10A的压缩向量,在与第一维度的值以及第二维度的值对应的图表G11的位置绘制点,来生成图表G12。
在上述的说明中,对图表生成部150f分别生成图表G10~G12的情况进行了说明,但图表生成部150f也可以同时生成图表G10~G12。例如,图表生成部150f也可以对文本文件10A所包含的字符串进行词法分析,从前端开始依次提取单词,在确定压缩向量的过程中,组合句子的压缩向量、文本文件10A的压缩向量来计算。
接下来,对本实施例的信息处理装置100的处理步骤的一个例子进行说明。图14是表示本实施例的信息处理装置的处理步骤的流程图(1)。信息处理装置100的受理部150a接收文本文件10A,登录至存储部140(步骤S101)。
信息处理装置100的维度压缩部150b获取单词向量表140a(步骤S102)。维度压缩部150b通过对单词向量表的各向量进行维度压缩,来生成维度压缩单词向量表140b(步骤S103)。
在压缩文本文件10A的情况下,信息处理装置100的生成处理部150c使用维度压缩单词向量表140b,生成单词索引140c、同义词索引140d、同义句索引140e、句子向量表140f、动态字典140g(步骤S104)。
生成处理部150c将单词索引140c、同义词索引140d、同义句索引140e、句子向量表140f、动态字典140g登录至存储部140,并生成文本压缩文件10B(步骤S105)。
图15是表示本实施例的信息处理装置的处理步骤的流程图(2)。信息处理装置100的受理部150a受理检索查询20A(步骤S201)。信息处理装置100的提取部150d基于维度压缩单词向量表140b,计算检索查询20A所包含的各句子的压缩向量(步骤S202)。
提取部150d将各句子的压缩向量的维度还原成200维,并确定特征维度(步骤S203)。提取部150d基于特征维度,提取特征单词以及特征句子,并确定特征单词的压缩向量、特征句子的压缩向量(步骤S204)。
信息处理装置100的确定部150e基于特征单词的压缩向量以及同义词索引,生成第一候补列表31,并输出至显示部130(步骤S205)。确定部150e基于特征句子的压缩向量以及同义句索引140e,生成第二候补列表32,并输出至显示部130(步骤S206)。
接下来,对本实施例的信息处理装置100的效果进行说明。信息处理装置100生成对单词向量表140a维度压缩后的维度压缩单词向量表140b,并在压缩文本文件10A的情况下,生成同义词索引140d、同义句索引140e。同义词索引140d是对属于同一同义词的各单词分配同一压缩向量,并定义与压缩向量对应的单词(同义词)出现的位置的信息。另外,同义句索引140e是对属于同一同义句的各句子分配同一压缩向量,并定义与压缩向量对应的句子(同义句)出现的位置的信息。因此,与对各个单词分配200维的向量的以往相比,能够减少数据量。
在给出检索查询20A的情况下,信息处理装置100确定检索查询20A的特征维度,并确定特征维度的向量的值最大的特征单词21以及特征句子22。信息处理装置100基于特征单词21的压缩向量和同义词索引140d,生成第一候补列表31。信息处理装置100基于特征句子22的压缩向量和同义句索引140e,生成第二候补列表32。由于在特征单词21、特征句子22、同义词索引140d、同义句索引140e中使用的压缩向量是三维向量,所以能够在抑制相似度计算成本的同时,检测出包含与检索查询20A相似的单词、句子的文本压缩文件10B。
信息处理装置100生成基于文本文件10A所包含的多个单词的压缩向量的图表G10、基于多个句子的压缩向量的图表G11、基于文本文件10A的压缩向量的图表G12并显示。由此,能够实现单词、句子、文本文件(文章)的可视化。
然而,本实施例的信息处理装置100使用一个同义词索引140d,检测包含从检索查询20A提取的特征单词的文本压缩文件10B,并生成第一候补列表31,但并不限于此。信息处理装置100也可以生成粒度不同(分类等级不同)的多个同义词索引140d,并使用多个同义词索引140d,生成第一候补列表31。
图16是表示由生成处理部生成的多个同义词索引的一个例子的图。在图16中,作为一个例子,对生成三个同义词索引140d-1、140d-2、140d-3的情况进行说明。对同义词索引140d-1、140d-2、140d-3,分别设定第一基准值、第二基准值、第三基准值。各基准值的大小关系为第一基准值<第二基准值<第三基准值。同义词索引140d-1的粒度最小,同义词索引140d-2、同义词索引140d-3的粒度依次增大。
生成处理部150c在从前端扫描并压缩文本文件10A的单词的过程中,反复执行从维度压缩单词向量表140b获取与压缩的单词对应的压缩向量的处理。
生成处理部150c分别计算各压缩向量的相似度,将相似度为第一基准值以上的压缩向量的组判定为是同义词。生成处理部150c将同一组所包含的多个压缩向量的平均值确定为同一组所包含的多个压缩向量的代表值,并基于代表值(压缩向量)和与压缩向量对应的单词的偏移量,对同义词索引140d-1设定标志“1”。生成处理部150c通过反复执行各组上述处理,对同义词索引140d-1设定各标志。
生成处理部150c分别计算各压缩向量的相似度,将相似度为第二基准值以上的压缩向量的组判定为是同义词。生成处理部150c将同一组所包含的多个压缩向量的平均值确定为同一组所包含的多个压缩向量的代表值,并基于代表值(压缩向量)和与压缩向量对应的单词的偏移量,对同义词索引140d-2设定标志“1”。生成处理部150c通过反复执行各组上述处理,对同义词索引140d-2设定各标志。
生成处理部150c分别计算各压缩向量的相似度,将相似度为第三基准值以上的压缩向量的组判定为是同义词。生成处理部150c将同一组所包含的多个压缩向量的平均值确定为同一组所包含的多个压缩向量的代表值,并基于代表值(压缩向量)和与压缩向量对应的单词的偏移量,对同义词索引140d-3设定标志“1”。生成处理部150c通过反复执行各组上述处理,对同义词索引140d-3设定各标志。
确定部150e对从提取部150d提取的特征单词21的压缩向量和同义词索引140d-1~140d-3进行比较,并根据同义词索引140d-1~140d-3确定与特征单词21的压缩向量的相似度为阈值以上的压缩向量。
确定部150e基于与特征单词21的压缩向量的相似度为阈值以上的同义词索引140d-1的压缩向量的偏移量,来检索与偏移量对应的多个文本压缩文件(第一文本压缩文件)。确定部150e基于与特征单词21的压缩向量的相似度为阈值以上的同义词索引140d-2的压缩向量的偏移量,来检索与偏移量对应的多个文本压缩文件(第二文本压缩文件)。确定部150e基于与特征单词21的压缩向量的相似度为阈值以上的同义词索引140d-3的压缩向量的偏移量,来检索与偏移量对应的多个文本压缩文件(第三文本压缩文件)。
确定部150e可以将第一~第三文本压缩文件登录至第一候补列表31,也可以将第一~第三文本压缩文件中的被检测到的数量最大的文本压缩文件登录至第一候补列表31。
另外,确定部150e也可以首先使用粒度最大的同义词索引140d-3,进行文本压缩文件的检索,在检索到的文本压缩文件的数量小于规定量的情况下,切换至粒度第二大的同义词索引140d-2,进行文本压缩文件的检索。进一步,确定部150e也可以使用同义词索引140d-2,进行文本压缩文件的检索,在检索到的文本压缩文件的数量小于规定量的情况下,切换至下一个粒度较大的同义词索引140d-1,进行文本压缩文件的检索。像这样,通过切换同义词索引,能够调整检索结果的候补数。
在上述的例子中,针对对同义词索引140d,设定第一基准值、第二基准值、第三基准值,并生成粒度不同的同义词索引140d-1~140d-3的情况进行了说明,但并不限定于此。生成处理部150c也可以对同义句索引140e,设定第一基准值、第二基准值、第三基准值,并分别生成粒度不同的同义句索引。另外,利用者也可以操作输入部120等,适当地变更第一基准值、第二基准值、第三基准值。生成部150c也可以在受理了第一基准值、第二基准值、第三基准值的变更的情况下,分别动态地再创建粒度不同的同义词索引140d、同义句索引140e。
本实施例1的维度压缩部150b通过分别计算用质数“3”分割的三个质数“1”、“67”、“131”的基底向量的值,对一个单词求出一个压缩向量,但并不限于此。例如,在计算压缩向量的情况下,维度压缩部150b也可以设定用多种质数分割的多个质数的基底向量,并对一个单词计算多种压缩向量。例如,维度压缩部150b也可以计算用质数“3”分割的三个质数“1”、“67”、“131”基底向量、用质数“5”分割的五个质数“1”、“41”、“79”、“127”、“163”的基底向量、用质数“7”分割的七个质数“1”、“29”、“59”、“83”、“113”、“139”、“173”的基底向量,并对一个单词将多种压缩向量登录至维度压缩单词向量表140b。而且,在利用维度压缩单词向量表140b的情况下,生成处理部150d、提取处理部150d也可以选择性地使用任意的压缩向量,进行倒排索引的生成、特征单词、特征句子的提取。
接下来,对实现与本实施例所示的信息处理装置100相同的功能的计算机的硬件结构的一个例子进行说明。图17是表示实现与本实施例的信息处理装置相同的功能的计算机的硬件结构的一个例子的图。
如图17所示,计算机500具有执行各种运算处理的CPU501、受理来自用户的数据的输入的输入装置502、以及显示器503。另外,计算机500具有从存储介质读取程序等的读取装置504、以及经由有线或无线网络与外部装置等之间进行数据的授受的接口装置505。计算机500具有临时存储各种信息的RAM506、以及硬盘装置507。而且,各装置501~507连接到总线508。
硬盘装置507具有受理程序507a、维度压缩程序507b、生成处理程序507c、提取程序507d、确定程序507e、图表生成程序507f。CPU501读出受理程序507a、维度压缩程序507b、生成处理程序507c、提取程序507d、确定程序507e、图表生成程序507f并在RAM506中展开。
受理程序507a作为受理工序506a发挥作用。维度压缩程序507b作为维度压缩工序506b发挥作用。生成处理程序507c作为生成处理工序506c发挥作用。提取程序507d作为提取工序506d发挥作用。确定程序507e作为确定工序506e发挥作用。图表生成程序507f作为图表生成工序506f发挥作用。
受理工序506a的处理对应于受理部150a的处理。维度压缩工序506b的处理对应于维度压缩部150b的处理。生成处理工序506c的处理对应于生成处理部550c的处理。提取工序506d的处理对应于提取部150d的处理。确定工序506e的处理对应于确定部150e的处理。图表生成工序506f的处理对应于图表生成部150f的处理。
此外,对于各程序507a~507f,也可以未必从最初开始就存储于硬盘装置507。例如,使各程序存储于插入至计算机500的软盘(FD)、CD-ROM、DVD盘、光磁盘、IC卡等“便携式物理介质”。而且,计算机500也可以读出各程序507a~507f并执行。
附图标记说明
10A…文本文件;10B…文本压缩文件;15…字典信息;20A…检索查询;31…第一候补列表;32…第二候补列表;100…信息处理装置;110…通信部;120…输入部;130…显示部;140…存储部;140a…单词向量表;140b…维度压缩单词向量表;140c…单词索引;140d…同义词索引;140e…同义句索引;140f…句子向量表;140g…动态字典;150…控制部;150a…受理部;150b…维度压缩部;150c…生成处理部;150d…提取部;150e…确定部;150f…图表生成部。
Claims (12)
1.一种确定方法,其特征在于,
由计算机执行如下处理:
受理检索条件所包含的文本;
确定与受理的上述文本所包含的任意的单词相应的向量;以及
参照存储部,该存储部中与和多个文本文件中的至少任意一个文本文件所包含的多个单词相应的多个向量分别对应地存储表示与上述多个向量分别相应的单词是否包含于上述多个文本文件中的每个文本文件的存在与否信息,
并基于与上述多个向量中的与确定出的上述向量的相似度为基准以上的向量建立有对应关系的存在与否信息,来确定上述多个文本文件中的包含上述任意的单词的文本文件。
2.根据权利要求1所述的确定方法,其特征在于,
确定上述向量的处理将上述文本所包含的单词的各维度的值累计,并基于累计结果,从上述文本所包含的任意的单词确定特征单词的向量,
确定上述文本文件的处理参照上述存储部,基于与上述多个向量中的与上述特征单词的向量的相似度为基准以上的向量建立有对应关系的存在与否信息,来确定上述多个文本文件中的包含上述任意的单词的文本文件。
3.根据权利要求1所述的确定方法,其特征在于,
确定上述向量的处理基于将上述检索条件所包含的多个句子的各维度的值累计所得的累计结果,从上述检索条件所包含的任意句子确定特征句子的向量,
确定上述文本文件的处理参照存储表示与上述多个向量分别相应的句子是否包含于上述多个文本文件中的每个文本文件的存在与否信息的存储部,基于与上述多个向量中的与确定出的上述特征句子的向量的相似度为基准以上的向量建立有对应关系的存在与否信息,来确定上述多个文本文件中的包含上述检索条件所包含的任意句子的文本文件。
4.一种生成方法,其特征在于,
由计算机执行如下处理:
受理文本文件;
确定与受理的上述文本文件所包含的任意单词相应的第一向量;
参照存储与多个单词相应的多个向量的存储部,确定上述多个向量中的与上述第一向量的相似度为基准以上的第二向量;以及
生成将表示上述文本文件包含上述任意单词的信息与上述第二向量建立对应关系的信息。
5.根据权利要求4所述的生成方法,其特征在于,
按每个不同的分类等级执行基于与分类等级相应的相似度的多个基准值,将上述文本文件所包含的多个单词中的属于向量彼此的相似度为基准值以上的单词组的各单词与同一向量建立对应关系的处理,
进一步执行按每个不同的分类等级生成对属于上述文本文件所包含的某个单词组的单词的偏移量和属于上述某个单词组的单词的向量建立对应关系的倒排索引的处理。
6.根据权利要求5所述的生成方法,其特征在于,
进一步执行如下处理:
受理检索条件所包含的文本;
确定与受理的上述文本所包含的任意的单词相应的向量;以及
基于确定出的上述向量和每个上述分类等级的任意的倒排索引,确定包含与上述向量对应的单词的文本文件。
7.根据权利要求6所述的生成方法,其特征在于,
确定上述文本文件的处理根据基于每个上述分类等级的倒排索引检索出的文本文件的数量,来切换上述倒排索引。
8.一种维度压缩方法,其特征在于,
由计算机执行如下处理:
基于与字符串对应的多个维度的向量,将按每个维度将上述向量成分分解而成的多个基底向量分散配置成圆状;
通过对上述多个基底向量中的第一基底向量,累计对除了上述第一基底向量以外的其它第二基底向量进行正交变换所得的值,来计算上述第一基底向量的值;以及
将上述向量所包含的多个维度压缩到与上述第一基底向量对应的维度,并将压缩后的维度的值设定为通过上述计算处理计算出的第一基底向量的值。
9.一种显示方法,其特征在于,
由计算机执行如下处理:
受理文本;
对与受理的上述文本所包含的多个单词或句子相应的向量的维度进行维度压缩;
生成将与上述多个单词或句子对应的维度压缩后的向量的维度中与二维的向量的值相应的位置分别绘制在图表上的图像信息;以及
显示生成的图像信息。
10.一种信息处理装置,其特征在于,具有:
受理部,受理检索条件所包含的文本;以及
确定部,确定与受理的上述文本所包含的任意的单词相应的向量,并参照存储部,该存储部中与和多个文本文件中的至少任意一个文本文件所包含的多个单词相应的多个向量分别对应地存储表示与上述多个向量分别相应的单词是否包含于上述多个文本文件中的每个文本文件的存在与否信息,并基于与上述多个向量中的与确定出的上述向量的相似度为基准以上的向量建立有对应关系的存在与否信息,来确定上述多个文本文件中的包含上述任意的单词的文本文件。
11.一种信息处理装置,其特征在于,具有:
受理部,受理文本文件;以及
生成处理部,确定与受理的上述文本文件所包含的任意单词相应的第一向量,并参照存储与多个单词相应的多个向量的存储部,确定上述多个向量中的与上述第一向量的相似度为基准以上的第二向量,并生成将表示上述文本文件包含上述任意单词的信息与上述第二向量建立对应关系的信息。
12.一种信息处理装置,其特征在于,具有:
受理部,受理文本;以及
图表生成部,对与受理的上述文本所包含的多个单词或句子相应的向量的维度进行维度压缩,生成将与上述多个单词或句子对应的维度压缩后的向量的维度中与二维的向量的值相应的位置分别绘制在图表上的图像信息,并显示生成的图像信息。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/016847 WO2020213158A1 (ja) | 2019-04-19 | 2019-04-19 | 特定方法、生成方法、次元圧縮方法、表示方法および情報処理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113728316A true CN113728316A (zh) | 2021-11-30 |
Family
ID=72837136
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980095477.3A Pending CN113728316A (zh) | 2019-04-19 | 2019-04-19 | 确定方法、生成方法、维度压缩方法、显示方法以及信息处理装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20220035848A1 (zh) |
EP (2) | EP3958147A4 (zh) |
JP (3) | JP7367754B2 (zh) |
CN (1) | CN113728316A (zh) |
AU (2) | AU2019441125B2 (zh) |
WO (1) | WO2020213158A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022249478A1 (ja) * | 2021-05-28 | 2022-12-01 | 富士通株式会社 | 情報処理プログラム、情報処理方法および情報処理装置 |
CN113239668B (zh) * | 2021-05-31 | 2023-06-23 | 平安科技(深圳)有限公司 | 关键词智能提取方法、装置、计算机设备及存储介质 |
EP4357937A4 (en) | 2021-06-14 | 2024-08-14 | Fujitsu Ltd | INFORMATION PROCESSING PROGRAM, INFORMATION PROCESSING METHOD, AND INFORMATION PROCESSING DEVICE |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000207404A (ja) * | 1999-01-11 | 2000-07-28 | Sumitomo Metal Ind Ltd | 文書検索方法及び装置並びに記録媒体 |
CN101464907A (zh) * | 2009-01-09 | 2009-06-24 | 中国科学院计算技术研究所 | 一种文本维度压缩及尺度调整方法以及基于此的分类方法 |
US8015190B1 (en) * | 2007-03-30 | 2011-09-06 | Google Inc. | Similarity-based searching |
CN102929894A (zh) * | 2011-08-12 | 2013-02-13 | 中国人民解放军总参谋部第五十七研究所 | 一种文本在线聚类可视化方法 |
CN104765769A (zh) * | 2015-03-06 | 2015-07-08 | 大连理工大学 | 一种基于词矢量的短文本查询扩展及检索方法 |
CN106407280A (zh) * | 2016-08-26 | 2017-02-15 | 合网络技术(北京)有限公司 | 查询目标匹配方法及装置 |
CN107391671A (zh) * | 2017-07-21 | 2017-11-24 | 华中科技大学 | 一种文档泄露检测方法及系统 |
WO2018190128A1 (ja) * | 2017-04-11 | 2018-10-18 | ソニー株式会社 | 情報処理装置および情報処理方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002230021A (ja) | 2001-01-30 | 2002-08-16 | Canon Inc | 情報検索装置及び情報検索方法並びに記憶媒体 |
JP4074564B2 (ja) | 2003-07-30 | 2008-04-09 | インターナショナル・ビジネス・マシーンズ・コーポレーション | コンピュータ実行可能な次元削減方法、該次元削減方法を実行させるためのプログラム、次元削減装置および該次元削減装置を使用した検索エンジン装置 |
JP2006119714A (ja) | 2004-10-19 | 2006-05-11 | Nippon Telegr & Teleph Corp <Ntt> | 単語間類似性判定用データベース作成装置、方法、プログラムおよび記録媒体 |
JP2006146355A (ja) | 2004-11-16 | 2006-06-08 | Nippon Telegr & Teleph Corp <Ntt> | 類似文書検索方法および装置 |
WO2015151162A1 (ja) | 2014-03-31 | 2015-10-08 | 楽天株式会社 | 類似度算出システム、類似度算出方法およびプログラム |
JP6640519B2 (ja) | 2015-10-07 | 2020-02-05 | Necソリューションイノベータ株式会社 | 情報分析装置及び情報分析方法 |
CN106021626A (zh) * | 2016-07-27 | 2016-10-12 | 成都四象联创科技有限公司 | 基于数据挖掘的数据搜索方法 |
CN110268398A (zh) | 2017-02-14 | 2019-09-20 | 三菱电机株式会社 | 数据分析装置和数据分析方法 |
JP6722615B2 (ja) | 2017-04-07 | 2020-07-15 | 日本電信電話株式会社 | クエリクラスタリング装置、方法、及びプログラム |
JP6745761B2 (ja) | 2017-06-15 | 2020-08-26 | Kddi株式会社 | 単語群が散布された散布図を作成するプログラム、装置及び方法 |
KR102027471B1 (ko) | 2017-06-20 | 2019-10-01 | 라인 가부시키가이샤 | 소셜 네트워크 컨텐츠를 기반으로 단어 벡터화 기법을 이용하여 일상 언어로 확장하기 위한 방법 및 시스템 |
-
2019
- 2019-04-19 JP JP2021514773A patent/JP7367754B2/ja active Active
- 2019-04-19 EP EP19925106.7A patent/EP3958147A4/en not_active Withdrawn
- 2019-04-19 CN CN201980095477.3A patent/CN113728316A/zh active Pending
- 2019-04-19 WO PCT/JP2019/016847 patent/WO2020213158A1/ja active Application Filing
- 2019-04-19 EP EP22212422.4A patent/EP4191434A1/en not_active Withdrawn
- 2019-04-19 AU AU2019441125A patent/AU2019441125B2/en active Active
-
2021
- 2021-10-13 US US17/500,104 patent/US20220035848A1/en active Pending
-
2022
- 2022-12-02 JP JP2022193695A patent/JP7552675B2/ja active Active
- 2022-12-21 AU AU2022291509A patent/AU2022291509A1/en active Pending
-
2023
- 2023-12-25 JP JP2023218382A patent/JP2024023870A/ja active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000207404A (ja) * | 1999-01-11 | 2000-07-28 | Sumitomo Metal Ind Ltd | 文書検索方法及び装置並びに記録媒体 |
US8015190B1 (en) * | 2007-03-30 | 2011-09-06 | Google Inc. | Similarity-based searching |
CN101464907A (zh) * | 2009-01-09 | 2009-06-24 | 中国科学院计算技术研究所 | 一种文本维度压缩及尺度调整方法以及基于此的分类方法 |
CN102929894A (zh) * | 2011-08-12 | 2013-02-13 | 中国人民解放军总参谋部第五十七研究所 | 一种文本在线聚类可视化方法 |
CN104765769A (zh) * | 2015-03-06 | 2015-07-08 | 大连理工大学 | 一种基于词矢量的短文本查询扩展及检索方法 |
CN106407280A (zh) * | 2016-08-26 | 2017-02-15 | 合网络技术(北京)有限公司 | 查询目标匹配方法及装置 |
WO2018190128A1 (ja) * | 2017-04-11 | 2018-10-18 | ソニー株式会社 | 情報処理装置および情報処理方法 |
CN107391671A (zh) * | 2017-07-21 | 2017-11-24 | 华中科技大学 | 一种文档泄露检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
AU2019441125A1 (en) | 2021-11-11 |
AU2022291509A1 (en) | 2023-02-02 |
EP3958147A4 (en) | 2022-07-06 |
JPWO2020213158A1 (ja) | 2021-12-09 |
WO2020213158A1 (ja) | 2020-10-22 |
AU2019441125B2 (en) | 2023-02-02 |
JP2024023870A (ja) | 2024-02-21 |
JP2023014348A (ja) | 2023-01-26 |
JP7367754B2 (ja) | 2023-10-24 |
US20220035848A1 (en) | 2022-02-03 |
EP3958147A1 (en) | 2022-02-23 |
JP7552675B2 (ja) | 2024-09-18 |
EP4191434A1 (en) | 2023-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7552675B2 (ja) | 生成方法および情報処理装置 | |
KR101828995B1 (ko) | 키워드 클러스터링 방법 및 장치 | |
EP3367256A1 (en) | Analysis method and analysis device | |
EP3846070A1 (en) | Generation method, generation program, and information processing device | |
CN111222314B (zh) | 版式文档的比对方法、装置、设备及存储介质 | |
CN113986950A (zh) | 一种sql语句处理方法、装置、设备及存储介质 | |
CN114936565A (zh) | 主旨信息提取方法及装置 | |
CN108701126B (zh) | 主题推定装置、主题推定方法以及存储介质 | |
US10747725B2 (en) | Compressing method, compressing apparatus, and computer-readable recording medium | |
WO2022264216A1 (ja) | 情報処理プログラム、情報処理方法および情報処理装置 | |
EP4184378A1 (en) | Specifying program, specifying method, and information processing apparatus | |
US11120222B2 (en) | Non-transitory computer readable recording medium, identification method, generation method, and information processing device | |
EP3388953A2 (en) | Non-transitory computer-readable storage medium, string data analysis method, and string data analysis device | |
US20220261430A1 (en) | Storage medium, information processing method, and information processing apparatus | |
Smith et al. | A good space: Lexical predictors in vector space evaluation | |
WO2022249478A1 (ja) | 情報処理プログラム、情報処理方法および情報処理装置 | |
JP2010186349A (ja) | 代表語抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 | |
US11386267B2 (en) | Analysis method, analyzer, and computer-readable recording medium | |
Platos et al. | Text comparison using data compression | |
Saxena et al. | A new asymmetric, space variant distance metric |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |