CN1447261A - 特定要素、字符串向量生成及相似性计算的装置、方法 - Google Patents

特定要素、字符串向量生成及相似性计算的装置、方法 Download PDF

Info

Publication number
CN1447261A
CN1447261A CN03108544A CN03108544A CN1447261A CN 1447261 A CN1447261 A CN 1447261A CN 03108544 A CN03108544 A CN 03108544A CN 03108544 A CN03108544 A CN 03108544A CN 1447261 A CN1447261 A CN 1447261A
Authority
CN
China
Prior art keywords
mentioned
character string
vector
specific factor
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN03108544A
Other languages
English (en)
Inventor
萱原直树
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Publication of CN1447261A publication Critical patent/CN1447261A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

首先,基于多个文件数据生成文件向量。文件向量具有与各词素对应的要素,计算各要素使之成为与对应词素的出现频率对应的值。接着,基于对集合了所生成的文件向量的文件单词矩阵的转置矩阵生成单词向量。因此单词向量具有与各文件数据对应的要素,各要素成为与多个文件数据中对应的文件数据中的词素的出现频率成正比例并与多个文件数据中的词素的出现频率成反比例的值。然后基于单词向量计算单词的相似性。由此可提供一种适用于根据其出现频率使单词在相似性计算中无偏颇地反映,进而有效地计算单词相似性的相似性计算装置。

Description

特定要素、字符串向量生成及相似性计算的装置、方法
技术领域
本发明涉及计算单词相似性的装置和程序及方法,尤其涉及适用于根据其出现频率使单词在相似性计算中得到无偏颇的反映,由此有效地计算单词的相似性的特定要素向量生成装置、字符串向量生成装置、相似性计算装置、特定要素向量生成程序、字符串向量生成程序及相似性计算程序、特定要素向量生成方法、字符串向量生成方法及相似性计算方法。
背景技术
单词的相关性词汇、词典或同义语辞典的编撰方式有人工和自动二种。
前者虽然在成为对象的领域方面具有可靠的质量,但其存在相似性随时间而趋于陈旧的问题、耗费人工成本的问题以及编撰中难以涵盖各种领域的问题。
后者已有各种方法被提出,如能建立成为对象的领域的文件集合便可进行编撰,但与前者相比,目前在精度(质量)方面相形见绌。然而在最近,在因特网上的检索服务中,只要一次性输入检索关键字进行检索,接下来便可显示出用于缩小查找范围的最佳候选关键字等,可实现自动化的效果不可限量。此外一般地说,在知识管理、文件管理系统中也同样,从知识管理的观点出发,除了检索文件的功能之外,从某单词和文章中发掘(开采)相关单词作为支持智力创造活动的功能是非常有效的。
传统上,作为通过自动化计算单词的相似性的技术,比如有以下几种:特开平7-114572号公报中介绍的文件分类装置(以下称第1现有例)、特开平9-134360号公报中介绍的对「词」的概念定量化的方法(以下称第2现有例)、「Qiu,Y.&H.P.Frei(1993).“Concept BasedQuery Expansion:基于查询扩展的概念”,Proc.of the 16 th AnnualInt.ACM SIGIR Conf.on R&D Information Retrieval,pp.160-169,」论文中介绍的检索方法(以下称第3现有例)。
第1现有例具备存储文件数据的存储部、解析文件数据的文件解析部、利用文件中单词间的共发生关系自动生成表现各单词特征的特征向量的单词向量生成部、存储该特征向量的单词向量存储部、从文件内包含的单词的特征向量生成文件的特征向量的文件向量生成部、存储该特征向量的文件向量存储部、利用文件的特征向量间的相似性对文件分类的分类部、存储该分类结果的结果存储部、登录在特征向量生成时使用的单词的特征向量生成用辞典。
这样,通过从文件中自动抽出单词的特征向量,并基于该特征向量对文件分类,可进行采用了语义差异的自动分类。
第2现有例是用于对文件中使用的「词」的概念定量的方法,包含通过解析被提供的文件,抽出具有与「词」形成文法上的组的关系的1或2以上的「关系词语」的步骤、求出「词」分别相对1或2以上的「关系词语」所具有的「结合性」的步骤,以分别针对具有与词语形成文法上的组的关系的1或2以上的「关系词语」的「结合性」形式对「词」的概念进行定量。
这样,可适用于词语互相间的相似性生成,对词语的概念进行定量。
在第3现有例中,对多个文件数据进行词素解析,按所解析的各词素通过DFITF(Document Frequency & Inverse Term frequency)生成单词向量,基于所生成的单词向量计算相似性。单词向量具有与各文件数据对应的要素,各要素是对该单词向量涉及的单词通过DFITF计算出的值。DFITF通过在文件数据全体中该单词被使用的文件数据数的频率(DF:Document Frequency)与在单一文件数据内单词出现频率的倒数(ITF:Inverse Term Frequency)的积求出。
然而,在第1现有例中,由于由基于文件集合中单词的共发生次数的统计信息生成单词向量,因而与单词向量要素中出现频率高的单词(以下称高出现频率单词)对应的要素与其它要素相比突出并具有大的值。因此对于出现频率低的单词(以下称低出现频率单词),对应的要素成为误差程度相对较小的值,因而在把这种单词向量用于相似性计算的场合下,存在低出现频率的单词难以在检索结果中被反映出来的问题。此外,在第1现有例中,为防止与高出现频率的单词对应的要素突出并成为大的值,采用成为登录对象的单词辞典对对象进行限制。一般情况下,采用辞典是一种耗费维护成本的方法,在未特定成为对象的文件集合的通用系统中难以实用。
此外在第2现有例中,由于由基于文件集合中单词的共发生次数的统计信息生成单词向量,因而与第1现有例同样,在把这种单词向量用于相似性计算的场合下,存在低出现频率的单词难以在检索结果中被反映出来的问题。
此外虽然在第3现有例中,通过DFITF生成单词向量,但该论文中不记载在该指标下能否有效地计算出单词的相似性,效果不明确。
发明内容
因此本发明着眼于这种现有技术中未解决的课题,其目的是提供适用于根据其出现频率使单词在相似性计算中得到无偏颇的反映,由此有效地计算单词的相似性的特定要素向量生成装置、字符串向量生成装置、相似性计算装置、特定要素向量生成程序、字符串向量生成程序及相似性计算程序、特定要素向量生成方法、字符串向量生成方法及相似性计算方法。
[发明1]
为达到上述目的,发明1的特定要素向量生成装置
是一种基于多个数据生成表示特定要素的特征的特定要素向量的装置,其特征在于:
具备基于上述多个数据生成上述特定要素向量的特定要素向量生成单元,
上述特定要素向量具有与上述各数据对应的要素,上述各要素是与上述多个数据中对应数据中的上述特定要素的出现频率成正比例并与上述多个数据中的上述特定要素的出现频率成反比例的值。
在该构成下,通过特定要求向量生成单元,基于多个数据生成特定要求向量。特定要求向量具有与各数据对应的要素,各要素按照成为与多个数据中对应数据中的特定要素的出现频率成正比例并与多个数据中的特定要素的出现频率成反比例的值的原则被生成。
这里,特定要素是数据中含有的要素,比如如果数据是文件数据,则词素或从文件数据按照规定规则切出的字符串便相当于此。后者的场合可适用于比如生成通过n-gram方式切出的字符串的特定要素向量的场合。此外即使数据是文件数据,也不局限于词素或按照规定规则切出的字符串。以下在发明9及17的相似性计算装置、发明25的特定要素向量生成程序、发明27及29的相似性计算程序、发明31的特定要素向量生成方法、发明33及35的相似性计算方法中也同样。
此外在数据中除了文件数据以外,还包含图像数据、音乐数据或其它类别的数据。以下在发明9及17的相似性计算装置、发明25的特定要素向量生成程序、发明27及29的相似性计算程序、发明31的特定要素向量生成方法、发明33及35的相似性计算方法中也同样。
此外只要能基于多个数据生成特定要素向量,特定要素向量生成单元可以是任意构成,比如,可以从多个数据直接生成特定要素向量,也可以从多个数据生成中间生成物(比如其它向量),再从所生成的中间生成物生成特定要素向量。以下在发明25的特定要素向量生成程序、发明31的特定要素向量生成方法中同样。
[发明2]
另一方面,为达到上述目的,发明2的字符串向量生成装置
是一种基于多个文件数据生成表示特定字符串的特征的字符串向量的装置,其特征在于:
具备基于上述多个文件数据生成上述字符串向量的字符串向量生成单元,
上述字符串向量具有与上述各文件数据对应的要素,上述各要素是与上述多个文件数据中对应的文件数据中的上述特定字符串的出现频率成正比例并与上述多个文件数据中的上述特定字符串的出现频率成反比例的值。
在这种构成下,通过字符串向量生成单元,基于多个文件数据生成字符串向量。字符串向量具有与各文件数据对应的要素,各要素按照成为与多个文件数据中对应的文件数据中的特定字符串的出现频率成正比例并与多个文件数据中的特定字符串的出现频率成反比例的值的原则被生成。
这里,只要能基于多个文件数据生成字符串向量,字符串向量生成单元可以是任意构成,比如,可以从多个文件数据直接生成字符串向量,也可以从多个文件数据生成中间生成物(比如其它向量),再从所生成的中间生成物生成字符串向量。以下在发明26的字符串向量生成程序、发明32的字符串向量生成方法中同样。
[发明3]
此外发明3的字符串向量生成装置的特征在于,在发明2的字符串向量生成装置中,
上述特定字符串是由词素解析得到的词素与根据规定规则切出的字符串的任意一个。
在这种构成下,通过字符串向量生成单元,基于多个文件数据生成字符串向量。字符串向量具有与各文件数据对应的要素,各要素按照成为与多个文件数据中对应的文件数据中的特定词素或切出字符串的出现频率成正比例并与多个文件数据中的特定词素或切出字符串的出现频率成反比例的值的原则被生成。
[发明4]
此外发明4的字符串向量生成装置的特征在于,在发明2及发明3任一中的字符串向量生成装置中,
还具备基于上述各文件数据的每一个生成文件向量的文件向量生成单元,
上述文件向量至少具有1个与上述特定字符串对应的要素,上述要素是与该文件数据中的上述特定字符串的出现频率成正比例并与上述多个文件数据中的上述特定字符串的出现频率成反比例的值,
上述字符串向量生成单元基于由上述文件向量生成单元生成的文件向量生成上述字符串向量。
在这种构成下,通过文件向量生成单元,按各文件数据的每一个生成文件向量。文件向量至少具有1个与特定字符串对应的要素,该要素按照成为与该文件数据中的特定字符串的出现频率成正比例并与多个文件数据中的特定字符串的出现频率成反比例的值的原则被生成。这样,通过字符串向量生成单元,基于所生成的文件向量生成字符串向量。
[发明5]
此外发明5的字符串向量生成装置的特征在于:在发明4的字符串向量生成装置中,
还具备用于存储上述多个文件数据的文件数据存储单元和对上述文件数据存储单元的文件数据进行字符串解析的字符串解析单元,
上述文件向量生成单元按由上述字符串解析单元解析的各字符串计算上述文件数据中的该字符串的第1出现频率及上述多个文件数据中的该字符串的第2出现频率,把具有与计算出的第1出现频率成正比例并与第2出现频率成反比例的值的要素的向量作为上述文件向量予以生成,对上述文件数据存储单元的所有文件数据实施该文件向量的生成。
在这种构成下,通过字符串解析单元,文件数据存储单元的文件数据被进行字符串解析,通过文件向量生成单元,按被进行字符串解析的各字符串,计算文件数据中的该字符串的第1出现频率及多个文件数据中的该字符串的第2出现频率,具有与计算出的第1出现频率成正比例并与第2出现频率成反比例的值的要素的向量被作为文件向量生成。对文件数据存储单元的所有文件数据实施该文件向量的生成。
这里,文件数据存储单元利用所有手段并在任何时期对文件数据进行存储,可以预先存储文件数据,也可以不预先存储文件数据,而在本装置动作时通过来自外部的输入等存储文件数据。以下在发明6的字符串向量生成装置中同样。
[发明6]
此外发明6的字符串向量生成装置的特征在于:在发明4的字符串向量生成装置中,
还具备用于存储上述多个文件数据的文件数据存储单元,上述文件数据包含该文件数据中包含的字符串的解析结果或由单一的字符串组成,
上述文件向量生成单元按上述文件数据中包含的各字符串计算该文件数据中其字符串的第1出现频率及上述多个文件数据中其字符串的第2出现频率,把具有与计算出的第1出现频率成正比例并与第2出现频率成反比例的值的要素的向量作为上述文件向量予以生成,对上述文件数据存储单元的所有文件数据实施该文件向量的生成。
在这种构成下,通过文件向量生成单元,按文件数据中包含的各字符串计算该文件数据中其字符串的第1出现频率及多个文件数据中其字符串的第2出现频率,具有与计算出的第1出现频率成正比例并与第2出现频率成反比例的值的要素的向量被作为文件向量生成。对文件数据存储单元的所有文件数据实施该文件向量的生成。
[发明7]
此外发明7的字符串向量生成装置的特征在于:在发明5及6任一中的字符串向量生成装置中,
上述字符串向量生成单元构成对由上述文件向量生成单元生成的文件向量予以集合,把上述文件向量成分作为了行及列中的一方的文件单词矩阵,把上述文件单词矩阵的行及列中的另一方成分从上述文件单词矩阵抽出,把所抽出的成分的向量作为上述字符串向量生成。
在这种构成下,通过字符串向量生成单元,构成对生成的文件向量进行集合,把文件向量成分作为行及列中的一方的文件单词矩阵,文件单词矩阵的行及列中的另一方成分被从文件单词矩阵抽出,所抽出的成分的向量被作为字符串向量生成。
[发明8]
此外发明8的字符串向量生成装置的特征在于:在发明2至7任一中的字符串向量生成装置中,
还具备用于存储上述字符串向量的字符串向量存储单元,
上述字符串向量生成单元把所生成的字符串向量存储到上述字符串向量存储单元。
在这种构成下,通过字符串向量生成单元,所生成的字符串向量被存储到字符串向量存储单元。
这里,字符串向量存储单元利用所有手段并在任何时期对字符串向量进行存储,可以预先存储字符串向量,也可以不预先存储字符串向量,而在本装置动作时根据来自外部的输入等存储字符串向量。以下在发明10及18的相似性计算装置、发明28及30的相似性计算程序、发明34及36的相似性计算方法中同样。
[发明9]
另一方面,为达到上述目的,发明9的相似性计算装置
是一种基于表示特定要素的特征的特定要素向量计算针对该特定要素的相似性的装置,其特征在于:具备
用于存储上述特定要素向量的特定要素向量存储单元;输入包含成为相似判定对象的特定要素的判定对象数据的判定对象数据输入单元;基于由上述判定对象数据输入单元输入的判定对象数据生成上述特定要素向量的特定要素向量生成单元;基于由上述特定要素向量生成单元生成的特定要素向量及上述特定要素向量存储单元的特定要素向量计算上述相似性的相似性计算单元,
上述特定要素向量具有与多个数据分别对应的要素,上述各要素是与上述多个数据中对应数据中的上述特定要素的出现频率成正比例并与上述多个数据中的上述特定要素的出现频率成反比例的值。
在这种构成下,从判定对象数据输入单元输入判定对象数据后,通过特定要素向量生成单元,基于所输入的判定对象数据生成特定要素向量。特定要素向量具有与各数据对应的要素,各要素按照成为与多个数据中对应数据中的特定要素的出现频率成正比例并与多个数据中的特定要素的出现频率成反比例的值的原则被生成。这样,通过相似性计算单元,基于所生成的特定要素向量及特定要素向量存储单元的特定要素向量计算相似性。
这里,只要能基于判定对象数据生成特定要素向量,特定要素向量生成单元可以是任意构成,比如,可以从判定对象数据直接生成特定要素向量,也可以从判定对象数据生成中间生成物(比如其它向量),再从所生成的中间生成物生成特定要素向量。以下在发明27的相似性计算程序、发明33的相似性计算方法中同样。
此外,特定要素向量存储单元利用所有手段并在任何时期对特定要素向量进行存储,可以预先存储特定要素向量,也可以不预先存储特定要素向量,而在本装置动作时根据来自外部的输入等存储特定要素向量。以下在发明17的相似性计算装置、发明27及29的相似性计算程序、发明33及35的相似性计算方法中同样。
[发明10]
此外发明10的相似性计算装置
是一种基于表示特定字符串的特征的字符串向量计算针对该特定字符串的相似性的装置,其特征在于:具备
用于存储上述字符串向量的字符串向量存储单元;输入包含成为相似判定对象的特定字符串的判定对象数据的判定对象数据输入单元;基于由上述判定对象数据输入单元输入的判定对象数据生成上述字符串向量的字符串向量生成单元;基于由上述字符串向量生成单元生成的字符串向量及上述字符串向量存储单元的字符串向量计算上述相似性的相似性计算单元,
上述字符串向量具有与多个文件数据分别对应的要素,上述各要素是与上述多个文件数据中对应的文件数据中的上述特定字符串的出现频率成正比例并与上述多个文件数据中的上述特定字符串的出现频率成反比例的值。
在这种构成下,从判定对象数据输入单元输入判定对象数据后,通过字符串向量生成单元,基于所输入的判定对象数据生成字符串向量。字符串向量具有与各文件数据对应的要素,各要素按照成为与多个文件数据中对应的文件数据中的特定字符串的出现频率成正比例并与多个文件数据中的特定字符串的出现频率成反比例的值的原则被生成。这样,通过相似性计算单元,基于所生成的字符串向量及字符串向量存储单元的字符串向量计算相似性。
这里,只要能基于判定对象数据生成字符串向量,字符串向量生成单元可以是任意构成,比如,可以从判定对象数据直接生成字符串向量,也可以从判定对象数据生成中间生成物(比如其它向量),再从所生成的中间生成物生成字符串向量。以下在发明28的相似性计算程序、发明34的相似性计算方法中同样。
[发明11]
此外发明11的相似性计算装置的特征在于,在发明10的相似性计算装置中,
上述特定字符串是由词素解析得到的词素与根据规定规则切出的字符串的任意一个。
在这种构成下,从判定对象数据输入单元输入判定对象数据后,通过字符串向量生成单元,基于所输入的判定对象数据生成字符串向量。字符串向量具有与各文件数据对应的要素,各要素按照成为与对应的文件数据中的特定词素或切出字符串的出现频率成正比例并与多个文件数据中的特定词素或切出字符串的出现频率成反比例的值的原则被生成。这样,通过相似性计算单元,基于所生成的字符串向量及字符串向量存储单元的字符串向量计算相似性。
[发明12]
此外发明12的相似性计算装置的特征在于:在发明10及11任一中的相似性计算装置中,
上述字符串向量生成单元把有关与上述判定对象数据中包含的特定字符串相同的字符串的字符串向量从上述字符串向量存储单元读出。
在这种构成下,通过字符串向量生成单元,有关与判定对象数据中包含的特定字符串相同的字符串的字符串向量被从字符串向量存储单元读出。由此生成字符串向量。
[发明13]
此外发明13的相似性计算装置的特征在于:在发明12的相似性计算装置中,
上述字符串向量生成单元在有关与上述判定对象数据中包含的特定字符串相同的字符串的字符串向量在上述字符串向量存储单元中存在多个时,把这些字符串向量从上述字符串向量存储单元读出,基于所读出的这些字符串向量生成单一的上述字符串向量。
在这种构成下,在有关与判定对象数据中包含的特定字符串相同的字符串的字符串向量在字符串向量存储单元中存在多个时,通过字符串向量生成单元,这些字符串向量被从字符串向量存储单元读出,基于所读出的这些字符串向量生成单一的字符串向量。
[发明14]
此外发明14的相似性计算装置的特征在于:在发明13的相似性计算装置中,
上述字符串向量生成单元把有关与上述判定对象数据中包含的特定字符串相同的字符串的字符串向量从上述字符串向量存储单元读出,对所读出的这些字符串向量计算同一维数的要素的平均值,生成把计算出的平均值分别作为要素值而拥有的字符串向量。
在这种构成下,通过字符串向量生成单元,有关与判定对象数据中包含的特定字符串相同的字符串的字符串向量被从字符串向量存储单元读出,对所读出的这些字符串向量计算同一维数的要素的平均值,生成把计算出的平均值分别作为要素值而拥有的字符串向量。
[发明15]
此外发明15的相似性计算装置的特征在于:在发明10至14任一中的相似性计算装置中,
上述字符串向量存储单元把上述字符串向量与其单词的分类属性相关联进行存储,
上述判定对象数据输入单元输入上述判定对象数据及分类属性,
上述字符串向量生成单元把有关与上述判定对象数据中包含的特定字符串相同的字符串的字符串向量从上述字符串向量存储单元读出,
上述相似性计算单元把与由上述判定对象数据输入单元输入的分类属性对应的字符串向量从上述字符串向量存储单元读出,基于所读出的字符串向量及由上述字符串向量生成单元生成的字符串向量计算上述相似性。
在这种构成下,在输入判定对象数据及分类属性后,通过字符串向量生成单元,有关与判定对象数据中包含的特定字符串相同的字符串的字符串向量被从字符串向量存储单元读出,它被作为字符串向量生成。这样,通过相似性计算单元,与所输入的分类属性对应的字符串向量被从字符串向量存储单元读出,基于所读出的字符串向量及所生成的字符串向量计算相似性。
这里,在分类属性中,除了词类之外,如果是由比如XML(eXtensible Markup Language)之类的标记语言予以标记的新闻记事,可包含名称、本文、作者等若干字段。以下在发明23的相似性计算装置中同样。
[发明16]
此外发明16的相似性计算装置的特征在于:在发明15的相似性计算装置中,
上述分类属性是词类。
在这种构成下,在输入判定对象数据及词类后,通过字符串向量生成单元,有关与判定对象数据中包含的特定字符串相同的字符串的字符串向量被从字符串向量存储单元读出,它被作为字符串向量生成。这样,通过相似性计算单元,与所输入的词类对应的字符串向量被从字符串向量存储单元读出,基于所读出的字符串向量及所生成的字符串向量计算相似性。
[发明17]
此外发明17的相似性计算装置
是一种基于多个数据生成表示特定要素的特征的特定要素向量,基于上述特定要素向量计算针对上述特定要素的相似性的装置,其特征在于:具备
基于上述多个数据生成上述特定要素向量的第1特定要素向量生成单元;用于存储由上述第1特定要素向量生成单元生成的特定要素向量的特定要素向量存储单元;输入包含成为相似判定对象的特定要素的判定对象数据的判定对象数据输入单元;基于由上述判定对象数据输入单元输入的判定对象数据生成上述特定要素向量的第2特定要素向量生成单元;基于由上述第2特定要素向量生成单元生成的特定要素向量及上述特定要素向量存储单元的特定要素向量计算上述相似性的相似性计算单元,
上述特定要素向量具有与上述各数据对应的要素,上述各要素是与上述多个数据中对应的数据中的上述特定要素的出现频率成正比例并与上述多个数据中的上述特定要素的出现频率成反比例的值。
在这种构成下,通过第1特定要求向量生成单元,基于多个数据生成特定要求向量,所生成的特定要素向量被存储到特定要素向量存储单元。特定要素向量具有与各数据对应的要素,各要素按照成为与多个数据中对应的数据中的特定要素的出现频率成正比例并与多个数据中的特定要素的出现频率成反比例的值的原则被生成。
此外从判定对象数据输入单元输入判定对象数据后,通过第2特定要素向量生成单元,基于所输入的判定对象数据生成特定要素向量。特定要素向量具有与各数据对应的要素,各要素按照成为与多个数据中对应的数据中的特定要素的出现频率成正比例并与多个数据中的特定要素的出现频率成反比例的值的原则被生成。这样,通过相似性计算单元,基于所生成的特定要素向量及特定要素向量存储单元的特定要素向量计算相似性。
这里,只要能基于多个数据生成特定要素向量,第1特定要素向量生成单元可以是任意构成,比如,可以从多个数据直接生成特定要素向量,也可以从多个数据生成中间生成物(比如其它向量),再从所生成的中间生成物生成特定要素向量。以下在发明29的相似性计算程序、发明35的相似性计算方法中同样。
此外,只要能基于判定对象数据生成特定要素向量,第2特定要素向量生成单元可以是任意构成,比如,可以从判定对象数据直接生成特定要素向量,也可以从判定对象数据生成中间生成物(比如其它向量),再从所生成的中间生成物生成特定要素向量。以下在发明29的相似性计算程序、发明35的相似性计算方法中同样。
[发明18]
此外发明18的相似性计算装置
是一种基于多个文件数据生成表示特定字符串的特征的字符串向量,基于上述字符串向量计算针对上述特定字符串的相似性的装置,其特征在于:具备
基于上述多个文件数据生成上述字符串向量的第1字符串向量生成单元;用于存储由上述第1字符串向量生成单元生成的字符串向量的字符串向量存储单元;输入包含成为相似判定对象的特定字符串的判定对象数据的判定对象数据输入单元;基于由上述判定对象数据输入单元输入的判定对象数据生成上述字符串向量的第2字符串向量生成单元;基于由上述第2字符串向量生成单元生成的字符串向量及上述字符串向量存储单元的字符串向量计算上述相似性的相似性计算单元,
上述字符串向量具有与上述各文件数据对应的要素,上述各要素是与上述多个文件数据中对应的文件数据中的上述特定字符串的出现频率成正比例并与上述多个文件数据中的上述特定字符串的出现频率成反比例的值。
在这种构成下,通过第1字符串向量生成单元,基于多个文件数据生成字符串向量,所生成的字符串向量被存储到字符串向量存储单元。字符串向量具有与各文件数据对应的要素,各要素按照成为与多个文件数据中对应的文件数据中的特定字符串的出现频率成正比例并与多个文件数据中的特定字符串的出现频率成反比例的值的原则被生成。
此外从判定对象数据输入单元输入判定对象数据后,通过第2字符串向量生成单元,基于所输入的判定对象数据生成字符串向量。字符串向量具有与各文件数据对应的要素,各要素按照成为与多个文件数据中对应的文件数据中的特定字符串的出现频率成正比例并与多个文件数据中的特定字符串的出现频率成反比例的值的原则被生成。这样,通过相似性计算单元,基于所生成的字符串向量及字符串向量存储单元的字符串向量计算相似性。
这里,只要能基于多个文件数据生成字符串向量,第1字符串向量生成单元可以是任意构成,比如,可以从多个文件数据直接生成字符串向量,也可以从多个文件数据生成中间生成物(比如其它向量),再从所生成的中间生成物生成字符串向量。以下在发明30的相似性计算程序、发明36的相似性计算方法中同样。
此外,只要能基于判定对象数据生成字符串向量,第2字符串向量生成单元可以是任意构成,比如,可以从判定对象数据直接生成字符串向量,也可以从判定对象数据生成中间生成物(比如其它向量),再从所生成的中间生成物生成字符串向量。以下在发明30的相似性计算程序、发明36的相似性计算方法中同样。
[发明19]
此外发明19的相似性计算装置的特征在于:在发明18的相似性计算装置中,
上述特定字符串是由词素解析得到的词素与根据规定规则切出的字符串的任意一个。
在这种构成下,通过第1字符串向量生成单元,基于多个文件数据生成字符串向量,所生成的字符串向量被存储到字符串向量存储单元。字符串向量具有与各文件数据对应的要素,各要素按照成为与多个文件数据中对应的文件数据中的特定词素或切出字符串的出现频率成正比例并与多个文件数据中的特定词素或切出字符串的出现频率成反比例的值的原则被生成。
此外从判定对象数据输入单元输入判定对象数据后,通过第2字符串向量生成单元,基于所输入的判定对象数据生成字符串向量。字符串向量具有与各文件数据对应的要素,各要素按照成为与多个文件数据中对应的文件数据中的特定词素或切出字符串的出现频率成正比例并与多个文件数据中的特定词素或切出字符串的出现频率成反比例的值的原则被生成。这样,通过相似性计算单元,基于所生成的字符串向量及字符串向量存储单元的字符串向量计算相似性。
[发明20]
此外,发明20的相似性计算装置的特征在于:在发明18及19任一中的相似性计算装置中,
上述第2字符串向量生成单元把有关与上述判定对象数据中包含的特定字符串相同的字符串的字符串向量从上述字符串向量存储单元读出。
在这种构成下,通过第2字符串向量生成单元,有关与判定对象数据中包含的特定字符串相同的字符串的字符串向量被从字符串向量存储单元读出。由此生成字符串向量。
[发明21]
此外发明21的相似性计算装置的特征在于:在发明20的相似性计算装置中,
上述第2字符串向量生成单元在有关与上述判定对象数据中包含的特定字符串相同的字符串的字符串向量在上述字符串向量存储单元中存在多个时,把这些字符串向量从上述字符串向量存储单元读出,基于所读出的这些字符串向量生成单一的上述字符串向量。
在这种构成下,在有关与判定对象数据中包含的特定字符串相同的字符串的字符串向量在字符串向量存储单元中存在多个时,通过第2字符串向量生成单元,这些字符串向量被从字符串向量存储单元读出,基于所读出的这些字符串向量生成单一的字符串向量。
[发明22]
此外发明22的相似性计算装置的特征在于:在发明21的相似性计算装置中,
上述第2字符串向量生成单元把有关与上述判定对象数据中包含的特定字符串相同的字符串的字符串向量从上述字符串向量存储单元读出,对所读出的这些字符串向量计算同一维数之间的要素的平均值,生成把计算出的平均值分别作为要素值而拥有的字符串向量。
在这种构成下,通过第2字符串向量生成单元,有关与判定对象数据中包含的特定字符串相同的字符串的字符串向量被从字符串向量存储单元读出,对所读出的这些字符串向量计算同一维数之间的要素的平均值,生成把计算出的平均值分别作为要素值而拥有的字符串向量。
[发明23]
此外发明23的相似性计算装置的特征在于:在发明18至22任一中的相似性计算装置中,
上述字符串向量存储单元把上述字符串向量与其单词的分类属性相关联进行存储,
上述判定对象数据输入单元输入上述判定对象数据及分类属性,
上述第2字符串向量生成单元把有关与上述判定对象数据中包含的特定字符串相同的字符串的字符串向量从上述字符串向量存储单元读出,
上述相似性计算单元把与由上述判定对象数据输入单元输入的分类属性对应的字符串向量从上述字符串向量存储单元读出,基于所读出的字符串向量及由上述字符串向量生成单元生成的字符串向量计算上述相似性。
在这种构成下,在输入判定对象数据及分类属性后,通过第2字符串向量生成单元,有关与判定对象数据中包含的特定字符串相同的字符串的字符串向量被从字符串向量存储单元读出,它被作为字符串向量生成。这样,通过相似性计算单元,与所输入的分类属性对应的字符串向量被从字符串向量存储单元读出,基于所读出的字符串向量及所生成的字符串向量计算相似性。
[发明24]
此外发明24的相似性计算装置的特征在于:在发明23的相似性计算装置中,
上述分类属性是词类。
在这种构成下,在输入判定对象数据及词类后,通过第2字符串向量生成单元,有关与判定对象数据中包含的特定字符串相同的字符串的字符串向量被从字符串向量存储单元读出,它被作为字符串向量生成。这样,通过相似性计算单元,与所输入的词类对应的字符串向量被从字符串向量存储单元读出,基于所读出的字符串向量及所生成的字符串向量计算相似性。
[发明25]
另一方面,为达到上述目的,发明25的特定要素向量生成程序
是一种基于多个数据生成表示特定要素的特征的特定要素向量的程序,其特征在于:
该程序用于使计算机执行作为基于上述多个数据生成上述特定要素向量的特定要素向量生成单元实现的处理,
上述特定要素向量具有与上述各数据对应的要素,上述各要素是与上述多个数据中对应的数据中的上述特定要素的出现频率成正比例并与上述多个数据中的上述特定要素的出现频率成反比例的值。
在这种构成下,当由计算机读取了程序,并根据所读取的程序由计算机执行处理时,可得到与发明1的特定要素向量生成装置相同的作用。
[发明26]
另一方面,为达到上述目的,发明26的字符串向量生成程序
是一种基于多个文件数据生成表示特定字符串的特征的字符串向量的程序,其特征在于:
该程序用于使计算机执行作为基于上述多个文件数据生成上述字符串向量的字符串向量生成单元实现的处理,
上述字符串向量具有与上述各文件数据对应的要素,上述各要素是与上述多个文件数据中对应的文件数据中的上述特定字符串的出现频率成正比例并与上述多个文件数据中的上述特定字符串的出现频率成反比例的值。
在这种构成下,当由计算机读取了程序,并根据所读取的程序由计算机执行处理时,可得到与发明2的字符串向量生成装置相同的作用。
[发明27]
另一方面,为达到上述目的,发明27的相似性计算程序
是一种基于表示特定要素的特征的特定要素向量,计算针对该特定要素的相似性的程序,其特征在于:
该程序使可利用用于存储上述特定要素向量的特定要素向量存储单元、输入包含成为相似判定对象的特定要素的判定对象数据的判定对象数据输入单元的计算机执行
作为基于由上述判定对象数据输入单元输入的判定对象数据生成上述特定要素向量的特定要素向量生成单元、基于由上述特定要素向量生成单元生成的特定要素向量及上述特定要素向量存储单元的特定要素向量计算上述相似性的相似性计算单元实现的处理,
上述特定要素向量具有与多个数据分别对应的要素,上述各要素是与上述多个数据中对应的数据中的上述特定要素的出现频率成正比例并与上述多个数据中的上述特定要素的出现频率成反比例的值。
在这种构成下,当由计算机读取了程序,并根据所读取的程序由计算机执行处理时,可得到与发明9的相似性计算装置相同的作用。
[发明28]
此外发明28的相似性计算程序
是一种基于表示特定字符串的特征的字符串向量,计算针对该特定字符串的相似性的程序,其特征在于:
该程序使可利用用于存储上述字符串向量的字符串向量存储单元、输入包含成为相似判定对象的特定字符串的判定对象数据的判定对象数据输入单元的计算机执行
作为基于由上述判定对象数据输入单元输入的判定对象数据生成上述字符串向量的字符串向量生成单元、基于由上述字符串向量生成单元生成的字符串向量及上述字符串向量存储单元的字符串向量计算上述相似性的相似性计算单元实现的处理,
上述字符串向量具有与多个文件数据分别对应的要素,上述各要素是与上述多个文件数据中对应的文件数据中的上述特定字符串的出现频率成正比例并与上述多个文件数据中的上述特定字符串的出现频率成反比例的值。
在这种构成下,当由计算机读取了程序,并根据所读取的程序由计算机执行处理时,可得到与发明10的相似性计算装置相同的作用。
[发明29]
此外发明29的相似性计算程序
是一种基于多个数据生成表示特定要素的特征的特定要素向量,基于上述特定要素向量计算针对上述特定要素的相似性的程序,其特征在于:
该程序使可利用用于存储上述特定要素向量的特定要素向量存储单元、输入包含成为相似判定对象的特定要素的判定对象数据的判定对象数据输入单元的计算机实施:
作为基于上述多个数据生成上述特定要素向量并存储到上述特定要素向量存储单元的第1特定要素向量生成单元、基于由上述判定对象数据输入单元输入的判定对象数据生成上述特定要素向量的第2特定要素向量生成单元、基于由上述第2特定要素向量生成单元生成的特定要素向量及上述特定要素向量存储单元的特定要素向量计算上述相似性的相似性计算单元实现的处理,
上述特定要素向量具有与上述各数据对应的要素,上述各要素是与上述多个数据中对应的数据中的上述特定要素的出现频率成正比例并与上述多个数据中的上述特定要素的出现频率成反比例的值。
在这种构成下,当由计算机读取了程序,并根据所读取的程序由计算机执行处理时,可得到与发明17的特定要素向量生成程序相同的作用。
[发明30]
此外发明30的相似性计算程序
是一种基于多个文件数据生成表示特定字符串的特征的字符串向量,基于上述字符串向量计算针对上述特定字符串的相似性的程序,其特征在于:
该程序使可利用用于存储上述字符串向量的字符串向量存储单元、输入包含成为类似判定对象的特定字符串的判定对象数据的判定对象数据输入单元的计算机实施:
作为基于上述多个文件数据生成上述字符串向量并存储到上述字符串向量存储单元的第1字符串向量生成单元、基于由上述判定对象数据输入单元输入的判定对象数据生成上述字符串向量的第2字符串向量生成单元、基于由上述第2字符串向量生成单元生成的字符串向量及上述字符串向量存储单元的字符串向量计算上述相似性的相似性计算单元实现的处理,
上述字符串向量具有与上述各文件数据对应的要素,上述各要素是与上述多个文件数据中对应的文件数据中的上述特定字符串的出现频率成正比例并与上述多个文件数据中的上述特定字符串的出现频率成反比例的值。
在这种构成下,当由计算机读取了程序,并根据所读取的程序由计算机执行处理时,可得到与发明18的字符串向量生成程序相同的作用。
[发明31]
另一方面,为达到上述目的,发明31的特定要素向量生成方法
是一种基于多个数据生成表示特定要素的特征的特定要素向量的方法,其特征在于:
包含基于上述多个数据生成上述特定要素向量的特定要素向量生成步骤,
上述特定要素向量具有与上述各数据对应的要素,上述各要素是与上述多个数据中对应的数据中的上述特定要素的出现频率成正比例并与上述多个数据中的上述特定要素的出现频率成反比例的值。
[发明32]
另一方面,为达到上述目的,发明32的字符串向量生成方法
是一种基于多个文件数据生成表示特定字符串的特征的字符串向量的方法,其特征在于:
包含基于上述多个文件数据生成上述字符串向量的字符串向量生成步骤,
上述字符串向量具有与上述各文件数据对应的要素,上述各要素是与上述多个文件数据中对应的文件数据中的上述特定字符串的出现频率成正比例并与上述多个文件数据中的上述特定字符串的出现频率成反比例的值。
[发明33]
另一方面,为达到上述目的,发明33的相似性计算方法
是一种基于表示特定要素的特征的特定要素向量,计算针对该特定要素的相似性的方法,其特征在于:包含
把上述特定要素向量存储到特定要素向量存储单元的特定要素向量存储步骤;输入包含成为相似判定对象的特定要素的判定对象数据的判定对象数据输入步骤;基于在上述判定对象数据输入步骤输入的判定对象数据生成上述特定要素向量的特定要素向量生成步骤;基于在上述特定要素向量生成步骤生成的特定要素向量及上述特定要素向量存储单元的特定要素向量计算上述相似性的相似性计算步骤,
上述特定要素向量具有与多个数据分别对应的要素,上述各要素是与上述多个数据中对应的数据中的上述特定要素的出现频率成正比例并与上述多个数据中的上述特定要素的出现频率成反比例的值。
[发明34]
此外发明34的相似性计算方法
是一种基于表示特定字符串的特征的字符串向量,计算针对该特定字符串的相似性的方法,其特征在于:包含
把上述字符串向量存储到字符串向量存储单元的字符串向量存储步骤;输入包含成为相似判定对象的特定字符串的判定对象数据的判定对象数据输入步骤;基于在上述判定对象数据输入步骤输入的判定对象数据生成上述字符串向量的字符串向量生成步骤;基于在上述字符串向量生成步骤生成的字符串向量及上述字符串向量存储单元的字符串向量计算上述相似性的相似性计算步骤,
上述字符串向量具有与多个文件数据分别对应的要素,上述各要素是与上述多个文件数据中对应的文件数据中的上述特定字符串的出现频率成正比例并与上述多个文件数据中的上述特定字符串的出现频率成反比例的值。
[发明35]
此外发明35的相似性计算方法
是一种基于多个数据生成表示特定要素的特征的特定要素向量,基于上述特定要素向量计算针对上述特定要素的相似性的方法,其特征在于:包含
基于上述多个数据生成上述特定要素向量的第1特定要素向量生成步骤;把在上述第1特定要素向量生成步骤生成的特定要素向量存储到特定要素向量存储单元的特定要素向量存储步骤;输入包含成为相似判定对象的特定要素的判定对象数据的判定对象数据输入步骤;基于在上述判定对象数据输入步骤输入的判定对象数据生成上述特定要素向量的第2特定要素向量生成步骤;基于在上述第2特定要素向量生成步骤生成的特定要素向量及上述特定要素向量存储单元的特定要素向量计算上述相似性的相似性计算步骤,
上述特定要素向量具有与上述各数据对应的要素,上述各要素是与上述多个数据中对应的数据中的上述特定要素的出现频率成正比例并与上述多个数据中的上述特定要素的出现频率成反比例的值。
[发明36]
此外发明36的相似性计算方法
是一种基于多个文件数据生成表示特定字符串的特征的字符串向量,基于上述字符串向量计算针对上述特定字符串的相似性的方法,其特征在于:包含
基于上述多个文件数据生成上述字符串向量的第1字符串向量生成步骤;把在上述第1字符串向量生成步骤生成的字符串向量存储到字符串向量存储单元的字符串向量存储步骤;输入包含成为相似判定对象的特定字符串的判定对象数据的判定对象数据输入步骤;基于在上述判定对象数据输入步骤输入的判定对象数据生成上述字符串向量的第2字符串向量生成步骤;基于在上述第2字符串向量生成步骤生成的字符串向量及上述字符串向量存储单元的字符串向量计算上述相似性的相似性计算步骤,
上述字符串向量具有与上述各文件数据对应的要素,上述各要素是与上述多个文件数据中对应的文件数据中的上述特定字符串的出现频率成正比例并与上述多个文件数据中的上述特定字符串的出现频率成反比例的值。
附图说明
图1是表示采用本发明的计算机100构成的方框图。
图2是表示单词向量生成处理的流程图。
图3是表示文件向量构成的附图。
图4是表示相似性计算处理的流程图。
图5是文件数据的样本。
图6是与所谓「指纹」的检索关键字相似性高的单词一览。
图7是与所谓「指纹」的检索关键字相似性高的英文单词一览。
图8是与所谓「指纹」的检索关键字相似性高的单词一览。
符号说明
100               计算机
30                CPU
32                ROM
34                RAM
38                I/F
40                输入装置
42                显示装置
44                文件数据登录DB
实施方式
以下参照附图对本发明的实施方式作以说明。图1至图8是表示本发明涉及的特定要素向量生成装置、字符串向量生成装置、相似性计算装置、特定要素向量生成程序、字符串向量生成程序及相似性计算程序、特定要素向量生成方法、字符串向量生成方法及相似性计算方法的实施方式的附图。
在本实施方式下,本发明涉及的特定要素向量生成装置、字符串向量生成装置、相似性计算装置、特定要素向量生成程序、字符串向量生成程序及相似性计算程序、特定要素向量生成方法、字符串向量生成方法及相似性计算方法用于如图1所示,由计算机100对由用户输入的检索关键字分别计算与多个文件数据中包含的所有种类的单词的相似性的场合。
首先,参照图1对采用本发明的计算机100的构成作以说明。图1是表示采用本发明的计算机100构成的方框图。
计算机100如图1所示,由基于控制程序控制运算及系统整体的CPU30、在规定区域内预先存储CPU30的控制程序等的ROM32、用于存储从ROM32等读出的数据及CPU30的运算过程中必需的运算结果的RAM34、起着对外部装置输入输出数据的中介作用的I/F38构成,它们通过作为用于转送数据的信号线的总线39被互相而且可收发数据地连接。
在I/F38上,作为外部装置,由可作为人机界面输入数据的键盘及鼠标等组成的输入装置40、基于图像信号显示图像的显示装置42、存储多个文件数据的文件数据登录数据库(以下把数据库简称为DB)44被连接。
CPU30由微处理单元MPU等组成,使存储在ROM32的规定区域内的规定程序启动,根据该程序,按时间分割分别执行图2及图4的流程图所示的单词向量生成处理及相似性计算处理。
首先,参照图2对单词向量生成处理作以详细说明。图2是表示单词向量生成处理的流程图。
单词向量生成处理是生成相似性计算所必需的单词向量的处理,在CPU30中被执行后,如图2所示,首先转入步骤S100。
在步骤S100,对文件数据登录DB44的所有文件数据进行词素解析,获得在任何文件数据中出现的所有种类的词素,然后转入步骤S102,把开头的文件数据从文件数据登录DB44读出,转入步骤S104。
在步骤S104中,按在步骤S100中获得的各词素,计算在所读出的文件数据中其词素的出现频率,转入步骤S106,基于计算出的出现频率生成文件向量。文件向量具有与各词素对应的要素,各要素按照成为与对应的词素的出现频率对应的值的原则生成。这里,参照图3,对生成文件向量的方法作以说明。图3是表示文件向量构成的附图。
首先,如图3所示,文件向量可以由下式(1)作为n维数向量表示。一般情况下,n是在对所有的文件数据进行词素解析时所得到的非重复单词数(词素数)。这样,通过TFIDF(Term Frequency & InverseDocument frequency(术语频率与文件频率倒数))求出各单词的权重W。
(算式1)
      D=(W1,W2,…,Wn)                       …(1)
TFIDF根据下式(2),通过在单一文件数据中的单词出现频率(TF:Term Frequency)与在文件数据整体中使用该单词的文件数据数的频率倒数(IDF:Inverse Document Frequency)的积求出,数值越大,表示该单词越重要。TF是一个表示频繁出现的单词是重要的指标,如下式(3)所示,具有随着某文件数据中单词出现频率的增加而增大的性质。IDF是表示在较多的文件数据中出现的单词不重要,即在特定文件数据中出现的单词是重要的指标,如下式(4)~(6)所示,具有随着采用某单词的文件数据数的减少而增大的性质。因而TFIDF的值具有以下性质:即对在频繁出现的文件数据中出现的单词(接续词、助词等)及虽只在特定的文件数据中出现但即使在该文件数据中频率也较小的单词将减小,反之,对在特定文件数据中高频率出现的单词将增大。通过TFIDF,文件数据内的单词可被数值化,以该数值为要素,文件数据实现向量化。
(算式2)
W(t,d)=TF(t,d)×IDF(t)                         ...(2)
(算式3)
TF(t,d)=在文件数据d中单词t出现的频率            ...(3)
(算式4) IDF ( t ) = log ( D DF ( t ) ) · · · ( 4 )
(算式5)
DF(t)=在文件数据整体中单词t出现的文件数据数的频率                ...(5)
(算式6)
D=全部文件数据数                 ...(6)
接下来,转入步骤S108,把所生成的文件向量存储到文件数据登录DB44,转入步骤S110,判定对于所有的文件数据,其步骤S104~S108的处理是否结束,当判定出对所有文件数据的处理都结束时(Yes:是),转入步骤S112。
在步骤S112中,基于文件数据登录DB44的文件向量生成单词向量。单词向量具有与各文件数据对应的要素,各要素按照成为与对应文件数据中的单词的出现频率对应的值的原则生成。具体地说,如图3所示,构成对所生成的所有文件向量予以集合,把文件向量成分设为行方向的文件单词矩阵,把文件单词矩阵的列方向成分从文件单词矩阵抽出,把所抽出成分的向量作为单词向量生成。
接下来转入步骤S114,把所生成的单词向量存储到文件数据登录DB44,结束一系列的处理,返回原来的处理。
另一方面,在步骤S110中,当判定出对于所有的文件数据,其步骤S104~S108的处理尚未结束时(No:否),转入步骤S116,把下一个文件数据从文件数据登录DB44读出,转入步骤S104。
接下来,参照图4对相似性计算处理作详细说明。图4是表示相似性计算处理的流程图。
相似性计算处理是一种基于文件数据登录DB44的单词向量,对用户输入的检索关键字分别计算与多个文件数据中包含的所有种类单词的相似性的处理,在CPU30中被执行后,如图4所示,首先转入步骤S200。
在步骤S200中,判定是否输入了来自用户的检索请求,当判定出输入了检索请求时(Yes:是),转入步骤S202,当判定出未输入时(No:否),在步骤S200待机,直至输入检索请求。
在步骤S202中,从输入装置40输入检索关键字,转入步骤S214,基于所输入的检索关键字生成检索关键字的单词向量(以下把检索关键字的单词向量称为检索关键单词向量)。具体地说,在步骤S214中,把在步骤S112中生成的单词向量中有关与检索关键字相同的单词的单词向量从文件数据登录DB44读出。这里,当有关与检索关键字相同的单词的单词向量在文件数据登录DB44中存在多个时,把这些单词向量从文件数据登录DB44读出,对所读出的这些单词向量计算具有同一维数的要素的平均值,生成把所计算出的平均值作为各要素的值而拥有的单词向量。
接下来,转入步骤S216,把在步骤S112中生成的单词向量中的开头部分从文件数据登录DB44读出,转入步骤S218,利用所读出的单词向量及检索关键单词向量进行向量运算,由此计算出它们所涉及的单词的相似性。基于向量运算的相似性计算被称为向量检索技术,由反映单词的重要性并数值化的TFIDF和计算由此被向量化了的单词相似性的向量空间模型组成。比如,在把所读出的单词向量设为单词向量T1,把检索关键单词向量设为单词向量T2的场合下,根据下式(7),相似性可作为单词向量T1,T2之间组成的夹角的余弦值(0~1)计算出来。
(算式7)
接下来,转入步骤S220,判定对于所有的单词向量,其步骤S218的处理是否结束,当判定出对所有单词向量的处理都结束时(Yes:是),转入步骤S222。
在步骤S222中,将在步骤S218中计算出的相似性按照从高到低的顺序重新排列,生成相似性一览,转入步骤S224,在显示装置42上显示出所生成的相似性一览,结束一系列处理,返回原来的处理。
另一方面,在步骤S220,当判定出对于所有的单词向量,其步骤S218的处理尚未结束时(No:否),转入步骤S226,把在步骤S112生成的单词向量中的下一个从文件数据登录DB44读出,转入步骤S218。
以下对本实施方式的动作作以说明。
首先,对从文件数据登录DB44的文件数据生成单词向量的场合作以说明。
首先通过步骤S100、S102,文件数据登录DB44的所有文件数据被词素分析,获得任何文件数据中出现的所有种类的词素,开头的文件数据被从文件数据登录DB44读出。接下来,通过步骤S104、S106,按所取得的各词素的每一个,计算所读出的文件数据中的该词素的出现频率,基于所计算出的出现频率,文件向量被生成。文件向量具有与各词素对应的要素,各要素按照成为与对应的词素的出现频率对应的值的原则被生成。然后,文件向量通过步骤S108,被存储到文件数据登录DB44。通过重复步骤S104~S110,S116,对文件数据登录DB44的所有文件数据实施该文件向量的生成。
对所有的文件数据生成文件向量后,经过步骤S112,基于文件数据登录DB44的文件向量生成单词向量。单词向量具有与各文件数据对应的要素,各要素按照成为与对应的文件数据中的单词的出现频率对应的值的原则被生成。具体地说,构成对所生成的所有的文件向量集合,并把文件向量成分作为了行方向的文件单词矩阵,文件单词矩阵的列方向成分被从文件单词矩阵抽出,所抽出成分的向量被作为单词向量生成。然后,单词向量通过步骤S114,被存储到文件数据登录DB44。
接下来,对计算用户输入的检索关键字的相似性的场合作以说明。
在计算检索关键字的相似性的场合下,用户首先在输入检索请求的同时,输入成为相似判定对象的检索关键字。
检索关键字被输入后,经过步骤S214、S216,基于被输入的检索关键字生成检索关键单词向量,在步骤S112中生成的单词向量中的开头部分被从文件数据登录DB44读出。接下来通过步骤S218,利用所读出的单词向量及检索关键单词向量进行向量运算,由此计算出它们所涉及的单词的相似性。通过重复步骤S218、S220、S226,对在步骤S112中生成的所有单词向量实施该相似性的计算。
对所有单词向量计算出相似性后,经过步骤S222、5224,将计算出的相似性按照从高到低的顺序重新排列,生成相似性一览,所生成的相似性一览在显示装置42上显示。
接下来,参照图5至图8对本发明的实施例作以说明。
假设在文件数据登录DB44中,登录图5所示内容的文件数据。在本实施例中,以只登录1个文件数据的最简单的场合为例进行说明。图5是文件数据的样本。
第1,在用户输入「指纹」作为检索关键字,指定了名词作为词类的场合下,如图6所示,与所谓「指纹」的检索关键字的相似性高的单词一览被显示出来。在该一览中,按相似性由高至低的顺序显示单词。图6是与所谓「指纹」的检索关键字的相似性高的单词一览。
在图6的示例中,在第1段登录有「1 1.000000 noun指纹」,它表示针对所谓「指纹」的单词的检索关键字的相似性是「1.000000」,相似性最高。此外在第2段登录有「2 0.848339 noun口令」,它表示针对所谓「口令」的单词的检索关键字的相似性是「0.848339」,相似性第二高。此外「noun」表示词类是名词。
第2,在用户输入「指纹」作为检索关键字,指定了英文作为单词类别的场合下,如图7所示,与所谓「指纹」的检索关键字的相似性高的英文单词一览被显示出来。在该一览中,按相似性由高至低的顺序显示英文单词。图7是与所谓「指纹」的检索关键字的相似性高的英文单词一览。
在图7的示例中,在第1段登录有「1 0.460238 alnm Card」,它表示针对所谓「Card」的单词的检索关键字的相似性是「0.460238」,相似性最高。此外在第4段登录有「4 0.458003 alnm Technology」,它表示针对所谓「Technology」的单词的检索关键字的相似性是「0.458003」,相似性第二高。此外「alnm」表示单词类别是英文。
第3,在用户输入「指纹」作为检索关键字,指定了动词作为词类的场合下,如图8所示,与所谓「指纹」的检索关键字的相似性高的单词一览被显示出来。在该一览中,按相似性由高至低的顺序显示单词。图8是与所谓「指纹」的检索关键字的相似性高的单词一览。
在图8的示例中,在第1段登录有「1 0.528856 verb代替」,它表示针对所谓「代替」的单词的检索关键字的相似性是「0.528856」,相似性最高。此外在第2段登录有「2 0.468106 verb对比」,它表示针对所谓「对比」的单词的检索关键字的相似性是「0.468106」,相似性第二高。此外「verb」表示词类是动词。
这样,在本实施方式下,基于多个文件数据生成单词向量,单词向量具有与各文件数据对应的要素,按照成为与多个文件数据中对应的文件数据中的词素的出现频率成正比例并与多个文件数据中的词素的出现频率成反比例的值的原则计算各要素。
这样,由于按照单词向量的各要素基于对应文件数据中的词素出现频率成为与重要性对应的值的原则生成单词向量,因而不论是高出现频率的词素还是低出现率的词素,都可使其重要性在相似性的计算中反映出来。因而与传统相比,可有效地计算相似性。
此外在本实施方式下,按各文件数据生成文件向量,基于所生成的文件向量生成单词向量,文件向量具有与各词素对应的要素,按照成为与对应词素的出现频率对应的值的原则计算各要素。
这样,由于是一种从文件向量生成单词向量的构成,因而可以通用传统的文件向量生成装置。因此单词向量的生成比较容易,从而可较容易地进行相似性的计算。
此外在本实施方式下,对文件数据登录DB44的所有文件数据进行词素解析,按词素解析后的各词素计算在文件数据中其词素的出现频率,把具有与计算出的出现频率对应的值的要素的向量作为文件向量予以生成,对文件数据登录DB44的所有文件数据实施该文件向量的生成。
这样,由于只需在文件数据登录DB44中存储文件数据,便可生成单词向量,因而单词向量的生成更加容易,从而可更容易地进行相似性的计算。
此外在本实施方式下,构成对所生成的所有的文件向量集合,并把文件向量成分作为了行方向的文件单词矩阵,把文件单词矩阵的列方向成分从文件单词矩阵抽出,把所抽出成分的向量作为单词向量生成。
这样,由于可以由文件单词矩阵的转置矩阵生成单词向量,因而单词向量的生成更加容易,从而可更容易地进行相似性的计算。
此外在本实施方式下,把有关与检索关键字相同的词素的单词向量从文件数据登录DB44读出,将其作为检索关键单词向量生成。
这样,可从检索关键字比较容易地生成单词向量。
此外在本实施方式下,把有关与检索关键字相同的词素的单词向量从文件数据登录DB44读出,将其作为检索关键单词向量生成,把与所输入的词类对应的单词向量从文件数据登录DB44读出,基于所读出的单词向量及所生成的检索关键单词向量计算相似性。
这样,由于可以通过词类缩小对象范围,因而可较高速而且有效地进行相似性的计算。
在上述实施方式中,单词向量与发明1、25或31的特定要素向量或发明2、4、7、8、26或32的字符串向量对应,文件数据登录DB44与发明5的文件数据存储单元或发明8的字符串向量存储单元对应。此外步骤S100与发明5的字符串解析单元对应,步骤S106与发明4、5或7的文件向量生成单元对应,步骤S112与发明1或25的特定要素向量生成单元、发明2、4、7、8或26的字符串向量生成单元、发明31的特定要素向量生成步骤或发明32的字符串向量生成步骤对应。
在上述实施方式中,单词向量与发明9、27或33的特定要素向量或发明10、12至15、28或34的字符串向量对应,检索关键字与发明9、10、12至15、27、28、33或34的判定对象数据对应。此外文件数据登录DB44与发明9、27或33的特定要素向量存储单元或发明10、12至15、28或34的字符串向量存储单元对应,步骤S114与发明33的特定要素向量存储步骤或发明34的字符串向量存储步骤对应。
此外在上述实施方式中,步骤S202与发明9、10、15、27或28的判定对象数据输入单元或发明33或34的判定对象数据输入步骤对应,步骤S214与发明9或27的特定要素向量生成单元、发明10、12至15或28的字符串向量生成单元、发明33的特定要素向量生成步骤或发明34的字符串向量生成步骤对应。此外步骤S218与发明9、10、15、27或28的相似性计算单元或发明33或34的相似性计算步骤对应。
在上述实施方式中,单词向量与发明17、29或35的特定要素向量或发明18、20至23、30或36的字符串向量对应,检索关键字与发明17、18、20至23、29、30、35或36的判定对象数据对应。此外文件数据登录DB44与发明17、29或35的特定要素向量存储单元或发明18、20至23、30或36的字符串向量存储单元对应,步骤S112与发明1 7或2 9的第1特定要素向量生成单元、发明18或30的第1字符串向量生成单元、发明35的第1特定要素向量生成步骤或发明36的第1字符串向量生成步骤对应。
此外在上述实施方式中,步骤S114与发明35的特定要素向量存储步骤或发明36的字符串向量存储步骤对应,步骤S202与发明17、18、23、29或30的判定对象数据输入单元或发明35或36的判定对象数据输入步骤对应。此外步骤S214与发明17或29的第2特定要素向量生成单元、发明18、20至23或30的第2字符串向量生成单元、发明35的第2特定要素向量生成步骤或发明36的第2字符串向量生成步骤对应。
此外在上述实施方式中,步骤S218与发明17、18、23、29或30的相似性计算单元或发明35或36的相似性计算步骤对应。
此外在上述实施方式中,虽然按照对所有的文件数据进行词素解析,按词素解析后的各词素计算在所读出的文件数据中该词素的出现频率,并基于计算出的出现频率生成文件向量的原则构成,但并不局限于此,如果按照包含在该文件数据中包含的词素的解析结果或由单一词素组成的原则构成文件数据,则也可不进行词素解析而构成。在该场合下,也可以按照按文件数据中包含的各词素,计算在所读出的文件数据中该词素的出现频率,并基于计算出的出现频率生成文件向量的原则构成。
这样,由于只需在文件数据登录DB44中存储文件数据,便可生成单词向量,而且可以不对文件数据进行词素解析,因而可更容易地进行单词向量的生成。
在该场合下,文件数据登录DB44与发明6的文件数据存储单元对应,步骤S106与发明6的文件向量生成单元对应。
此外在上述实施方式中,虽然按照输入检索关键字,基于所输入的检索关键字生成单词向量的原则构成,但并不局限于此,也可以按照输入由多个单词组成的检索关键字的原则构成。在该场合下,输入由多个单词组成的检索关键字,对所输入的检索关键字进行词素解析,基于词素解析后的各词素生成单词向量。单词向量的生成可以按照与在上述实施方式下的步骤S214中,该单词向量在文件数据登录DB4 4中存在多个的场合相同的要点进行。
此外在上述实施方式中,虽然对在执行图2及图4的流程图所示处理的任何一种情况下执行在ROM32中预先存储的控制程序的场合作了说明,但并不局限于此,也可以从存储了表示这些顺序的程序的存储媒体把这些程序读入RAM34后执行。
这里,所谓存储媒体是RAM、ROM等半导体存储媒体;FD、HD等磁存储型存储媒体;CD、CDV、LD、DVD等光学读取方式存储媒体;MO等磁存储型/光学读取方式存储媒体,不论是电子、磁力、光学等读取方法中的哪一种,只要是计算机可读取的存储媒体,可包含所有的存储媒体。
此外在上述实施方式中,虽然在如图1所示,由计算机100对用户输入的检索关键字分别计算与多个文件数据中包含的所有种类的单词的相似性的场合下采用了本发明涉及的特定要素向量生成装置、字符串向量生成装置、相似性计算装置、特定要素向量生成程序、字符串向量生成程序及相似性计算程序、特定要素向量生成方法、字符串向量生成方法及相似性计算方法,但并不局限于此,在不脱离本发明主旨的范围内也可适用其它场合。比如,也可以作为在因特网或其它网络中,对用户输入的检索关键字,分别计算与多个文件数据中包含的所有种类的单词的相似性并进行检索的检索服务的一部分应用。
发明效果
如上所述,根据本发明涉及的权利要求1中记载的特定要素向量生成装置,由于按照特定要素向量的各要素成为与对应数据中的特定要素的出现频率成正比例并与多个数据中的特定要素的出现频率成反比例的值的原则生成特定要素向量,因而即使存在高出现频率的特定要素,也可以使低出现频率的特定要素根据其出现频率在相似性计算中反映出来。因而在把特定要素向量用于了相似性计算的场合下,与传统相比,具有可有效计算特定要素的相似性的效果。
另一方面,根据本发明涉及的权利要求2至8中记载的字符串向量生成装置,由于按照字符串向量的各要素成为与对应文件数据中的特定字符串的出现频率成正比例并与多个文件数据中的特定字符串的出现频率成反比例的值的原则生成字符串向量,因而即使存在高出现频率的特定字符串,也可以使低出现频率的特定字符串根据其出现频率在相似性计算中反映出来。因而在把字符串向量用于了相似性计算的场合下,与传统相比,具有可有效计算特定字符串的相似性的效果。
此外,根据本发明涉及的权利要求4至7中记载的字符串向量生成装置,由于是一种从文件向量生成字符串向量的构成,因而可以通用传统的文件向量生成装置。因此还具有可较容易地进行字符串向量的生成的效果。
此外根据本发明涉及的权利要求5中记载的字符串向量生成装置,由于只需在文件数据存储单元中存储文件数据,便可生成字符串向量,因而还具有可更容易地进行字符串向量的生成的效果。
此外根据本发明涉及的权利要求6中记载的字符串向量生成装置,由于只需在文件数据存储单元中存储文件数据,便可生成字符串向量,而且不对文件数据进行字符串解析也可以,因而还具有可更容易地进行字符串向量的生成的效果。
此外根据本发明涉及的权利要求7中记载的字符串向量生成装置,由于可以由文件单词矩阵的转置矩阵生成字符串向量,因而还具有可更容易地进行字符串向量生成的效果。
另一方面,根据本发明涉及的权利要求9或17中记载的相似性计算装置,由于按照特定要素向量的各要素成为与对应数据中的特定要素的出现频率成正比例并与多个数据中的特定要素的出现频率成反比例的值的原则生成特定要素向量,因而即使存在高出现频率的特定要素,也可以使低出现频率的特定要素根据其出现频率在相似性计算中反映出来。因而与传统相比,具有可有效计算特定要素的相似性的效果。
此外根据本发明涉及的权利要求10至16、18至24中记载的相似性计算装置,由于按照字符串向量的各要素成为与对应文件数据中的特定字符串的出现频率成正比例并与多个文件数据中的特定字符串的出现频率成反比例的值的原则生成字符串向量,因而即使存在高出现频率的特定字符串,也可以使低出现频率的特定字符串根据其出现频率在相似性计算中反映出来。因而与传统相比,具有可有效计算特定字符串的相似性的效果。
此外根据本发明涉及的权利要求12、13、20或21中记载的相似性计算装置,还具有可从判定对象数据较容易地生成字符串向量的效果。
此外根据本发明涉及的权利要求15、16、23或24中记载的相似性计算装置,由于可以由分类属性缩小对象范围,因而还具有可较高速而且有效地进行相似性计算的效果。
此外根据本发明涉及的权利要求16或24中记载的相似性计算装置,由于可以由词类缩小对象范围,因而还具有可较高速而且有效地进行相似性计算的效果。
另一方面,根据本发明涉及的权利要求25中记载的特定要素向量生成程序,可得到与权利要求1中记载的特定要素向量生成装置同等的效果。
另一方面,根据本发明涉及的权利要求26中记载的字符串向量生成程序,可得到与权利要求2中记载的字符串向量生成装置同等的效果。
另一方面,根据本发明涉及的权利要求27中记载的相似性计算程序,可得到与权利要求9中记载的相似性计算装置同等的效果。
此外根据本发明涉及的权利要求28中记载的相似性计算程序,可得到与权利要求10中记载的相似性计算装置同等的效果。
此外,根据本发明涉及的权利要求29中记载的相似性计算程序,可得到与权利要求17中记载的特定要素向量生成程序同等的效果。
此外,根据本发明涉及的权利要求30中记载的相似性计算程序,可得到与权利要求18中记载的字符串向量生成程序同等的效果。
另一方面,根据本发明涉及的权利要求31中记载的特定要素向量生成方法,可得到与权利要求1中记载的特定要素向量生成装置同等的效果。
另一方面,根据本发明涉及的权利要求32中记载的字符串向量生成方法,可得到与权利要求2中记载的字符串向量生成装置同等的效果。
另一方面,根据本发明涉及的权利要求33中记载的相似性计算方法,可得到与权利要求9中记载的相似性计算装置同等的效果。
此外根据本发明涉及的权利要求34中记载的相似性计算方法,可得到与权利要求10中记载的相似性计算装置同等的效果。
此外,根据本发明涉及的权利要求35中记载的相似性计算方法,可得到与权利要求17中记载的特定要素向量生成程序同等的效果。
此外,根据本发明涉及的权利要求36中记载的相似性计算方法,可得到与权利要求18中记载的字符串向量生成程序同等的效果。

Claims (36)

1.一种特定要素向量生成装置,是基于多个数据生成表示特定要素特征的特定要素向量的装置,其特征在于:
具备基于上述多个数据生成上述特定要素向量的特定要素向量生成单元,
上述特定要素向量具有与上述各数据对应的要素,上述各要素是与上述多个数据中对应的数据中的上述特定要素的出现频率成正比例并与上述多个数据中的上述特定要素的出现频率成反比例的值。
2.一种字符串向量生成装置,是基于多个文件数据生成表示特定字符串特征的字符串向量的装置,其特征在于:
具备基于上述多个文件数据生成上述字符串向量的字符串向量生成单元,
上述字符串向量具有与上述各文件数据对应的要素,上述各要素是与上述多个文件数据中对应的文件数据中的上述特定字符串的出现频率成正比例并与上述多个文件数据中的上述特定字符串的出现频率成反比例的值。
3.权利要求2中的字符串向量生成装置,其特征在于:
上述特定字符串是由词素解析得到的词素及根据规定规则切出的字符串的任意一个。
4.权利要求2及3任一中的字符串向量生成装置,其特征在于:
还具备按上述各文件数据的每一个生成文件向量的文件向量生成单元,
上述文件向量至少具有1个与上述特定字符串对应的要素,上述要素是与该文件数据中的上述特定字符串的出现频率成正比例并与上述多个文件数据中的上述特定字符串的出现频率成反比例的值,
上述字符串向量生成单元基于由上述文件向量生成单元生成的文件向量来生成上述字符串向量。
5.权利要求4中的字符串向量生成装置,其特征在于:
还具备用于存储上述多个文件数据的文件数据存储单元;对上述文件数据存储单元的文件数据进行字符串解析的字符串解析单元,
上述文件向量生成单元按由上述字符串解析单元解析的各字符串计算上述文件数据中的其字符串的第1出现频率及上述多个文件数据中的其字符串的第2出现频率,把具有与计算出的第1出现频率成正比例并与第2出现频率成反比例的值的要素的向量作为上述文件向量予以生成,对上述文件数据存储单元的所有文件数据实施该文件向量的生成。
6.权利要求4中的字符串向量生成装置,其特征在于:
还具备用于存储上述多个文件数据的文件数据存储单元,
上述文件数据包含该文件数据中包含的字符串的解析结果或由单一的字符串组成,
上述文件向量生成单元按上述文件数据中包含的各字符串计算该文件数据中其字符串的第1出现频率及上述多个文件数据中其字符串的第2出现频率,把具有与计算出的第1出现频率成正比例并与第2出现频率成反比例的值的要素的向量作为上述文件向量予以生成,对上述文件数据存储单元的所有文件数据实施该文件向量的生成。
7.权利要求5及6任一中的字符串向量生成装置,其特征在于:
上述字符串向量生成单元构成集合由上述文件向量生成单元生成的文件向量并把上述文件向量成分作为了行及列中的一方的文件单词矩阵,把上述文件单词矩阵的行及列中的另一方成分从上述文件单词矩阵抽出,把所抽出的成分的向量作为上述字符串向量生成。
8.权利要求2至7任一中的字符串向量生成装置,其特征在于:
还具备用于存储上述字符串向量的字符串向量存储单元,
上述字符串向量生成单元把所生成的字符串向量存储到上述字符串向量存储单元。
9.一种相似性计算装置,是基于表示特定要素特征的特定要素向量计算针对该特定要素的相似性的装置,其特征在于:具备
用于存储上述特定要素向量的特定要素向量存储单元;输入包含成为相似判定对象的特定要素的判定对象数据的判定对象数据输入单元;基于由上述判定对象数据输入单元输入的判定对象数据生成上述特定要素向量的特定要素向量生成单元;基于由上述特定要素向量生成单元生成的特定要素向量及上述特定要素向量存储单元的特定要素向量计算上述相似性的相似性计算单元,
上述特定要素向量具有与多个数据分别对应的要素,上述各要素是与上述多个数据中对应的数据中的上述特定要素的出现频率成正比例并与上述多个数据中的上述特定要素的出现频率成反比例的值。
10.一种相似性计算装置,是基于表示特定字符串特征的字符串向量计算针对该特定字符串的相似性的装置,其特征在于:具备
用于存储上述字符串向量的字符串向量存储单元;输入包含成为相似判定对象的特定字符串的判定对象数据的判定对象数据输入单元;基于由上述判定对象数据输入单元输入的判定对象数据生成上述字符串向量的字符串向量生成单元;基于由上述字符串向量生成单元生成的字符串向量及上述字符串向量存储单元的字符串向量计算上述相似性的相似性计算单元,
上述字符串向量具有与多个文件数据分别对应的要素,上述各要素是与上述多个文件数据中对应的文件数据中的上述特定字符串的出现频率成正比例并与上述多个文件数据中的上述特定字符串的出现频率成反比例的值。
11.权利要求10中的相似性计算装置,其特征在于:
上述特定字符串是由词素解析得到的词素及根据规定规则切出的字符串的任意一个。
12.权利要求10及11任一中的相似性计算装置,其特征在于:
上述字符串向量生成单元把有关与上述判定对象数据中包含的特定字符串相同的字符串的字符串向量从上述字符串向量存储单元读出。
13.权利要求12中的相似性计算装置,其特征在于:
上述字符串向量生成单元当有关与上述判定对象数据中包含的特定字符串相同的字符串的字符串向量在上述字符串向量存储单元中存在多个时,把这些字符串向量从上述字符串向量存储单元读出,基于所读出的这些字符串向量生成单一的上述字符串向量。
14.权利要求13中的相似性计算装置,其特征在于:
上述字符串向量生成单元把有关与上述判定对象数据中包含的特定字符串相同的字符串的字符串向量从上述字符串向量存储单元读出,对所读出的这些字符串向量计算同一维数的要素的平均值,生成把计算出的平均值分别作为要素值而拥有的字符串向量。
15.权利要求10至14任一中的相似性计算装置,其特征在于:
上述字符串向量存储单元把上述字符串向量与其单词的分类属性相关联进行存储,
上述判定对象数据输入单元输入上述判定对象数据及分类属性,
上述字符串向量生成单元把有关与上述判定对象数据中包含的特定字符串相同的字符串的字符串向量从上述字符串向量存储单元读出,
上述相似性计算单元把与由上述判定对象数据输入单元输入的分类属性对应的字符串向量从上述字符串向量存储单元读出,基于所读出的字符串向量及由上述字符串向量生成单元生成的字符串向量计算上述相似性。
16.权利要求15中的相似性计算装置,其特征在于:
上述分类属性是词类。
17.一种相似性计算装置,是基于多个数据生成表示特定要素特征的特定要素向量,基于上述特定要素向量计算针对上述特定要素的相似性的装置,其特征在于:具备
基于上述多个数据生成上述特定要素向量的第1特定要素向量生成单元;用于存储由上述第1特定要素向量生成单元生成的特定要素向量的特定要素向量存储单元;输入包含成为相似判定对象的特定要素的判定对象数据的判定对象数据输入单元;基于由上述判定对象数据输入单元输入的判定对象数据生成上述特定要素向量的第2特定要素向量生成单元;基于由上述第2特定要素向量生成单元生成的特定要素向量及上述特定要素向量存储单元的特定要素向量计算上述相似性的相似性计算单元,
上述特定要素向量具有与上述各数据对应的要素,上述各要素是与上述多个数据中对应的数据中的上述特定要素的出现频率成正比例并与上述多个数据中的上述特定要素的出现频率成反比例的值。
18.一种相似性计算装置,是基于多个文件数据生成表示特定字符串特征的字符串向量,基于上述字符串向量计算针对上述特定字符串的相似性的装置,其特征在于:具备
基于上述多个文件数据生成上述字符串向量的第1字符串向量生成单元;用于存储由上述第1字符串向量生成单元生成的字符串向量的字符串向量存储单元;输入包含成为相似判定对象的特定字符串的判定对象数据的判定对象数据输入单元;基于由上述判定对象数据输入单元输入的判定对象数据生成上述字符串向量的第2字符串向量生成单元;基于由上述第2字符串向量生成单元生成的字符串向量及上述字符串向量存储单元的字符串向量计算上述相似性的相似性计算单元,
上述字符串向量具有与上述各文件数据对应的要素,上述各要素是与上述多个文件数据中对应的文件数据中的上述特定字符串的出现频率成正比例并与上述多个文件数据中的上述特定字符串的出现频率成反比例的值。
19.权利要求18中的相似性计算装置,其特征在于:
上述特定字符串是由词素解析得到的词素及根据规定规则切出的字符串的任意一个。
20.权利要求18及19任一中的相似性计算装置,其特征在于:
上述第2字符串向量生成单元把有关与上述判定对象数据中包含的特定字符串相同的字符串的字符串向量从上述字符串向量存储单元读出。
21.权利要求20中的相似性计算装置,其特征在于:
上述第2字符串向量生成单元当有关与上述判定对象数据中包含的特定字符串相同的字符串的字符串向量在上述字符串向量存储单元中存在多个时,把这些字符串向量从上述字符串向量存储单元读出,基于所读出的这些字符串向量生成单一的上述字符串向量。
22.权利要求21中的相似性计算装置,其特征在于:
上述第2字符串向量生成单元把有关与上述判定对象数据中包含的特定字符串相同的字符串的字符串向量从上述字符串向量存储单元读出,对所读出的这些字符串向量计算同一维数的要素的平均值,生成把计算出的平均值分别作为要素值而拥有的字符串向量。
23.权利要求18至22任一中的相似性计算装置,其特征在于:
上述字符串向量存储单元把上述字符串向量与其单词的分类属性相关联进行存储,
上述判定对象数据输入单元输入上述判定对象数据及分类属性,
上述第2字符串向量生成单元把有关与上述判定对象数据中包含的特定字符串相同的字符串的字符串向量从上述字符串向量存储单元读出,
上述相似性计算单元把与由上述判定对象数据输入单元输入的分类属性对应的字符串向量从上述字符串向量存储单元读出,基于所读出的字符串向量及由上述字符串向量生成单元生成的字符串向量计算上述相似性。
24.权利要求23中的相似性计算装置,其特征在于:
上述分类属性是词类。
25.一种特定要素向量生成程序,是基于多个数据生成表示特定要素特征的特定要素向量的程序,其特征在于:
该程序用于使计算机执行作为基于上述多个数据生成上述特定要素向量的特定要素向量生成单元所实现的处理,
上述特定要素向量具有与上述各数据对应的要素,上述各要素是与上述多个数据中对应的数据中的上述特定要素的出现频率成正比例并与上述多个数据中的上述特定要素的出现频率成反比例的值。
26.一种字符串向量生成程序,是基于多个文件数据生成表示特定字符串特征的字符串向量的程序,其特征在于:
该程序用于使计算机执行作为基于上述多个文件数据生成上述字符串向量的字符串向量生成单元所实现的处理,
上述字符串向量具有与上述各文件数据对应的要素,上述各要素是与上述多个文件数据中对应的文件数据中的上述特定字符串的出现频率成正比例并与上述多个文件数据中的上述特定字符串的出现频率成反比例的值。
27.一种相似性计算程序,是基于表示特定要素特征的特定要素向量计算针对该特定要素的相似性的程序,其特征在于:
该程序使可利用用于存储上述特定要素向量的特定要素向量存储单元、输入包含成为相似判定对象的特定要素的判定对象数据的判定对象数据输入单元的计算机执行
作为基于由上述判定对象数据输入单元输入的判定对象数据生成上述特定要素向量的特定要素向量生成单元、基于由上述特定要素向量生成单元生成的特定要素向量及上述特定要素向量存储单元的特定要素向量计算上述相似性的相似性计算单元实现的处理,
上述特定要素向量具有与多个数据分别对应的要素,上述各要素是与上述多个数据中对应的数据中的上述特定要素的出现频率成正比例并与上述多个数据中的上述特定要素的出现频率成反比例的值。
28.一种相似性计算程序,是基于表示特定字符串特征的字符串向量计算针对该特定字符串的相似性的程序,其特征在于:
该程序使可利用用于存储上述字符串向量的字符串向量存储单元、输入包含成为相似判定对象的特定字符串的判定对象数据的判定对象数据输入单元的计算机执行
作为基于由上述判定对象数据输入单元输入的判定对象数据生成上述字符串向量的字符串向量生成单元、基于由上述字符串向量生成单元生成的字符串向量及上述字符串向量存储单元的字符串向量计算上述相似性的相似性计算单元实现的处理,
上述字符串向量具有与多个文件数据分别对应的要素,上述各要素是与上述多个文件数据中对应的文件数据中的上述特定字符串的出现频率成正比例并与上述多个文件数据中的上述特定字符串的出现频率成反比例的值。
29.一种相似性计算程序,是基于多个数据生成表示特定要素特征的特定要素向量,基于上述特定要素向量计算针对上述特定要素的相似性的程序,其特征在于:
该程序使可利用用于存储上述特定要素向量的特定要素向量存储单元、输入包含成为相似判定对象的特定要素的判定对象数据的判定对象数据输入单元的计算机执行
作为基于上述多个数据生成上述特定要素向量并存储到上述特定要素向量存储单元的第1特定要素向量生成单元、基于由上述判定对象数据输入单元输入的判定对象数据生成上述特定要素向量的第2特定要素向量生成单元、基于由上述第2特定要素向量生成单元生成的特定要素向量及上述特定要素向量存储单元的特定要素向量计算上述相似性的相似性计算单元实现的处理,
上述特定要素向量具有与上述各数据对应的要素,上述各要素是与上述多个数据中对应的数据中的上述特定要素的出现频率成正比例并与上述多个数据中的上述特定要素的出现频率成反比例的值。
30.一种相似性计算程序,是基于多个文件数据生成表示特定字符串特征的字符串向量,基于上述字符串向量计算针对上述特定字符串的相似性的程序,其特征在于:
该程序使可利用用于存储上述字符串向量的字符串向量存储单元、输入包含成为相似判定对象的特定字符串的判定对象数据的判定对象数据输入单元的计算机执行
作为基于上述多个文件数据生成上述字符串向量并存储到上述字符串向量存储单元的第1字符串向量生成单元、基于由上述判定对象数据输入单元输入的判定对象数据生成上述字符串向量的第2字符串向量生成单元、基于由上述第2字符串向量生成单元生成的字符串向量及上述字符串向量存储单元的字符串向量计算上述相似性的相似性计算单元实现的处理,
上述字符串向量具有与上述各文件数据对应的要素,上述各要素是与上述多个文件数据中对应的文件数据中的上述特定字符串的出现频率成正比例并与上述多个文件数据中的上述特定字符串的出现频率成反比例的值。
31.一种特定要素向量生成方法,是基于多个数据生成表示特定要素特征的特定要素向量的方法,其特征在于:
包含基于上述多个数据生成上述特定要素向量的特定要素向量生成步骤,
上述特定要素向量具有与上述各数据对应的要素,上述各要素是与上述多个数据中对应的数据中的上述特定要素的出现频率成正比例并与上述多个数据中的上述特定要素的出现频率成反比例的值。
32.一种字符串向量生成方法,是基于多个文件数据生成表示特定字符串特征的字符串向量的方法,其特征在于:
包含基于上述多个文件数据生成上述字符串向量的字符串向量生成步骤,
上述字符串向量具有与上述各文件数据对应的要素,上述各要素是与上述多个文件数据中对应的文件数据中的上述特定字符串的出现频率成正比例并与上述多个文件数据中的上述特定字符串的出现频率成反比例的值。
33.一种相似性计算方法,是基于表示特定要素特征的特定要素向量计算针对该特定要素的相似性的方法,其特征在于:包含
把上述特定要素向量存储到特定要素向量存储单元的特定要素向量存储步骤;输入包含成为相似判定对象的特定要素的判定对象数据的判定对象数据输入步骤;基于在上述判定对象数据输入步骤输入的判定对象数据生成上述特定要素向量的特定要素向量生成步骤;基于在上述特定要素向量生成步骤生成的特定要素向量及上述特定要素向量存储单元的特定要素向量计算上述相似性的相似性计算步骤,
上述特定要素向量具有与多个数据分别对应的要素,上述各要素是与上述多个数据中对应的数据中的上述特定要素的出现频率成正比例并与上述多个数据中的上述特定要素的出现频率成反比例的值。
34.一种相似性计算方法,是基于表示特定字符串特征的字符串向量计算针对该特定字符串的相似性的方法,其特征在于:包含
把上述字符串向量存储到字符串向量存储单元的字符串向量存储步骤;输入包含成为相似判定对象的特定字符串的判定对象数据的判定对象数据输入步骤;基于在上述判定对象数据输入步骤输入的判定对象数据生成上述字符串向量的字符串向量生成步骤;基于在上述字符串向量生成步骤生成的字符串向量及上述字符串向量存储单元的字符串向量计算上述相似性的相似性计算步骤,
上述字符串向量具有与多个文件数据分别对应的要素,上述各要素是与上述多个文件数据中对应的文件数据中的上述特定字符串的出现频率成正比例并与上述多个文件数据中的上述特定字符串的出现频率成反比例的值。
35.一种相似性计算方法,是基于多个数据生成表示特定要素特征的特定要素向量,基于上述特定要素向量计算针对上述特定要素的相似性的方法,其特征在于:包含
基于上述多个数据生成上述特定要素向量的第1特定要素向量生成步骤;把在上述第1特定要素向量生成步骤生成的特定要素向量存储到特定要素向量存储单元的特定要素向量存储步骤;输入包含成为相似判定对象的特定要素的判定对象数据的判定对象数据输入步骤;基于在上述判定对象数据输入步骤输入的判定对象数据生成上述特定要素向量的第2特定要素向量生成步骤;基于在上述第2特定要素向量生成步骤生成的特定要素向量及上述特定要素向量存储单元的特定要素向量计算上述相似性的相似性计算步骤,
上述特定要素向量具有与上述各数据对应的要素,上述各要素是与上述多个数据中对应的数据中的上述特定要素的出现频率成正比例并与上述多个数据中的上述特定要素的出现频率成反比例的值。
36.一种相似性计算方法,是基于多个文件数据生成表示特定字符串特征的字符串向量,基于上述字符串向量计算针对上述特定字符串的相似性的方法,其特征在于:包含
基于上述多个文件数据生成上述字符串向量的第1字符串向量生成步骤;把在上述第1字符串向量生成步骤生成的字符串向量存储到字符串向量存储单元的字符串向量存储步骤;输入包含成为相似判定对象的特定字符串的判定对象数据的判定对象数据输入步骤;基于在上述判定对象数据输入步骤输入的判定对象数据生成上述字符串向量的第2字符串向量生成步骤;基于在上述第2字符串向量生成步骤生成的字符串向量及上述字符串向量存储单元的字符串向量计算上述相似性的相似性计算步骤,
上述字符串向量具有与上述各文件数据对应的要素,上述各要素是与上述多个文件数据中对应的文件数据中的上述特定字符串的出现频率成正比例并与上述多个文件数据中的上述特定字符串的出现频率成反比例的值。
CN03108544A 2002-03-27 2003-03-26 特定要素、字符串向量生成及相似性计算的装置、方法 Pending CN1447261A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002089812A JP2003288362A (ja) 2002-03-27 2002-03-27 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法
JP89812/2002 2002-03-27

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CNB2006100899662A Division CN100511233C (zh) 2002-03-27 2003-03-26 特定元素、字符串向量生成及相似性计算的装置、方法

Publications (1)

Publication Number Publication Date
CN1447261A true CN1447261A (zh) 2003-10-08

Family

ID=28449542

Family Applications (2)

Application Number Title Priority Date Filing Date
CN03108544A Pending CN1447261A (zh) 2002-03-27 2003-03-26 特定要素、字符串向量生成及相似性计算的装置、方法
CNB2006100899662A Expired - Fee Related CN100511233C (zh) 2002-03-27 2003-03-26 特定元素、字符串向量生成及相似性计算的装置、方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CNB2006100899662A Expired - Fee Related CN100511233C (zh) 2002-03-27 2003-03-26 特定元素、字符串向量生成及相似性计算的装置、方法

Country Status (3)

Country Link
US (1) US20030217066A1 (zh)
JP (1) JP2003288362A (zh)
CN (2) CN1447261A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100365628C (zh) * 2003-12-02 2008-01-30 索尼株式会社 信息处理设备、方法及其程序、信息处理系统及其方法
CN101563682A (zh) * 2006-12-22 2009-10-21 日本电气株式会社 语句改述方法、程序以及系统
CN101076800B (zh) * 2004-08-23 2012-11-14 汤姆森路透社全球资源公司 重复文档检测及表示功能
CN103377187A (zh) * 2012-04-19 2013-10-30 株式会社日立制作所 段落分割方法、装置以及程序
CN106155342A (zh) * 2015-04-03 2016-11-23 阿里巴巴集团控股有限公司 预测用户待输入字的方法及装置
CN106598986A (zh) * 2015-10-16 2017-04-26 北京国双科技有限公司 相似度计算的方法及装置
CN111373386A (zh) * 2017-11-07 2020-07-03 株式会社Fronteo 相似度指标值计算装置、相似检索装置及相似度指标值计算用程序

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8249871B2 (en) * 2005-11-18 2012-08-21 Microsoft Corporation Word clustering for input data
CN101079026B (zh) * 2007-07-02 2011-01-26 蒙圣光 文本相似度、词义相似度计算方法和系统及应用系统
US8290946B2 (en) * 2008-06-24 2012-10-16 Microsoft Corporation Consistent phrase relevance measures
US20120166414A1 (en) * 2008-08-11 2012-06-28 Ultra Unilimited Corporation (dba Publish) Systems and methods for relevance scoring
JP5206296B2 (ja) * 2008-10-03 2013-06-12 富士通株式会社 類似文章抽出プログラム、方法、装置
KR20100113423A (ko) * 2009-04-13 2010-10-21 (주)미디어레 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치
US20110106836A1 (en) * 2009-10-30 2011-05-05 International Business Machines Corporation Semantic Link Discovery
US20120047172A1 (en) * 2010-08-23 2012-02-23 Google Inc. Parallel document mining
US9460390B1 (en) * 2011-12-21 2016-10-04 Emc Corporation Analyzing device similarity
DE102012025351B4 (de) * 2012-12-21 2020-12-24 Docuware Gmbh Verarbeitung eines elektronischen Dokuments
DE102012025349B4 (de) * 2012-12-21 2024-05-23 Docuware Gmbh Bestimmung eines Ähnlichkeitsmaßes und Verarbeitung von Dokumenten
US9792534B2 (en) * 2016-01-13 2017-10-17 Adobe Systems Incorporated Semantic natural language vector space
US9811765B2 (en) * 2016-01-13 2017-11-07 Adobe Systems Incorporated Image captioning with weak supervision
US20180189307A1 (en) * 2016-12-30 2018-07-05 Futurewei Technologies, Inc. Topic based intelligent electronic file searching
US11328006B2 (en) * 2017-10-26 2022-05-10 Mitsubishi Electric Corporation Word semantic relation estimation device and word semantic relation estimation method
JP6509391B1 (ja) 2018-01-31 2019-05-08 株式会社Fronteo 計算機システム
CN108595426B (zh) * 2018-04-23 2021-07-20 北京交通大学 基于汉字字形结构性信息的词向量优化方法
US11687717B2 (en) * 2019-12-03 2023-06-27 Morgan State University System and method for monitoring and routing of computer traffic for cyber threat risk embedded in electronic documents
JP6915818B1 (ja) * 2020-07-02 2021-08-04 株式会社Fronteo パスウェイ生成装置、パスウェイ生成方法およびパスウェイ生成用プログラム
JP6976537B1 (ja) * 2020-10-08 2021-12-08 株式会社Fronteo 情報検索装置、情報検索方法および情報検索用プログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01314373A (ja) * 1988-06-15 1989-12-19 Hitachi Ltd 機械翻訳システムにおける訳語選択方式
US5619709A (en) * 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
US5675819A (en) * 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
US5778362A (en) * 1996-06-21 1998-07-07 Kdl Technologies Limted Method and system for revealing information structures in collections of data items
US6295533B2 (en) * 1997-02-25 2001-09-25 At&T Corp. System and method for accessing heterogeneous databases
US5819258A (en) * 1997-03-07 1998-10-06 Digital Equipment Corporation Method and apparatus for automatically generating hierarchical categories from large document collections
JP3488063B2 (ja) * 1997-12-04 2004-01-19 株式会社エヌ・ティ・ティ・データ 情報分類方法、装置及びシステム
JP3595184B2 (ja) * 1998-03-12 2004-12-02 Kddi株式会社 文書検索方法及び文書検索装置
JP2000112974A (ja) * 1998-10-02 2000-04-21 Nippon Telegr & Teleph Corp <Ntt> テキスト情報の特徴情報作成方法及び特徴情報作成プログラムを記録した記録媒体
JP2000207404A (ja) * 1999-01-11 2000-07-28 Sumitomo Metal Ind Ltd 文書検索方法及び装置並びに記録媒体
JP3848014B2 (ja) * 1999-05-31 2006-11-22 株式会社東芝 文書検索方法および文書検索装置
JP2001043236A (ja) * 1999-07-30 2001-02-16 Matsushita Electric Ind Co Ltd 類似語抽出方法、文書検索方法及びこれらに用いる装置
JP4045728B2 (ja) * 2000-08-28 2008-02-13 株式会社日立製作所 類似文書検索方法および装置および、類似文書検索方法のためのプログラムが記録された記憶媒体

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100365628C (zh) * 2003-12-02 2008-01-30 索尼株式会社 信息处理设备、方法及其程序、信息处理系统及其方法
CN101076800B (zh) * 2004-08-23 2012-11-14 汤姆森路透社全球资源公司 重复文档检测及表示功能
CN101563682A (zh) * 2006-12-22 2009-10-21 日本电气株式会社 语句改述方法、程序以及系统
CN103377187A (zh) * 2012-04-19 2013-10-30 株式会社日立制作所 段落分割方法、装置以及程序
CN103377187B (zh) * 2012-04-19 2016-09-28 株式会社日立制作所 段落分割方法和段落分割装置
CN106155342A (zh) * 2015-04-03 2016-11-23 阿里巴巴集团控股有限公司 预测用户待输入字的方法及装置
CN106155342B (zh) * 2015-04-03 2019-07-05 阿里巴巴集团控股有限公司 预测用户待输入字的方法及装置
CN106598986A (zh) * 2015-10-16 2017-04-26 北京国双科技有限公司 相似度计算的方法及装置
CN106598986B (zh) * 2015-10-16 2020-11-27 北京国双科技有限公司 相似度计算的方法及装置
CN111373386A (zh) * 2017-11-07 2020-07-03 株式会社Fronteo 相似度指标值计算装置、相似检索装置及相似度指标值计算用程序

Also Published As

Publication number Publication date
US20030217066A1 (en) 2003-11-20
CN1855103A (zh) 2006-11-01
CN100511233C (zh) 2009-07-08
JP2003288362A (ja) 2003-10-10

Similar Documents

Publication Publication Date Title
CN1447261A (zh) 特定要素、字符串向量生成及相似性计算的装置、方法
CN1151456C (zh) 特征文字序列抽取及相似文书检索方法和装置
CN1109994C (zh) 文件处理装置与记录媒体
CN1110757C (zh) 处理两种文字对照的数据库的方法与装置
CN1155906C (zh) 数据处理方法、系统、处理程序及记录媒体
CN1101032C (zh) 相关词抽取设备和方法
CN101079026A (zh) 文本相似度、词义相似度计算方法和系统及应用系统
CN1097795C (zh) 结构式文件处理方法和装置
CN1331449A (zh) 用于将粘着法构成的文本或文档分段成词的字符串划分或区分的方法及相关系统
CN1750003A (zh) 信息处理装置,信息处理方法,和程序
CN1126053C (zh) 文件检索方法、文件检索发送方法及装置
CN1624696A (zh) 信息处理设备、方法及其程序、信息处理系统及其方法
CN1501285A (zh) 排版系统、排版程序和排版方法
CN1969292A (zh) 用户轮廓管理系统
CN1225484A (zh) 地址识别设备和方法
CN1707409A (zh) 用户字和用户操作的上下文预测
CN1947084A (zh) 用于数据输入接口的装置、方法和系统
CN1752963A (zh) 文档信息处理设备、文档信息处理方法及处理程序
CN1842702A (zh) 声音合成装置和声音合成方法
CN1813252A (zh) 信息处理方法、信息处理程序、信息处理装置及摇控器
CN1530855A (zh) 布局系统和布局程序以及布局方法
CN1530856A (zh) 布局系统和布局程序以及布局方法
CN1755663A (zh) 信息处理设备、信息处理方法和程序
CN1889039A (zh) 基于xml实现通用浏览器工具条的方法
CN1825317A (zh) 用于提供内容的系统和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
C20 Patent right or utility model deemed to be abandoned or is abandoned