CN1310172C

CN1310172C - 生成候补同义词的数据处理方法和系统

Info

Publication number: CN1310172C
Application number: CNB028147375A
Authority: CN
Inventors: 村上明子; 松泽裕史; 那须川哲哉
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2001-07-26
Filing date: 2002-07-19
Publication date: 2007-04-11
Anticipated expiration: 2022-07-19
Also published as: US20040181759A1; JP4571404B2; KR20040018404A; EP1429258A1; CA2451083A1; WO2003012679A1; US7483829B2; IL160069A0; EP1429258A4; JPWO2003012679A1; CN1535428A

Abstract

提供一种制作可在文本挖掘中利用的同义词词典时有效生成候补同义词的支持系统或候补同义词的生成方法。通过候补同义词取得装置(130)从每个作者的数据(110)中取得类似于输入单词的每个作者的候补同义词集合，从全部数据(120)中取得类似于输入单词的候补同义词集合。输入生成的候补同义词集合(140)，通过候补同义词判定装置(150)评价全部数据(120)的候补同义词。评价是在和每个作者的候补同义词中排第一位的词一致的词上附加“肯定”状态，和第二位以下的词一致的词上附加“否定”状态。

Description

生成候补同义词的数据处理方法和系统

技术领域

本发明涉及数据处理方法、数据处理系统和程序。尤其涉及把大量文档数据作为语料库来处理、适于高精度地生成文档中出现的单词的候补同义词的有效技术。

背景技术

在信息处理系统的价格低廉化和普及、或者字处理器等文档生成工具的普及、以及近年来因特网等网络环境的进展等背景下，积累了大量数据。例如，销售报告等各种内部文档、在客户呼叫中心等处和顾客的会话记录等各种信息作为电子数据积累在信息处理系统中。

通常，积累这些信息是为了提取可用于企业活动、销售活动等的有用知识。例如，产品销售趋势、顾客动向、与质量有关的不满、要求、提早发现缺陷等。为了从原始信息中获得这些有用的知识，无论从哪个观点看都需要分析原始信息。如果预先通过分类等对原始信息进行标记，这些分析就比较容易。但是，基于提前设想的观点从按项目分类的文档中得到的知识仍未超出该观点的范围。即，经常从未分类的自由形式的描述中提取预先设想不到的新知识。因此，需要一种方法，能用自由的观点、基于以自由形式记录的文档来分析原始信息，例如：该文档的主题是什么，主题的时间序列趋势是什么等。

作为这种方法之一，包括处理并分析大量文本数据的文本挖掘(text mining)。例如在由那须川哲哉、诸桥正幸、长野撤所著的“Text Mining-Discovering Knowledge in Vast Amounts of TextualData”，日本信息处理协会杂志，通过自动分析海量文档数据发现知识-信息处理，Vol.40 No.4，pp.358-364(1999)”(文献1)中，记载了这样的分析工具：可以把大量文档数据中描述的各种各样的内容作为分析对象，利用文本挖掘技术提取并提示其相关关系和出现趋势。如果利用这种技术(工具)，人不用阅读整个原始文档、通过机器分析海量的原始文档就能发现有用的知识。

在文本挖掘中，关注于文档中描述的概念(主题)或某一主题(概念)中包含什么样的意思(肯定或否定，询问或请求)。因此，需要提取的不是在文档中表现出来的单词而是适当的概念，以概念为单位进行分析。即，机器不仅简单地处理文档中表现出来的单词，而且需要恰当地把握该单词所表达的概念。

从书面单词中提取这种概念时，单词的同义词或异义词的处理就变成了一个问题。即，在用一种表示法表示的单词所表达的概念用其他表示法表示时，必须把表达相同概念的一组单词当作同义词来处理。如果虽然单词是同义的但由于用不同的表示法表示而被认为是不同的单词，则不能准确计数这些不同表示法表达的概念的出现频率，有可能不能正确分析文档。而且，即使是相同的书面单词，有时也由于使用领域和状况不同而表达不同的概念。例如“driver”这个单词，如果是与计算机有关的词，则是用于驱动设备的软件，如果是与车有关的词，则表示开车的人。即使是相同的书面单词，在表达的概念不同的情况下，如果没有准确区别来把握它，则同样不能适当地计数概念的出现频率，难以正确分析文档。

因此，以前，对于同义词的问题，用EDR词典或同义词表这样的现有词典把单词统一为相同的表示法。EDR词典是日英各20万条单词词典、搭配(cooccurrence)词典、概念词典，例如记载在http：//www.iiijnet.or.ip/edr/J index.html中。对于异义词的问题，可以把不同的语义作为注解加到单词上来解决。但是，为了处理大量的文档，这种方法花费很高，实现性差。因此，当分析固定领域的文档时，通过为该单词和同义词指定适于该领域的语义来处理，可以解决这个问题。因此，为每个领域建立词典是必不可少的。

此外，对从语料库(大量的文档数据)中提取同义词的方法也作了以下研究。例如，在“Donald Hindle.Noun Classification FromPredicate-Argument Structure.Proc.28^th Annual Meeting of ACL，pp.268-275(1990)”(文献2)中，记载了用动词和主语·宾语等名词的搭配数据找出名词间的类似度的研究，适用于将和作为对象的名词的类似度高的名词作为同义词进行提取的方法。而且，在“TomekStrzalkowski and Barbara Vauthey.Information Retrieval UsingRobust Natural Language Processing.Proc.30^th Annual Meeting ofACL，pp.104-111，(1992)”(文献3)中，记载了不用搭配关系而用动词·形容词的依存关系来找出名词的类似度，以便发现该名词的抽象度的量值的研究。而且，在“浦本直彦，文の多义性解消における置换可能关系を用いた事例の适用率向上，人工知能学会誌，Vol.10No.2 pp.242-249，(1995)”(文献 4) 中，记载了利用语料库中的语法信息提取单词的可置换关系的研究。这些都可用于发现名词的类似度。

发明内容

本发明提供一种数据处理方法，用于生成与在文档数据中使用的对象词相对应的候补同义词，具有以下步骤：以所有上述文档数据为基础，生成与上述对象词相对应的候补同义词的第一集合；以至少一部分上述文档数据为基础，生成至少一个与上述对象词相对应的候补同义词的第二集合；用上述第二集合中包含的候补同义词缩窄上述第一集合中包含的候补同义词；其中在上述缩窄步骤中，根据预定的同义词判定基准判定上述第二集合内的候补同义词是否适合作为上述对象词的同义词，如果不能确定上述第一集合中对象词相对应的候补同义词是所述至少一个第二集合中的上述对象词的同义词，通过从上述第一集合内的候补同义词中去除在上述第二集合中与尚未被确定为是上述对象词的同义词的单词相一致的单词，来产生候补同义词。

本发明提供一种数据处理方法，根据包含了由不同作者创建的句子的文档数据，为在上述文档数据中使用的对象词生成候补同义词，包括以下步骤：为每个作者生成或准备上述文档数据的至少一个部分数据，该部分数据只包含由该一个作者创建的句子；提取上述文档数据中包含的词，计算该提取出来的词和上述对象词的类似度，按类似度从高到低的顺序生成以预定数量的该提取出的词为集合元素的候补同义词的第一集合；提取上述部分数据中包含的词，计算该提取出来的词和上述对象词的类似度，按类似度从高到低的顺序，为每个上述作者生成候补同义词的第二集合，所述第二集合以排在第预定数量位前的提取词为集合元素；在上述第一集合中包含的词中，将与任一上述第二集合中位次排在阈值位次以内的高位次上的词一致的词评价为“肯定”；在上述第一集合中包含的、除被评价为上述“肯定”的词以外的词中，将与在任一上述第二集合中位次排在上述阈值位次以外的低位次上的词一致的词评价为“否定”；根据被评价为上述“否定”的词以外的上述第一集合的词生成与上述对象词相对应的候补同义词。

本发明提供一种数据处理系统，用于生成与在文档数据中使用的对象词相对应的候补同义词，包括：以所有上述文档数据为基础，生成与上述对象词相对应的候补同义词的第一集合的装置；以至少一部分上述文档数据为基础，生成至少一个与上述对象词相对应的候补同义词的第二集合的装置；用上述第二集合中包含的候补同义词缩窄上述第一集合中包含的候补同义词的装置；其中在上述缩窄装置中，根据预定的同义词判定基准判定上述第二集合内的候补同义词是否适合作为上述对象词的同义词，如果不能确定上述第一集合中对象词相对应的候补同义词是所述至少一个第二集合中的上述对象词的同义词，通过从上述第一集合内的候补同义词中去除在上述第二集合中与尚未被确定为是上述对象词的同义词的单词相一致的单词，来产生候补同义词。

本发明提供一种数据处理系统，具有以下装置：用于输入包含由不同作者创建的句子的文档数据以及每个作者的至少一个仅包含由该一个作者创建的句子的部分数据的装置；用于提取上述文档数据或部分数据中包含的词，计算该提取出来的词和上述文档数据中包含的对象词的类似度的装置；用于生成按类似度从高到低的顺序、以排在第预定数量位前的词为集合元素的候补同义词集合的候补同义词生成装置；用于记录基于上述文档数据、由上述候补同义词生成装置生成的第一集合，和基于上述部分数据、由上述同义词生成装置生成的上述每个作者的第二集合的装置；用于在上述第一集合中包含的词中，将与任一上述第二集合中位次排在阈值位次以内的高位次上的词一致的词评价为“肯定”、在上述第一集合中包含的、除被评价为上述“肯定”的词以外的词中，将与在任一上述第二集合中位次排在上述阈值位次以外的低位次上的词一致的词评价为“否定”的装置；用于从被评价为上述“否定”的词以外的上述第一集合的词中生成与上述对象词相对应的候补同义词的装置。

发明要解决的课题

对于使用文本挖掘技术时成为问题的同义词、异义词，试验性地准备了上述解决方法。但是，本发明人认识到还有如下问题。即，缩写、拼写错误等引起的表示法不同的问题。

通常，在文本挖掘中利用的文本数据大多是内部文档和呼叫中心收到的询问等记录，由多人生成。这些由多人生成的文档的单词表示法不统一，而且，在不太正式的文档中有经常使用缩写的倾向。例如，在呼叫中心，“customer”这个单词被频繁使用。根据记录人的不同而把它表述为“cus”或“cust”。因为几乎不能指望在词典中收录这种缩写，所以，用现有的词典生成同义词，就会把这些缩写当作完全未知的词处理。如果把缩写当成未知的词来处理，就不是本来含义的词，而会作为其他单词来处理。这些缩写也不会在本来单词的频率中被计数，因为数量很少，被当作噪声丢弃了。而且，在计算机中输入这些内部文档时，经常犯拼写错误。尤其在呼叫中心等的记录中，由于需要在有限的时间内生成文档，发生拼写错误的情况很多。和上述一样，包含这些拼写错误的文档也被当成无意义的噪声来对待。

但是，越是频繁使用的单词，用缩写表述的可能性大，另一方面，很多时候，由于单词频繁出现，因此与它关联的概念非常重要。通常，以呼叫中心为例，负责直接接待顾客的部门生成的文档由于生成时间有限，包含拼写错误的可能性大，另一方面，在和顾客直接接触的部门生成的文档中，记录了有用的顾客信息，包含对企业重要的知识的可能性大。即，这些缩写的单词或拼写错误的单词等在词典中没有，把这些单词作为有意义的某个数据来处理非常重要。此外，日语、汉语、朝语等双字节文字被FEP(front-end processor)错误转换的情况也和拼写错误的情况是一样的。

因此，有必要制作考虑缩写、拼写错误(包含转换错误)等的词典。现有词典不能包罗所有的缩写和拼写错误，因此，在文档挖掘中需要使用的词典必须人工创建。这是一项花费很高的工作，在文本挖掘的实际使用中，也是用户最关心的部分。因此，需要一种支持系统，来自动进行生成用于制作同义词词典的同义词的词典制作方法。

作为自动生成同义词的技术，可利用上述文献2～4的研究。即，用上述研究的方法找出名词间的类似度，把类似度高的规定范围内的名词作为同义词。但是，如果使用这些技术，则存在除同义词之外还需要反义词的问题。即，如果原样采用现有方法，会得到包括反义词这样的很多噪声，通过手工除去噪声很复杂。

在计算机领域等进展显著的领域中，新词接踵产生。这些新的术语也需要能够通过文本挖掘得到快速恰当的处理。

本发明的目的是提供一种支持系统或候补同义词的生成方法，在制作能在文本挖掘中利用的同义词词典时，有效生成候补同义词。在生成候补同义词时，目的在于利用实际上适用文本挖掘的文档，处理该文档中使用的缩写、独特术语、以及包含拼写错误、转换错误的单词。而且，本发明的另一个目的是提供一种系统，通过利用文本挖掘的系统，动态生成最适于文档的同义词词典，实现更精确的文档分析。

解决课题的手段

以下概要说明本发明。即，本发明的数据处理方法，生成在文档数据中使用的对象词的候补同义词，具有以下步骤：以所有文档数据为基础，生成对象词的候补同义词的第一集合；以至少一部分文档数据为基础，生成至少一个对象词的候补同义词的第二集合；用第二集合中包含的候补同义词收缩第一集合中包含的候补同义词，在收缩步骤中，根据预定的基准判定第二集合内的候补同义词是否在对象词的同义词中，除非已经确定这些词是任一第二集合中的一部分内的同义词，否则从第一集合中的候补同义词中去除与尚未确定是同义词的第二集合中的单词匹配的单词，从而产生候补同义词。

即，生成对象词的候补同义词时，将使用该对象词的文档数据本身作为语料库，提取或准备作为该语料库的部分集合的部分数据(部分文档数据)。作为部分数据，准备能判明或推定用特定同义词表达对象词的数据。这样，以全部文档数据为对象进行现有同义词候补生成处理。除了作为正确答案的同义词外，本来不是同义词的，由于候补生成处理，在通过这种处理生成的候补同义词(第一集合)中包含了因类似度位次高而漏进来的噪声(同义词和其他不是同义词的词)。另一方面，部分数据也作为语料库来处理，以该部分的语料库为对象进行同样的处理。在以该部分数据为对象的候补同义词(第二集合)中，除了类似于以全部文档数据为对象的处理的同义词之外，还包含噪声。这里，第二集合中包含的候补同义词中，由于必须存在判明或推定为正确答案的候补同义词，因此，将其作为确定的候补同义词。另一方面，除了确定的候补同义词之外，将第二集合内的候补同义词看作噪声。用该信息收缩第一候补的候补同义词。即，只要采用相同的同义词候补生成处理，在第一集合和第二集合中就包含相同的噪声。通过评价第二集合推定噪声，用该第二集合的噪声抵消第一集合的噪声。从而提高第一集合的正确答案率。

这样，在本发明中，准备部分数据，所述数据无偏性地包含引起噪声的单词及其关系，包含确定性的候选同义词的原词及其关系，使得确定性的候选同义词得以高可靠性地分级。如何适当地生成或准备这部分数据是提高第一集合的正确答案率的关键所在。在本发明中，作为这部分数据(部分文档数据)，仅以由特定作者撰写的句子组成的文档数据为例。即，本发明人认为，特定的作者在表述某个概念时，通常使用特定的表述，基于这种认识来实现本发明。例如，在英文表述中作为表示顾客的单词，“customer”可以缩写为“Cust”或End User可以缩写为“EU”等。实际上，在本发明人分析的文档数据中，作为表示的顾客的表述，这些“customer”、“Cust”或“EU”等表述混杂。但是，就特定作者撰写的文档而言，某个作者主要表述为“customer”，另一个作者主要表述为“Cust”，另一个作者主要表述为“EU”等。即，在分析每个作者的文档时，作者倾向于用其固有的表述来表达某个概念，用其他表述来表达同一概念的概率小。这样，每个作者的文档数据具有的内部结构即是部分数据内对象词所表达的概念用特定同义词(包含对象词)来表达的结构，而且，和全部文档数据一样，每个作者的部分数据内部包含产生噪声的文档结构。因此，将每个作者的文档数据用作上述部分数据(部分文档数据)，检测适当的噪声，收缩第一集合内的候补同义词。

此外，在上述数据处理方法中，规定的基准是类似度，在第二集合中，判定为特定同义词的单词可以作为和对象词的类似度最高的候补同义词。例如，在将每个作者的文档数据用作部分数据的情况下，很多作者用单一的表述(单词)来表达某个概念。这时，将位次最高的词设为可以看作同义词的词是合适的。

而且，本发明的数据处理方法，以包含不同作者的句子的文档数据为基础，为文档数据中使用的对象词生成候补同义词，包括以下步骤：为每个作者生成或准备至少一个只包含一个作者的句子的文档数据的部分数据；提取文档数据中包含的词，计算该提取出来的词和对象词的类似度，按类似度从高到低的顺序提取预定数量的高位次的词作为要素，生成候补同义词的第一集合；提取部分数据中包含的词，计算提取出来的词和对象词的类似度，按类似度从高到低的顺序提取预定数量的高位次的词作为要素，为每个作者生成候补同义词的第二集合；在第一集合中包含的词中，和位次在任一第二集合的阈值的位次以上的高位次上的词一致的词评价为“肯定”；评价为“肯定”的词以外的第一集合中包含的词中，和位次在任一第二集合的阈值位次以下的低位次上的词一致的词评价为“否定”；从评价为“否定”词以外的第一集合的词中生成对象词的候补同义词。

根据这种数据处理方法，和上述一样，可以利用第二集合的候补同义词收缩第一集合的候补同义词。这时，将阈值位次以上的第二集合中的候补评价为“肯定”。评价为“肯定”的候补同义词几乎可以看作同义词。除此之外的词作为噪声，从第一集合中删除，从而，能高精度地生成候补同义词。这里，阈值位次可定义如下。即，在从每个人的数据中得到的带同义词位次的结果中，将从全部数据中得到的同义词集合中将第n位和第n位以前评价位“肯定”时，将所述第n位作为“阈值位次”。如果设定得高于阈值位次，则从候补同义词中遗漏本来应包含的同义词的概率变高，相反，如果设定得低于阈值位次，则候补同义词中包含噪声的概率变高。因此，阈值位次应根据部分数据的结构及其数量按经验采用合适的位次。

此外，阈值位次可以是第一位。例如，在部分数据中采用每个人的数据时，如上所述，各人在表述某个概念时通常倾向于使用特定的一种表述。这时，如果将阈值位次设为第一位，则生成的候补同义词中包含噪声的概率小。

类似度的计算通过以下步骤实现：从文档数据或部分数据中提取全部第一词类和与第一词类有变形关系的全部第二词类(基本的独立词)；将提取出来的全部第一词类和全部第二词类作为其行或列指标，生成数量为第一词类数X第二词类的矩阵；在矩阵的各要素中，代入索引该要素的第一词类和第二词类件的变形关系的出现频率；从以文档数据为基础生成的矩阵中把以与对象词一致的第一词类为指标的行或列的各要素提取出来，作为对象词向量；从以文档数据或部分数据为基础生成的矩阵中提取任意行或列的各要素，作为其索引的第一词类的向量；使用第一词类向量和对象词向量找出和第一词类的对象词的类似度。即，可以根据文档中的第一词类和第二词类间的搭配频率和依存关系的频率计算类似度。此外，在类似度的计算中，示出了使用第一词类向量和对象词向量的内积值的方法的例子。

此外，通过从上述矩阵中提取行或列的各要素而构成对象词向量和第一词类向量时，当然，在提取行要素生成对象词向量的情况下，同样地提取行要素来生成第一词类向量。相反，在提取列要素生成对象词向量的情况下，提取列要素生成第一词类向量。而且，可以用转置矩阵代替行向量和列向量来进行计算。

这里，第一词类是名词，第二词类可以是动词、形容词、形容动词等和名词有变形关系的词类。这时，可以用和动词等的搭配频率或依存关系的频率找出名词间的类似度。此外，可以在选择动词等作为第一词类，选择名词等作为第二词类。这时，可以计算动词等词类间的类似度。即，可以选择名词以外的词类即动词等作为对象词。

而且，在文档数据或部分数据中包含使用文档模板创建的部分时，可以从文档数据或部分数据中删除利用文档模板的部分。从而，可防止在每个作者的文档数据中混杂通过模板等统一的表述。例如，在呼叫中心形成会话记录这种情况下，要求文档记录的速度。在这些要求记录速度的情况下，为了简化记录，准备定型的表述作为模板。电话接线员可以用模板通过简单的操作进行记录。如果用这种模板，生成的文档就变成独立于作者的统一表述。在每个作者的文档中混杂了这些统一表述的情况下，就不能准确评价每个作者的表述(作者固有的同义词表述)。因此，预先排除这些统一表述的词。

而且，在文档数据或部分数据中包含就同一或类似话题的一系列句子或文档的情况下，可以使每个句子或每个文档的单词出现频率标准化。即，例如，有时出现提问回答，进一步提问进一步回答等针对某个话题的会话的情况。这时，某个提问 (话题) 的关联词的出现频率多。另一方面，即使同样内容，也能用很少的回答解答问题(提问)。在对话时的文档和仅用很短的回答完成的文档位于同一文档数据中的情况下，在出现频率多的话题中出现的单词或包含该单词的变形受到重视，稍微评价在用相对较短的回答结束的话题中出现的单词。因此，为了准确检索单词和包含该单词的变形来评价名词的特性，在发生这种会话时，最好把在会话内出现的词的频率标准化。以上就是要响应这种请求。

此外，文档数据或部分数据中出现的名词的出现频率比规定频率低时，可以从类似度计算的对象中除去该名词。出现频率低的名词是引起噪声的原因，因此，预先去除。

此外，对象词可以是从手册、词典及其他用统一表达描述的文档中选择的术语。当用一般的术语为对象词生成候补同义词时，经验法则是正确答案率提高。因此，通过用一般的术语可以提高生成候补同义词的正确答案率。

在本说明书中，同义词还包括在文本挖掘中可以看作同义词的词。即，虽然这些词在语言学上不能严格地看作同义词，但在用于文本挖掘时表示同一概念的词也包含在同义词中。因此，作为对象的词和表达同等概念的拼写错误的词、缩写或通过FEP错误转换的词也是同义词。上述方法的发明可以作为系统或程序来把握。

附图说明

图1示出了在呼叫中心的多个电话接线员(作者)生成的会话记录文档内，分析每个人把“顾客”的概念表述成什么样的图表；

图2示出了对“AC适配器”的概念进行和图1同样的分析的结果图表；

图3示出了对“Thinkpad”的概念进行和图1同样的分析的结果图表；

图4示出了对“CD-ROM”的概念进行和图1同样的分析的结果图表；

图5示出了对“软盘”的概念进行和图1同样的分析的结果曲线；

图6是作为本发明一个实施例的一例数据处理系统的功能方框图；

图7是作为本发明一个实施例的一例数据处理方法的流程图；

图8是一例C_Full的评价过程(步骤240)的流程图。

具体实施方式

以下，基于附图详细说明本发明的实施例。但是，本发明可以用很多不同的形式来实施，不限于本实施例的记载内容来解释。此外，所有实施例中，相同的部分用相同的符号表示。

本领域的技术人员知道，通过以下实施例说明的方法或系统可以作为计算机可使用的程序来实施。因此，本发明可以是作为硬件的实施例、作为软件的实施例或软硬件组合的实施例。程序可以记录在硬盘、CD-ROM、光存储装置或磁存储装置等任意计算机可读介质中。

在以下实施例中，可以用一般的计算机系统作为系统。可用于实施例的计算机系统具有中央处理器(CPU)、主存储装置(主存储器：RAM)、非易失性存储装置(ROM)、协处理器、图形加速器、高速缓冲存储器、输入输出控制装置(I/O)、硬盘装置等外部存储装置等普通计算机系统中具有的硬件资源。可以具有可连接因特网等网络的通信装置。在计算机系统中包含个人计算机、工作站、主机计算机等各种计算机。

在说明以下实施例之前，对本实施例中使用的文档特征进行说明。图1示出了在由呼叫中心的多个电话接线员(作者)生成的会话记录文档内，分析每个人把“顾客”的概念表述成什么样的图表。A～E的索引表示人(电话接线员)，用百分率表示各人的各表述的出现频率。整个文档中用“customer”“cust”“eu”“user”“enduser”“cus”等六种表述作为表达“顾客”概念的词。其中，人A表示为“customer”“cust”“eu”或“user”，其中表示为“eu”的比例最高为89.1％。用其他表述的比例为11％左右。即，人A把“顾客”概念主要表述为“eu”。人B表述为“enduser”“customer”“cust”“eu”或“user”，其中表述为“cust”的比例最高为66.1％。同样，人C表述为“cust”的比例最高约为83％，人D表述为“eu”的比例最高约为92％，人E表述为“customer”的比例最高约79％。即，在表述“顾客”的概念时，每个人几乎总是使用特定的表述，特定表述的类型数几乎限于一种。图2～图5是对“AC适配器”、“Thinkpad”、“CD-ROM”、“软盘”等各概念进行和图1一样的分析的结果图表。从图2可见，和“顾客”的情况一样，人A主要用“adapter”表述“AC适配器”的概念，人B也用“adapter”，人C用“ac”，人D用“ac adapter”，人E用“adapter”。从图3可见，人A～D用“tp”表述“Thinkpad”的概念，人E用“thinkpad”表述。从图4可见，人A主要用“cd”表述“CD-ROM”的概念，人B也用“cd”，人C用“cd-rom”，人D用“cdrom”，人E用“cd”表述。从图5可见，人A主要用“disk”表述“软盘”的概念，人B用“diskette”或“disk”，人C也用“diskette”或“disk”，人D主要用“disk”，人E主要用“diskette”表述。此外，“Thinkpad”是IBM公司的商标，是笔记本型个人计算机的名称。

即，图1～图5的分析结果教导了以下事实。即，在由多个人制作的文档中，不用统一的表述表达某个概念，在文档内有多种表述。这样，如果将文档分配给每个人进行检查，当表述某个概念时，主要使用该人固有的表述，很少进行其他表述。如果利用这种文档特性，可如下提高候补同义词的生成精度。即，文档内的某个概念通过多种表述来表达，因此，需要用统一的索引词来表示，但是，若为每个人生成候补同义词，则必须在该人使用的独特表示法处于第一位(即类似度最高)的状态下传送候补同义词。另一方面，即使生成每个人的候补同义词，与以整个文档为对象的情况一样，一定包含噪声。因此，以为每个人分类的文档为对象生成候补同义词，对某个概念(输入对象词)来说，第一位次的候补同义词被推定为至少为这个人独有的表示法，原因是除了第一位的候选同义词之外的词被推定为噪声，从而从以整个文档为对象的候补同义词中删除与被推定为噪声的词匹配的候选同义词。因此，可提高候补同义词的生成精度(正确答案率)。此外，除非这个人使用统一的表示法，否则每个人的候补同义词集合中用第二位次或更低位次的词准确表示对象词的概念的可能性很高。实际上，如图1至5所示，由于每个人用多个表示法表达一个概念，因此对每个人来说，第二位次和更低位次的候选同义词也很有可能是正确答案。为了防止删除正确的表示法，即使候选同义词是第二位次或更低位次的，也把其他人的第一位的候选同义词看成合适的词，不删除。

本发明有效利用上述每个人的文档特征来提高候补同义词的生成精度。以下，说明作为具体实现手段的数据处理系统、数据处理方法。

图6示出了作为本发明一个实施例的一例数据处理系统的功能方框图。在本实施例的数据处理系统中，包含：每个作者的数据110、全部数据120、候补同义词取得装置130、候补同义词集合140、候补同义词判定装置150和附加判定结果的候补同义词160。每个作者的数据110是将根据每个作者的文档生成的名词、和该名词搭配的动词、形容词、形容动词等词以及它们的依存结构表示成动词名词对的数据库。全部数据120是将根据包含所有作者的文档的全部文档数据生成的名词、与该名词搭配的动词、形容词、形容动词等词以及它们的依存结构表示成动词名词对的数据库。候补同义词取得装置130将生成同义词的对象词作为输入单词来输入，并根据每个作者的数据110和全部数据120生成输入单词的候补同义词集合140。即，候补同义词取得装置130根据每个作者的数据110生成每个作者的候补同义词集合，根据全部数据120生成全部数据的候补同义词集合。候补同义词集合140是在候补同义词取得装置130中生成的每个作者的同义词集合和全部数据的候补同义词集合。在作者是m个人的情况下，候补同义词集合140中记录的候补同义词集合的数量是m+1。候补同义词判定装置150将候补同义词集合140作为输入，以每个作者的候补同义词集合为基础，评价根据全部数据得到的候补同义词集合。评价是对从全部数据中得到的候补同义词是否能作为候补同义词进行判定。判定结果作为附加判定结果的候补同义词160输出。

每个作者的数据110和全部数据120如下生成。首先，将作为要考察的单词的对象词(输入单词)作为基础词b。全部数据用F表示，语料库的作者用A、B、C...的下标表示。此外，A、B、C...按数据量的降序表示。全部数据中出现的名词数量为n，动词等(动词、形容词、形容动词等)的数量为m。在各名词中，和哪个动词的变形(modification)关系用矩阵表示。名词p和动词q的变形关系在数据中出现了k次时，矩阵元素i_pq用等式1表示。

〔等式1〕

i_(pq)＝K

从各集合得到的矩阵是M_(F)、M_(A)、M_(B)、M_(C)......，每个矩阵的大小为(n，m)。如果用等式表示矩阵M_(F)等，则用下面的等式2。

〔等式2〕

每个作者的数据110例如用M_(A)、M_(B)、M_(C)...表示，全部数据120用M_(F)表示。要识别名词N_(p)和哪个动词有变形关系，可以将矩阵M中的第p行作为向量取出。这样得到的名词的向量用等式3表示。

〔等式3〕

N_(p)＝(p₁，p₂，...p_m)

接着，说明图7的候补同义词取得装置130的操作。候补同义词取得装置130在计算机系统内通过软件来实现。首先，在全部集合中找出与作为输入单词的基础词b相对应的信息。从M_(F)中找出以等式4表示的基础词b的动词信息向量N_(b)。

〔等式4〕

N_(b)＝(b₁，b₂，...b_m)

其与用等式5表示的M_(F)中所有名词所具有的动词信息向量N(i)所成的角度被设为θ。角度θ越小，即cosθ越接近1，该名词的意思越接近基础词，因此，可以把cosθ的值作为类似度。即，类似度用0～1的值表示，越接近1(值越大)，类似度越大。此外，可以利用N_(b)和N_(i)的内积值求出cosθ的值。

〔等式5〕

N_(i)＝(i₁，i₂，...i_m)

按照上述求出的类似度高低顺序进行排序。从位次最高到规定数位次的名词集合为C_(F)。C_(F)是以全部数据为对象的候补同义词集合。

接着，说明根据每个作者的数据110取得每个作者的候补同义词集合的情况。利用上述用等式4 表示的基础词b的动词信息向量N_(b)，对各作者的名词中意思接近基础词b的名词进行排序。用于作者A的候补同义词候补集合为C_(A)。这里，不使用关于作为每个作者的数据的M_(A)中的名词b的动词信息向量。这是因为，某个作者将同义名词描述为b时，有可能有和b不同的表述。这时，关于各作者的数据中的名词b的动词信息向量的元素几乎为0，如果使用它，则得到语义准确接近b的词的可能性很小。因此，使用关于全部数据的名词b的动词信息向量。同样，对于规定人数的作者B、C、D...来说，也可以取得候补同义词C_(B)、C_(C)、C_(D)...。

图7示出了本实施例的数据处理方法的一个例子的流程图。首先，生成关于输入单词A(对象词)的候补同义词(步骤210)。该候补同义词集合通过上述候补同义词取得装置130生成，获得关于全部数据的候补同义词集合C_(Full)＝C_(F)和关于每个作者的数据的候补同义词集合C_k＝{C_(A)、C_(B)、C_(C)、C_(D)...}(k＝m，m 是作者数)。表1以呼叫中心制作的文档为对象，示出了根据全部数据生成的候补同义词集合 C_Full的一个例子。

表1

	候补	类似度
	候补	类似度	1位	batt	0.931822351
2位	batterie	0.715788329	1位	batt	0.931822351
2位	batterie	0.715788329	3位	bat	0.710195438
4位	cover	0.707797961	3位	bat	0.710195438
4位	cover	0.707797961	5位	BTY	0.692943466
6位	batterry	0.685881821	5位	BTY	0.692943466
6位	batterry	0.685881821	7位	adapter	0.68556948
8位	bezel	0.68310627	7位	adapter	0.68556948
8位	bezel	0.68310627	9位	cheque	0.662869626
10位	screw	0.660905914	9位	cheque	0.662869626

这里，输入单词是“battery”，该概念不包含的单词也作为候补包括进来。4位的“cover”、7位以下的“adapter”、“bezel”、“cheque”、“screw”是噪声。

表2和表3是根据作者A和作者B中的每个作者的数据生成的“battery”的候补同义词集合的一个例子。

表2

	作者A的候补	类似度
	作者A的候补	类似度	1位	battery	0.628668186
2位	controller	0.622998592	1位	battery	0.628668186
2位	controller	0.622998592	3位	cover	0.622998592
4位	APM	0.622998592	3位	cover	0.622998592
4位	APM	0.622998592	5位	screw	0.622998592
6位	mark	0.622998592	5位	screw	0.622998592
6位	mark	0.622998592	7位	cheque	0.608253852
8位	diskette	0.552631893	7位	cheque	0.608253852
8位	diskette	0.552631893	9位	checkmark	0.445188186
10位	boot	0.441109236	9位	checkmark	0.445188186

表3

	作者B的候补	类似度
	作者B的候补	类似度	1位	battery	0.708152721
2位	form	0.622998592	1位	battery	0.708152721
2位	form	0.622998592	3位	protector	0.622998592
4位	DISKETTE	0.622998592	3位	protector	0.622998592
4位	DISKETTE	0.622998592	5位	Mwave	0.622998592
6位	adapter	0.618890929	5位	Mwave	0.622998592
6位	adapter	0.618890929	7位	mouse	0.476604906
8位	cheque	0.456842327	7位	mouse	0.476604906
8位	cheque	0.456842327	9位	checkmark	0.442857358
10位	process	0.392258373	9位	checkmark	0.442857358

在表2和表3中，“battery”列第一位。该例的情况下，作者A、作者B都用“battery”作为表述“battery”概念的固有词。

接着，将1代入指针变量K(步骤230)，判断K是否等于作者数m(步骤230)，如果步骤230的判断是no(没有对全部作者进行评价时)，通过比较C_k和C_Full来评价C_Full(步骤240)。

图8示出了C_Full的评价过程(步骤240)的一例流程图。首先，判断评价对象的词是否是C_k候补中的第一位(步骤310)，如果是第一位，则判断是否和C_Full中的单词一致(步骤320)。如果和C_Full中的单词一致，则把C_Full中的单词的状态置为“肯定”(“肯定”)(步骤330)。这里，“肯定”是表示确定为候补同义词，并且不会根据后面评价变成“否定”(“否定”)。此外，对于即使已被评价为“否定”的词，其状态也可以变更为“肯定”。

在步骤310和320中判断为“否”或在步骤330之后，进入步骤340，判断C_k中是否还存在候补(步骤340)。如果存在，判断和C_Full中的单词是不是一致(步骤350)，如果一致，将C_Full中一致的单词的状态置为“否定”(步骤360)。但是，仅能把尚未被评价为“肯定”的候补同义词的状态设为“否定”。如果不一致，则返回步骤340。执行步骤340至步骤360，直至C_k中没有候选为止，当在步骤340中判断为no时，输出附加评价的候选同义词C_Full(步骤370)。

利用上述表2中的C_k，按上述过程评价上述表1的C_Full时，表2中排在第三位的“cover”和表1中排在第四位的“cover”一致，因此向其附加“否定”状态。同样，向表1中第10位的“screw”、第九位的“cheque”附加“否定”状态。这样，利用关于某个作者的候补同义词，来评价关于所有数据的候补同义词集合。

之后，将指针K加1(步骤250)，返回步骤230。然后，和上述过程一样，对其他作者进行评价。按上述过程，用上述表3的Ck评价表1的C_Full时，向表1中第7位的“adapter”、第9位的“cheque”附加“否定”状态。

如果对全部作者进行评价，则在步骤230中判断为“Yes”时，输出附加评价的候补同义词C_Full(步骤260)，并结束处理。

对表1的C_Full进行上述处理的结果是给第4位的“cover”、第7位的“adapter”、第9位的“cheque”、第10位的“screw”附加“否定”状态。在附加状态或者删除“否定”状态的词的基础上，通过GUI等将这些结果提示给用户。用户确认提示的内容后，可以给上述例子中“battery”这样的概念定义同义词。此外，这个阶段仍留下了不能被去除的噪声“bezel”。用户在这个阶段可以删除“bezel”，从而生成“battery”概念的同义词词典。

这里，在生成的同义词词典中，包含“batt”、“batterie”、“bat”、“BTY”、“battery”这样的缩写和拼写错误。如果使用本实施例的系统和方法，实际上可以采用适用于文本挖掘的文档作为语料库来生成候补同义词，因此，这些缩写和拼写错误也可以包含在同义词中。从而，可以有效利用在现有同义词词典等中作为噪声被去除的信息，通过使用根据本实施例的同义词词典的文本挖掘，可以更正确且精密地分析文档。根据本实施例的系统或方法，可以低成本地制作有效的同义词词典，因此，可以很容易地导入文本挖掘。对于作为较大的、适用文本挖掘的领域的呼叫中心的数据和各种报告书来说，存储了大量已知作者的数据。因此，生成同义词词典时的本实施例的方法具有很高的可实现性。

而且，用模板等生成句子时，可在删除模板部分后生成全部数据120或每个作者的数据110。从而，能使每个人之间的差别更显著。

此外，可以考虑名词的出现频率。例如，经常在呼叫中心的顾客和操作人员之间发生类似会话这种事务。某个操作人员对某个产品(例如硬盘等)的处理有困难，并为此延长对话时，和其他文档相比，特定单词(例如硬盘)出现得比在其他文档中多。但是，当其他操作人员也接到了同样的询问但已经很简要地回答了问题时，该单词的出现频率就低。为了消除这种词频偏差，对每个事务(或每个单位文档)的单词频率进行标准化，可以得到更精确的同义词。而且，为了吸收由于作者的拼写错误和时间变化造成的表述上的变化，可以采用标准化。

此外，在如上所述得到的同义词中，必须由人来确定哪个是正确答案(集中为一种统一表述时，通常用哪个词)。因此，通过把类似的方法应用于同一领域且其中的表述统一为普通词的文档(例如，计算机领域中的计算机手册)，可以自动得到正确答案。在计算机手册这种制作比较准确的文档中，表述是统一的，其表述在同义词中经常被使用。因此，用得到的同义词的动词信息向量，可以选择作为适于后续集合的适当标记的单词。

在创建同义词时，已经证明，选择上述普遍使用的表示法作为输入名词比用不普遍的缩写等输入的准确性高。例如，对于同一文档来说，将本实施例的候补同义词生成的“customer”、“cus”、“cust”、“end_user”作为输入词时的结果如表4～7所示。各表中，名词左边标记“x”的候补是噪声。

表4

	customer
	customer		1位	cust	0.881
2位	X tech	0.849	1位	cust	0.881
2位	X tech	0.849	3位	Eu	0.839
4位	eu	0.81	3位	Eu	0.839
4位	eu	0.81	5位	cus	0.809
6位	user	0.796	5位	cus	0.809
6位	user	0.796	7位	CUS	0.796
8位	custoemr	0.793	7位	CUS	0.796
8位	custoemr	0.793	9位	EU	0.781
10位	caller	0.769	9位	EU	0.781

表5

	cus
	cus		1位	cust	0.975
2位	cst	0.879	1位	cust	0.975
2位	cst	0.879	3位	X tech	0.847
4位	csut	0.829	3位	X tech	0.847
4位	csut	0.829	5位	customer	0.809
6位	X taht	0.762	5位	customer	0.809
6位	X taht	0.762	7位	eu	0.742
8位	X lady	0.725	7位	eu	0.742
8位	X lady	0.725	9位	XAuth_Serv	0.724
10位	custoemr	0.721	9位	XAuth_Serv	0.724

表6

	cust
	cust		1位	cus	0.975
2位	customer	0.881	1位	cus	0.975
2位	customer	0.881	3位	X tech	0.878
4位	cst	0.86	3位	X tech	0.878
4位	cst	0.86	5位	eu	0.81
6位	csut	0.793	5位	eu	0.81
6位	csut	0.793	7位	Xtaht	0.777
8位	custoemr	0.768	7位	Xtaht	0.777
8位	custoemr	0.768	9位	X Jason	0.736
10位	CUS	0.726	9位	X Jason	0.736

表7

	end_user
	end_user		1位	caller	0.779
2位	CUst	0.753	1位	caller	0.779
2位	CUst	0.753	3位	Cus	0.753
4位	CUs	0.736	3位	Cus	0.753
4位	CUs	0.736	5位	customer	0.719
6位	Cust	0.711	5位	customer	0.719
6位	Cust	0.711	7位	X thanks	0.708
8位	X recieving	0.707	7位	X thanks	0.708
8位	X recieving	0.707	9位	Eu	0.701
10位	user	0.698	9位	Eu	0.701

表4是选择“customer”作为输入单词时的候补同义词生成结果，正确答案率是0.9。表5是选择“cus”作为输入单词时的候补同义词生成结果，正确答案率是0.6。表6是选择“cust”作为输入单词时的候补同义词生成结果，正确答案率是0.7。表7是选择“end_user”作为输入单词时的候补同义词生成结果，正确答案率是0.8。如上所述，将作为普通术语的“customer”作为输入单词(对象词)时，正确答案率最高。因此，通过从手册中选定输入的名词，可以得到效果好的结果。

上述文献1中记载的文本挖掘系统中，用为每个领域创建的分类词典吸收同义词。但是，该分类词典必须由熟悉该领域的人创建，因此希望有成本更低的词典制作方法。另一方面，由于在作为较大的应用文本挖掘的领域的呼叫中心的数据和各种报告中已经存储了大量已知作者的数据。因此，用本实施例的方法可有效地支持词典的制作。

根据本发明的方法，也可以得到专门术语和特殊用途的单词的候补同义词。而且，即使是词典中没有记载的新词，也能找到包含拼写错误的同义词和属于同一类别的单词。

而且，在从某特定文档中提取限于该领域的候补同义词方面也是有效的。例如，可以不用现存的同义词词典而用该特定领域的文档动态地提取特定领域中的专门术语的同义词。对呼叫中心的记录进行文本挖掘的情况下，计算机领域的发展迅速，因此技术术语的数量增加速度很快。尤其是，考虑到接收了很多和新产品有关的信息的提问。因此，与特定领域有关的文档充足时，若采用本实施例的方法，也能在没有词典的情况下验证新出现的单词和现存单词的同义性，可以将其新添加到同义词词典中。

以上，基于本发明的实施例对本发明人的发明作了详细说明，但本发明不限于上述实施例，而是可以在权利要求的范围内作出各种修改和变形。

例如，在上述实施例中，利用每个人不同的文档特征提高候补同义词生成的精度，但除此之外，在存在可以判明或推定将某个概念表述为特定同义词的文档的情况下，当然可以用这些文档作为部分数据。

而且，在上述实施例中，用每个作者的候补同义词集合评价全部数据的候补同义词时，通过将候补同义词分为第1位、第2位以下来评价是“肯定”还是“否定”，但是也可以改变阈值的排序，使得例如第2位以上评价为“肯定”，第3位以下评价为“否定”。

发明效果

本申请中公开的发明中，通过其中有代表性的发明得到的效果如下。即，提供一种生成可在文本挖掘中利用的同义词词典时有效生成候补同义词的支持系统或候补同义词的生成方法。在生成候补同义词时，利用实际用于文本挖掘的文档，可处理包括文档中使用的缩写、独特术语、错误拼写、转换错误在内的单词。而且，通过和文本挖掘的系统一起使用，动态生成要用于文档的最佳同义词词典，可以更精确地分析文档。

Claims

1.一种数据处理方法，用于生成与在文档数据中使用的对象词相对应的候补同义词，具有以下步骤：

以所有上述文档数据为基础，生成与上述对象词相对应的候补同义词的第一集合；

以至少一部分上述文档数据为基础，生成至少一个与上述对象词相对应的候补同义词的第二集合；

用上述第二集合中包含的候补同义词缩窄上述第一集合中包含的候补同义词；

其中在上述缩窄步骤中，根据预定的同义词判定基准判定上述第二集合内的候补同义词是否适合作为上述对象词的同义词，如果不能确定上述第一集合中对象词相对应的候补同义词是所述至少一个第二集合中的上述对象词的同义词，通过从上述第一集合内的候补同义词中去除在上述第二集合中与尚未被确定为是上述对象词的同义词的单词相一致的单词，来产生候补同义词。

2.根据权利要求1所述的数据处理方法，其中，上述部分文档数据是仅由特定作者创建的句子组成的文档数据。

3.根据权利要求2所述的数据处理方法，其中，上述同义词判定的基准是类似度，被判定为上述对象词的同义词的词是上述第二集合中和上述对象词的类似度最高的候补同义词。

4.一种数据处理方法，根据包含了由不同作者创建的句子的文档数据，为在上述文档数据中使用的对象词生成候补同义词，包括以下步骤：

为每个作者生成或准备上述文档数据的至少一个部分数据，该部分数据只包含由该一个作者创建的句子；

提取上述文档数据中包含的词，计算该提取出来的词和上述对象词的类似度，按类似度从高到低的顺序生成以预定数量的该提取出的词为集合元素的候补同义词的第一集合；

提取上述部分数据中包含的词，计算该提取出来的词和上述对象词的类似度，按类似度从高到低的顺序，为每个上述作者生成候补同义词的第二集合，所述第二集合以排在第预定数量位前的提取词为集合元素；

在上述第一集合中包含的词中，将与任一上述第二集合中位次排在阈值位次以内的高位次上的词一致的词评价为“肯定”；

在上述第一集合中包含的、除被评价为上述“肯定”的词以外的词中，将与在任一上述第二集合中位次排在上述阈值位次以外的低位次上的词一致的词评价为“否定”；

根据被评价为上述“否定”的词以外的上述第一集合的词生成与上述对象词相对应的候补同义词。

5.根据权利要求4所述的数据处理方法，其中，上述阈值位次是第一位。

6.根据权利要求4所述的数据处理方法，其中，上述类似度的计算通过以下步骤实现：

从上述文档数据或部分数据中提取出全部第一类词和与第一类词有变形关系的全部第二类词，其中，所述第一类词和所述第二类词是根据词性划分的；

生成将提取出来的上述全部第一类词和上述全部第二类词作为其行或列指标的、大小为第一类词数×第二类词数的矩阵；

向上述矩阵的各集合元素代入用于索引该元素的第一类词和第二类词之间的变形关系的出现频率；

从基于上述文档数据而生成的矩阵中，提取出以与上述对象词一致的第一类词为指标的行或列的各元素，作为对象词向量；

从基于上述文档数据或部分数据而生成的矩阵中提取任意行或列的各元素，作为由该行或列索引的第一类词的向量；

使用上述第一类词向量和上述对象词向量，计算两个向量间的角度得到该第一类词和上述对象词的类似度。

7.根据权利要求6所述的数据处理方法，其中，上述第一类词是名词，上述第二类词是动词、形容词、形容动词等和名词有变形关系的词类。

8.根据权利要求4所述的数据处理方法，其中包含步骤：在上述文档数据或部分数据中包含使用文档模板创建的部分时，从上述文档数据或部分数据中删除利用上述文档模板的部分。

9.根据权利要求4所述的数据处理方法，其中包含步骤：在上述文档数据或上述部分数据中包含有关同一或类似话题的一系列句子或文档的情况下，对每个句子或每个文档，进行单词出现频率的标准化。

10.根据权利要求4所述的数据处理方法，其中包含步骤：上述文档数据或部分数据中出现的名词的出现频率比规定频率低时，从上述类似度计算的对象中除去上述名词。

11.一种数据处理系统，用于生成与在文档数据中使用的对象词相对应的候补同义词，包括：

以所有上述文档数据为基础，生成与上述对象词相对应的候补同义词的第一集合的装置；

以至少一部分上述文档数据为基础，生成至少一个与上述对象词相对应的候补同义词的第二集合的装置；

用上述第二集合中包含的候补同义词缩窄上述第一集合中包含的候补同义词的装置；

其中在上述缩窄装置中，根据预定的同义词判定基准判定上述第二集合内的候补同义词是否适合作为上述对象词的同义词，如果不能确定上述第一集合中对象词相对应的候补同义词是所述至少一个第二集合中的上述对象词的同义词，通过从上述第一集合内的候补同义词中去除在上述第二集合中与尚未被确定为是上述对象词的同义词的单词相一致的单词，来产生候补同义词。

12.根据权利要求11所述的数据处理系统，其中，上述部分文档数据是仅由特定作者创建的句子组成的文档数据。

13.根据权利要求12所述的数据处理系统，其中，上述同义词判定的基准是类似度，被判定为上述对象词的同义词的词是上述第二集合中和上述对象词的类似度最高的候补同义词。

14.一种数据处理系统，具有以下装置：

用于输入包含由不同作者创建的句子的文档数据以及每个作者的至少一个仅包含由该一个作者创建的句子的部分数据的装置；

用于提取上述文档数据或部分数据中包含的词，计算该提取出来的词和上述文档数据中包含的对象词的类似度的装置；

用于生成按类似度从高到低的顺序、以排在第预定数量位前的词为集合元素的候补同义词集合的候补同义词生成装置；

用于记录基于上述文档数据、由上述候补同义词生成装置生成的第一集合，和基于上述部分数据、由上述同义词生成装置生成的上述每个作者的第二集合的装置；

用于在上述第一集合中包含的词中，将与任一上述第二集合中位次排在阈值位次以内的高位次上的词一致的词评价为“肯定”、在上述第一集合中包含的、除被评价为上述“肯定”的词以外的词中，将与在任一上述第二集合中位次排在上述阈值位次以外的低位次上的词一致的词评价为“否定”的装置；

用于从被评价为上述“否定”的词以外的上述第一集合的词中生成与上述对象词相对应的候补同义词的装置。

15.根据权利要求14所述的数据处理系统，其中，上述阈值位次是第一位。

16.根据权利要求14所述的数据处理系统，其中，上述类似度的计算装置包括：

用于从上述文档数据或部分数据中提取出全部第一类词和与第一类词有变形关系的全部第二类词的装置，其中，所述第一类词和所述第二类词是根据词性划分的；

用于生成将提取出来的上述全部第一类词和上述全部第二类词作为其行或列指标的、大小为第一类词数×第二类词数的矩阵的装置；

用于向上述矩阵的各集合元素代入用于索引该元素的第一类词和第二类词之间的变形关系的出现频率的装置；

用于从基于上述文档数据而生成的矩阵中，提取出以与上述对象词一致的第一类词为指标的行或列的各元素，作为对象词向量的装置；

用于从基于上述文档数据或部分数据而生成的矩阵中提取任意行或列的各元素，作为由该行或列索引的第一类词的向量的装置；

用于使用上述第一类词向量和上述对象词向量，计算两个向量间的角度得到上述第一类词和上述对象词的类似度的装置。

17.根据权利要求16所述的数据处理系统，其中，上述第一类词是名词，上述第二类词是动词、形容词、形容动词等和名词有变形关系的词类。

18.根据权利要求14所述的数据处理系统，其中还包括用于在上述文档数据或部分数据中包含使用文档模板创建的部分时，从上述文档数据或部分数据中删除利用上述文档模板的部分的装置。

19.根据权利要求14所述的数据处理系统，其中还包括用于在上述文档数据或部分数据中包含就同一或类似话题的一系列句子或文档的情况下，对每个句子或每个文档，进行单词出现频率的标准化的装置。

20.根据权利要求14所述的数据处理系统，其中还包括用于在上述文档数据或部分数据中出现的名词的出现频率比规定频率低时，从上述类似度计算的对象中除去上述名词的装置。