CN102722477A

CN102722477A - 近义词列表的生成方法及生成装置、使用该近义词列表的检索方法及检索装置

Info

Publication number: CN102722477A
Application number: CN2012100801157A
Authority: CN
Inventors: 山口伦治
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2011-03-24
Filing date: 2012-03-23
Publication date: 2012-10-10
Anticipated expiration: 2032-03-23
Also published as: CN102722477B; US20120246162A1; JP5338835B2; US8572082B2; JP2012203569A

Abstract

本发明提供在生成装置(1)中，判定部(101)分别针对近义词数据库300所具备的多个基准词和与其对应的近义词，判定是否包含在检索对象的多个文档数据(文档数据组400)的任意一个中。提取部(102)对判定为包含在文档数据组(400)中的基准词和近义词进行提取。设定部(103)分别针对提取出的近义词，基于文档数据组(400)中的该近义词和对应的基准词的至少一方的出现状况，设定输出优先级；生成部(104)分别针对提取出的基准词，以与该基准词对应的近义词中设定了输出优先级的近义词对应的方式来生成近义词列表(900)。

Description

近义词列表的生成方法及生成装置、使用该近义词列表的检索方法及检索装置

技术领域

本发明涉及适于将检索词扩展成近义词且进行有效检索的近义词列表的生成方法以及生成装置、使用了该近义词列表的检索方法以及检索装置。

背景技术

伴随文档的电子化的增加，从至今为止积蓄的大量的文档组中找出所希望的文档的检索技术的重要性变高。电子设备中的典型的检索是从检索对象的文档组中找出包含用户输入的检索词的文档，并向用户显示该找出的文档。

然而，在自然语言中，可能以其他的词汇来表现与某个词汇相同的意思。例如，“世界上最大的岛屿”这个语句与“世界上第一大的岛屿”这个语句意思相同。在单纯以字符串是否一致的检索中，由于用户作为检索词即便输入“世界上最大的岛屿”，也不能够找出记述“世界上第一大岛屿”的文档，因此，存在很难找出用户想要的文档的问题。对此，近年来，为了提高用户的使用便利性，公开了各种扩展成这样的近义词来进行检索的技术。

例如在专利文献1(日本特开2004-118262号公报)中公开了将检索词扩展到近义词，并为了减少检索噪声而限制文档数量的技术。而且，在专利文献2(日本特开2006-215717号公报)中公开了通过评价近义词相对检索词的类似度，并基于类似度进行检索，尽量使与检索词意思相近的近义词优先进行检索的技术。

通过将检索词扩展到近义词，虽然能够抑制检索遗漏，但是另一方面，也未必就能获得有效的检索结果。存在例如，检索用户不希望的文档，以多个近义词检索重复的文档这类的不必要的检索。因此，需要用于将检索词扩展到近义词且进行有效检索的技术。

发明内容

本发明是为了解决以上的课题而完成的，其目的在于提供适于将检索词扩展到近义词并进行有效检索的近义词列表的生成方法以及生成装置、使用了该近义词列表的检索方法以及检索装置。

为了实现上述目的，本发明涉及的近义词列表的生成方法的特征在于，具备：判定基准词和与其对应的近义词是否包含在包含成为检索对象的多个文档数据的文档数据组中的判定步骤；对判定为包含在上述文档数据组中的基准词和近义词进行提取的提取步骤；基于上述文档数据组中的该近义词和对应的基准词的至少一方的出现状况，设定上述提取出的近义词的输出优先级的设定步骤；以及针对上述提取出的基准词，以设定了上述输出优先级的近义词与该基准词对应的方式来生成近义词列表的生成步骤。

另外，本发明涉及的检索方法是使用通过近义词列表的生成方法生成的近义词列表的检索方法，其特征在于，具备：从上述文档数据组中，确定出包含有所希望的检索字符串的文档数据的文档确定步骤；输出上述确定出的文档数据的文档输出步骤；判定上述近义词列表所具有的基准词是否包含在上述检索字符串中的基准词判定步骤；以及，将与判定为包含在上述检索字符串中的基准词对应的近义词，以与对该近义词设定的输出优先级对应的方式进行输出的近义词输出步骤。

附图说明

图1是表示本发明的实施方式的近义词列表的生成装置的概要构成的图。

图2是表示本发明的实施方式的近义词列表的生成装置的物理构成的图。

图3是表示本发明的实施方式的近义词数据库的构成的图。

图4是表示本发明的实施方式的文档数据的构成的图。

图5是表示本发明的实施方式的生成装置的处理流程的流程图。

图6是表示在本发明的实施方式中，从近义词数据库提取基准词和近义词的状况的图。

图7是表示在本发明的实施方式的生成装置中，近义词的等级设定处理的流程的流程图。

图8是表示在本发明的实施方式中，对近义词设定等级的状况的图。

图9是表示本发明的实施方式所生成的近义词列表的例子的图。

图10是表示本发明的实施方式的检索装置的概要构成的图。

图11是表示本发明的实施方式的检索装置的物理构成的图。

图12是表示本发明的实施方式的检索装置的处理流程的流程图。

图13是表示本发明的实施方式的检索结果显示在监视器上的状况的图。

图14是本发明的检索装置的构成概要的其他例子的图。

具体实施方式

以下，参照附图对本发明的实施方式进行说明。而且，以下说明的实施方式用于说明，不对本发明的范围进行限制。因此，本领域技术人员能够采用将下述的各构成要素置换成均等要素的实施方式，这些实施方式也包含在本发明的范围内。而且，在以下的说明中，为了容易理解本发明，适当省略不重要的公知的技术事项的说明。

首先，实现本实施方式的近义词列表的生成装置1的信息处理装置采取图1所示的构成。即，生成装置1具备控制部100、存储部110、输入部120、输出部130以及通信部140。另一方面，该生成装置1的物理构成如图2所示，具备CPU(Central Processing Unit)151、ROM(Read Only Memory)152、RAM(Random Access Memory)153、硬盘154、键盘155、监视器156、DVD-ROM驱动器157以及通信装置158。以下，参照图1以及图2，进行生成装置1的构成要素的说明。

控制部100对生成装置1整体的动作进行控制，与各构成要素连接，交换控制信号、数据。即，控制部100与存储部110、输入部120、输出部130、通信部140连接，灵活运用这些各部的功能，同时执行近义词列表的生成处理。

这里控制部100具备判定部101、提取部102、设定部103、生成部104。详细如后所述，近义词列表的生成装置1利用这些各部的功能，基于近义词数据库300，执行生成近义词列表900的处理，其中，该近义词列表900用于进行检索对象为多个文档数据(文档数据组400)的检索。

这样的控制部100(判定部101、提取部102、设定部103以及生成部104)例如由CPU151构成。这里CPU151通过作为用于转送命令、数据的传送路径的系统总线与各构成要素相互连接，根据记录在ROM152中的生成装置1整体的动作控制所需的计算机程序、各种数据进行动作。而且CPU151将从ROM152中读出的计算机程序、数据以及进行其他处理所需的数据暂时存储在RAM153中，并对各种动作进行控制。这样，通过CPU151与ROM152、RAM153配合，控制部100对生成装置1整体的动作进行控制。

存储部110由例如硬盘154这样的大容量外部存储装置构成，对控制部100生成近义词列表900的处理所需的各种数据进行存储。具体而言，这里，对成为生成近义词列表900的基础的近义词数据库300以及被检索装置作为检索对象的多个文档数据(文档数据组400)进行存储。而且，存储部110也存储通过该生成装置1的处理而生成的近义词列表900。

这里，预先存储在存储部110中的近义词数据库300如图3所示那样构成。即，近义词数据库300具备多个基准词和与其对应的近义词的组合，针对一个基准词，对应一个以上与该基准词意思类似的近义词。例如，“大地”这个基准词与意思相近的词语“地面”、“接地”这两个近义词对应，“比赛”这个基准词与“较量”、“胜负”、“竞赛”、“竞争”这四个近义词对应。

此时，基准词和近义词不必是单词单位，例如，可以像本附图的“授予专利”这个基准词、“回答的语言”这类近义词这样，由多个单词构成。

这样的近义词数据库300可以以任何方式作成。例如，可以利用各种存在的已知的近义词辞典等现有的近义词数据库作成。例如，在利用所刊登的词数丰富的近义词辞典的情况下，相应地，生成装置1能够生成词数丰富的近义词列表900，提高检索的可用性。另一方面，生成的近义词列表900的数据大小也会增大。

另外，同样预先存储的文档数据组400如图4所示那样构成。即文档数据组400由各个文档数据401a～401c等构成，而且，文档数据401a～401c等分别由“词条”和“说明文”构成。即，文档数据401a～401c等是构成辞典的构成单位，“词条”是成为该辞典的索引的一个词语，针对一个文档数据401对应一个词条。而且，“词条”与说明该词条的“说明文”对应，这些合在一起构成一个文档数据401。并且，这样的文档数据401与“词条”的数量相对应地存在，由整体构成文档数据组400。

返回图1以及图2，存储部110所存储的这些数据经由例如生成装置1的DVD-ROM驱动器157，或经由通过通信部140连接的网络150，与外部交换。

输入部120由例如键盘155这样的输入装置构成，接收来自用户的输入。接收到的输入信息被供给至控制部100。在本实施方式中，接收来自用户的用于生成近义词列表900的命令。

输出部130由例如监视器156这样的显示装置构成，向用户输出控制部100进行处理后的结果。在本实施方式中，判定部101、提取部102、设定部103以及生成部104分别进行的近义词列表900的生成处理的经过、结果都显示在监视器156中。由此，用户能够获得与该生成处理的经过、结果相关的信息。

通信部140将生成装置1与因特网等的网络150连接，在控制部100的控制下，经由网络150交换数据。这样的通信部140由例如调制解调器等的适当的通信装置158构成。

如上构成的生成装置1在控制部100的控制下，进行近义词列表900的生成处理。具体而言，按照图5的流程图所示的顺序执行处理。

本处理以生成装置1的输入部120接收来自用户的生成近义词列表900的意图的指示为契机而开始。即，通过用户使用键盘155来对生成近义词列表900的意图进行指示，开始本处理。

若处理开始，则首先生成装置1的判定部101指定近义词数据库300的最初的基准词(步骤S501)。即，判定部101访问预先准备在存储部110中的近义词数据库300，指定该近义词数据库300所具备的多个基准词中的最初的基准词。具体地在图3所示的近义词数据库300的例子中，指定“大地”这个最初的基准词。

接下来，判定部101判定指定的基准词是否存在于文档数据组400中(步骤S502)。即，判定部101判定指定的基准词的字符串是否包含在存储于存储部110中的多个文档数据401a～401c等中的任意一个中。这里，虽然如上述图4所示，多个文档数据401a～401c等分别由词条和说明文构成，但是在这里若基准词包含在词条和说明文的任意一个中，则也判定为包含在该文档数据401中。

若判定指定的基准词存在于文档数据组400中(步骤S502；YES)，则接下来提取部102提取该指定的基准词(步骤S503)。即，将存在于任意一个文档数据401中的基准词作为生成的近义词列表900的基准词取出。

这里，另外，提取部102针对该提取出的基准词提取存在于文档数据组400中的近义词(步骤S504)。即，针对判定为存在于任意一个文档数据401中的基准词，针对与该基准词对应的近义词也同样地，由判定部101判定是否存在于任意一个文档数据401中，提取判定为存在的近义词。

具体地参照上述图3的近义词数据库300的例子进行说明。首先，若判定最初的基准词“大地”存在于文档数据组400中，则提取该基准词“大地”。而且还判定作为近义词而对应的“地面”和“接地”这两个词语是否也存在于文档数据组400中。这里，例如，若判定为存在近义词“地面”，判定不存在近义词“接地”，则该近义词“地面”被提取，该近义词“接地”不被提取。

返回图5的流程图，另一方面，若判定为在任何一个文档数据401中都不存在基准词(步骤S502；NO)，则不提取该基准词，对应的近义词也不被提取。这是因为对文档数据组400中不存在的基准词而言，无需进行将该文档数据组400作为检索对象的检索，无需装载在近义词列表900中。

这样，若针对最初的基准词的处理结束，则接下来判定部101判定是否对近义词数据库300的全部的基准词进行了处理(步骤S505)。若存在未处理的基准词(步骤S505；NO)，则判定部101指定下一个基准词(步骤S506)，处理返回步骤S502。即，针对与第2个基准词对应的近义词，重复进行提取存在于任意一个文档数据401中的近义词的处理。

通过对近义词数据库300所具备的全部的基准词重复进行这样的处理，提取多个文档数据401a～401c等的任意一个中所包含的基准词和近义词。其结果，如图6所示，从预先准备的近义词数据库300中去除任何一个文档数据401中都不存在的基准词和近义词(在本附图中画横线显示)，其以外的基准词和近义词被提取而保留。

具体地在本附图中，从最初的基准词“大地”提取近义词“地面”，同时去除近义词“接地”。另外，第2个基准词“答辞”在任何一个文档数据401中都不存在，对应的2个近义词“寒暄”、“回答的语言”都不被提取而去除。

返回图5的流程图，这样，在任意一个文档数据401中包含的基准词和对应的近义词被提取，若对近义词数据库300的全部基准词都进行了处理(步骤S505；YES)，接下来设定部103对提取出的近义词设定等级(步骤S507)。这里，“等级”是表示通过后述检索装置进行检索时，输出与检索词相关的近义词的优先级的指标，针对各个提取出的近义词的分别设定一个值的等级。在检索中，近义词按照这里设定的等级值从大到小的顺序输出。

这里参照图7的流程图，再次详细说明针对具体的近义词的等级设定处理。

若开始近义词的等级设定处理，则首先设定部103指定提取出的基准词中的最初的基准词(步骤S701)。在上述图6的具体例子中，指定“大地”这个最初的基准词。

接下来，设定部103将对应于指定的基准词的全部的近义词的等级初始化为0(步骤S702)。具体而言，在指定了“大地”这个最初的基准词的情况下，对应的近义词“地面”的等级被初始化为0。在从指定的基准词提取了多个近义词的情况下，对该多个近义词全部进行这样的初始化。

接下来设定部103指定最初的文档数据401(步骤S703)，判定在该指定的文档数据401内是否存在指定的基准词(步骤S704)。即设定部103访问存储于存储部110的文档数据组400，判定在最初的文档数据401a的词条、说明文中是否包含基准词的字符串。

在判定存在基准词的情况下(步骤S704；YES)，针对指定的基准词指定最初的近义词(步骤S705)。在上述图6的具体例子中，对于最初指定的“大地”这个基准词，指定对应的近义词“地面”。这里，在对应的近义词存在多个的情况下，指定最初的一个。

若指定近义词，则设定部103判定在指定的文档数据401内是否存在指定的近义词(步骤S706)。这里，即判定在存在基准词的文档数据401内是否还同时存在对应的近义词。具体而言，如图8的例子所示，判定在存在基准词“大地”的文档数据401内是否还存在对应的近义词“地面”。

在判定为存在近义词的情况下(步骤S706；YES)，将该指定的近义词的等级减1(S707)。即，由于与基准词共存于相同的文档数据401内的近义词能够作为该基准词的检索结果在同一文档数据401内找出，因此判定优先向用户输出的必要性低，降低相当于输出优先级的等级。在图8的具体例子中，在文档数据401内的说明文中与基准词“大地”同时存在的“地面”这个近义词的等级的值被降低1。

另一方面，在判定不存在近义词的情况下(步骤S706；NO)，该近义词的等级不下降，保持此前的值不变。即，不与基准词共存在于同一文档数据401内的近义词是很难在检索该基准词时找出的语句，在检索该基准词时向用户输出的优先级不被降低而被维持。

这样，若近义词的等级被降低或者被维持，则设定部103判定是否对指定的基准词处理了全部的近义词(步骤S708)。若存在未处理的近义词(步骤S708；NO)，则设定部103指定下一个近义词(步骤S709)，处理返回步骤S706。即，在指定的近义词与基准词共存于同一文档数据401内的情况下，该近义词的等级下降。这样，针对与指定的基准词对应的全部的近义词，重复步骤S706～S707的处理，共存于同一文档数据401内的近义词的等级下降。

若针对指定的基准词对全部的近义词的进行了处理(步骤S708；YES)，则接下来设定部103判定是否对全部的文档数据401进行了处理(步骤S710)。即，判定是否对存储于存储部110中的多个文档数据401a～401c等中的全部的文档数据401进行了处理。若存在未处理的文档数据401(步骤S710；NO)，则设定部103指定下一个文档数据401(步骤S711)，处理返回步骤S704。即，针对下一个指定的文档数据401，判定在该词条或者说明文中是否存在基准词，在存在的情况下，还进行使共存于该文档数据401内的近义词的等级的值降低1的处理。

这里，在指定的文档数据401内不存在基准词的情况下(步骤S704；NO)，不进行针对与该基准词对应的近义词的处理(步骤S705～S709)，处理进入步骤S710，转移至下一未处理的文档数据401的处理。由于在不存在基准词的文档数据401中也不存在基准词和近义词共存的情况，因此，无需降低近义词的等级。

这样，按照文档数据401重复等级设定处理，与基准词对应的近义词每有一个与该基准词同时存在的文档数据401，等级值下降1。其结果，近义词的等级成为从作为初始值的0下降与和基准词共同存在的文档数据401的个数相当的值而得到的值。例如，在存在N个与基准词同时存在的文档数据401的情况下，近义词的等级成为-N。

若针对指定的基准词，结束对全部的文档数据401的处理(步骤S710；YES)，则接下来设定部103判定是否处理了全部的基准词(步骤S712)。若在通过提取部102提取的基准词中、存在未处理的基准词(步骤S712；NO)，则指定未处理的基准词中的下一个基准词(步骤S713)，处理返回步骤S702。即，针对下一个指定的基准词，进行设定对应的近义词的等级的处理(步骤S702～S711)。在上述图6的具体例子中，若最初的基准词“大地”的处理结束，则指定下一个基准词“比赛”，进行设定与该基准词对应的3个近义词“胜负”、“竞赛”、“竞争”的等级的处理。

这样，针对所有提取的基准词，重复进行分别设定对应的近义词的等级的处理，之后若全部的基准词的处理结束(步骤S712)，则该流程中的近义词的等级设定处理结束。之后，返回图5的流程图，生成部104使设定了等级的近义词与提取出的基准词对应，生成近义词列表900(步骤S508)，生成的近义词列表900存储到硬盘154这样的存储部110中，本流程的处理结束。

其结果，如图9所示，在生成的近义词列表900中，由提取部102提取的基准词分别与作为等级而设定了任意一个0以下的整数值的近义词对应。例如，对于基准词“大地”的近义词“地面”而言，与该基准词同时出现的文档数据401的个数为三个，被设定-3等级。另外，对于基准词“比赛”的近义词“胜负”、“竞赛”、“竞争”而言，与该基准词同时出现的文档数据401的个数分别为1个、0个、4个，分别被设定为-1、0、-4的等级。

根据以上构成，本实施方式的近义词列表900的生成装置1根据近义词数据库300所具备的基准词和对应的近义词，提取在作为检索对象的多个文档数据401a～401c等的任意一个中存在的基准词和近义词。而且，通过对该提取出的近义词设定、对应于和基准词同时出现的文档数据401的个数而下降的输出优先级，生成近义词列表900。

其结果，在使用该生成的近义词列表900进行检索时，向用户提示针对所希望的检索词的近义词，能够辅助用户的检索，并且通过降低与检索词存在于同一个文档数据401中的近义词的输出优先级，用户能够优先检索更多种类的文档数据401。

在本发明中，除了上述的近义词列表900的生成装置1以及使用了该生成装置1的近义词列表900的生成方法外，还提供使用该生成的近义词列表900来进行将文档数据组400作为检索对象的检索的检索装置以及使用了该检索装置的检索方法。

这里，检索装置通常由与上述近义词列表900的生成装置1不同的信息处理装置来实现。具体地在本实施方式中，作为检索装置，假设具备电子词典等功能的小型信息处理装置来进行说明。即，针对作为检索对象的文档数据组400(多个文档数据401a～401c等)来生成近义词列表900的处理预先在上述图1以及图2所示的一般的信息处理装置中进行，另一方面，使用了该生成的近义词列表900的文档数据组400的检索，在与生成装置1不同的信息处理装置、即电子词典等小型信息处理装置中实现。

作为这样的检索装置2，其构成如图10所示。即检索装置2具备控制部200、存储部210、输入部220以及显示部230。另一方面，该检索装置2的物理构成如图11所示，具备CPU251、ROM252、RAM253、键盘255以及监视器256。以下，参照图10以及图11，进行检索装置2的构成要素的说明。

控制部200对检索装置2整体的动作进行控制，与各构成要素连接，交换控制信号、数据。即，控制部200与存储部210、输入部220及显示部230连接，灵活运用这些各部的功能，并执行检索处理。

这里，控制部200具备文档确定部201、文档输出部202、基准词判定部203及近义词输出部204。详细如后所述，检索装置2通过这些各部的功能，执行如下处理：从文档数据组400(多个文档数据401a～401c等)中确定包含所希望的检索词的字符串(检索字符串)的文档数据，还使用近义词列表900同时提示检索词的近义词。

这样的控制部200(文档确定部201、文档输出部202、基准词判定部203、近义词输出部204)由例如CPU251构成。这里CPU251基本上与生成装置1中的CPU151相同，通过作为用于转送命令、数据的传送路径的系统总线与各构成要素相互连接，按照记录在ROM252中的、检索装置2整体的动作控制所需的计算机程序、各种数据进行动作，还将从ROM252中读出的计算机程序、数据以及进行其他处理所需的数据暂时存储在RAM253中，且对各种动作进行控制。这样，通过CPU251与ROM252、RAM253配合，控制部200对检索装置2整体的动作进行控制。

存储部210由例如检索装置2内所具备的ROM252那样的只读存储介质构成，存储控制部200进行检索处理所需的各种数据。具体而言，这里，存储作为检索对象的文档数据组400以及近义词列表900。

该文档数据组400与存储于上述生成装置1的存储部110的文档数据组400相同，而且，近义词列表900与上述生成装置1根据该文档数据组400生成的近义词列表900相同。

输入部220由例如键盘255那样的输入装置构成，接收来自用户的输入。具体而言，这里，接收来自用户的检索词。接收到的检索词供给到控制部200的文档确定部201和基准词判定部203，被用于检索包含该检索词的文档数据401的处理以及判定与该检索词一致的基准词是否存在于近义词列表900内的处理。

显示部230由例如监视器256这样的显示装置构成，向用户显示控制部200进行处理后得到的结果。具体而言，这里，通过向监视器256输出包含用户输入的检索词的文档数据401、与检索词相关的近义词，来向该用户进行显示。由此，作为输出结果用户获得包含有自身所输入的检索词的文档数据401、近义词，能够进行各种利用。

另外，输入部220和显示部230也可以由触摸面板等的输入装置和显示装置组合后的装置构成。该情况下，由内置于触摸面板中的触摸传感器等构成的位置输入装置构成输入部220，由液晶显示器等构成的显示装置构成显示部230。

以上构成的检索装置2在控制部200的控制下进行检索处理。具体而言，按照图12的流程图所示的顺序执行处理。

本处理以检索装置2的输入部220接收从用户输入的检索词为契机而开始。即，通过用户使用键盘255输入所希望的检索词，指示进行检索的意图，开始本处理。

若从用户接收检索词开始处理，则首先文档确定部201从多个文档数据401a～401c等中确定出包含检索词的文档数据401(步骤S1201)。即，例如若用户输入“比赛”这个检索词，则文档确定部201进行多个文档数据401a～401c等所包含的字符串的检索，确定出包含“比赛”这个检索词的字符串(检索字符串)的文档数据401。

此时进行的检索是所谓的全文检索，针对各文档数据401内的词条以及说明文的字符串进行。即，若在文档数据401内的词条或说明文的任意一个中包含被输入的检索词的字符串，则确定该文档数据401。确定出的文档数据401被暂时保持在RAM253中。

另外，此时进行的检索也可以利用任意的公知检索技术进行。即，可以使用例如依次扫描多个文档数据401a～401c等来找出检索字符串的依次型检索(grep型检索)，或也可以使用为了检索处理的高速化而预先准备索引文件的索引型(index型)检索。另外，在索引型检索的情况下，例如可以利用所谓的词素分析的手法生成索引文件，也可以利用所谓的N元模型的手法(N字符索引法)生成索引文件。

这样，若确定出包含有检索词的文档数据401，则文档输出部202输出确定出的文档数据401(步骤S1202)。即，文档输出部202通过在监视器256这样的显示部230显示包含输入的检索词的文档数据401，来向用户输出。由此，用户能够了解自身输入的检索词包含在哪个文档数据401中。

而且，在检索装置2中，基准词判定部203使用近义词列表900判定是否存在与检索词一致的基准词(步骤S1203)。即，基准词判定部203访问由生成装置1预先生成、且存储在存储部210中的近义词列表900，判定该近义词列表900所具备的基准词中是否存在与输入的检索词一致的词。

若判定不存在与检索词一致的基准词(步骤S1203；NO)，则这里不进行任何处理，保持原样结束检索处理。即，由于输入的检索词在与近义词列表900内不存在对应的近义词，因此，这里不输出近义词，而仅输出上述确定出的文档数据401，结束检索处理。

另一方面，若判定存在与检索词一致的基准词(步骤S1203；YES)，则近义词输出部204按照等级(输出优先级)从高到低的顺序输出与该一致的基准词对应的近义词(步骤S1204)，之后结束检索处理。即，近义词输出部204针对与检索词一致的基准词，从近义词列表900取得对应的全部的近义词，通过按照基于对每个近义词预先设定的等级值的顺序在监视器256中显示等来向用户输出。

例如，在用户输入“比赛”这个检索词的情况下，包含该“比赛”这个检索词的文档数据401作为检索结果而被输出，且在近义词列表900内与该“比赛”这个基准词对应的3个近义词“胜负”、“竞赛”“竞争”也被输出。其结果，具体而言，在检索装置2的监视器256中显示图13所示的输出结果。即如本图所示，作为包含“比赛”这个检索词的文档数据401，“AAA”、“BBB”、“XXX”、“ZZZ”等的文档数据401显示在监视器256内的检索结果的栏中，作为针对“比赛”这个基准词的近义词，存储于近义词列表900内的“竞赛”、“胜负”、“竞争”这3个词语显示在监视器256内的推荐检索词的栏内。

此时作为推荐检索词显示的3个近义词在比较各自的等级值的基础上，按照该等级从高到低的顺序显示。由于近义词和检索词同时出现的文档数据401的个数越多，各自的该近义词的等级越被设定成较小的值，因此，按照与检索词同时出现的文档数据401的个数从少到多的顺序显示。具体而言，如上述图9所示，由于“胜负”这个近义词的等级被设定成-1，“竞赛”这个近义词的等级被设定成0，“竞争”这个近义词的等级被设定成-4，因此，如图13的监视器256所示，按照等级从高到低的顺序排列输出“竞赛”、“胜负”、“竞争”。

而且，此时，就3个近义词而言，设定的等级值越大越以较大的字符显示。即，以最大的字符显示等级为0的“竞赛”这个近义词，以最小的字符显示等级为-4的“竞争”这个近义词。由此，由于越是与检索词同时出现的文档数据401的个数较少的近义词，作为推荐检索词越以用户容易确认的方式显示，因此，用户能够高效地检索较多种类的文档数据401。

根据以上构成，本实施方式的检索装置2在输入的检索词与近义词列表900的任意一个基准词一致的情况下，与基于检索词的检索结果一起输出与该一致的基准词对应的近义词。此时，与检索词同时出现的文档数据401的个数越少，越以较高的优先级输出近义词。其结果，用户能够高效地检索较多种类的文档数据401。

特别如本实施方式所示，在检索对象的文档数据401构成词典的情况下，在同一个文档数据401内存在意思类似的多个词语的情况较多。因此，通过降低检索重复的文档数据401的近义词的向用户输出的优先级，能够有效地检索更多种类的文档数据401。

此外，上述实施方式是一个例子，本发明的适用范围不限于此。即，可进行各种应用，所有的实施方式包含在本发明的范围内。

例如，在上述实施方式中，检索装置2在ROM252这样的存储部210内存储了文档数据组400等。但不限于此，检索装置2可以具备硬盘等大容量存储装置、DVD-ROM驱动器，将文档数据组400等存储在硬盘、DVD-ROM等中。或检索装置2也可以与网络连接，将文档数据组400等存在网络上。

另外，在上述实施方式中，在检索装置2中，用户输入检索词的输入部220、显示检索结果的显示部230与控制部200、存储部210存在于同一个装置内。但不限于此，输入部220和显示部230可以在检索装置2的外部。即，例如图14所示，检索装置2不具备输入部220和显示部230，经由网络150与具备他们的终端装置3连接，可以作为在线型的电子词典的信息设备而构成。

此时，检索装置2和终端装置3通过各自所具备的通信部240a、240b，经由网络150相互进行数据通信。即，终端装置3的用户所输入的检索词被发送至检索装置2，通过控制部200执行检索处理。之后，作为检索结果的文档数据401和近义词的信息再次被发送至终端装置3，向终端装置3的用户输出。通过采用这样的构成，具有如下优点：统一管理检索装置2内的文档数据组400等，并能够被多个用户利用，而且由于用户侧的终端装置3无需保持文档数据组400等，因此能够抑制数据大小。

另外，在上述实施方式中，作为检索装置2假设电子词典这样的小型信息处理装置进行了说明。但不限于此，检索装置2也可以是商用·家用的一般的计算机装置、移动电话等其他的信息设备。而且，不限于电子词典中的检索，可以检索各种电子数据的检索。例如，可以在一般的计算机装置中，从存储于硬盘等大容量存储装置、DVD-ROM等中的电子文件中，检索包含所希望的检索词的电子文件。或与网络连接，检索存在于网络上的网页。

另外，在生成装置1中，上述实施方式的生成装置1根据存储在硬盘154这样的存储部110中的近义词数据库300以及文档数据组400生成近义词列表900，并将该生成的近义词列表900存储到存储部110中。但这些近义词数据库300、文档数据组400不限于存储于生成装置1内所具备的存储部110中，可以存在于经由通信部140连接的网络150上，或可以存储在装载于DVD-ROM驱动器157中的DVD-ROM内。

另外，在上述实施方式中，构成文档数据组400的多个文档数据401由“词条”和“说明文”构成。但不限于这些，可以由各种要素构成。例如，也可以具有用于说明“词条”的图、表。或在词典中的检索以外的一般的电子文件等的检索中，不限于这样的“词条”和“说明文”的构成要素，文档数据401可以以各种形式具有字符串数据。

另外，上述实施方式的近义词列表900的生成装置1基于同时包含近义词和对应的基准词的文档数据401的个数，设定了该近义词的输出优先级。即，若在一个文档数据401内包含各至少一个近义词和对应的基准词，则该近义词的等级(输出优先级)的值一样降低1。但不限于此，可以基于近义词和对应的基准词中的至少一方的各种出现状态，设定各种等级。

例如，近义词单独出现的文档数据401的个数、频度越高，可以越使该近义词的等级上升。是因为能够更多地确定在基准词的检索中不能确定的文档数据401，而且，其中出现频度高的近义词反映用户的检索意图的可能性较高。

或另外，可以根据近义词在文档数据401中的出现位置，来变动该近义词设定的等级。例如，越是较多出现在靠近文档数据401的前端位置的近义词，可以将等级设定得越高，提高输出优先级。并且，越是出现在靠近基准词的位置的近义词，推测与基准词意思类似的程度越高，可以将等级设定得越高，提高输出优先级。

另外，在上述实施方式中，不对文档数据401内的“词条”和“说明文”进行区别，若任意一个中包含基准词和对应的近义词，则同样使该近义词的等级值降低。但不限于此，可以对“词条”和“说明文”进行区别。例如，可以根据基准词包含在“词条”中，且近义词包含在“说明文”中的情况、近义词包含在“词条”中，且基准词包含在“说明文”中的情况等，使该近义词的等级值变动。

另外，上述实施方式的检索装置2以设定的等级越高越使字符的大小增大的方式输出近义词。但不限于此，可以基于设定的等级，对方式进行各种变化来输出近义词。例如，可以以设定的等级越高越以容易观看的颜色显示近义词的方式进行。或可以以通过设定的等级越高越使显示近义词的亮度提高等来强调显示的方式进行。由此，由于以越是等级高的近义词越容易被用户确认的方式显示，因此，用户能够进行基于该等级高的近义词的高效的检索。

另外，上述实施方式的检索装置2输出近义词列表900内的基准词中、与输入的检索词一致的基准词所对应的近义词。但不仅限于基准词和检索词完全一致，也可以针对检索词所包含的基准词来输出近义词。例如，在作为检索词输入“专利权”这个字符串的情况下，也可以输出针对包含在其中的基准词“专利”的近义词。由此，不仅与检索词本身对应，也能够与检索词所包含的词语对应，能够针对各种输入的检索词，灵活地输出近义词。

而且此时，可以以用户能够指定检索词的字符串中的输出近义词的字符串的方式进行。即，不输出针对检索词所包含的全部的基准词的近义词，检索装置2仅针对与由用户指定的字符串一致的基准词输出近义词。若具体地进行说明，例如，在输入的检索词是“世界上最大岛屿”这个字符串的情况下，若在近义词列表900内登记有“世界”、“最大”“岛屿”这些基准词，则若输出针对检索字符串所包含的这3个基准词的全部的近义词，则想象输出的近义词的数量会变得过多的情况。因此，通过仅对用户指定的字符串输出近义词，能够防止输出变得过于繁琐。

或检索装置2可以预先对输出的近义词的个数设置上限值，仅按照设定的等级较从高到低的顺序输出达到上限值的个数的近义词。由此，能够防止因对应于和输入的检索词一致或者所包含的基准词的近义词的个数多而输出变得繁琐的状况。

此外，当然作为预先具备的近义词列表的生成装置以及使用了该近义词列表的检索装置能够提供用于实现本发明的功能的构成，也能够通过应用程序，使现有的个人计算机、信息终端设备等作为本发明的生成装置以及检索装置而发挥功能。即，通过以现有的个人计算机、对信息终端设备等进行控制的CPU等能够执行的方式，应用用于实现基于上述实施方式中所例示的生成装置1以及检索装置2的各功能构成的生成程序或者检索程序，能够分别作为本发明的生成装置1以及检索装置2发挥功能。另外，本发明的近义词列表的生成方法以及使用了该近义词列表的检索方法分别使用生成装置1以及检索装置2来实施。

另外，该程序的应用方法任意，例如，除了能够存储在CD-ROM、DVD-ROM、存储卡片等计算机可读取的存储介质中进行应用外，例如，还能够经由网络等的通信介质进行应用。

Claims

1.一种近义词列表的生成方法，其特征在于，具备：

判定基准词和与其对应的近义词是否包含在包含成为检索对象的多个文档数据的文档数据组中的判定步骤；

对判定为包含在上述文档数据组中的基准词和近义词进行提取的提取步骤；

基于上述文档数据组中的该近义词和对应的基准词的至少一方的出现状况，设定上述提取出的近义词的输出优先级的设定步骤；以及

针对上述提取出的基准词，以设定了上述输出优先级的近义词与该基准词对应的方式来生成近义词列表的生成步骤。

2.根据权利要求1所述的近义词列表的生成方法，其特征在于，

在上述设定步骤中，识别同时包含该近义词和对应的基准词的文档数据的个数，基于该识别出的个数，对上述提取出的近义词设定输出优先级。

3.根据权利要求1所述的近义词列表的生成方法，其特征在于，

在上述设定步骤中，识别同时包含该近义词和对应的基准词的文档数据的个数，该识别出的个数越少，对上述提取出的近义词设定越高的输出优先级。

4.一种检索方法，其特征在于，

该检索方法是一种使用由如下近义词列表的生成方法生成的近义词列表的检索方法，其中，该近义词列表的生成方法具备如下步骤：判定基准词和与其对应的近义词是否包含在包含成为检索对象的多个文档数据的文档数据组中的判定步骤；对判定为包含在上述文档数据组中的基准词和近义词进行提取的提取步骤；基于上述文档数据组中的该近义词和对应的基准词的至少一方的出现状况，设定上述提取出的近义词的输出优先级的设定步骤；以及，针对上述提取出的基准词，以设定了上述输出优先级的近义词与该基准词对应的方式来生成近义词列表的生成步骤，

该检索方法具备：

从上述文档数据组中，确定出包含有所希望的检索字符串的文档数据的文档确定步骤；

输出上述确定出的文档数据的文档输出步骤；

判定上述近义词列表所具有的基准词是否包含在上述检索字符串中的基准词判定步骤；以及

将与判定为包含在上述检索字符串中的基准词对应的近义词，以与对该近义词设定的输出优先级对应的方式进行输出的近义词输出步骤。

5.根据权利要求4所述的检索方法，其特征在于，

在上述基准词判定步骤中，判定上述近义词列表所具有的基准词是否包含于上述检索字符串中的用户指定的字符串，

在上述近义词输出步骤中，将与判断为包含在上述用户指定的字符串中的基准词对应的近义词，以与对该近义词设定的输出优先级对应的方式来进行输出。

6.一种近义词列表的生成装置，其特征在于，具备：

判定单元，其对基准词和与其对应的近义词是否包含在包含成为检索对象的多个文档数据的文档数据组中进行判定；

提取单元，其对判定为包含在上述文档数据组中的基准词和近义词进行提取；

设定单元，其基于上述文档数据组中的该近义词和对应的基准词的至少一方的出现状况，设定上述提取出的近义词的输出优先级；以及

生成单元，其针对上述提取出的基准词，以设定了上述输出优先级的近义词与该基准词对应的方式来生成近义词列表。

7.根据权利要求6所述的近义词列表的生成装置，其特征在于，

在上述设定单元中，识别同时包含该近义词和对应的基准词的文档数据的个数，基于该识别出的个数设定上述提取出的近义词的输出优先级。

8.根据权利要求6所述的近义词列表的生成装置，其特征在于，

在上述设定单元中，识别同时包含该近义词和对应的基准词的文档数据的个数，该识别出的个数越少，对上述提取出的近义词设定越高的输出优先级。

9.一种检索装置，其特征在于，

该检索装置是一种使用由如下近义词列表的生成方法生成的近义词列表的检索装置，其中，该近义词列表的生成方法具备如下步骤：判定基准词和与其对应的近义词是否包含在包含成为检索对象的多个文档数据的文档数据组中的判定步骤；对判定为包含在上述文档数据组中的基准词和近义词进行提取的提取步骤；基于上述文档数据组中的该近义词和对应的基准词的至少一方的出现状况，设定上述提取出的近义词的输出优先级的设定步骤；以及，针对上述提取出的基准词，以设定了上述输出优先级的近义词与该基准词对应的方式来生成近义词列表的生成步骤，

该检索装置具备：

文档确定单元，该文档确定单元从上述文档数据组中确定出包含所希望的检索字符串的文档数据；

文档输出单元，该文档输出单元输出上述确定出的文档数据；

基准词判定单元，该基准词判定单元判定上述近义词列表所具有的基准词是否包含在上述检索字符串中；以及

近义词输出单元，该近义词输出单元将与判定为包含在上述检索字符串中的基准词对应的近义词，以与对该近义词设定的输出优先级对应的方式进行输出。

10.根据权利要求9所述的检索装置，其特征在于，

在上述基准词判定单元中，判定上述近义词列表所具有的基准词是否包含在上述检索字符串中的用户指定的字符串中，

在上述近义词输出单元中，将与判断为包含在上述用户指定的字符串中的基准词对应的近义词，以与对该近义词设定的输出优先级对应的方式来进行输出。