CN111143708A

CN111143708A - 搜索装置、搜索方法、搜索程序以及记录介质

Info

Publication number: CN111143708A
Application number: CN201910766146.XA
Authority: CN
Inventors: 出口悟; 中西健太; 金鑫
Original assignee: Toyota Motor Corp; Toyota Mapmaster Inc
Current assignee: Toyota Motor Corp; Toyota Mapmaster Inc
Priority date: 2018-11-02
Filing date: 2019-08-19
Publication date: 2020-05-12
Also published as: US20200143159A1; JP6832322B2; US11182605B2; JP2020071839A

Abstract

提供从未判定的文档组中确定POI名称的搜索装置。该搜索装置具备：存储部，其对学习了与POI的有无相关的上下文的POI有无学习模型、学习了与POI的状态相关的上下文的POI状态学习模型和学习了与POI名称相关的特征的POI名称学习模型进行存储；接受部，其接受判定对象的第1文档组；第1判定部，其用POI有无学习模型对第1文档组的各文档判定与POI相关的信息的有无；第2判定部，其用POI状态学习模型，对第1文档组中的被第1判定部判定为存在POI的第2文档组的各文档，判定与POI的状态相关的信息；以及确定部，其用POI名称学习模型，从第2文档组中的被第2判定部判定了与POI的状态相关的信息的第3文档组的各文档，确定POI名称。

Description

搜索装置、搜索方法、搜索程序以及记录介质

技术领域

本发明涉及能够从各种信息中获取与POI有关的名称的搜索装置、搜索方法、搜索程序以及记录有该程序的记录介质。

背景技术

以往，在用于进行车辆导航的导航系统所利用的地图中，展示有各种POI的信息。这种POI的信息基本上一般是通过制作导航系统的操作者来进行输入。然而，该工作很繁琐。因此，专利文献1公开如下技术：在被发布(投稿)到社交网站的发布数据是与预先存储有的多个设施不同的情况下，使用该发布数据来新登记该设施数据。另外，专利文献2中，公开了如下技术：从各用户发布的微博(Micro blog)选择表示设施等场所特征的特征词。

现有技术文献

专利文献

专利文献1：日本特开2013-097758号公报

专利文献2：日本特开2017-091436号公报

发明内容

发明欲解决的技术问题

然而，在上述专利文献1、专利文献2记载的技术中，存在如下问题：在确定POI名称时，确定的精度还不够。另外，在从自然语言文本自动提取特定领域的固有表达时，由于固有表达在各领域是每天变化的，所以在对各种领域制作专业的词典的基础上进行信息提取是不现实的。

因此，为了解决上述那样的问题，本发明的目的是提供一种能够比现有技术更精确地搜索目标信息的搜索装置、搜索方法以及搜索程序。

用于解决问题的技术手段

为了解决上述问题，本发明的一个方案所涉及的搜索装置具备：存储部，该存储部对学习了与POI的有无相关的上下文的POI有无学习模型、学习了与POI的状态相关的上下文的POI状态学习模型和学习了与POI名称相关的特征的POI名称学习模型进行存储；接受部，该接受部接收判定对象的第1文档组；第1判定部，该第1判定部用POI有无学习模型对第1文档组的各文档判定与POI相关的信息的有无；第2判定部，该第2判定部用POI状态学习模型，对第1文档组中的被第1判定部判定为存在POI的第2文档组的各文档，判定与POI的状态相关的信息；以及确定部，该确定部用POI名称学习模型从第2文档组中的被第2判定部判定了与POI的状态相关的信息的第3文档组的各文档，确定POI名称。

为了解决上述问题，本发明的一个方案所涉及的搜索方法中，能够访问对学习了与POI的有无相关的上下文的POI有无学习模型、学习了与POI的状态相关的上下文的POI状态学习模型和学习了与POI名称相关的特征的POI名称学习模型进行存储的存储部的计算机执行以下步骤：接收步骤，在该接收步骤中接收判定对象的第1文档组；第1判定步骤，在该第1判定步骤中，使用POI有无学习模型来对第1文档组的各文档判定与POI相关的信息的有无；第2判定步骤，在该第2判定步骤中，使用POI状态学习模型，对第1文档组中的被第1判定步骤判定为存在POI的第2文档组的各文档，判定与POI的状态相关的信息；以及确定步骤，在该确定步骤中，使用POI名称学习模型，从第2文档组中的被第2判定步骤判定了与POI的状态相关的信息的第3文档组的各文档，确定POI的名称。

为了解决上述问题，本发明的一个方案所涉及的搜索程序中，能够访问对学习了与POI的有无相关的上下文的POI有无学习模型、学习了与POI的状态相关的上下文的POI状态学习模型和学习了与POI名称相关的特征的POI名称学习模型进行存储的存储功能的计算机实现以下功能：接收功能，该接收功能接收判定对象的第1文档组；第1判定功能，该第1判定功能使用POI有无学习模型来对第1文档组的各文档判定与POI相关的信息的有无；第2判定功能，该第2判定功能使用POI状态学习模型，对第1文档组中的被第1判定功能判定为存在POI的第2文档组的各文档，判定与POI的状态相关的信息；以及确定功能，该确定功能使用POI名称学习模型，从第2文档组中的被第2判定功能判定了与POI的状态相关的信息的第3文档组的各文档，确定POI的名称。

在上述搜索装置中，可以是，POI有无学习模型基于由用于学习单词的特征的文档创建的单词特征向量模型和判定了POI的有无的多个文档组来创建。

在上述搜索装置中，可以是，POI有无学习模型是基于从判定了POI的有无的多个文档组中提取的文档的特征向量和由单词特征向量模型所示的特征向量，按照预定的算法，学习了POI的有无判定的模型。

在上述搜索装置中，可以是，POI状态学习模型基于单词特征向量模型和判定了与POI的状态相关的信息的多个文档组来创建。

在上述搜索装置中，可以是，POI状态学习模型是基于从判定了与POI的状态相关的信息的多个文档组中提取的文档的特征向量和由单词特征向量模型所示的特征向量，按照预定的算法，学习了与POI的状态相关的信息的判定的模型。

在上述搜索装置中，可以是，POI名称学习模型基于单词特征向量模型和确定了POI的名称的多个文档组来创建。

在上述搜索装置中，可以是，POI名称学习模型是基于从确定了POI的名称的多个文档组中提取的文档的特征向量和由单词特征向量模型所示的特征向量，按照预定的算法，学习了POI的名称的确定的模型。

发明效果

本发明的一个方面涉及的搜索装置能够比现有技术更精确地确定POI名称。

附图说明

图1是示出搜索装置的功能构成例的框图。

图2是示出搜索装置所进行的搜索以及学习的处理的示意图。

图3是示出单词特征向量模型的创建处理的流程图。

图4是示出POI有无学习模型的创建处理的流程图。

图5是示出POI状态学习模型的创建处理的流程图。

图6是示出POI名称学习模型的创建处理的流程图。

图7是示出POI名称判定处理的流程图。

图8是示出搜索装置的其他构成例的框图。

符号说明

100 搜索装置

101 接受部

102 接收部

103 输出部

104 存储部

105 CPU(第1判定部、第2判定部、确定部、学习部)

具体实施方式

以下，参照附图，对本发明的一个实施方式涉及的搜索装置进行详细说明。

<实施方式>

<搜索装置的构成>

本发明的一个方案所涉及的搜索装置具备：存储部(参照图1的104)，其存储：学习了与有无POI相关的上下文的POI有无学习模型(参照图1的141)、学习了与POI状态相关的上下文的POI状态学习模型(参照图1的142)以及学习了与POI名称相关的特征的POI名称学习模型(参照图1的143)；接受部，其接收判定对象的第1文档组(参照图1的101、102)；第1判定部，其使用POI有无学习模型来对第1文档组的各文档判定有无POI相关信息(参照图1的105)；第2判定部，其对第1文档组中的被第1判定部判定为有POI的第2文档组的各文档使用POI状态学习模型来判定POI状态相关信息(参照图1的105)；以及确定部，其使用POI名称学习模型，根据第2文档组中的被第2判定部判定了与POI状态相关的信息的第3文档组的各文档来确定POI名称(参照图1的105)。

此处POI(Points Of Interest，兴趣点)是指被认为用户感兴趣的位置、设施等。

图1是示出搜索装置100的功能构成例的框图。如图1所示，搜索装置100具备：接受部101、收信部102、输出部103、存储部104以及CPU 105。

作为一个例子，针对导航系统所使用的地图中包含的各种POI，搜索装置100从各种文档信息获取与POI的名称相关的信息。搜索装置100通过获取POI名称，从而对于应该登记在地图信息的POI，操作者不进行该搜索也可，所以能够减少操作者的处理。以下，对搜索装置100的各功能部详细地说明。

接受部101具有接受来自搜索装置100的使用者的输入并向CPU105传递的功能。接受部101例如能够利用搜索装置100所具备的硬件键、触摸键等软键盘等实现。接受部101例如从操作者接受成为判定是否包含POI的对象的文档信息的输入。接受部101将表示接受到的输入内容的文档信息传递到CPU 105。需要说明的是，对接受部101的输入也可以是利用声音进行的输入。在利用声音进行输入的情况下，作为一个例子，也可以是以操作者读出包含POI的信息在内的文档的形式来输入。

接收部102是具有利用通信从其他装置接收信息的功能的通信接口。接收部102从外部装置接收各种文档。接收部102将接收到的各种信息向CPU 105传递。作为接收部102接收的各种信息，可以有如下文档数据：用于学习单词特征向量的文档、判定了POI有无的文档、判定了POI状态的文档、判定了POI名称的文档、成为判定POI名称的对象的文档等。

接受部101和接收部102作为接受判定对象的文档组(第1文档组)的输入的接受部而发挥功能。

用于学习单词特征向量的文档是指，在将各种单词的特征向量化时，成为其基础的信息，例如可以是维基百科、各种电子词典中包含的文档。

判定了POI有无的文档是指，人(例如操作者)阅读文档而判定出是否存在POI的文档，并且是包含文档的内容和表示是否有POI的信息(也可以称为标签、标志等)在内的信息。判定了POI有无的文档包括：判定为存在POI相关的记载的文档和判定为不存在POI相关的记载的文档这两者。作为一个例子，“**店在东京新开业”这种文档是包含POI的文档，而“日本柔道选手**获得金牌！”这种文档是不包含POI的文档。

判定了POI状态的文档是指，人(例如、操作者)阅读文档而判定是否存在与POI状态相关的叙述，另外，是在存在该叙述的情况下判定了其状态是什么样的状态的文档，并且是包括文档的内容和表示判定了POI状态的信息(也可以称为标记、标签等，是表示有无与状态相关的叙述和该状态是什么状态的信息)在内的信息的文档。判定了POI状态的文档中也可以包含判定为不存在与POI状态相关的记载的文档。另外，POI状态是指，表示针对该POI的任何状态的信息，例如新店开业、营业中、重装开业、转让、闭店这样的内容。若是上述的“**店在东京新开业”这种文档的情况下，判定为包含“开业”这种状态的文档，“开业”这种信息被标记。

判定了POI名称的文档是指，人(例如操作者)阅读文档而判定了是否存在POI名称，另外，在存在该POI名称的情况下判定了其名称是什么的文档，并且是包括文档的内容和表示出判定了POI名称的信息(也可以称为标记、标签等，是示出有无与名称相关的叙述和该名称是什么的信息)在内的信息。判定了POI名称的文档中也可以包含判定为不存在与POI名称相关的记载的文档。若是上述“**店在东京新开业”这个文档的情况下，“**店”被判定为POI名称。

输出部103具有按照来自CPU 105的指示来输出已指示的数据的功能。输出部103作为对外部的装置输出由CPU 105指定的信息的通信接口来发挥功能。输出部103例如能够向显示器、扬声器等外部装置输出数据。输出部103例如将CPU 105从文档中发现的表示POI名称的信息输出。

存储部104是存储包含搜索装置100工作所需要的各种程序以及地图信息在内的各种数据的存储介质。存储部104例如利用HDD(Hard Disc Drive，硬盘驱动器)、SSD(SolidState Drive，固态硬盘)等实现。存储部104存储有：POI有无学习模型141、POI状态学习模型142、POI名称学习模型143以及单词特征向量模型144。这些模型可以预先存储在存储部104，也可以是将搜索装置100作为学习结果而得到的模型存储后的模型。

POI有无学习模型141是学习了文档中是否包含POI信息(机器学习、深度学习)的模型，其接收未判定是否包含POI的文档数据的输入，并用于判定文档中是否包含POI。POI有无学习模型141也可以说是将与有无POI相关的上下文的特征数字化后的信息。

POI状态学习模型142是学习(机器学习、深度学习)了文档中是否包含POI状态、而且学习了该状态是什么样的状态的模型，该模型用于接受未判定POI状态的文档数据的输入并判定文档中是否存在示出POI状态的信息，在存在该信息的情况下判定该状态是什么状态。POI状态学习模型142也可以说是将与POI状态相关的上下文的特征数值化而得到的信息。

POI名称学习模型143是学习(机器学习、深度学习)了文档中是否包含POI名称、而且学习了该名称是什么的模型，其用于接受未判定POI名称的文档数据的输入，并判定文档是否包含POI名称，在包含POI名称的情况下判定该名称是什么。POI名称学习模型143也可以说是将与POI名称有关的特征以单词为单位进行数值化而得到的信息。

单词特征向量模型144是示出各种单词具有怎样的特征的信息。单词特征向量模型144是将单词的使用方法数值化而得到的信息。

CPU 105是利用存储部104中存储有的各种程序以及各种数据，来执行搜索装置100应执行的处理的处理器。

CPU 105作为第1判定部来发挥功能，该第1判定部将接受部101或接收部102接受到的成为判定对象的文档(第1文档组)作为输入，使用POI有无学习模型141，来判定有无与POI相关的信息。

另外，CPU 105作为第2判定部发挥功能，该第2判定部将第1文档组中的视为包含与POI相关的信息的第2文档组作为输入，使用POI状态学习模型142，来判定与POI状态相关的信息。

而且，CPU 105作为确定部来发挥功能，该确定部将第2文档组中的判定为与POI状态相关的信息的第3文档组作为输入，使用POI名称学习模型143，来确定POI名称。

进一步地，CPU 105也可以作为用于制作各种学习模型的学习部来发挥功能。

CPU 105能够学习并生成POI有无学习模型141，该POI有无学习模型将已判定有无POI的文档数据组作为输入而将与POI有无相关的上下文的特征数值化。CPU 105将已学习的POI有无学习模型141存储在存储部104。

CPU 105能够学习并生成POI状态学习模型142，该POI状态学习模型将判定了POI状态的文档数据组作为输入而将与POI状态相关的上下文的特征数值化。CPU 105将已学习的POI有无学习模型141存储在存储部104。

CPU 105能够学习并生成POI名称学习模型143，该POI名称学习模型将已判定了POI名称的文档数据组作为输入而将与POI名称相关的特征数值化。CPU 105将已学习的POI名称学习模型143存储在存储部104。

CPU 105能够学习并生成单词特征向量模型144，该单词特征向量模型将用于学习单词特征向量的文档数据组作为输入而针对各单词地将各文档内的单词使用方法数值化。CPU 105将已学习的单词特征向量模型144存储在存储部104。作为用于学习单词特征向量的文档数据，作为一个例子，可以利用维基百科、电子词典等的记载。

以上是搜索装置100的构成例。

<搜索装置所进行的学习和判定的图像>

图2是示出利用搜索装置100进行的学习、利用了学习结果的判定流程、已学习的模型的利用方法的示意图。在图2中，用点划线围起的范围内的处理相当于学习处理，用虚线围起的区域内的处理相当于判定处理。需要说明的是，用虚线围起的区域内的处理相当于学习处理的预处理。

如图2所示，对用于学习单词特征向量的文档的输入进行词素解析，并且学习单词的特征向量，从而能够生成单词特征向量模型144。如图2所示，单词特征向量模型144可以用在POI有无的学习、POI状态的学习、POI名称的学习中的任何阶段。需要说明的是，用于学习单词特征向量的文档是指，作为一个例子，可以使用电子词典、网上的维基百科等信息。

另外，对完成POI有无判定的指导训练数据，搜索装置100在进行词素解析、文档规范化、文档的特征向量生成等预处理的基础上，通过学习有无POI，从而能够生成POI有无学习模型141。如图2所示，POI有无学习模型141在进行POI有无判定处理时被使用。需要说明的是，完成POI有无判定的指导训练数据是指，该文档中是否包含与POI有关的信息已经通过人工判定了的信息的数据。

另外，搜索装置100能够对完成POI状态判定的指导训练数据，在进行词素解析、文档规范化、文档的特征向量生成等预处理的基础上，学习POI状态，从而生成POI状态学习模型142。如图2所示，POI状态学习模型142在进行POI状态判定处理时被使用。需要说明的是，完成POI状态判定的指导训练数据是指，该文档中是否包含与POI状态相关的信息已利用人工进行判定的信息的数据，而且是将表示状态的信息标签化的信息的数据。另外，POI状态是指，能够确定该POI状态的状态信息(有时也被称为标签信息)，例如相当于“开业”、“转让”、“停业”、“闭店”、“关闭”、“装修”这样的信息，并将这些信息标签化。

进一步，搜索装置100对完成POI名称判定的指导训练数据，在进行了词素解析、文档规范化、文档的特征向量生成等预处理的基础上，学习POI名称，从而能够生成POI名称学习模型143。如图2所示，POI名称学习模型143在进行POI名称判定处理时被使用。需要说明的是，完成POI名称判定的指导训练数据是指，针对该文档已确定了POI名称的信息，而且是该文档和示出已确定的POI名称是什么的信息。

而且，在确定POI名称时，如图2所示，搜索装置100接受判定对象的文档(第1文档组)的输入，并且首先针对该第1文档组的各文档，使用POI有无学习模型141来判定是否与POI相关。然后，判定的结果为，得到带POI有无判定标记的文档。

接着，搜索装置100对判定对象的文档(第1文档组)中的在POI的有无中被判定为存在POI的文档组(第2文档组)，用POI状态学习模型142来判定POI状态。判定POI状态，作为将该状态作为标记而添加的带POI状态判定标记的文档(第3文档组)。

而且，在进行了两阶段筛选的基础上，搜索装置100进行用于确定作为目标的POI名称的处理。如图2所示，搜索装置100使用POI名称学习模型143根据带POI状态判定标记的文档(第3文档组)来判定POI名称。而且，将判定结果得到的POI名称作为POI名称确定数据而存储在存储部104。

由此，搜索装置100的操作者由于尽管自身未阅读所有的判定对象的文档即第1文档组，也能够确定POI名称，所以仅需在之后对该已确定的POI名称判定是否登记在地图信息中即可。需要说明的是，当然地，搜索装置100也可以自身将用POI名称确定数据示出的POI登记到地图信息中。这时，也可以将针对判定出的状态的信息也一起作为标签信息，对应地登记。

以下，对各处理进行更详细说明。

<搜索装置的工作>

图3是示出利用搜索装置100进行的创建单词特征向量模型144的处理的流程的流程图。

如图3所示，搜索装置100的接收部102接收用于学习单词特征向量的文档数据(例如，维基百科、电子辞典的数据)，即，接受文档数据的输入(步骤S301)。接收部102将接受到的文档数据向CPU105传递。

CPU 105对传递来的文档分别进行词素解析，并分解成词素(要素)(步骤S302)。

CPU 105对通过词素解析而得到的各单词学习单词特征向量(步骤S303)。在该学习时，作为一个例子，可以利用fasttext。fasttext是用于支持单词向量化和文本分类的机器学习的图书馆(神经网络)。需要说明的是，fasttext仅仅是一个例子，也可以使用其它方法进行学习。

之后，CPU 105生成处于将学习得到的单词的使用方法数值化后的状态的单词特征向量模型144，并存储在存储部104(步骤S304)。

以上是对单词特征向量模型144的学习(生成)的处理所涉及的说明。

图4是示出利用搜索装置100进行的创建POI有无学习模型141的处理的流程的流程图。

搜索装置100的接收部102接收判定了有无POI的文档，即接受判定了有无POI的指导训练数据的输入(步骤S401)。接收部102将接受到的文档向CPU 105传递。

对于判定了有无POI的文档，CPU 105执行词素解析以及文档的规范化(步骤S402)。词素解析是指解析文档并分解成词素(要素)，文档的规范化是指对文档中单词使用(表达的波动)进行纠正(或者将存在波动的单词识别为同一个单词)、或者整理为适合文档的特征向量生成的形式。

CPU 105由词素解析、通过文档的规范化而得到的单词以及单词特征向量模型144来生成判定了有无POI的各文档的特征向量(步骤S403)。CPU 105可以利用fasttext来生成判定了有无POI的各文档的特征向量。

之后，根据已生成的特征向量来学习POI有无判定(步骤S404)。判定有无POI例如可以利用随机森林来进行判定。

随机森林是机器学习的一种算法，由随机抽取的指导训练数据的组合来创建预先确定的个数(例如千种)的判定用的模型。而且，随机森林是在判定时通过使用了已创建的所有判定用的模型的判定结果的多数表决来得到最终的判定结果的学习模型。因此，随机森林也能够从各学习(判定)模型概率地输出对文档的判定结果。例如，已判定为包含POI信息的模型在1000个模型中有880个的情况下，可以判定为包含POI信息，也可以判定为包含POI信息的可能性(包含的概率)为88％。

因此，在步骤S404的情况下，从步骤S403中生成的特征向量中随机选出预定数的特征向量，并生成模型。而且，将创建了预定数(例如1000)该模型的情况作为学习模型(POI有无学习模型141)。

CPU 105将学习而得到的POI有无学习模型141存储在存储部104(步骤S405)。

以上，是POI有无学习模型141的处理所涉及的说明。

图5是示出利用搜索装置100进行的创建POI状态学习模型142的处理的流程的流程图。

搜索装置100的接收部102接收判定了POI状态的文档，即接受判定了POI状态的指导训练数据的输入(步骤S501)。接收部102将接受到的文档向CPU 105传递。

CPU 105对于被传递到的文档执行词素解析以及文档的规范化(步骤S502)。

CPU 105根据通过词素解析和文档的规范化而得到的单词以及单词特征向量模型144来生成判定了POI状态的各文档的特征向量(步骤S503)。CPU 105例如可以利用fasttext来形成判定了POI状态的各文档的特征向量。

CPU 105从已生成的特征向量来学习POI状态判定(步骤S504)。学习POI状态判定例如可以利用随机森林来进行学习。

CPU 105将学习而得到的POI状态学习模型142存储在存储部104(步骤S505)，并结束处理。

图6是示出利用搜索装置100进行的创建POI名称学习模型143的处理的流程的流程图。

搜索装置100的接收部102接收判定了POI名称的文档，即接受判定了POI名称的指导训练数据的输入(步骤S601)。接收部102将接受到的文档向CPU 105传递。

CPU 105对于被传递到的文档执行词素解析以及文档的规范化(步骤S602)。

CPU 105根据通过词素解析和文档的规范化而得到的单词以及单词特征向量模型144来生成判定了POI名称的各文档的特征向量(步骤S603)。CPU 105例如可以利用fasttext来生成判定了POI状态的各文档的特征向量。

CPU 105从已生成的特征向量来学习POI名称判定(步骤S604)。学习POI名称判定例如可以利用随机森林来进行学习。

CPU 105将学习而得到的POI名称学习模型143存储在存储部104(步骤S605)，并结束处理。

以上，通过图3～图6所示的流程，能够生成各种学习模型。需要说明的而是，POI有无学习模型141、POI状态学习模型142、POI名称学习模型143由于在其创建中利用了随机森林，所以可以说是多个模型的集合。

图7是示出对未判定POI名称的文档进行判定的处理的流程的流程图。即，图7是确定搜索装置100所收集的各种信息中是否包含POI名称，并且在包含POI名称的情况下确定该名称是什么的处理。

如图7所示，搜索装置100的接收部102接收判定对象的文档组(第1文档组)。即，接收部102将未判定POI名称的文档作为判定对象的文档而接受输入(步骤S701)。接收部102将接收到的判定对象的文档组向CPU 105传递。此处，接收部102所接收的判定对象的文档组只要是可能包含与各种POI名称相关的记载的数据，则可以是来自例如推特(注册商标)、博客、网络信息等任何媒体的文档组(数据)。另外，为此搜索装置100也可以具备获取部，该获取部随机收集网络上公开的数据，并作为判定对象的文档组而输入。

CPU 105对从接收部102传递来的判定对象的文档组(第1文档组)中包含的各文档执行词素解析以及文档的规范化(步骤S702)。

之后，CPU 105对各文档利用fasttext生成该文档的特征向量(步骤S703)。

之后，使用已生成的特征向量和POI有无学习模型141，而利用随机森林来对各文档判定有无与POI相关的信息(步骤S704)。即，针对第1文档组的各文档，将针对各文档而生成的特征向量作为输入，进行利用构成POI有无学习模型141的各模型所进行的判定，来判定POI的有无。对判定为存在POI的文档，作为添加有示出存在POI的标记的带POI有无判定标记文档(第2文档组)存储在存储部104。另一方面，对判定为不存在POI的文档，也可以作为标注有示出不存在POI的标记的带POI有无判定标记的文档，存储在存储部104。

在判定POI有无之后，CPU 105对这些带POI有无判定标记的文档(第2文档组)，使用文档的特征向量和POI状态学习模型142来判定POI状态(步骤S705)。即，针对第2文档组的各文档，将针对该文档而生成的特征向量作为输入，进行利用构成POI状态学习模型142的各模型所进行的判定，来判定POI状态。对判定了POI状态的文档，作为标注了示出POI状态内容的标记的带POI状态判定标记的文档(第3文档组)存储在存储部104。对于判定为不存在针对POI状态的信息的文档，作为标注有不存在针对POI状态的信息的标记的带POI状态判定标记的文档而存储在存储部104。需要说明的是，标注与POI状态相关的标记是指标注例如“开业”、“转让”、“闭店”这样内容的信息。

而且，CPU 105对带POI状态判定标记的文档(第3文档组)使用文档的特征向量和POI名称学习模型143来确定POI名称(步骤S706)。CPU 105将作为判定结果而得到的POI名称登记到地图信息中(步骤S707)，并结束处理。

需要说明的是，此处，虽然列举了将已确定的POI名称登记到地图信息中的情况，但是也可以是已确定的POI名称存储在存储部104就结束、或者经由输出部103而将POI信息输出到外部的装置例如显示器等而由操作者进行确认。另外，也可以不只是将POI名称登记到地图信息中，而是将针对该确定的POI的状态等与POI相关的信息也一并登记。

<总结>

根据本实施方式所涉及的搜索装置100，首先，事前，在确定POI名称时，判定判定对象的文档组的各文档最初是否包含POI信息。将被判定为不包含POI信息的文档排除。之后，在此基础上，进一步判定是否包含与POI状态相关的信息。将不包含与POI状态相关的信息的文档排除。从而，像这样分两阶段将判定对象的文档过滤后，即，对被判定为包含与POI相关的信息而且被判定为包含POI的状态相关的信息的文档，确定POI名称。通过预先用与POI相关的事项进行2次筛选，从而提高了POI名称被包含在判定对象的文档的准确度，然后再进行确定POI名称的判定，因此，能够比现有技术更精确地确定POI名称。另外，通过标注与状态相关的标记，从而作为POI，能够向操作者提供应该向地图信息登记还是应该从地图信息删除的判定材料。

<补充>

上述实施方式所涉及的搜索装置不限定于上述实施方式，不言自明，也可以通过其他方法来实现。以下，对各种变形例进行说明。

(1)在上述实施方式中，作为用于确定POI名称的方法进行说明，但是上述实施方式所示的搜索装置能够搜索的信息不限于POI名称。搜索装置100最终想确定的信息(上述实施方式中为POI名称)是哪种信息都可以，例如可以是人物名、组织名、观光地名等，也可以进行从大量的数据中搜索(提取)特定信息的处理。

例如，若是搜索人物名的话，则替换POI有无学习模型而生成已学习了有无人物名的模型，替换POI状态学习模型而生成已学习了人物的状态(例如、表征人物的外观、行动、嗜好等)的模型，并且，生成学习了人物名的模型。并且，对判定对象的文档组(第1文档组)，首先用已学习了有无人物名的模型来确定包含有人物名的文档(第2文档组)，进一步地，对第2文档组用已学习了人物的状态的模型来判定人物的状态。而且，最后，用已学习了人物名的模型来从能够判定人物的状态的文档(第3文档组)确定人物名。

另外，例如，若是搜索组织名的话，则替换POI有无学习模型而生成已学习了有无组织名的模型，替换POI状态学习模型而生成已学习了组织的状态(例如、表征组织的声誉、组织所从事的事业等)的模型，并且，生成学习了组织名的模型。并且，对判定对象的文档组(第1文档组)首先用已学习了有无组织名的模型来确定包含有组织名的文档(第2文档组)，进一步地，在第2文档组用已学习了组织的状态的模型来判定组织的状态。而且，最后，用已学习了组织名的模型来从已判定了组织的状态的文档(第3文档组)确定组织名。

如此，搜索装置100在提取特定的信息时，首先用与该特定信息相关联的其他事项来进行2阶段过滤，从而能够提高特定信息的提取精度。另外，由于操作者不需要事先准备专用的词典，所以搜索装置100能够减少操作者的工时。

(2)在上述实施方式中，作为从搜索装置的文档中搜索POI名称的方法，通过搜索装置的处理器来执行搜索程序等从而进行搜索，但是也可以在装置中利用被形成在集成电路(IC(Integrated Circuit，集成电路)芯片、LSI(Large Scale Integration，大规模集成电路))等中的逻辑电路(硬件)、专用电路来实现。另外，可以是这些电路利用1个或多个集成电路来实现，也可以是上述实施方式所示的多个功能部利用1个集成电路来实现。根据集成度的不同，LSI有时也被称为VLSI，超级LSI，超LSI等。即，如图8所示，搜索装置100可以构成为包含：接受电路101a、接收电路102a、输出电路103a、存储电路104a、控制电路105a，分别相当于接受部101、接收部102、输出部103、存储部104、CPU 105。

另外，上述搜索程序可以存储在能够读取程序的存储介质中，作为存储介质，可以使用“非暂时性有形介质”，例如磁带、磁盘、卡、半导体存储器、可编程逻辑电路等。另外，上述搜索程序可以经由任意能够传输该搜索程序的媒介(通信网络或广播波)来供给到上述的处理器。也就是说，例如可以是利用智能手机等信息处理设备从网络上下载搜索程序来执行的构成。本发明中，上述搜索程序利用电子传输来实施，也可以利用嵌入载波的数据信号的形式来实现。

需要说明的是，上述搜索程序例如可以使用ActionScript、JavaScript(注册商标)等脚本语言，Objective-C、Java(注册商标)、C++等面向对象的编程语言、HTML5等标记语言等来实现。

(3)上述实施方式所示的各种实施例、<补充>中所示的各种实施例可以适当组合。另外，各流程图所示的各动作，只要结果不矛盾，其执行顺序可以改变或同时执行。

Claims

1.一种搜索装置，其特征在于，具备：

存储部，所述存储部存储学习了与POI的有无相关的上下文的POI有无学习模型、学习了与所述POI的状态相关的上下文的POI状态学习模型和学习了与POI的名称相关的特征的POI名称学习模型；

接受部，所述接受部接受判定对象的第1文档组；

第1判定部，所述第1判定部用所述POI有无学习模型来对所述第1文档组的各文档判定有无与POI相关的信息；

第2判定部，所述第2判定部用所述POI状态学习模型，来对所述第1文档组中的被所述第1判定部判定为存在POI的第2文档组的各文档，判定与POI的状态相关的信息；以及

确定部，所述确定部用所述POI名称学习模型，来从所述第2文档组中的被所述第2判定部判定了与POI的状态相关的信息的第3文档组的各文档，确定POI的名称。

2.如权利要求1所述的搜索装置，其特征在于，

所述POI有无学习模型基于由用于学习单词的特征的文档创建的单词特征向量模型和判定了POI的有无的多个文档组来创建。

3.如权利要求2所述的搜索装置，其特征在于，

所述POI有无学习模型是基于从判定了所述POI的有无的多个文档组中提取的文档的特征向量和由所述单词特征向量模型所示的特征向量而按照预定的算法来学习了POI的有无判定的模型。

4.如权利要求2或3所述的搜索装置，其特征在于，

所述POI状态学习模型基于所述单词特征向量模型和判定了与POI的状态相关的信息的多个文档组来创建。

5.如权利要求4所述的搜索装置，其特征在于，

所述POI状态学习模型是基于从判定了与所述POI的状态相关的信息的多个文档组中提取的文档的特征向量和由所述单词特征向量模型所示的特征向量而按照预定的算法来学习了与POI的状态相关的信息的判定的模型。

6.如权利要求2～5中任一项所述的搜索装置，其特征在于，

所述POI名称学习模型基于所述单词特征向量模型和确定了POI的名称的多个文档组来创建。

7.如权利要求6所述的搜索装置，其特征在于，

所述POI名称学习模型是基于从确定了所述POI的名称的多个文档组中提取的文档的特征向量和由所述单词特征向量模型所示的特征向量而按照预定的算法来学习了POI的名称的确定的模型。

8.一种搜索方法，其特征在于，

能够访问对学习了与POI的有无相关的上下文的POI有无学习模型、学习了与所述POI的状态相关的上下文的POI状态学习模型和学习了与POI的名称相关的特征的POI名称学习模型进行存储的存储部的计算机执行以下步骤：

接受步骤，在所述接受步骤中接受判定对象的第1文档组；

第1判定步骤，在所述第1判定步骤中，使用所述POI有无学习模型来对所述第1文档组的各文档判定有无与POI相关的信息；

第2判定步骤，在所述第2判定步骤中，使用所述POI状态学习模型，来对所述第1文档组中的被所述第1判定步骤判定为存在POI的第2文档组的各文档，判定与POI的状态相关的信息；以及

确定步骤，在所述确定步骤中，使用所述POI名称学习模型，来从所述第2文档组中的被所述第2判定步骤判定了与POI的状态相关的信息的第3文档组的各文档，确定POI的名称。

9.如权利要求8所述的搜索方法，其特征在于，

10.如权利要求9所述的搜索方法，其特征在于，

11.如权利要求9或10所述的搜索方法，其特征在于，

12.如权利要求11所述的搜索方法，其特征在于，

13.如权利要求9～12中任一项所述的搜索方法，其特征在于，

14.如权利要求13所述的搜索方法，其特征在于，

15.一种存储搜索程序的存储介质，其特征在于，

所述存储搜索程序使能够访问对学习了与POI的有无相关的上下文的POI有无学习模型、学习了与所述POI的状态相关的上下文的POI状态学习模型和学习了与POI的名称相关的特征的POI名称学习模型进行存储的存储功能的计算机实现以下功能：

接受功能，所述接受功能接受判定对象的第1文档组；

第1判定功能，所述第1判定功能使用所述POI有无学习模型来对所述第1文档组的各文档判定有无与POI相关的信息；

第2判定功能，所述第2判定功能使用所述POI状态学习模型，来对所述第1文档组中的被所述第1判定功能判定为存在POI的第2文档组的各文档，判定与POI的状态相关的信息；以及

确定功能，所述确定功能使用所述POI名称学习模型，来从所述第2文档组中的被所述第2判定功能判定为与POI的状态相关的信息的第3文档组的各文档，确定POI的名称。

16.如权利要求15所述的存储介质，其特征在于，

17.如权利要求16所述的存储介质，其特征在于，

18.如权利要求16或17所述的存储介质，其特征在于，

19.如权利要求18所述的存储介质，其特征在于，

20.如权利要求16～19中任一项所述的存储介质，其特征在于，

21.如权利要求20所述的存储介质，其特征在于，