JP2011198162A - Representative notation extracting device, method, and program - Google Patents

Representative notation extracting device, method, and program Download PDF

Info

Publication number
JP2011198162A
JP2011198162A JP2010065375A JP2010065375A JP2011198162A JP 2011198162 A JP2011198162 A JP 2011198162A JP 2010065375 A JP2010065375 A JP 2010065375A JP 2010065375 A JP2010065375 A JP 2010065375A JP 2011198162 A JP2011198162 A JP 2011198162A
Authority
JP
Japan
Prior art keywords
token
string
facility
character strings
strings
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010065375A
Other languages
Japanese (ja)
Other versions
JP5090490B2 (en
Inventor
Tatsuo Yamashita
達雄 山下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2010065375A priority Critical patent/JP5090490B2/en
Publication of JP2011198162A publication Critical patent/JP2011198162A/en
Application granted granted Critical
Publication of JP5090490B2 publication Critical patent/JP5090490B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

PROBLEM TO BE SOLVED: To extract a suitable representative notation from a given group of character strings.SOLUTION: A plurality of given character strings are divided into tokens respectively. On all token arrays in which one or more tokens are directly connected to constitute all or a part of the character strings, the number of character strings including the token array out of the plurality of character strings is counted. The token array in which the counted number of character strings is a predetermined threshold or more, that is, the token array excluding the token array included in the other long token array out of the token array, is selected. The selected token array is output as the extracted result.

Description

本発明は、文字列処理に関する。   The present invention relates to character string processing.

近年、情報処理技術や通信技術の進展に伴い、ウェブ(WWW)上でサーバコンピュータを用いて提供される、各種のウェブサービスが急速に普及している。ウェブサービスを支える重要な技術分野として、商品名など文字列に関する情報の処理と、店舗など施設に関する情報の処理がある。   In recent years, with the progress of information processing technology and communication technology, various web services provided using a server computer on the web (WWW) are rapidly spreading. As important technical fields that support web services, there are processing of information on character strings such as product names and processing of information on facilities such as stores.

文字列に関しては、電子商取引などの各種サービスにおいて、商品名などの文字列を多数蓄積し、キーワードの抽出や検索に用いている。この種の分野では、文字列中の単語の頻度を計量し、その頻度を単語の「重み」に換算して自動的にキーワードを抽出する提案(例えば、特許文献1参照)や、係り受け解析を用いたキーワード抽出の提案(例えば、特許文献2参照)などがある。これらの従来技術は、記事などのコンテンツを一つ与えて、その特徴的なキーワードを抽出することに向いている。   Regarding character strings, in various services such as electronic commerce, many character strings such as product names are accumulated and used for keyword extraction and search. In this type of field, a proposal is made to measure the frequency of words in a character string, automatically convert the frequency to a word “weight” and automatically extract keywords (for example, see Patent Document 1), or dependency analysis. There is a proposal of keyword extraction using, for example (see Patent Document 2). These conventional technologies are suitable for extracting a characteristic keyword by giving one content such as an article.

また、店舗など施設の情報は、緯度経度などの位置に施設名やその関連情報を対応付けたもので、位置情報、施設情報、POI(Point Of Interest)などと呼ばれるが、本出願では主に「POI」と呼ぶこととする。POIを活用する例としては、ナビゲーションサービスやポータルサイトサービスその他のウェブサイトにおいて、場所と、業種などキーワードの入力を受け付け、POIを検索して地図上や一覧などの形でウェブ画面表示するサービスがある(例えば、非特許文献1参照)。この種のサービスでは、店舗などを表す施設情報(「POI」と呼ばれる)を予め記憶した地図データベースから、入力された場所とキーワードをクエリ(検索要求)としてPOIを検索した結果を表示している。   In addition, information on facilities such as stores is obtained by associating facility names and related information with positions such as latitude and longitude, and is called position information, facility information, POI (Point Of Interest), etc. It will be referred to as “POI”. As an example of utilizing POI, a navigation service, portal site service, and other websites accept keywords such as location and type of business, search for POI, and display a web screen in the form of a map or a list. Yes (see Non-Patent Document 1, for example). In this type of service, a POI search result is displayed from a map database prestored with facility information (referred to as “POI”) representing a store or the like using the input location and keyword as a query (search request). .

特開平08−30627号公報Japanese Patent Laid-Open No. 08-30627 特開2004−240576号公報JP 2004-240576 A 特開2002−340604号公報JP 2002-340604 A

ヤフー株式会社、「Yahoo!地域情報」、[online]、[2010年2月5日検索]、インターネット〈URL: http://local.yahoo.co.jp/>Yahoo Japan Corporation, "Yahoo! Local Information", [online], [Search February 5, 2010], Internet <URL: http://local.yahoo.co.jp/>

文字列の処理に関し、従来の技術(例えば、特許文献1及び2など)に存在していた課題は、同じ対象に関する互いに似通った文字列群から、それらを共通項的に言い表す文字列(本出願では「代表表記」と呼ぶこととする)を抽出したい潜在的需要に対し、そのような抽出の技術が存在しなかったことである。   Regarding the processing of character strings, the problems that existed in the prior art (for example, Patent Documents 1 and 2) are character strings that express them in common terms from a group of similar character strings related to the same object (this application) Then, we will call it “representative notation”), and there is no such extraction technique for the potential demand to extract.

例えば、テナント形式(モール形式)などと呼ばれるポータル電子商取引ウェブサイト(以下「ポータルECサイト」と呼ぶ)では、商品を一意に識別するJANコードなどでは同一となる商品であっても、複数の出店店舗(ショップ、ストア)が販売している場合、文字列として登録している商品名はストアにより異なることがある。このため、ある特定の同一商品を扱う複数の店舗を横断的に紹介する企画や、漏れのない検索を実現するには、同じ商品を言い表すのに適切な代表表記を抽出したい。しかし、そのような抽出を人手で行うことは負荷が大きく、取扱商品数の多いポータルECサイトでは困難が一層大きかった。
上記の課題に対し、本発明の目的は、与えられた文字列群から適切な代表表記を抽出する技術を提供することである。
For example, in a portal electronic commerce website (hereinafter referred to as “portal EC site”) called a tenant format (mall format) or the like, even if the product is the same in the JAN code that uniquely identifies the product, a plurality of store openings When a store (shop, store) sells, a product name registered as a character string may differ depending on the store. For this reason, in order to implement a plan that introduces a plurality of stores that handle a specific same product or to perform a search without omission, it is desirable to extract a representative notation suitable for expressing the same product. However, performing such extraction manually has a heavy load, and it has been more difficult for portal EC sites with a large number of products handled.
In view of the above problems, an object of the present invention is to provide a technique for extracting an appropriate representative notation from a given character string group.

一方、POIの処理に関し、従来の技術(例えば、非特許文献1など)に存在していた課題は、地図データベースにおいて複合施設を構成している施設の範囲を容易に特定できないことであった。   On the other hand, with respect to POI processing, a problem that has existed in the prior art (for example, Non-Patent Document 1) is that the range of facilities constituting a complex facility cannot be easily specified in the map database.

この前提として、まず、POIを検索する上記のようなサービス(例えば、非特許文献1など)において、入力された場所がビル名などの施設名称である場合、そのビル内のテナントのうちキーワードに合致するものを検索する意図と考えられる。しかし、このような場合、その施設名称と施設内のテナントがデータベース上で予め適切に関連付けられていないと、店舗名称に施設名を含むものしか表示されないなど、適切な検索結果が得られないという問題があった。   As a premise, first, in the service as described above for searching for POI (for example, Non-Patent Document 1), if the input location is a facility name such as a building name, the tenant in the building is used as a keyword. The intention is to search for a match. However, in such a case, if the facility name and the tenant in the facility are not properly associated in advance in the database, it will not be possible to obtain an appropriate search result, for example, only the facility name will be displayed in the store name. There was a problem.

この問題に関連し、POIに親子関係を設定し、親POIに子POIのリストを紐付けておき、ナビゲーションの目的地設定で親POIが選択されると、子POIリストを表示する提案もあるが(例えば、特許文献3参照)、この提案には親POIと子POIを関連付ける具体的手法の開示がなく、このような関連付けを手作業で行うことはサービス提供者などの負担が大きい。   In connection with this problem, there is also a proposal to display a child POI list when a parent-child relationship is set in the POI, a list of child POIs is linked to the parent POI, and the parent POI is selected in the destination setting of navigation. However, this proposal does not disclose a specific method for associating a parent POI and a child POI, and it is a burden on a service provider or the like to perform such association manually.

特に近年、「○○タウン」「○○ヒルズ」といった具合に、棟やエリアなど複数の施設が相互に一体化して大規模商業施設などの複合施設を構成する例が多い。この種の複合施設内の棟やエリアは互いに行き来が容易である。このため、テナントなどの検索において適切な検索結果を提示するには、データベース上、複合施設に含まれる複数の施設が互いに関連付けられている必要がある。しかし、このような複合施設はPOI数も多く、関連付けを手作業で行うことはサービス提供者にとって負担が大きいという課題があった。
上記の課題に対し、本発明の目的は、地図データベースにおいて複合施設を構成している施設の範囲を容易に特定することである。
In particular, in recent years, there are many cases where a plurality of facilities such as buildings and areas are integrated with each other to form a complex facility such as a large-scale commercial facility such as “XX Town” and “XX Hills”. Buildings and areas in this type of complex are easy to navigate. For this reason, in order to present an appropriate search result in a search for a tenant or the like, a plurality of facilities included in a complex facility must be associated with each other on the database. However, such a complex facility has a large number of POIs, and there is a problem that it is a heavy burden for a service provider to perform association manually.
In view of the above problems, an object of the present invention is to easily specify the range of facilities constituting a complex facility in a map database.

上記の目的をふまえ、本発明の一態様(A1)は、代表表記抽出装置であって、与えられた複数の文字列を、それぞれトークンに分割する分割手段と、一以上の前記トークンが直接連なって前記文字列の全部又は一部を構成する全てのトークン列について、前記複数の文字列の中で当該トークン列が含まれる文字列数をカウントするカウント手段と、カウントされた前記文字列数が所定の閾値以上又はより大きいトークン列であって、前記トークン列の中で他のさらに長いトークン列中に含まれるトークン列を除いたトークン列を選択するトークン選択手段と、選択されたトークン列を抽出結果として出力する結果出力手段と、を有することを特徴とする。   Based on the above object, one aspect (A1) of the present invention is a representative notation extraction apparatus, in which a plurality of given character strings are divided into tokens, and one or more tokens are directly connected. Counting means for counting the number of character strings including the token string in the plurality of character strings, and the counted number of character strings, for all token strings constituting all or part of the character string A token selection means for selecting a token string that is a token string that is greater than or equal to a predetermined threshold value, and excluding the token string included in another longer token string, and the selected token string; And a result output means for outputting as an extraction result.

上記態様を方法として捉えた他の態様(A5)は、代表表記抽出方法であって、与えられた複数の文字列を、それぞれトークンに分割する分割ステップと、一以上の前記トークンが直接連なって前記文字列の全部又は一部を構成する全てのトークン列について、前記複数の文字列の中で当該トークン列が含まれる文字列数をカウントするカウントステップと、カウントされた前記文字列数が所定の閾値以上又はより大きいトークン列であって、前記トークン列の中で他のさらに長いトークン列中に含まれるトークン列を除いたトークン列を選択するトークン選択ステップと、選択されたトークン列を抽出結果として出力する結果出力ステップと、をコンピュータが実行することを特徴とする。   Another aspect (A5) that captures the above aspect as a method is a representative notation extraction method, in which a plurality of given character strings are each divided into tokens, and one or more tokens are directly connected. For all token strings that constitute all or part of the character string, a counting step for counting the number of character strings including the token string in the plurality of character strings, and the counted number of character strings is predetermined. A token selection step of selecting a token string that is greater than or equal to the threshold value of the token string, and excluding the token string included in the other longer token string from the token string, and extracting the selected token string A result output step of outputting as a result is executed by a computer.

上記各態様をコンピュータ・プログラムとして捉えた他の態様(A6)である代表表記抽出プログラムは、コンピュータを制御するコンピュータ・プログラムであって、与えられた複数の文字列を、それぞれトークンに分割する分割ステップと、一以上の前記トークンが直接連なって前記文字列の全部又は一部を構成する全てのトークン列について、前記複数の文字列の中で当該トークン列が含まれる文字列数をカウントするカウントステップと、カウントされた前記文字列数が所定の閾値以上又はより大きいトークン列であって、前記トークン列の中で他のさらに長いトークン列中に含まれるトークン列を除いたトークン列を選択するトークン選択ステップと、選択されたトークン列を抽出結果として出力する結果出力ステップと、をコンピュータに実行させることを特徴とする。   The representative notation extraction program, which is another aspect (A6) obtained by capturing each aspect as a computer program, is a computer program for controlling a computer, and divides a plurality of given character strings into tokens. And a count for counting the number of character strings that include the token string in the plurality of character strings, for all token strings that form one or more of the character strings by directly connecting one or more of the tokens And a token sequence in which the number of character strings counted is a token sequence that is greater than or equal to a predetermined threshold value, and excluding token sequences included in other longer token sequences in the token sequence. A token selection step and a result output step for outputting the selected token string as an extraction result. Characterized in that to execute the Yuta.

以上のように、同じ商品などに対応するものとして与えられた文字列群を、字種などで分割したトークンから、所定数の文字列に含まれる最長のトークンの列を選択することにより、文字列群中で最も共通的に用いられる最大公約数的文字列が得られるので、その文字列群を言い表す適切な代表表記を抽出することができる。   As described above, by selecting the longest token string included in a predetermined number of character strings from tokens obtained by dividing the character string group given as corresponding to the same product etc. Since the greatest common divisor character string that is most commonly used in the column group is obtained, an appropriate representative notation expressing the character string group can be extracted.

本発明の他の態様(A2)は、上記いずれかの態様において、与えられた前記複数の文字列のうち選択されたトークン列を最も多く含む文字列を基準文字列として選択し、その基準文字列における各トークンの順序に合わせて、前記選択されたトークン列を並べ替える並べ替え手段を有することを特徴とする。   In another aspect (A2) of the present invention, in any one of the above aspects, a character string including the largest number of selected token strings is selected as a reference character string from the plurality of given character strings, and the reference character It is characterized by having a rearrangement means for rearranging the selected token string in accordance with the order of the tokens in the string.

このように、選択されたトークンを、それら選択されたトークンを最も多く含む表記、すなわち網羅的表記での順序どおりに並べ替えることにより、網羅的な表記が作られたときに配慮された適切な表現順序が反映される。特に、表記が商品名の場合でも、商品の種類や特徴などを配慮した表現順序となり、判り易い適切な代表表記が得られる。   Thus, by sorting the selected tokens into the notation that contains the most selected tokens, that is, in the order of the exhaustive notation, the appropriate consideration that was taken into account when the exhaustive notation was made The order of expression is reflected. In particular, even when the notation is a product name, the expression order takes into account the type and characteristics of the product, and an appropriate representative notation that is easy to understand is obtained.

本発明の他の態様(A3)は、上記いずれかの態様において、選択された前記トークン列を構成する各トークンのうちトークン列間で相互に重複するものを削除する重複削除手段を有することを特徴とする。   In another aspect (A3) of the present invention, in any one of the aspects described above, there is provided a duplication deletion unit that deletes tokens that overlap each other among the token strings that constitute the selected token string. Features.

このように、選択されたトークン列から、トークン単位での重複を削除することにより、トークン列を並べた代表表記についても重複が排除でき、無駄のない適切な代表表記が得られる。特に、文字列が商品名の場合でも、重複を排した簡明な表現となり、誰にも判り易い適切で代表的な商品名が得られる。   In this way, by deleting duplication in token units from the selected token string, duplication can be eliminated for the representative notation in which token strings are arranged, and an appropriate representative notation without waste can be obtained. In particular, even when the character string is a product name, it becomes a concise expression that eliminates duplication, and an appropriate representative product name that can be easily understood by anyone can be obtained.

本発明の他の態様(A4)は、上記いずれかの態様において、さらに、施設ポリゴン及びPOIを含む地図データを記憶している地図データ記憶手段と、前記地図データ記憶手段から施設ポリゴンを選択するポリゴン選択手段と、選択された前記施設ポリゴンに関連付けされたPOIを前記地図データ記憶手段から選択するPOI選択手段と、選択された前記POIの名称を解析して前記各施設ポリゴンの施設名称候補を抽出する候補抽出手段と、を有する代表表記抽出装置であって、前記分割手段は、前記POIの名称をそれぞれ、与えられた複数の文字列として、それぞれトークンに分割し、分割された各トークンを基に前記カウント手段は前記カウントを行い、前記トークン選択手段はトークン列の前記選択を行い、前記結果出力手段は、選択されたトークン列を施設名称候補の抽出結果として出力し、この代表表記抽出装置はさらに、出力された前記施設名称候補を、選択された前記施設ポリゴンの名称として前記地図データ記憶手段に記憶させる地図データ更新手段を有することを特徴とする。   According to another aspect (A4) of the present invention, in any one of the above aspects, a map data storage unit storing map data including a facility polygon and a POI, and a facility polygon is selected from the map data storage unit A polygon selection means; a POI selection means for selecting a POI associated with the selected facility polygon from the map data storage means; and a facility name candidate for each facility polygon by analyzing the name of the selected POI. A representative notation extraction device having candidate extraction means for extracting, wherein the dividing means divides each POI name into a plurality of given character strings into tokens, and each divided token is The counting means performs the counting, the token selecting means performs the selection of a token string, and the result output means. The selected token string is output as a facility name candidate extraction result, and the representative notation extraction device further stores the output facility name candidate as the name of the selected facility polygon in the map data storage means. It is characterized by having map data update means to be made.

このように、ビルなどを表すポリゴンについて、そのポリゴンに位置が内包されるなど関連をもつPOIの名称を文字列群として、トークンへの分割、文字列数に基づくトークン列の選択などにより、代表表記としてビル名などの施設名称候補を、人手に依らず容易に抽出できる。その施設名称候補をポリゴンに対応する名称として用いることにより地図データを効率的に更新することができる。   In this way, a polygon representing a building or the like is represented by dividing the token into a token group, selecting a token string based on the number of character strings, etc., using the name of the POI having a relation such as the position included in the polygon as a character string group. As a notation, facility name candidates such as building names can be easily extracted without depending on human resources. The map data can be updated efficiently by using the facility name candidate as the name corresponding to the polygon.

以上のような本発明の態様群との組み合わせに好適な他の態様群を以下に示す。   Other aspect groups suitable for combination with the above-described aspect group of the present invention are shown below.

すなわち、その一態様(B1)は、地図データ処理装置であって、施設ポリゴン及びPOIを含む地図データを記憶している地図データ記憶手段と、前記地図データ記憶手段から、互いに近傍に位置する複数の施設ポリゴンを選択するポリゴン選択手段と、選択された前記施設ポリゴンに関連するPOIを前記地図データ記憶手段から選択するPOI選択手段と、前記施設ポリゴンに関連するものとして選択された前記POIの名称を解析して前記施設ポリゴンごとの施設名称候補を抽出する候補抽出手段と、抽出された前記施設名称候補の共通性に基づいて、選択されている複数の施設ポリゴンの全部又は一部を相互に関連付けする関連付け手段と、を有することを特徴とする。   That is, one mode (B1) is a map data processing device, which includes a map data storage unit storing map data including facility polygons and POIs, and a plurality of maps located in the vicinity of each other from the map data storage unit. The polygon selection means for selecting the facility polygon, the POI selection means for selecting the POI related to the selected facility polygon from the map data storage means, and the name of the POI selected as related to the facility polygon And a candidate extracting means for extracting facility name candidates for each facility polygon and, based on the commonality of the extracted facility name candidates, all or some of the selected facility polygons are mutually And an associating means for associating.

上記態様を方法として捉えた他の態様(B5)は、地図データ生成方法であって、施設ポリゴン及びPOIを含む地図データを記憶している地図データ記憶手段から、互いに近傍に位置する複数の施設ポリゴンを選択するポリゴン選択ステップと、選択された前記施設ポリゴンに関連するPOIを前記地図データ記憶手段から選択するPOI選択ステップと、前記施設ポリゴンに関連するものとして選択された前記POIの名称を解析して前記施設ポリゴンごとの施設名称候補を抽出する候補抽出ステップと、抽出された前記施設名称候補の共通性に基づいて、選択されている複数の施設ポリゴンの全部又は一部を相互に関連付けする関連付けステップと、をコンピュータが実行することを特徴とする。   Another aspect (B5) that captures the above aspect as a method is a map data generation method, in which a plurality of facilities located in the vicinity of each other from map data storage means storing map data including facility polygons and POIs. A polygon selection step for selecting a polygon, a POI selection step for selecting a POI associated with the selected facility polygon from the map data storage means, and an analysis of the name of the POI selected as associated with the facility polygon Then, a candidate extracting step for extracting facility name candidates for each facility polygon and all or some of the selected facility polygons are associated with each other based on the commonality of the extracted facility name candidates. The association step is executed by a computer.

上記態様をコンピュータ・プログラムとして捉えた他の態様(B6)である地図データ生成プログラムは、コンピュータを制御するコンピュータ・プログラムであって、施設ポリゴン及びPOIを含む地図データを記憶している地図データ記憶手段から、互いに近傍に位置する複数の施設ポリゴンを選択するポリゴン選択ステップと、選択された前記施設ポリゴンに関連するPOIを前記地図データ記憶手段から選択するPOI選択ステップと、前記施設ポリゴンに関連するものとして選択された前記POIの名称を解析して前記施設ポリゴンごとの施設名称候補を抽出する候補抽出ステップと、抽出された前記施設名称候補の共通性に基づいて、選択されている複数の施設ポリゴンの全部又は一部を相互に関連付けする関連付けステップと、をコンピュータに実行させることを特徴とする。   A map data generation program according to another aspect (B6) that captures the above aspect as a computer program is a computer program for controlling a computer, and stores map data including facility polygons and POIs. Means for selecting a plurality of facility polygons located in the vicinity of each other, a POI selection step for selecting a POI associated with the selected facility polygon from the map data storage unit, and a facility polygon. A candidate extracting step of analyzing the name of the POI selected as an object to extract a facility name candidate for each facility polygon, and a plurality of facilities selected based on the commonality of the extracted facility name candidates An association step for associating all or part of the polygons with each other; And characterized by causing a computer to execute the.

このように、ビルなどを表す施設ポリゴンであって互いに位置の近い施設ポリゴンごとに、関連するPOIの名称を解析して施設ポリゴンの施設名称候補を抽出し、その施設名称候補の共通性に基づくことにより、同じ大規模商業施設などに包含される施設ポリゴンを相互に関連付けることが容易になる。   In this way, for each facility polygon that is a facility polygon representing a building or the like and close to each other, the name of the POI associated with the facility polygon is analyzed to extract facility name candidates of the facility polygon, and based on the commonality of the facility name candidates This makes it easy to correlate facility polygons included in the same large-scale commercial facility.

本発明の他の態様(B3)は、上記いずれかの態様において、与えられた複数の文字列を、それぞれトークンに分割する分割手段と、一以上の前記トークンが直接連なって前記文字列の全部又は一部を構成する全てのトークン列について、前記複数の文字列の中で当該トークン列が含まれる文字列数をカウントするカウント手段と、カウントされた前記文字列数が所定の閾値以上又はより大きいトークン列であって、前記トークン列の中で他のさらに長いトークン列中に含まれるトークン列を除いたトークン列を選択するトークン選択手段と、選択されたトークン列を抽出結果として出力する結果出力手段と、を有することを特徴とする。   According to another aspect (B3) of the present invention, in any one of the above aspects, the character string is divided by a dividing unit that divides a plurality of given character strings into tokens, and the one or more tokens are directly connected to each other. Or, for all token strings constituting a part, the counting means for counting the number of character strings including the token string in the plurality of character strings, and the counted number of character strings is equal to or greater than a predetermined threshold Token selection means for selecting a token string that is a large token string and excluding the token string included in another longer token string from the token string, and a result of outputting the selected token string as an extraction result Output means.

このように、与えられた文字列群であるPOIの名称を、字種などで分割したトークンから、所定数の文字列に含まれる最長のトークンの列を選択することにより、文字列群中で最も共通的に用いられる最大公約数的表記が得られるので、その文字列群を言い表す大規模商業施設名など適切な代表表記を抽出することができる。   In this way, by selecting the longest token string included in a predetermined number of character strings from the tokens obtained by dividing the name of POI that is a given character string group by character type, etc. Since the most common divisor notation used most commonly is obtained, an appropriate representative notation such as a large-scale commercial facility name expressing the character string group can be extracted.

本発明の他の態様(B2)は、上記いずれかの態様において、前記関連付け手段による前記関連付けの根拠となった前記共通性にかかる前記施設名称候補を、前記関連付けされた複数の施設ポリゴンに対応する名称として、前記地図データ記憶手段に記憶されている前記地図データを更新する地図データ更新手段を有することを特徴とする。   According to another aspect (B2) of the present invention, in any one of the aspects described above, the facility name candidate related to the commonality that is the basis for the association by the association unit corresponds to the plurality of associated facility polygons. The map data update means updates the map data stored in the map data storage means as a name to be used.

本発明の他の態様(B4)は、上記いずれかの態様において、前記関連付けされた前記各施設ポリゴンに関連する複数のPOIの名称に基づいて前記結果出力手段により抽出結果として出力された前記トークン列、を前記関連付けされた複数の施設ポリゴンに対応する名称として、前記地図データ記憶手段に記憶されている前記地図データを更新する地図データ更新手段を有することを特徴とする。   In another aspect (B4) of the present invention, in any one of the above aspects, the token output as an extraction result by the result output unit based on a plurality of POI names related to the associated facility polygons Map data updating means for updating the map data stored in the map data storage means with a column as a name corresponding to the plurality of associated facility polygons.

このように、施設ポリゴン同士の関連付けの基礎となった共通の施設名称候補、又は関連付けされた施設ポリゴンに関連するPOIの名称から抽出されたトークン列を、それら関連付けされた施設ポリゴン群に対応する施設名称などとして地図データを更新することにより、大規模商業施設等の名称を人手で付与する負担なく、また、特定のビルのグループや地域を指す慣習上や事実上の俗称についても適切に設定することが可能となる。   As described above, a common facility name candidate that is the basis of association between facility polygons, or a token string extracted from the POI name associated with the associated facility polygon corresponds to the associated facility polygon group. By updating map data as facility names, etc., there is no burden of manually assigning names of large-scale commercial facilities, etc., and customary and de facto nicknames that refer to specific building groups and regions are also set appropriately It becomes possible to do.

なお、上記の各態様とは異なるカテゴリ(装置に対し方法、方法に対しプログラムなど)や、以下に説明するさらに具体的な各態様も本発明に含まれる。前記の異なるカテゴリの場合、構成等の表現について「手段」を「ステップ」のようにカテゴリに応じ適宜読み替えるものとする。   It should be noted that a category (method for the apparatus, program for the method, etc.) different from each of the above-described modes and more specific modes described below are also included in the present invention. In the case of the different categories, “means” is appropriately replaced with “structure” or the like according to the category, such as “step”.

本発明によれば、与えられた文字列群から適切な代表表記を抽出する技術を提供することが可能となる。   According to the present invention, it is possible to provide a technique for extracting an appropriate representative notation from a given character string group.

本発明の第1実施形態の構成を示す機能ブロック図。The functional block diagram which shows the structure of 1st Embodiment of this invention. 本発明の第1実施形態で用いる情報(データ)を例示する図。The figure which illustrates the information (data) used by 1st Embodiment of this invention. 本発明の第1実施形態における処理手順を示すフローチャート。The flowchart which shows the process sequence in 1st Embodiment of this invention. 本発明の第2実施形態の構成を示す機能ブロック図。The functional block diagram which shows the structure of 2nd Embodiment of this invention. 本発明の第2実施形態における処理手順を示すフローチャート。The flowchart which shows the process sequence in 2nd Embodiment of this invention. 本発明の第3実施形態の構成を示す機能ブロック図。The functional block diagram which shows the structure of 3rd Embodiment of this invention. 本発明の第3実施形態における処理手順を示すフローチャート。The flowchart which shows the process sequence in 3rd Embodiment of this invention. 本発明の第3実施形態で用いる情報(データ)を例示する図。The figure which illustrates the information (data) used by 3rd Embodiment of this invention. 本発明の第3実施形態において、施設ポリゴン及びPOIが選択されている状態を地図上で示す概念図。The conceptual diagram which shows on the map the state in which the facility polygon and POI are selected in 3rd Embodiment of this invention. 本発明の第3実施形態において、選択されている施設ポリゴンとPOIの対応関係を表す概念図。The conceptual diagram showing the correspondence of the selected facility polygon and POI in 3rd Embodiment of this invention. 本発明の第3実施形態において、施設ポリゴン間の関連付けの状態を地図上で示す概念図。The conceptual diagram which shows the state of the correlation between facility polygons on a map in 3rd Embodiment of this invention. 本発明の第3実施形態において、選択された一部の施設ポリゴンが関連付け(グループ化)されている状態を表す概念図。In 3rd Embodiment of this invention, the conceptual diagram showing the state with which some selected facility polygons are linked | related (grouped). 本発明の第4実施形態の構成を示す機能ブロック図。The functional block diagram which shows the structure of 4th Embodiment of this invention. 本発明の第4実施形態における処理手順を示すフローチャート。The flowchart which shows the process sequence in 4th Embodiment of this invention.

次に、本発明を実施するための複数の形態(それぞれ「実施形態」と呼ぶ)について、図に沿って説明する。なお、背景技術や課題などで既に述べた内容と共通の前提事項については適宜省略する。   Next, a plurality of modes for carrying out the present invention (each referred to as “embodiment”) will be described with reference to the drawings. It should be noted that assumptions common to those already described in the background art and problems are omitted as appropriate.

〔1.第1実施形態の構成〕
第1実施形態は、図1(構成図)に示す代表表記抽出装置(以下「本装置」と呼ぶ)1に関する。本装置1は、一般的なコンピュータの構成として少なくとも、CPUなどの演算制御部5と、外部記憶装置(HDD等)や主メモリ等の記憶装置6と、図示しない通信ネットワークとの通信手段7(LANアダプタなど)と、を有する。そして、本装置1では、記憶装置6に予め記憶(インストール)した図示しない所定のコンピュータ・プログラムが演算制御部5を制御することで、図1に示す各手段などの要素(11,12,14など)を実現する。
[1. Configuration of First Embodiment]
The first embodiment relates to a representative notation extraction device (hereinafter referred to as “this device”) 1 shown in FIG. 1 (configuration diagram). The present apparatus 1 has a general computer configuration of at least an arithmetic control unit 5 such as a CPU, a storage device 6 such as an external storage device (HDD or the like) or a main memory, and a communication means 7 (not shown). LAN adapter, etc.). In the apparatus 1, a predetermined computer program (not shown) stored (installed) in advance in the storage device 6 controls the arithmetic control unit 5, whereby elements (11, 12, 14, etc.) shown in FIG. Etc.).

このようにコンピュータ・プログラムで実現される各要素のうち、情報の記憶手段は、記憶装置6において各種のデータベース(「DB」とも表す)やファイル、配列等の変数、各種スタックやレジスタ、システム設定値など任意の形式で実現できる。このような記憶手段のうち、文字列記憶手段11は、代表表記を抽出する基礎として、図2に例示するように、テナント形式(モール形式)のポータルECサイトにおいて、ある一つのJANコードに対応して登録されている商品名である文字列を複数記憶している手段である。また、記憶手段以外の各手段は、以下のような情報処理の機能・作用を実現・実行する処理手段である。   Among the elements realized by the computer program as described above, the information storage means is a storage device 6 in which various databases (also referred to as “DB”), files, variables such as arrays, various stacks and registers, system settings, etc. It can be realized in any format such as a value. Among such storage means, the character string storage means 11 corresponds to a certain JAN code on a portal EC site in a tenant format (mall format) as illustrated in FIG. 2 as a basis for extracting representative notation. And a plurality of character strings that are registered product names. Each means other than the storage means is a processing means for realizing and executing the following information processing functions and operations.

〔2.第1実施形態の作用〕
上記のように構成した本装置1を用いて、ポータルECサイトの管理者が、図2に例示したように店舗により異なった商品名が付けられているある特定の同一商品について、その商品を扱う複数の店舗を横断的に紹介する企画コーナーを設けるために代表表記を得る場合の処理例を以下に示す。この場合、管理者が、適宜なユーザインタフェース画面などで、図2に示した5つの文字列を対象として選択する場合、文字列指定手段12がそのような操作を受け付け、選択された各文字列を分割手段14に与える。ここで選択された複数の文字列を「文字列群」とも呼ぶこととする。
[2. Operation of First Embodiment]
Using this apparatus 1 configured as described above, the administrator of the portal EC site handles the same specific product with a different product name depending on the store as illustrated in FIG. An example of processing in the case of obtaining a representative notation in order to provide a planning corner that introduces a plurality of stores across is shown below. In this case, when the administrator selects the five character strings shown in FIG. 2 on an appropriate user interface screen or the like, the character string designating unit 12 accepts such an operation, and each selected character string is selected. Is given to the dividing means 14. The plurality of character strings selected here are also referred to as “character string groups”.

なお、文字列指定手段12は、管理者などユーザからの選択操作を受け付けるものには限定されず、例えば、多数の商品ごとに文字列群が各通販事業者などにより登録されているデータベースなどから、商品ごとの文字列群を次々と選択して、それぞれの文字列群から以下のように代表表記を抽出する手順の制御を行うものでもよい。いずれにしても、与えられた文字列群から代表表記を以下のように抽出する処理手順を図3のフローチャートに示す。   The character string designating unit 12 is not limited to accepting a selection operation from a user such as an administrator. For example, the character string designating unit 12 is based on a database in which a character string group is registered by each mail order company for each of many products. The character string group for each product may be selected one after another, and the procedure for extracting the representative notation from each character string group may be controlled as follows. In any case, the flowchart of FIG. 3 shows a processing procedure for extracting a representative notation from a given character string group as follows.

〔2−1.トークンへの分割〕
すなわち、まず、分割手段14が、与えられた複数の文字列を、それぞれトークンに分割する(ステップS14)。「トークン」は、文字列を所定のある基準で分割した一単位の意である。文字列をトークンに分割する手法としては、字種などの文字グループごとに分割したり、形態素で分割するなど、自由に選択してよい。
[2-1. (Division into tokens)
That is, first, the dividing unit 14 divides each given character string into tokens (step S14). A “token” is a unit obtained by dividing a character string according to a predetermined standard. As a method of dividing the character string into tokens, it may be freely selected such as dividing each character group such as a character type or dividing by a morpheme.

例えば、代表表記を抽出する基礎として与えられた文字列群が

地球防衛軍モビルスーツAB100
地球防衛軍モビルスーツ「AB100」
地球防衛軍AB100
防衛軍AB100モビルスーツ
防衛軍AB100

であるものとし、これらをもとの文字列(文字列群)のように呼ぶこととする。また、記号の鉤括弧「」も文字列を構成するものとし、文字列中の記号を説明するため示すときは二重鉤括弧で『「』や『」』のように示すものとする。
For example, a character string group given as a basis for extracting representative notation is

Earth Defense Force Mobile Suit AB100
Earth Defense Force Mobile Suit "AB100"
Earth Defense Force AB100
Defense Army AB100 Mobile Suit Defense Army AB100

And call them as the original character string (character string group). In addition, the brackets “” of the symbols shall also constitute a character string, and when describing the symbols in the character string, they are indicated by double brackets, such as ““ ”and“ “”.

これら個々の文字列を、文字グループすなわち漢字か、カタカナか、アルファベットか、数字か、記号か、といった種別ごとにトークンに分割した結果は次のようになる。なお、分割位置を『/』(半角スラッシュ)で示すものとする。

地球防衛軍/モビルスーツ/AB/100
地球防衛軍/モビルスーツ/「/AB/100/」
地球防衛軍/AB/100
防衛軍/AB/100/モビルスーツ
防衛軍/AB/100
The result of dividing these individual character strings into tokens for each type of character group, that is, kanji, katakana, alphabet, number, or symbol is as follows. The dividing position is indicated by “/” (half-width slash).

Earth Defense Force / Mobile Suit / AB / 100
Earth Defense Force / Mobile Suit / "/ AB / 100 /"
Earth Defense Force / AB / 100
Defense Force / AB / 100 / Mobile Suit Defense Force / AB / 100

さらに、他の文字列に含まれるトークンにより更に分割してもよく、「防衛軍」で「地球防衛軍」を分割すると

地球/防衛軍/モビルスーツ/AB/100
地球/防衛軍/モビルスーツ/「/AB/100/」
地球/防衛軍/AB/100
防衛軍/AB/100/モビルスーツ
防衛軍/AB/100

となる。
Furthermore, it may be further divided by tokens contained in other character strings, and if "Earth Defense Force" is divided by "Defense Army"

Earth / Defense Force / Mobile Suit / AB / 100
Earth / Defense Force / Mobile Suit / "/ AB / 100 /"
Earth / Defense Force / AB / 100
Defense Force / AB / 100 / Mobile Suit Defense Force / AB / 100

It becomes.

〔2−2.文字列数のカウント〕
続いて、カウント手段15が、一以上の前記トークンが直接連なって前記文字列の全部又は一部を構成する全てのトークン列(もとの文字列中でも直接連なっていたものに限る)について、前記複数の文字列の中で当該トークン列が含まれる文字列数をカウントする(ステップS15)。これは、いわゆる「N−gram」を、その適用単位をトークンとして適用するものである。
[2-2. (Count of the number of strings)
Subsequently, the counting means 15 is arranged for all token strings that constitute one or more of the character strings in which one or more tokens are directly linked (limited to those that are also directly linked in the original character string). Among the plurality of character strings, the number of character strings including the token string is counted (step S15). This applies so-called “N-gram” with the application unit as a token.

具体的には、「一以上の前記トークンが直接連なって前記文字列の全部又は一部を構成する全てのトークン列」として、文字列ごとに有り得る全てのトークン列を作成する。例えば、『防衛軍/AB/100』という文字列からは、

『防衛軍』
『AB』
『100』
『防衛軍/AB』
『AB/100』
『防衛軍/AB/100』

という6種のトークン列が生成される。なお、もとの文字列中で直接連ならない『防衛軍/100』(間に有った中間のトークン『AB』を抜いている)のようなトークン列は、この例では作成しない。
Specifically, all possible token strings are created for each character string as “all token strings in which one or more tokens are directly connected to constitute all or part of the character string”. For example, from the string "Defense Army / AB / 100"

"Defense Army"
"AB"
"100"
"Defense Army / AB"
"AB / 100"
Defense Force / AB / 100

6 types of token sequences are generated. Note that a token string such as “Defense Army / 100” (excluding the intermediate token “AB” in between) that is not directly connected in the original character string is not created in this example.

このように各文字列から作成する全てのトークン列それぞれについて、もとの全ての文字列に何回登場するか、つまり幾つの文字列に含まれているか、をカウントする。   In this way, for every token string created from each character string, the number of times it appears in all the original character strings, that is, how many character strings are included is counted.

〔2−3.トークンの選択〕
さらに、トークン選択手段16が、カウントされた前記文字列数が所定の閾値以上又はその閾値より大きいトークン列であって、前記トークン列の中で他のさらに長いトークン列中に含まれるトークン列を除いたトークン列(以下「最長トークン列」と呼ぶ)を選択し、他は足切りする(ステップS16)。例えば、上の例では、もとの文字列群のうち5割以上に出現した最長トークン列が、

地球/防衛軍 (3)
防衛軍 (5)
地球 (3)
防衛軍/AB/100 (3)
AB/100 (5)
モビルスーツ (3)

となる(括弧内はそのトークン列を含む文字列数)。
[2-3. (Token selection)
Further, the token selection means 16 is a token string in which the counted number of character strings is equal to or larger than a predetermined threshold value or larger than the threshold value, and includes a token string included in another longer token string in the token string. The removed token string (hereinafter referred to as “longest token string”) is selected, and the others are cut off (step S16). For example, in the above example, the longest token string that appears in 50% or more of the original character string group is

Earth / Defense Force (3)
Defense Force (5)
Earth (3)
Defense Force / AB / 100 (3)
AB / 100 (5)
Mobile suit (3)

(The number in parentheses is the number of strings including the token string.)

このうち、『防衛軍』と『地球』は、さらに長いトークン列『地球/防衛軍』に含まれ、『AB/100』も同様に『防衛軍/AB/100』に含まれるので、次のように除くと(除くものを×印で示す)、

地球/防衛軍 (3)
× 防衛軍 (5)
× 地球 (3)
防衛軍/AB/100 (3)
× AB/100 (5)
モビルスーツ (3)

残る最長トークン列は、

地球/防衛軍 (3)
防衛軍/AB/100 (3)
モビルスーツ (3)

となり、これらが現在残っているトークン列である。
Of these, “Defense Army” and “Earth” are included in the longer token string “Earth / Defense Force”, and “AB / 100” is also included in “Defense Force / AB / 100”. (Excluded items are indicated by a cross),

Earth / Defense Force (3)
× Defense Force (5)
× Earth (3)
Defense Force / AB / 100 (3)
× AB / 100 (5)
Mobile suit (3)

The remaining longest token sequence is

Earth / Defense Force (3)
Defense Force / AB / 100 (3)
Mobile suit (3)

These are the token sequences that currently remain.

〔2−4.重複の削除〕
また、重複削除手段17が、選択されたトークン列であってこの時点で上記のように残っている最長トークン列のうち、最長トークン列間で相互に重複するものを削除する(ステップS17)。例えば上記の

地球/防衛軍
防衛軍/AB/100
モビルスーツ

から、重複している『防衛軍』を削除して独立したトークンとして切り出すと、

地球
防衛軍
AB/100
モビルスーツ

となり、これらが現在選択されているトークン列である。
[2-4. (Duplicate removal)
Further, the duplication deletion unit 17 deletes the selected token strings that overlap each other among the longest token strings among the longest token strings remaining as described above (step S17). For example, the above

Earth / Defense ForceDefense Force / AB / 100
Mobile suit

Then, if you delete the duplicate “Defense Army” and cut it out as an independent token,

Earth Defense Force
AB / 100
Mobile suit

These are the token sequences that are currently selected.

〔2−5.並べ替えと結果の出力〕
ついで、並べ替え手段18が、与えられた文字列群のうち、現在選択されているトークン列を最も多く含む文字列を基準文字列として選択し、その基準文字列における各トークンの順序に合わせて、前記選択されたトークン列を並べ替える(ステップS18)。ここで、現在選択されているトークン列を「最も多く含む」文字列を選択する基準としては、現在選択されているトークン列を、単に最も数多く含む文字列を基準文字列としてもよいが、他の基準でもよい。例えば、ここでは、現在選択されているトークン列を含み、含んでいるそれぞれのトークン列を含む文字列の文字列数(3、5など)の合計が最大となる文字列を、トークン列を「最も多く含む」文字列とし、基準文字列として選択するものとする。
[2-5. (Sort and output results)
Next, the rearranging means 18 selects a character string including the most currently selected token string as a reference character string from the given character string group, and matches the order of the tokens in the reference character string. The selected token string is rearranged (step S18). Here, as a criterion for selecting a character string that includes the most token tokens that are currently selected, a character string that includes the most token tokens that are currently selected may be used as a reference character string. The standard of For example, here, the token string that includes the currently selected token string and that includes the maximum number of character strings (3, 5, etc.) including the respective token strings is represented by the token string “ It is assumed that the character string is “most contained” and is selected as the reference character string.

例えば、

地球 (3)
防衛軍 (5)
AB/100 (5)
モビルスーツ (3)

をもとに、与えられた文字列ごとに、その文字列が含んでいるトークン列を含む文字列数の合計を計算すると、

地球/防衛軍/モビルスーツ/AB/100 : 3+5+3+5=16
地球/防衛軍/モビルスーツ/「/AB100/」 : 3+5+3+5=16
地球/防衛軍/AB/100 : 3+5+5=13
防衛軍/AB/100/モビルスーツ : 5+5+3=13
防衛軍/AB/100 : 5+5=10

となる。
For example,

Earth (3)
Defense Force (5)
AB / 100 (5)
Mobile suit (3)

Based on the above, for each given string, calculate the total number of strings including the token string that the string contains,

Earth / Defense Force / Mobile Suit / AB / 100: 3 + 5 + 3 + 5 = 16
Earth / Defense Force / Mobile Suit / "/ AB100 /": 3 + 5 + 3 + 5 = 16
Earth / Defense Force / AB / 100: 3 + 5 + 5 = 13
Defense Force / AB / 100 / Mobile Suit: 5 + 5 + 3 = 13
Defense Force / AB / 100: 5 + 5 = 10

It becomes.

ここで、『地球/防衛軍/モビルスーツ/AB/100』と『地球/防衛軍/モビルスーツ/「/AB100/」』のどちらも文字列数の合計が最大の16回でたまたま同じとなったが、いずれを選択しても、次の同じ結果となる。すなわち、この文字列における登場順に合わせて、重複の削除(ステップS17)までの処理の結果として現在選択されているトークン列を並べ替えれば、

『地球 防衛軍 モビルスーツ AB 100』

となる。最後に、この並べ替えたトークン列を、結果出力手段19が抽出結果として

『地球防衛軍モビルスーツAB100』

のように出力する(ステップS19)。
Here, “Earth / Defense Force / Mobile Suit / AB / 100” and “Earth / Defense Force / Mobile Suit /“ / AB100 / ”” happen to be the same with the maximum number of strings of 16 times. However, regardless of which is selected, the following result is obtained. That is, according to the order of appearance in this character string, if the token string currently selected as a result of the process up to the deletion of duplicates (step S17) is rearranged,

`` Earth Defense Force Mobile Suit AB 100 ''

It becomes. Finally, the result output means 19 uses this rearranged token string as an extraction result.

"Earth Defense Force Mobile Suit AB100"

(Step S19).

〔3.第1実施形態の効果〕
以上のように、第1実施形態では、同じ商品などに対応するものとして与えられた文字列群を、字種などで分割したトークンから、所定数の文字列に含まれる最長のトークンの列を選択することにより、文字列群中で最も共通的に用いられる最大公約数的文字列が得られるので、その文字列群を言い表す適切な代表表記を抽出することができる。
[3. Effects of the first embodiment]
As described above, in the first embodiment, a longest token string included in a predetermined number of character strings is obtained from tokens obtained by dividing a character string group given as corresponding to the same product or the like by character type or the like. By selecting, the greatest common divisor character string used most commonly in the character string group is obtained, so that an appropriate representative notation expressing the character string group can be extracted.

また、第1実施形態では、選択されたトークンを、それら選択されたトークンを最も多く含む表記、すなわち網羅的表記での順序どおりに並べ替えることにより(図3、ステップS18)、網羅的な表記が作られたときに配慮された適切な表現順序が反映される。特に、表記が商品名の場合でも、商品の種類や特徴などを配慮した表現順序となり、判り易い適切な代表表記が得られる。   Further, in the first embodiment, the selected tokens are rearranged in the notation including the most selected tokens, that is, in the order of the exhaustive notation (FIG. 3, step S18), thereby providing the exhaustive notation. Appropriate expression order is taken into account when is created. In particular, even when the notation is a product name, the expression order takes into account the type and characteristics of the product, and an appropriate representative notation that is easy to understand is obtained.

さらに、第1実施形態では、選択されたトークン列から、トークン単位での重複を削除することにより(ステップS17)、トークン列を並べた代表表記についても重複が排除でき、無駄のない適切な代表表記が得られる。特に、文字列が商品名の場合でも、重複を排した簡明な表現となり、誰にも判り易い適切で代表的な商品名が得られる。   Furthermore, in the first embodiment, by deleting duplication in token units from the selected token string (step S17), duplication can be eliminated for the representative notation in which token strings are arranged, and an appropriate representative without waste. The notation is obtained. In particular, even when the character string is a product name, it becomes a concise expression that eliminates duplication, and an appropriate representative product name that can be easily understood by anyone can be obtained.

〔4.第2実施形態〕
第1実施形態に示した代表表記抽出装置を応用して、POIの名称から施設名称候補を得る例を第2実施形態として示す。図4に示すように、第2実施形態の代表表記抽出装置2は、地図データの処理に関し後述する作用効果を実現・実行する各手段21〜24並びに26を有し(図4左側)、そのうち候補抽出手段24の具体的構成内容として、第1実施形態に準じた構成(図4右側の一点鎖線内。符号14〜19)を設けたものである。
[4. Second Embodiment]
An example of obtaining a facility name candidate from a POI name by applying the representative notation extraction device shown in the first embodiment will be described as a second embodiment. As shown in FIG. 4, the representative notation extraction device 2 of the second embodiment has means 21 to 24 and 26 for realizing and executing the effects described later regarding map data processing (left side of FIG. 4), of which As a specific configuration content of the candidate extraction unit 24, a configuration according to the first embodiment (inside the alternate long and short dash line in FIG. 4; reference numerals 14 to 19) is provided.

なお、この第2実施形態では、候補抽出手段24には、POI選択手段23が選択したPOI群が与えられるので、第1実施形態(図1)で示した文字列記憶手段11及び文字列指定手段12は必須ではないが、図示しないワークエリアを処理において適宜用いることは言うまでもない。続いて、このような第2実施形態における処理手順を図5のフローチャートに示す。   In the second embodiment, the candidate extraction means 24 is given the POI group selected by the POI selection means 23, so that the character string storage means 11 and the character string designation shown in the first embodiment (FIG. 1). The means 12 is not essential, but it goes without saying that a work area (not shown) is appropriately used in the processing. Subsequently, the processing procedure in the second embodiment is shown in the flowchart of FIG.

まず、地図データ記憶手段21は、施設ポリゴン及びPOIを含む地図データを予め記憶しているものである。そして、図5に示すように、まず、ポリゴン選択手段22が、ユーザによる操作などを受けて、又は適宜な基準による自動処理などにより、地図データ記憶手段21から施設ポリゴンを選択し(ステップS22)、POI選択手段23は、選択された前記施設ポリゴンに関連付けされたPOIを地図データ記憶手段21から選択する(ステップS23)。ここで「関連付けされた」とは、典型的には、POIの位置座標がポリゴン内に内包されている場合であるが、それに限らず、予め施設とPOIが互いの識別情報(ID)などで対応付けされている場合も含む。   First, the map data storage means 21 stores map data including facility polygons and POIs in advance. Then, as shown in FIG. 5, first, the polygon selection means 22 selects facility polygons from the map data storage means 21 in response to a user's operation or the like or by automatic processing based on an appropriate standard (step S22). The POI selection means 23 selects the POI associated with the selected facility polygon from the map data storage means 21 (step S23). Here, “associated” is typically a case where the POI position coordinates are included in a polygon, but is not limited thereto, and the facility and the POI are preliminarily identified with each other's identification information (ID) or the like. Including the case where it is associated.

そして、候補抽出手段24が、選択された前記POIの名称を解析して前記各施設ポリゴンの施設名称候補を抽出するが(ステップS24)、この候補抽出手段24を、前記各手段14〜19が第1実施形態に準じて構成している。   Then, the candidate extracting unit 24 analyzes the name of the selected POI and extracts the facility name candidate of each facility polygon (step S24). The configuration is based on the first embodiment.

すなわち、分割手段14は、前記POIの名称をそれぞれ、与えられた複数の文字列として、それぞれトークンに分割し(ステップS14)、分割された各トークンを基にカウント手段15は前記カウントを行い(ステップS15)、トークン選択手段16はトークン列の前記選択を行う(ステップS16)。手段17及び18については、第1実施形態に準じるが(ステップS17,S18)、省略も可能であり、ここでは説明は省略する。そして、結果出力手段19は、選択されたトークン列を施設名称候補の抽出結果として、地図データ更新手段26へ出力する(ステップS19)。   That is, the dividing unit 14 divides each POI name into a plurality of given character strings into tokens (step S14), and the counting unit 15 performs the counting based on each divided token ( In step S15), the token selecting means 16 performs the selection of the token string (step S16). The means 17 and 18 conform to the first embodiment (steps S17 and S18), but may be omitted, and the description thereof is omitted here. Then, the result output unit 19 outputs the selected token string to the map data update unit 26 as a facility name candidate extraction result (step S19).

このように出力された抽出結果である施設名称候補については、地図データ更新手段26が受け取って、選択された前記施設ポリゴンの名称として地図データ記憶手段21に記憶させる(ステップS26)。   The facility name candidate that is the extraction result output in this way is received by the map data updating unit 26 and stored in the map data storage unit 21 as the name of the selected facility polygon (step S26).

例えば、名称が未設定のあるビルの施設ポリゴンに内包されるPOIの名称が

『ペストリー○○ネリオタワー越谷店』
『○○銀行ネリオタワー越谷支店』
『寿司○○・ネリオタワー越谷店』
『○○ショップ越谷ネリオタワー店』

であれば、名称後方の「店」「支店」は定型的表現として無視したうえ、第1実施形態と同様にトークンを用いた処理の結果、施設名称候補は『ネリオタワー越谷』となる。
For example, the name of the POI included in the facility polygon of a building with no name set is

"Pastry XX Nerio Tower Koshigaya"
“XX Bank Nerio Tower Koshigaya Branch”
"Sushi XX Nerio Tower Koshigaya"
“○○ Shop Koshigaya Nerio Tower”

Then, “store” and “branch” behind the name are ignored as standard expressions, and as a result of processing using tokens as in the first embodiment, the facility name candidate is “Nerio Tower Koshigaya”.

このように、ビルなどを表すポリゴンについて、そのポリゴンに位置が内包されるなど関連をもつPOIの名称を文字列群として、トークンへの分割、文字列数に基づくトークン列の選択などにより、代表表記としてビル名などの施設名称候補を、人手に依らず容易に抽出できる。その施設名称候補をポリゴンに対応する名称として用いることにより地図データを効率的に更新することができる。   In this way, a polygon representing a building or the like is represented by dividing the token into a token group, selecting a token string based on the number of character strings, etc., using the name of the POI having a relation such as the position included in the polygon as a character string group. As a notation, facility name candidates such as building names can be easily extracted without depending on human resources. The map data can be updated efficiently by using the facility name candidate as the name corresponding to the polygon.

〔5.第3実施形態〕
上記第2実施形態では、第1実施形態に準じた代表表記抽出装置により、単一施設の名称をPOIの名称から抽出した例を示した。これに対し、第3実施形態は、ビルなどの要素を複数含む複合施設(大規模商業施設など)の名称をPOIの名称から抽出する地図データ処理装置3(図6)を示すものである。この第3実施形態において施設の名称を抽出する技術は、第1及び第2実施形態で示したような代表表記抽出装置には限られない。
[5. Third Embodiment]
In the said 2nd Embodiment, the example which extracted the name of the single plant | facility from the name of POI was shown with the representative description extraction device according to 1st Embodiment. In contrast, the third embodiment shows a map data processing apparatus 3 (FIG. 6) that extracts the name of a complex facility (such as a large-scale commercial facility) including a plurality of elements such as buildings from the name of the POI. The technique for extracting the name of the facility in the third embodiment is not limited to the representative notation extraction device as shown in the first and second embodiments.

具体的には、第3実施形態における地図データ処理装置3は、記憶装置6及び通信手段7を伴う演算制御部5を所定のコンピュータ・プログラムで制御することにより、以下のような作用効果(図7)を実現する各処理手段(図6)を実現する。   Specifically, the map data processing device 3 according to the third embodiment controls the arithmetic control unit 5 including the storage device 6 and the communication means 7 with a predetermined computer program, thereby providing the following operational effects (FIG. Each processing means (FIG. 6) for realizing 7) is realized.

まず、施設ポリゴン及びPOIを含む地図データを地図データ記憶手段31が予め記憶している。例えば、図8は、地図データ記憶手段31の一例を示すもので、施設ポリゴンデータベース(図8(1))とPOIデータベースと(図8(2))を、ポリゴンIDで関連付け(破線で示す)した例である。   First, map data storage means 31 stores map data including facility polygons and POIs in advance. For example, FIG. 8 shows an example of the map data storage means 31. The facility polygon database (FIG. 8 (1)) and the POI database (FIG. 8 (2)) are associated with each other by a polygon ID (shown by a broken line). This is an example.

そして、ポリゴン選択手段32がユーザ操作又は自動処理などにより、地図データ記憶手段31から、互いに近傍に位置する複数の施設ポリゴンを選択し(ステップS32)、POI選択手段33は、選択された前記施設ポリゴンに関連するPOIを地図データ記憶手段31から選択する(ステップS33)。ここで、施設ポリゴンに「関連する」とは、典型的には、POIの位置座標がポリゴン内に内包されている場合であるが、それに限らず、図8に例示したように、予め施設とPOIをポリゴンIDのような識別情報などで対応付けしている場合も含む。   Then, the polygon selection unit 32 selects a plurality of facility polygons located near each other from the map data storage unit 31 by a user operation or automatic processing (step S32), and the POI selection unit 33 selects the selected facility A POI associated with the polygon is selected from the map data storage means 31 (step S33). Here, “related” to the facility polygon is typically a case where the POI position coordinates are included in the polygon, but not limited thereto, as illustrated in FIG. This includes the case where the POI is associated with identification information such as a polygon ID.

一例として、地図データ上で相互に近接した4つのビルの施設ポリゴンをユーザが選択した場合を考える。ここで、施設ポリゴンを選択した各ビルを仮に「タワー棟」、「東棟」、「西棟」、「他の一棟」と呼ぶが、施設ポリゴンにこのような名称が予め設定されている必要はない。また、選択された各施設ポリゴンとポリゴンIDで予め関連付けされているPOIを、POI選択手段33が、3つずつ計12(POI1〜POI12)、次のように選択した場合を考える。   As an example, consider a case where a user selects facility polygons of four buildings that are close to each other on map data. Here, each building for which the facility polygon is selected is called “tower building”, “east building”, “west building”, “another building”, and such names are set in advance in the facility polygon. There is no need. Also, consider a case where POI selection means 33 selects 12 POIs (POI1 to POI12) in total, as follows, for POIs previously associated with each selected facility polygon and polygon ID.

タワー棟
POI1:『○○銀行アモルタウン支店』
POI2:『アモルタウンクリニック』
POI3:『アモルタウン内郵便局』

東棟
POI4:『洋菓子○○アモルタウン店』
POI5:『○○ショップアモルタウン店』
POI6:『和食○○亭アモルタウン店』

西棟
POI7:『てんぷら○○』
POI8:『スーパー○○アモルタウン店』
POI9:『アモルタウン○○催事場』

他の一棟
POI10:『○○ファクトリー東町ビル店』
POI11:『美容室○○東町ビル店』
POI12:『○○チケット東町ビル支店』
Tower Building POI1: “XX Bank Amor Town Branch”
POI2: “Amol Town Clinic”
POI3: “Amortown Post Office”

East Wing POI4: “Western confectionery XX Amor Town”
POI5: “XX Shop Amol Town”
POI6: “Japanese food ○○ Tei Amor Town”

West Building POI7: “Tempura XX”
POI8: “Super XX Amol Town”
POI9: “Amortown XX Event Hall”

Another building POI10: “XX Factory Higashimachi Building”
POI11: “Beauty salon XX Higashimachi Building”
POI12: “XX Ticket Higashimachi Building Branch”

上記のように4つのビルの施設ポリゴンと12個のPOIが選択されている状態について、地図上に表した概念図を図9に、施設ポリゴンと各POIとの対応関係を図10に示す。   FIG. 9 is a conceptual diagram represented on a map and FIG. 10 shows the correspondence between facility polygons and POIs when the facility polygons of four buildings and 12 POIs are selected as described above.

そして、候補抽出手段34が、施設ポリゴンごとに施設名称候補を、その施設ポリゴンに対応して選択されている各POIの名称を解析することで抽出する(ステップS34)。この抽出を行う技術は、第1及び第2実施形態で示したような代表表記抽出装置には限らず、言語解析その他のアルゴリズムを自由に選択してよい。その後、関連付け手段35が、抽出された施設名称候補の共通性に基づいて、選択されている複数の施設ポリゴンの全部又は一部を相互に関連付け、すなわちグループ化する(ステップS35)。   And the candidate extraction means 34 extracts a facility name candidate for every facility polygon by analyzing the name of each POI selected corresponding to the facility polygon (step S34). The technique for performing this extraction is not limited to the representative notation extraction device as shown in the first and second embodiments, and language analysis and other algorithms may be freely selected. Thereafter, the associating unit 35 associates, or groups, all or some of the selected facility polygons with each other based on the commonality of the extracted facility name candidates (step S35).

上記の例では、タワー棟、東棟、西棟についてはいずれも、POIの名称の多くに共通して含まれる『アモルタウン』が施設名称候補となる。そして、このように施設名称候補が共通することから、タワー棟、東棟、西棟については関連付け手段35が複合施設として相互に関連付ける(図11、図12)。他の一棟については、場所は近かったが、POIの名称の共通部分に基づく施設名称候補は『東町ビル』であり、他の3棟とは異なっているため複合施設には含まれず、関連付けの対象から除外されている(図11、図12)。   In the above example, for the tower building, the east building, and the west building, “Amortown”, which is included in many of the POI names, is a facility name candidate. Since the facility name candidates are common in this way, the association means 35 associates the tower building, the east building, and the west building as a complex facility (FIGS. 11 and 12). The location of the other building was close, but the facility name candidate based on the common part of the POI name is “Higashimachi Building”, which is different from the other 3 buildings and is not included in the complex facility. (FIGS. 11 and 12).

続いて、地図データ更新手段36は、関連付け手段35による関連付けの根拠となった共通性にかかる施設名称候補『アモルタウン』を、関連付けされた複数の施設すなわちタワー棟、東棟、西棟の各施設ポリゴンに対応する複合施設の名称として、地図データ記憶手段21に記憶されている施設情報など地図データを更新する(ステップS36)。   Subsequently, the map data update unit 36 sets the facility name candidate “Amortown” related to the commonality that is the basis of the association by the association unit 35 to each of a plurality of associated facilities, that is, the tower building, the east building, and the west building. Map data such as facility information stored in the map data storage means 21 is updated as the name of the complex facility corresponding to the polygon (step S36).

以上のように、第3実施形態では、ビルなどを表す施設ポリゴンであって互いに位置の近い施設ポリゴンごとに、関連するPOIの名称を解析して施設ポリゴンの施設名称候補を抽出し、その施設名称候補の共通性に基づくことにより、同じ大規模商業施設などに包含される施設ポリゴンを相互に関連付けることが容易になる。   As described above, in the third embodiment, for each facility polygon that represents a building or the like and is close to each other, the name of the related POI is analyzed to extract facility name candidates for the facility polygon, and the facility polygon is extracted. Based on the commonality of name candidates, facility polygons included in the same large-scale commercial facility can be easily associated with each other.

また、第3実施形態では、上記のように、施設ポリゴン同士の関連付けの基礎となった共通の施設名称候補を、それら関連付けされた施設ポリゴン群に対応する施設名称などとして地図データを更新することにより(ステップS36)、大規模商業施設等の名称を人手で付与する負担なく、また、特定のビルのグループや地域を指す慣習上や事実上の俗称についても適切に設定することが可能となる。   In the third embodiment, as described above, the map data is updated with the common facility name candidates that are the basis for the association between the facility polygons as the facility names corresponding to the associated facility polygon groups. (Step S36), it is possible to set appropriately a customary or de facto common name indicating a specific group or region of a building without the burden of manually assigning a name of a large-scale commercial facility or the like. .

〔6.第4実施形態〕
第4実施形態は、第3実施形態に準じた地図データ処理装置における施設名称候補の抽出に、第1実施形態における代表表記抽出装置(図1)に準じた構成を適用する例である。すなわち、図13に示すように、この第4実施形態における地図データ処理装置4は、第3実施形態(図6)に準じた構成であるが、候補抽出手段44の具体的構成としては、代表表記抽出装置41として、次のような作用効果を実現・実行する各手段を設けたものである。なお、地図データ処理装置4と代表表記抽出装置41は一体の装置として実現してもよく、また、各処理の詳細や語義は、第3実施形態までに説明してきた内容に準じる。
[6. Fourth Embodiment]
The fourth embodiment is an example in which the configuration according to the representative notation extraction device (FIG. 1) in the first embodiment is applied to the extraction of facility name candidates in the map data processing device according to the third embodiment. That is, as shown in FIG. 13, the map data processing device 4 in the fourth embodiment has a configuration according to the third embodiment (FIG. 6), but the specific configuration of the candidate extracting means 44 is representative. The notation extraction device 41 is provided with means for realizing and executing the following operational effects. Note that the map data processing device 4 and the representative notation extraction device 41 may be realized as an integrated device, and details and meanings of each processing are the same as those described up to the third embodiment.

ここで、図14は、第4実施形態における処理手順を示すフローチャートである。すなわち、第3実施形態と同様に選択された施設ポリゴンごとに対応するPOI群が選択されると(ステップS32,S33)、代表表記抽出装置41が、施設ポリゴンごとに、その施設ポリゴンに対応して選択されている各POIの名称を解析することにより、施設名称候補を次のように抽出する(ステップS44)。   Here, FIG. 14 is a flowchart showing a processing procedure in the fourth embodiment. That is, when a POI group corresponding to each selected facility polygon is selected as in the third embodiment (steps S32 and S33), the representative notation extracting device 41 corresponds to the facility polygon for each facility polygon. By analyzing the names of the POIs selected, facility name candidates are extracted as follows (step S44).

すなわち、まず、分割手段14が、対象の施設ポリゴンに関連するPOIの各名称を、与えられた複数の文字列として、それぞれトークンに分割し(ステップS14)、カウント手段15が、個々の文字列ごとに、一以上のトークンが直接連なってその文字列の全部又は一部を構成する全てのトークン列(もとの文字列中でも直接連なっていたものに限る)について、もとの文字列群中における文字列数をカウントする(ステップS15)。続いて、トークン選択手段16が、カウントされた前記文字列数が所定の閾値以上又はその閾値より大きいトークン列であって、前記トークン列の中で他のトークン列中に含まれるトークン列を除いたトークン列(最長トークン列)を選択し、他は足切りする(ステップS16)。   That is, first, the dividing unit 14 divides each POI name related to the target facility polygon into tokens as a plurality of given character strings (step S14), and the counting unit 15 selects each character string. For each token sequence that consists of one or more tokens that are all or part of the string (limited to those that were also directly linked in the original string), The number of character strings is counted (step S15). Subsequently, the token selection means 16 excludes token strings that are included in other token strings in the token string, the token string having the counted number of character strings equal to or greater than a predetermined threshold value or greater than the threshold value. The token sequence (longest token sequence) is selected, and others are cut off (step S16).

さらに、重複削除手段17が、選択されたトークン列であってこの時点で残っている最長トークン列のうち最長トークン列間で相互に重複するものを削除し(ステップS17)、並べ替え手段18が、与えられた文字列群のうち、現在選択されているトークン列を最も多く含む文字列を基準文字列として選択し、その基準文字列における各トークンの順序に合わせて、現在選択されているトークン列を並べ替える(ステップS18)。このように並べ替えたトークン列は施設ポリゴンごとに、結果出力手段19が抽出結果として関連付け手段35及び地図データ更新手段46に対して出力する(ステップS19)。   Further, the duplication deletion unit 17 deletes the selected token sequence that is duplicated among the longest token sequences among the longest token sequences remaining at this time (step S17). , Select the character string that contains the most currently selected token string from the given character string group as the reference character string, and select the currently selected token according to the order of each token in the reference character string. The columns are rearranged (step S18). The token sequence rearranged in this way is output to the association unit 35 and the map data update unit 46 by the result output unit 19 as an extraction result for each facility polygon (step S19).

施設ポリゴンごとに、以上のステップS14〜S19の処理を行って施設名称候補を抽出した上で、最後に、それら施設名称候補を基に関連付け手段35が施設ポリゴン同士を関連付けし(ステップS35)、また、地図データ更新手段46が施設情報など地図データを更新するが(ステップS46)、この点は、第3実施形態と同様である。   For each facility polygon, the above-described steps S14 to S19 are performed to extract facility name candidates. Finally, the association means 35 associates facility polygons with each other based on the facility name candidates (step S35). Further, the map data update means 46 updates the map data such as facility information (step S46), and this point is the same as in the third embodiment.

但し、この第4実施形態では、地図データ更新手段46は、関連付けされた各施設ポリゴンに関連する複数のPOIの名称に基づいて上記のように結果出力手段19により抽出結果として出力されたトークン列を、関連付けされた複数の施設すなわちタワー棟、東棟、西棟の各施設ポリゴンに対応する複合施設である大規模商業施設全体の名称として、地図データ記憶手段21に記憶されている施設情報など地図データを更新する(ステップS46)。   However, in the fourth embodiment, the map data update means 46 outputs the token string output as the extraction result by the result output means 19 as described above based on the names of a plurality of POIs related to the associated facility polygons. Are stored in the map data storage means 21 as the names of the entire large-scale commercial facilities that are complex facilities corresponding to the facility polygons of the plurality of associated facilities, that is, the tower building, the east building, and the west building. The map data is updated (step S46).

以上のように第4実施形態では、与えられた文字列群であるPOIの名称を、字種などで分割したトークンから、所定数の文字列に含まれる最長のトークンの列を選択することにより、文字列群中で最も共通的に用いられる最大公約数的表記が得られるので、その文字列群を言い表す大規模商業施設名など適切な代表表記を抽出することができる。   As described above, in the fourth embodiment, by selecting the longest token string included in a predetermined number of character strings from tokens obtained by dividing the name of a given character string group POI by character type or the like. Since the greatest common divisor notation used most commonly in the character string group is obtained, an appropriate representative notation such as a large-scale commercial facility name representing the character string group can be extracted.

また、第4実施形態では、上記のように、関連付けされた施設ポリゴンに関連するPOIの名称から抽出されたトークン列を、それら関連付けされた施設ポリゴン群に対応する施設名称などとして地図データを更新することにより(ステップS46)、大規模商業施設等の名称を人手で付与する負担なく、また、特定のビルのグループや地域を指す慣習上や事実上の俗称についても適切に設定することが可能となる。   In the fourth embodiment, as described above, the token data extracted from the POI name related to the associated facility polygon is used as the facility name corresponding to the associated facility polygon group, and the map data is updated. By doing so (step S46), there is no burden of manually assigning names of large-scale commercial facilities, etc., and it is possible to appropriately set customary and de facto common names that refer to specific building groups and regions. It becomes.

なお、施設ポリゴンをグループ化する基準としての施設名称候補を抽出する基準やアルゴリズムと、グループ化された複合施設に名称として付与する施設名称候補を抽出する基準やアルゴリズムは、互いに異なってもよい。例えば、グループ化については第3実施形態で触れたような言語解析を用い、複合施設の名称については別途、グループ内のPOIから改めて、第1実施形態や第2実施形態で説明したようなトークンを用いたアルゴリズムで抽出することもできる。このようにすれば、処理の段階など状況に応じ各アルゴリズムを特性に応じて効果的に使い分けすることが可能となる。   Note that the criteria and algorithm for extracting facility name candidates as criteria for grouping facility polygons and the criteria and algorithm for extracting facility name candidates to be given as names to grouped complex facilities may be different from each other. For example, the linguistic analysis as described in the third embodiment is used for grouping, and the name of the complex facility is separately changed from the POI in the group, as described in the first embodiment and the second embodiment. It can also be extracted with an algorithm using. In this way, it is possible to effectively use each algorithm according to characteristics according to the situation such as the stage of processing.

〔7.他の実施形態〕
なお、上記各実施形態は例示に過ぎず、本発明は、以下に例示するものやそれ以外の他の実施態様も含むものである。例えば、手段などの各要素は、コンピュータの演算制御部に限らず、ワイヤードロジック等に基づく電子回路など他の情報処理機構で実現してもよい。また、各構成図、データの図、フローチャートの図などは例示に過ぎず、各要素の有無、その順序や具体的内容などは適宜変更可能である。
[7. Other embodiments]
In addition, said each embodiment is only an illustration, and this invention includes what is illustrated below and other embodiment other than that. For example, each element such as means is not limited to an arithmetic control unit of a computer, and may be realized by another information processing mechanism such as an electronic circuit based on wired logic or the like. Further, each configuration diagram, data diagram, flowchart diagram, and the like are merely examples, and the presence / absence of each element, its order, specific contents, and the like can be appropriately changed.

また、本発明の装置(代表表記抽出装置、地図データ処理装置)は、それぞれ、サーバなどの装置を複数用いて実現してもよく、個々の記憶手段を別個独立のサーバ装置やシステムで実現する構成も一般的である。また、機能によっては、外部のプラットフォーム等をAPI(アプリケーション・プログラム・インタフェース)やネットワークコンピューティング(いわゆるクラウドなど)で呼び出して実現するなど、構成は柔軟に変更できる。   Further, each of the devices (representative notation extraction device, map data processing device) of the present invention may be realized by using a plurality of devices such as servers, and each storage means is realized by a separate and independent server device or system. The configuration is also common. Depending on the function, the configuration can be flexibly changed, for example, by calling an external platform or the like with an API (application program interface) or network computing (so-called cloud or the like).

1,2,41 代表表記抽出装置
3,4 地図データ処理装置
5 演算制御部
6 記憶装置
7 通信手段
11 文字列記憶手段
12 文字列指定手段
14 分割手段
15 カウント手段
16 トークン選択手段
17 重複削除手段
18 並べ替え手段
19 結果出力手段
21,31 地図データ記憶手段
22,32 ポリゴン選択手段
23,33 POI選択手段
24,34,44 候補抽出手段
26,36,46 地図データ更新手段
35 関連付け手段
1, 2, 41 Representative notation extraction device 3, 4 Map data processing device 5 Arithmetic control unit 6 Storage device 7 Communication means 11 Character string storage means 12 Character string designation means 14 Division means 15 Count means 16 Token selection means 17 Duplicate deletion means 18 Sorting means 19 Result output means 21, 31 Map data storage means 22, 32 Polygon selecting means 23, 33 POI selecting means 24, 34, 44 Candidate extracting means 26, 36, 46 Map data updating means 35 Association means

Claims (6)

与えられた複数の文字列を、それぞれトークンに分割する分割手段と、
一以上の前記トークンが直接連なって前記文字列の全部又は一部を構成する全てのトークン列について、前記複数の文字列の中で当該トークン列が含まれる文字列数をカウントするカウント手段と、
カウントされた前記文字列数が所定の閾値以上又はより大きいトークン列であって、前記トークン列の中で他のさらに長いトークン列中に含まれるトークン列を除いたトークン列を選択するトークン選択手段と、
選択されたトークン列を抽出結果として出力する結果出力手段と、
を有することを特徴とする代表表記抽出装置。
A dividing means for dividing a plurality of given character strings into tokens, and
Counting means for counting the number of character strings in which the token string is included in the plurality of character strings for all token strings that form one or more of the character strings by directly connecting one or more tokens;
Token selection means for selecting a token string in which the counted number of character strings is a token string that is greater than or equal to a predetermined threshold value and excluding a token string included in another longer token string. When,
A result output means for outputting the selected token string as an extraction result;
A representative notation extraction device characterized by comprising:
与えられた前記複数の文字列のうち選択されたトークン列を最も多く含む文字列を基準文字列として選択し、その基準文字列における各トークンの順序に合わせて、前記選択されたトークン列を並べ替える並べ替え手段を有する
ことを特徴とする請求項1記載の代表表記抽出装置。
A character string that includes the largest number of selected token strings among the given character strings is selected as a reference character string, and the selected token strings are arranged in accordance with the order of the tokens in the reference character string. The representative notation extraction device according to claim 1, further comprising rearranging means for changing.
選択された前記トークン列を構成する各トークンのうちトークン列間で相互に重複するものを削除する重複削除手段
を有することを特徴とする請求項1又は2記載の代表表記抽出装置。
The representative notation extracting device according to claim 1, further comprising: a duplication deleting unit that deletes the tokens constituting the selected token string that overlap each other among the token strings.
請求項1から3のいずれか一項に記載の代表表記抽出装置において、さらに、
施設ポリゴン及びPOIを含む地図データを記憶している地図データ記憶手段と、
前記地図データ記憶手段から施設ポリゴンを選択するポリゴン選択手段と、
選択された前記施設ポリゴンに関連付けされたPOIを前記地図データ記憶手段から選択するPOI選択手段と、
選択された前記POIの名称を解析して前記各施設ポリゴンの施設名称候補を抽出する候補抽出手段と、
を有する代表表記抽出装置であって、
前記分割手段は、前記POIの名称をそれぞれ、与えられた複数の文字列として、それぞれトークンに分割し、
分割された各トークンを基に前記カウント手段は前記カウントを行い、前記トークン選択手段はトークン列の前記選択を行い、
前記結果出力手段は、選択されたトークン列を施設名称候補の抽出結果として出力し、
この代表表記抽出装置はさらに、出力された前記施設名称候補を、選択された前記施設ポリゴンの名称として前記地図データ記憶手段に記憶させる地図データ更新手段を有する
ことを特徴とする代表表記抽出装置。
In the representative notation extraction device according to any one of claims 1 to 3,
Map data storage means for storing map data including facility polygons and POIs;
Polygon selection means for selecting facility polygons from the map data storage means;
POI selection means for selecting a POI associated with the selected facility polygon from the map data storage means;
Candidate extracting means for analyzing the name of the selected POI and extracting facility name candidates of each facility polygon;
A representative notation extraction device comprising:
The dividing means divides each POI name into a plurality of given character strings into tokens,
The counting means performs the counting based on each divided token, the token selecting means performs the selection of a token string,
The result output means outputs the selected token string as a facility name candidate extraction result,
The representative notation extracting device further includes map data updating means for storing the output facility name candidate in the map data storing means as the name of the selected facility polygon.
与えられた複数の文字列を、それぞれトークンに分割する分割ステップと、
一以上の前記トークンが直接連なって前記文字列の全部又は一部を構成する全てのトークン列について、前記複数の文字列の中で当該トークン列が含まれる文字列数をカウントするカウントステップと、
カウントされた前記文字列数が所定の閾値以上又はより大きいトークン列であって、前記トークン列の中で他のさらに長いトークン列中に含まれるトークン列を除いたトークン列を選択するトークン選択ステップと、
選択されたトークン列を抽出結果として出力する結果出力ステップと、
をコンピュータが実行することを特徴とする代表表記抽出方法。
A dividing step of dividing a plurality of given character strings into tokens;
A counting step of counting the number of character strings that include the token string in the plurality of character strings, for all token strings that form one or more of the character strings by directly connecting one or more tokens;
Token selection step of selecting a token string in which the number of counted character strings is a token string greater than or equal to a predetermined threshold value or larger and excluding a token string included in another longer token string. When,
A result output step for outputting the selected token string as an extraction result; and
A representative notation extraction method characterized in that a computer executes.
コンピュータを制御するコンピュータ・プログラムであって、
与えられた複数の文字列を、それぞれトークンに分割する分割ステップと、
一以上の前記トークンが直接連なって前記文字列の全部又は一部を構成する全てのトークン列について、前記複数の文字列の中で当該トークン列が含まれる文字列数をカウントするカウントステップと、
カウントされた前記文字列数が所定の閾値以上又はより大きいトークン列であって、前記トークン列の中で他のさらに長いトークン列中に含まれるトークン列を除いたトークン列を選択するトークン選択ステップと、
選択されたトークン列を抽出結果として出力する結果出力ステップと、
をコンピュータに実行させることを特徴とする代表表記抽出プログラム。
A computer program for controlling a computer,
A dividing step of dividing a plurality of given character strings into tokens;
A counting step of counting the number of character strings that include the token string in the plurality of character strings, for all token strings that form one or more of the character strings by directly connecting one or more tokens;
A token selection step of selecting a token string in which the number of counted character strings is a token string greater than or equal to a predetermined threshold value and excluding a token string included in another longer token string in the token string When,
A result output step for outputting the selected token string as an extraction result; and
A representative notation extraction program for causing a computer to execute.
JP2010065375A 2010-03-23 2010-03-23 Representative notation extraction apparatus, method and program Expired - Fee Related JP5090490B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010065375A JP5090490B2 (en) 2010-03-23 2010-03-23 Representative notation extraction apparatus, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010065375A JP5090490B2 (en) 2010-03-23 2010-03-23 Representative notation extraction apparatus, method and program

Publications (2)

Publication Number Publication Date
JP2011198162A true JP2011198162A (en) 2011-10-06
JP5090490B2 JP5090490B2 (en) 2012-12-05

Family

ID=44876250

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010065375A Expired - Fee Related JP5090490B2 (en) 2010-03-23 2010-03-23 Representative notation extraction apparatus, method and program

Country Status (1)

Country Link
JP (1) JP5090490B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967545A (en) * 2020-10-26 2020-11-20 北京易真学思教育科技有限公司 Text detection method and device, electronic equipment and computer storage medium

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101983714B1 (en) * 2018-10-22 2019-06-04 새한항업(주) Auto-updata system using name similarity and spatial proximity

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06301722A (en) * 1993-04-13 1994-10-28 Matsushita Electric Ind Co Ltd Morpheme analyzing device and keyword extracting device
JP2001344282A (en) * 2001-03-08 2001-12-14 Hitachi Ltd Method and device for document retrieval
JP2004259210A (en) * 2003-02-27 2004-09-16 Ricoh Co Ltd Document retrieval apparatus, document retrieval method, document retrieval program, and storage medium
JP2004341948A (en) * 2003-05-16 2004-12-02 Ricoh Co Ltd Concept extraction system, concept extraction method, program therefor, and storing medium thereof
JP2008083952A (en) * 2006-09-27 2008-04-10 Oki Electric Ind Co Ltd Dictionary creation support system, method and program
JP2009129087A (en) * 2007-11-21 2009-06-11 Yahoo Japan Corp Merchandise information classification device, program and merchandise information classification method
JP2009525550A (en) * 2006-02-01 2009-07-09 テレ アトラス ノース アメリカ インコーポレイテッド How to distinguish between distant localities that have exactly the same or similar names within a state or other major geographic unit of interest

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06301722A (en) * 1993-04-13 1994-10-28 Matsushita Electric Ind Co Ltd Morpheme analyzing device and keyword extracting device
JP2001344282A (en) * 2001-03-08 2001-12-14 Hitachi Ltd Method and device for document retrieval
JP2004259210A (en) * 2003-02-27 2004-09-16 Ricoh Co Ltd Document retrieval apparatus, document retrieval method, document retrieval program, and storage medium
JP2004341948A (en) * 2003-05-16 2004-12-02 Ricoh Co Ltd Concept extraction system, concept extraction method, program therefor, and storing medium thereof
JP2009525550A (en) * 2006-02-01 2009-07-09 テレ アトラス ノース アメリカ インコーポレイテッド How to distinguish between distant localities that have exactly the same or similar names within a state or other major geographic unit of interest
JP2008083952A (en) * 2006-09-27 2008-04-10 Oki Electric Ind Co Ltd Dictionary creation support system, method and program
JP2009129087A (en) * 2007-11-21 2009-06-11 Yahoo Japan Corp Merchandise information classification device, program and merchandise information classification method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967545A (en) * 2020-10-26 2020-11-20 北京易真学思教育科技有限公司 Text detection method and device, electronic equipment and computer storage medium

Also Published As

Publication number Publication date
JP5090490B2 (en) 2012-12-05

Similar Documents

Publication Publication Date Title
US7739291B2 (en) Methods and systems for displaying matching business objects
JP4846012B2 (en) Business flow search system, business flow search method, and business flow search program
CN103678454A (en) Method and system for user-specific synthetic context object matching
US20150066909A1 (en) Cooking recipe information providing device, cooking recipe information providing method, program, and information storage medium
KR101765296B1 (en) Apparatus and method for providing data analysis tool with user created analysis module
CN106407377A (en) Search method and device based on artificial intelligence
US20150154294A1 (en) Suggested domain names positioning based on term frequency or term co-occurrence
CN105283843A (en) Embeddable media content search widget
CN103793495B (en) Application message search method and system and application message acquisition methods and system
JP2005242904A (en) Document group analysis device, document group analysis method, document group analysis system, program and storage medium
JP5090490B2 (en) Representative notation extraction apparatus, method and program
JP5155351B2 (en) Map data processing apparatus and method
WO2019123704A1 (en) Data analysis assistance device, data analysis assistance method, and data analysis assistance program
JP5415499B2 (en) Information display apparatus, method and program
JP2004102818A (en) Retrieval support method and retrieval support device
KR20190000061A (en) Method and system for providing relevant keywords based on keyword attribute
JP5444282B2 (en) Data shaping system, method, and program
JP4675986B2 (en) Information sharing apparatus and information sharing program
JP2008287397A (en) Personnel information processor, personnel information processing method and personnel information processing program
JP2004303160A (en) Information extracting device
JP6739361B2 (en) Information providing device, information providing method, and program
JP5792871B1 (en) Representative spot output method, representative spot output device, and representative spot output program
JP5068350B2 (en) Data processing apparatus, method and program
JP5469477B2 (en) Search optimization method, program and apparatus
WO2023089671A1 (en) Search device, search method, and search program

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120605

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120806

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120904

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120912

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150921

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5090490

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees
S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350