JP2012226705A - Structure processing method of non-structured data - Google Patents

Structure processing method of non-structured data Download PDF

Info

Publication number
JP2012226705A
JP2012226705A JP2011096330A JP2011096330A JP2012226705A JP 2012226705 A JP2012226705 A JP 2012226705A JP 2011096330 A JP2011096330 A JP 2011096330A JP 2011096330 A JP2011096330 A JP 2011096330A JP 2012226705 A JP2012226705 A JP 2012226705A
Authority
JP
Japan
Prior art keywords
information
data
information element
item
item information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2011096330A
Other languages
Japanese (ja)
Inventor
Hironari Minami
裕也 南
Daichi Namikawa
大地 並河
Yusuke Tagawa
勇介 多川
Huijun Wang
慧俊 王
Yasuhiro Aihara
康弘 相原
Kohei Yamaguchi
高平 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Keio University
Original Assignee
Nippon Telegraph and Telephone Corp
Keio University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Keio University filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011096330A priority Critical patent/JP2012226705A/en
Publication of JP2012226705A publication Critical patent/JP2012226705A/en
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To convert non-structured data such as text into a form of structured data by extracting and polishing useful information from the non-structured data.SOLUTION: A structure processing method of non-structured data uses a data structuring device for converting non-structured data contained in structured data relating to navigation services into structured data. A processing procedure using the data structuring device includes the step of extracting item information that is non-structured data relating to a predetermined item from the structured data relating to the navigation services, an information element extraction step of extracting information elements contained in the item information in accordance with the description pattern of information elements and the description order of information elements contained in the item information, and the step of converting the extracted information elements into structured data.

Description

本発明は、非構造型データの構造化処理方法に関し、特に、テキスト等の非構造型データから有用な情報を抽出、洗練し、構造型データに変換する非構造型データの構造化処理方法に関する。   The present invention relates to a structured processing method for unstructured data, and more particularly to a structured processing method for unstructured data that extracts useful information from unstructured data such as text, refines it, and converts it into structured data. .

近年、スマートフォンの登場に代表される、携帯端末の飛躍的な性能向上や多機能化により、現在地や目的地の周辺にある店舗(例えば飲食店やコンビニ)や施設(例えば交通機関やホテル)の情報を案内する情報サービス(以下、ナビゲーションサービス)を、時刻や場所を選ばずに利用することができる。例えば、ユーザは、店舗や施設利用の直前に現地で当該店舗や施設に関する情報の案内を受けることができる。   In recent years, with the dramatic improvement in performance and multi-functionality of mobile terminals, represented by the emergence of smartphones, stores (such as restaurants and convenience stores) and facilities (such as transportation facilities and hotels) around the current location and destination An information service for guiding information (hereinafter referred to as a navigation service) can be used regardless of time and place. For example, the user can receive information regarding the store or facility on site immediately before using the store or facility.

さらに、ナビゲーションサービスを提供するシステムの核となる店舗や施設の情報を蓄積したデータベース(以下、店舗情報DB)を外部に公開するAPI(Application Program Interface)も提供されている(例えば、非特許文献1、2参照)。これらのAPIでは、例えば図14のように、ナビゲーションサービスに関する種々の情報が得られる場合もあり、サードパーティ事業者が既存の店舗情報DBへアクセスしながら独自のナビゲーションサービスを新たに考案し提供できる余地がある。   Further, an API (Application Program Interface) that publishes a database (hereinafter referred to as store information DB) that stores store and facility information that is the core of a system that provides a navigation service to the outside is also provided (for example, non-patent literature). 1 and 2). In these APIs, for example, as shown in FIG. 14, various information related to the navigation service may be obtained, and a third-party provider can newly devise and provide a unique navigation service while accessing the existing store information DB. There is room.

“ホットペッパーWebサービスがVerUp、57万件店名API公開&緯度経度・詳細項目追加!”、たたみラボ、[online]、[2011年2月10日検索]、インターネット〈http://www.tatamilab.jp/rnd/archives/000375.html〉“Hot Pepper Web Service VerUp, 570,000 Store Name APIs Released & Latitude / Longitude / Details Added!”, Tatami Lab, [online], [Search February 10, 2011], Internet <http: //www.tatamilab. jp / rnd / archives / 000375.html> “ぐるなびがAPIを公開、その背景にあるのは?”、@IT、[online]、[2011年2月10日検索]、インターネット〈http://jibun.atmarkit.co.jp/lskill01/special/gr_api/gr_api01.html〉“GourNavi releases API, what is behind it?”, @IT, [online], [February 10, 2011 search], Internet <http://jibun.atmarkit.co.jp/lskill01/special /gr_api/gr_api01.html>

ここで、携帯端末からナビゲーションサービスを利用する場合は、端末の表示能力(画面サイズ)に限りがあるため、また、利用者の手間を極力省くために、利用者の意図や目的沿った情報のみを選択/強調した形でナビゲーション結果などが表示されることが望ましい。   Here, when using the navigation service from a mobile terminal, the display capability (screen size) of the terminal is limited, and in order to save the user's effort as much as possible, only information in line with the user's intention and purpose It is desirable that the navigation result or the like is displayed in a form that is selected / emphasized.

従来の店舗情報DBにおいては、店舗情報はXML等の構造型データであり、店舗情報の各項目情報(例えば、アクセス方法、住所、営業予定など)は、所定のXMLタグによって規定されている。しかし、項目情報自体は、テキスト形式、即ち非構造型データとして蓄積されているものであって、例えばアクセス方法に関して、最寄りの駅名や駅の出口などの情報は構造化されていない。   In the conventional store information DB, store information is structured data such as XML, and each item information of the store information (for example, an access method, an address, a business schedule, etc.) is defined by a predetermined XML tag. However, the item information itself is stored in a text format, that is, as unstructured data. For example, regarding the access method, information such as the nearest station name and station exit is not structured.

携帯端末を用いたナビゲーションサービスにおいて、利用者の意図や目的に沿った選択/強調には様々な態様が考えられるが、かかる選択/強調を実現するためには、選択/強調に対して有用となりうる情報を構造型データとして予め用意しておくことが望ましい。   In a navigation service using a portable terminal, various modes can be considered for selection / emphasis according to the user's intention and purpose. In order to realize such selection / emphasis, it is useful for selection / emphasis. It is desirable to prepare available information as structural type data in advance.

このような問題を鑑み、本発明の目的は、ナビゲーションサービスに関する構造型データに含まれる非構造型データから、有用な情報を抽出、洗練し、構造型データへと変換する非構造型データの構造化処理方法を提供することである。   In view of such a problem, an object of the present invention is to extract the structure of unstructured data from the unstructured data included in the structured data related to the navigation service, refine it, and convert it into structured data. It is to provide a processing method.

本発明に係る非構造型データの構造化処理方法は、ナビゲーションサービスに関する構造型データに含まれる非構造型データを構造型データに変換するデータ構造化装置による非構造型データの構造化処理方法であって、前記データ構造化装置による処理手順が、前記ナビゲーションサービスに関する構造型データから、所定の項目に関する非構造型データである項目情報を抽出するステップと、前記項目情報に含まれる情報要素の記載パターン及び情報要素の記載順に応じて、前記項目情報に含まれる情報要素を抽出する情報要素抽出ステップと、抽出された前記情報要素を構造型データに変換するステップと、を含むものである。   The structured processing method of unstructured data according to the present invention is a structured processing method of unstructured data by a data structuring apparatus that converts unstructured data included in structured data related to a navigation service into structured data. The process procedure by the data structuring apparatus extracts item information that is unstructured data related to a predetermined item from structured data related to the navigation service, and description of information elements included in the item information According to the description order of the pattern and the information element, an information element extraction step for extracting the information element included in the item information and a step for converting the extracted information element into structural type data are included.

本発明による非構造型データの構造化処理方法によれば、ナビゲーションサービスに関する構造型データに含まれる非構造型データから、有用な情報を抽出、洗練し、構造型データへと変換することが可能となる。   According to the structured processing method for unstructured data according to the present invention, useful information can be extracted from the unstructured data included in the structured data related to the navigation service, refined, and converted into structured data. It becomes.

図1は、本発明の一実施形態に係るデータ構造化装置を含むシステムの概略構成を示す図である。FIG. 1 is a diagram showing a schematic configuration of a system including a data structuring apparatus according to an embodiment of the present invention. 図2は、本発明の一実施形態に係るデータ構造化装置の概略構成を示す図である。FIG. 2 is a diagram showing a schematic configuration of a data structuring apparatus according to an embodiment of the present invention. 図3は、有用な非構造型データを含む項目の一例を示す図である。FIG. 3 is a diagram illustrating an example of items including useful unstructured data. 図4は、アクセス方法に関する項目情報のデータ構造化の一例を示す図である。FIG. 4 is a diagram illustrating an example of data structuring of item information related to the access method. 図5は、アクセス方法に関する項目情報から駅名に関する情報要素を取得するフローチャートである。FIG. 5 is a flowchart for acquiring an information element related to a station name from item information related to an access method. 図6は、アクセス方法に関する項目情報から出口に関する情報要素を取得するフローチャートである。FIG. 6 is a flowchart for acquiring an information element related to an exit from item information related to an access method. 図7は、アクセス方法に関する項目情報から移動情報に関する情報要素を取得するフローチャートである。FIG. 7 is a flowchart for acquiring information elements relating to movement information from item information relating to access methods. 図8は、複数のアクセス方法を含む項目情報の一例を示す図である。FIG. 8 is a diagram illustrating an example of item information including a plurality of access methods. 図9は、住所に関する項目情報のデータ構造化の一例を示す図である。FIG. 9 is a diagram illustrating an example of data structuring of item information related to an address. 図10は、住所に関する項目情報から情報要素を取得するフローチャートである。FIG. 10 is a flowchart for acquiring information elements from item information relating to addresses. 図11は、営業予定に関する項目情報のデータ構造化の一例を示す図である。FIG. 11 is a diagram illustrating an example of the data structure of item information related to a business schedule. 図12は、営業予定に関する項目情報から情報要素を取得するフローチャートである。FIG. 12 is a flowchart for acquiring information elements from item information related to a business schedule. 図13は、営業予定に関する同義語リストの一例を示す図である。FIG. 13 is a diagram illustrating an example of a synonym list related to a business schedule. 図14は、従来のナビゲーションサービスに関する構造型データの一例を示す図である。FIG. 14 is a diagram showing an example of structured data relating to a conventional navigation service.

以降、諸図面を参照しながら、本発明の実施態様を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

図1は、本発明の一実施形態に係るデータ構造化装置を含むシステム全体の構成を示す図である。データ構造化装置1は、データ取得部10と、データ構造化部20と、店舗メタデータDB30とを備えている。また、データ構造化装置1に接続する外部サーバ装置40は、形態素解析部41と駅名DB42とを備えている。なお、本実施形態においては、形態素解析部41と駅名DB42とを、外部サーバ装置40の機能として記載しているが、データ構造化装置1が形態素解析部41と駅名DB42との機能を備えても良いことに留意されたい。   FIG. 1 is a diagram showing a configuration of an entire system including a data structuring apparatus according to an embodiment of the present invention. The data structuring apparatus 1 includes a data acquisition unit 10, a data structuring unit 20, and a store metadata DB 30. The external server device 40 connected to the data structuring device 1 includes a morphological analysis unit 41 and a station name DB 42. In the present embodiment, the morphological analysis unit 41 and the station name DB 42 are described as functions of the external server device 40. However, the data structuring apparatus 1 has the functions of the morpheme analysis unit 41 and the station name DB 42. Note that it is also good.

データ取得部10は、既存のナビゲーションサービスが提供するAPIを用いて、外部の店舗情報DBより、項目別に記載された店舗情報を取得する。ここで、店舗情報は、例えばXML文書等の構造型データであって、店舗情報の項目とは、例えば、XML文書に含まれる所定のXMLタグ(<address><access>など)を示すものである。これ以降、各項目に関するデータ(例えばXMLタグで規定されたデータ)を項目情報と称する。   The data acquisition unit 10 acquires store information described by item from an external store information DB using an API provided by an existing navigation service. Here, the store information is structured type data such as an XML document, for example, and the item of store information indicates, for example, a predetermined XML tag (<address> <access> etc.) included in the XML document. is there. Hereinafter, data relating to each item (for example, data defined by an XML tag) is referred to as item information.

データ構造化部20は、データ取得部10が取得した店舗情報から、有用な非構造型データを含む項目を抽出するとともに、当該項目に関する項目情報から、有用な情報要素(例えば、メタ情報を付与可能な数値や単語)を取得する。ここで、詳細は後述するが、データ構造化部20は、情報要素の記載パターンに応じた正規表現による文字列検索や、項目情報における情報要素の記載順等に応じて、項目情報に含まれる情報要素を抽出する。また、データ構造化部20は、外部サーバ装置40の形態素解析部41及び駅名DB42を利用し、項目情報を形態素解析して得られる固有名詞と、情報要素の記載パターンに基づく特徴語(例えば“駅”、“口”など、情報要素検索にとって有用となる単語)とからなる文字列を検索することにより、項目情報に含まれる情報要素を抽出することができる。データ構造化部20は、抽出した情報要素を、Semantic Webなどの機械的なデータ解釈に適した構造型データ(メタデータ、例えばRDF:Resource Description Framework)に変換し、店舗メタデータDB30に格納する。ここで、情報要素をメタデータに変換するとは、例えば各情報要素を所定のXMLタグで規定するなど、各情報要素に対して所定のメタ情報を付与することを示すものである。   The data structuring unit 20 extracts items including useful unstructured data from the store information acquired by the data acquisition unit 10, and assigns useful information elements (for example, meta information) from the item information regarding the items. Get possible numbers and words). Here, although the details will be described later, the data structuring unit 20 is included in the item information in accordance with a character string search by a regular expression corresponding to the description pattern of the information element, the description order of the information elements in the item information, or the like. Extract information elements. In addition, the data structuring unit 20 uses the morphological analysis unit 41 and the station name DB 42 of the external server device 40 to use characteristic words (for example, “ Information elements included in the item information can be extracted by searching for a character string consisting of words such as “station” and “mouth” that are useful for information element search. The data structuring unit 20 converts the extracted information element into structural type data (metadata such as RDF: Resource Description Framework) suitable for mechanical data interpretation such as Semantic Web, and stores it in the store metadata DB 30. . Here, converting an information element into metadata indicates that predetermined meta information is given to each information element, for example, each information element is defined by a predetermined XML tag.

店舗メタデータDB30は、メタデータを格納するとともに、外部のサードパーティに対してメタデータへのアクセスに関するAPIを提供する。外部のサードパーティ事業者は、店舗メタデータDB30が提供するAPIを用いて必要なメタデータを取得し、クライアント端末に対して、例えばWebサービスとして、利用者の意図や目的に沿った選択/強調を行うナビゲーションサービスを提供することができる。   The store metadata DB 30 stores the metadata and provides an API related to access to the metadata to an external third party. An external third-party provider acquires necessary metadata using an API provided by the store metadata DB 30 and selects / emphasizes the client terminal as a Web service, for example, according to the user's intention and purpose. A navigation service can be provided.

図2は、図1に示すデータ構造化装置1の構成をより詳細に示す図である。上述の通り、データ構造化装置1は、データ取得部10と、データ構造化部20と、店舗メタデータDB30とを備え、データ構造化部20は、データ抽出部21と、データ洗練部22と、データ変換部23とを備えている。データ取得部10及び店舗メタデータDB30の処理は上述の通りであり、これ以降、データ構造化部20が備えるデータ抽出部21、データ洗練部22、及びデータ変換部23の各処理について詳述する。   FIG. 2 is a diagram showing the configuration of the data structuring apparatus 1 shown in FIG. 1 in more detail. As described above, the data structuring apparatus 1 includes the data acquisition unit 10, the data structuring unit 20, and the store metadata DB 30, and the data structuring unit 20 includes the data extraction unit 21, the data refinement unit 22, The data converter 23 is provided. The processes of the data acquisition unit 10 and the store metadata DB 30 are as described above, and hereinafter, each process of the data extraction unit 21, the data refinement unit 22, and the data conversion unit 23 included in the data structuring unit 20 will be described in detail. .

データ抽出部21は、データ取得部10が取得した店舗情報から、有用な非構造型データを含む項目を抽出する。例えば、有用な非構造型データを含む項目は、事前にオフラインで定義しておくことができる。図3は、有用な非構造型データを含む項目の一例を示す図である。図3(a)は「アクセス方法」に関する項目であり、<access>タグによって項目情報が規定されている。図示の通り、<access>タグで規定される項目情報は、非構造型データではあるが、駅名、出口、移動方法、移動時間、時間単位などの有用な情報要素を含むものである。図3(b)は「住所」に関する項目であり、<address>タグによって項目情報が規定されている。図示の通り、<address>タグで規定される項目情報は、非構造型データではあるが、都道府県市町村、番地、建物名、階数などの有用な情報要素を含むものである。図3(c)は「営業予定」に関する項目であり、<open>タグによって項目情報が規定されている。図示の通り、<open>タグで規定される項目情報は、非構造型データではあるが、営業日、営業時間などの有用な情報要素を含むものである。   The data extraction unit 21 extracts items including useful unstructured data from the store information acquired by the data acquisition unit 10. For example, items containing useful unstructured data can be defined offline in advance. FIG. 3 is a diagram illustrating an example of items including useful unstructured data. FIG. 3A shows items related to “access method”, and item information is defined by an <access> tag. As shown in the figure, item information defined by the <access> tag is unstructured data, but includes useful information elements such as a station name, an exit, a movement method, a movement time, and a time unit. FIG. 3B shows items related to “address”, and item information is defined by an <address> tag. As shown in the drawing, the item information defined by the <address> tag is unstructured data, but includes useful information elements such as prefectures, municipalities, street addresses, building names, and floor numbers. FIG. 3C shows items related to “business schedule”, and item information is defined by an <open> tag. As illustrated, the item information defined by the <open> tag is unstructured data, but includes useful information elements such as business days and business hours.

データ抽出部21は、異なる店舗情報DB間においてデータ構造(項目名、例えばXMLタグの名前)にバラつきがある場合にも、例えばXMLのスキーマ定義などを参照することにより、かかるバラつきを吸収することができる。データ抽出部21は、有用な非構造型データを含む項目を抽出すると、当該項目に含まれる項目情報をデータ洗練部22に供給する。   Even when the data structure (item name, for example, the name of the XML tag) varies between different store information DBs, the data extraction unit 21 absorbs such variations by referring to, for example, the XML schema definition. Can do. When the data extraction unit 21 extracts items including useful unstructured data, the data extraction unit 21 supplies item information included in the items to the data refinement unit 22.

データ洗練部22は、データ抽出部22が抽出した項目に含まれる項目情報から、有用な情報要素を抽出する。情報要素とは、例えばある意味を持った数値や単語であって、図3(a)のアクセス方法場合、駅名、出口、移動方法、移動時間、時間単位など、図3(b)の住所の場合、都道府県市町村、番地、建物名、階数など、図3(c)の営業予定の場合、営業日、営業時間などが情報要素の例として挙げられる。   The data refiner 22 extracts useful information elements from the item information included in the items extracted by the data extractor 22. The information element is, for example, a numerical value or a word having a certain meaning, and in the case of the access method of FIG. 3A, the station name, exit, travel method, travel time, time unit, etc. of the address of FIG. In this case, in the case of the business schedule shown in FIG. 3C, such as a prefecture city, a street address, a building name, and a floor number, business days, business hours, and the like are listed as examples of information elements.

データ洗練部22は、情報要素の記載パターンに応じた正規表現による文字列検索や、項目情報における情報要素の記載順等に応じて、項目情報に含まれる情報要素を抽出する。また、データ構造化部20は、外部サーバ装置40の形態素解析部41及び駅名DB42を利用し、項目情報を形態素解析して得られる固有名詞と、情報要素の記載パターンに基づく特徴語(例えば“駅”、“口”など)とからなる文字列を検索することにより、項目情報に含まれる情報要素を抽出することができる。なお、情報要素の取得の詳細については後述するものとする。データ洗練部22は、取得した情報要素をデータ変換部23に供給する。   The data refinement unit 22 extracts information elements included in the item information in accordance with a character string search using a regular expression corresponding to the description pattern of the information elements, a description order of the information elements in the item information, and the like. In addition, the data structuring unit 20 uses the morphological analysis unit 41 and the station name DB 42 of the external server device 40 to use characteristic words (for example, “ Information elements included in the item information can be extracted by searching for a character string including “station”, “mouth”, and the like. Details of the information element acquisition will be described later. The data refiner 22 supplies the acquired information element to the data converter 23.

データ変換部23は、データ洗練部22から供給された情報要素を、Semantic Webなどの機械的なデータ解釈に適した構造型データ(メタデータ)に変換する。具体的には、データ変換部23は、各情報要素の意味(メタ情報)を示すタグで各情報要素を規定することにより、各情報要素を構造型データに変換する。ここで、各情報要素の意味を示すタグとは、図3(a)のアクセス方法の場合、駅名を示す<station>、出口を示す<exit>、移動方法を示す<transport>、移動時間を示す<time>、時間単位を示す<unit>など、図3(b)の住所の場合、都道府県市町村を示す<area>、番地を示す<number>、建物名を示す<building>、階数を示す<floor>など、図3(c)の営業予定の場合、営業日を示す<day>、営業時間を示す<hour>などである。データ変換部23は、変換した構造型データ(メタデータ)を店舗メタデータDB30に格納する。   The data conversion unit 23 converts the information element supplied from the data refinement unit 22 into structural data (metadata) suitable for mechanical data interpretation such as Semantic Web. Specifically, the data conversion unit 23 converts each information element into structured data by defining each information element with a tag indicating the meaning (meta information) of each information element. Here, in the case of the access method of FIG. 3A, the tag indicating the meaning of each information element is <station> indicating the station name, <exit> indicating the exit, <transport> indicating the moving method, and the moving time. In the case of the address in Fig. 3 (b), such as <time> indicating <time> indicating the unit of time, <area> indicating the prefecture city, <number> indicating the address, <building> indicating the building name, and the floor number In the case of the business schedule shown in FIG. 3C, such as <floor>, <day> indicating business days, <hour> indicating business hours, and the like. The data conversion unit 23 stores the converted structural type data (metadata) in the store metadata DB 30.

これ以降、データ洗練部22による項目情報からの情報要素の取得について詳述する。具体的には、図3(a)〜(c)に示すアクセス方法、住所、営業予定の各項目順に、データ洗練部22の処理を詳述する。   Hereinafter, acquisition of information elements from item information by the data refinement unit 22 will be described in detail. Specifically, the processing of the data refinement unit 22 will be described in detail in the order of the access method, address, and business schedule items shown in FIGS.

(a)アクセス方法
アクセス方法に関する項目情報からの情報要素の取得には、アクセス方法に関する項目情報の記載内容が一定の法則(各情報要素の記載パターンや各情報要素の記載順など)により類型化されていることに着目する。例えば、非特許文献1のAPIから得られるアクセス方法に関する項目情報は、駅名、出口、移動方法、移動時間、時間単位の順で記載されており、また、駅名、出口、移動方法、移動時間、時間単位それぞれの情報要素は、共通の記載パターンで表現されている。なお、一部のアクセス方法に関し、類型化されていない項目情報も存在し得るが、かかる一部アクセス方法の項目情報については、個別に例外処理を定義すればよく、本発明の有効性に影響を与えるものではないことに留意されたい。
(A) Access method For obtaining information elements from item information related to access methods, the description content of item information related to access methods is categorized according to certain rules (such as the description pattern of each information element and the description order of each information element). Focus on what is being done. For example, the item information regarding the access method obtained from the API of Non-Patent Document 1 is described in the order of station name, exit, travel method, travel time, time unit, and the station name, exit, travel method, travel time, Information elements for each time unit are expressed by a common description pattern. Note that item information that is not categorized may exist for some access methods. However, for item information of such partial access methods, exception processing may be defined individually, which affects the effectiveness of the present invention. Note that it does not give

図4は、アクセス方法に関する項目情報のデータ構造化の一例を示す図である。例えば、<access>タグで規定される「A駅A出口徒歩1分・B出口徒歩3分」という項目情報は、「A駅」という駅名に関する情報要素と、「A出口」「B出口」という出口に関する情報要素と、「徒歩」という移動手段に関する情報要素と、「1」「3」という移動時間に関する情報要素と、「分」という時間単位に関する情報要素という、複数の情報要素を含んでおり、図4に示すグラフの通り構造化することができる。以下、データ洗練部22による駅名、出口、移動方法、移動時間、時間単位の各情報要素の取得について詳述する。   FIG. 4 is a diagram illustrating an example of data structuring of item information related to the access method. For example, the item information “1-minute walk from Exit A / A Exit / 3-minute walk from Exit B” defined by the <access> tag is the information element related to the station name “A Station” and “Exit A” and “Exit B”. It contains multiple information elements: an information element related to the exit, an information element related to the transportation means “walk”, an information element related to the travel time “1” and “3”, and an information element related to the time unit “minute”. As shown in the graph of FIG. Hereinafter, acquisition of each information element of the station name, exit, movement method, movement time, and time unit by the data refinement unit 22 will be described in detail.

図5は、アクセス方法に関する項目情報から駅名に関する情報要素を取得するフローチャートである。データ洗練部22は、前処理として、「」、[]、<>など、駅名を強調するための記号をすべて除去し(ステップS101)、前処理を行った項目情報を外部サーバ装置40の形態素解析部41に提供する。次に、データ洗練部22は、形態素解析部41から受信した解析結果に基づく駅名抽出を行う(ステップS102)。具体的には、データ洗練部22は、項目情報を形態素解析して得られる固有名詞と、情報要素の記載パターンに基づく特徴語である“駅”とからなる文字列を検索する。データ洗練部22は、「固有名詞+“駅”」となる単語を検索し、該当する単語が検出されると、かかる単語を駅名に関する情報要素として抽出する。   FIG. 5 is a flowchart for acquiring an information element related to a station name from item information related to an access method. The data refinement unit 22 removes all symbols for emphasizing the station name such as “”, [], <> as preprocessing (step S 101), and uses the morpheme of the external server device 40 for the item information that has been preprocessed. This is provided to the analysis unit 41. Next, the data refinement unit 22 performs station name extraction based on the analysis result received from the morpheme analysis unit 41 (step S102). Specifically, the data refinement unit 22 searches for a character string including a proper noun obtained by morphological analysis of item information and “station” which is a characteristic word based on the description pattern of the information element. The data refinement unit 22 searches for a word “proprietary noun +“ station ”” and, when a corresponding word is detected, extracts the word as an information element related to the station name.

また、例えば、「三鷹駅」が「三鷹」と省略されている場合など、形態素解析により駅名に関する情報要素が検出されない場合(ステップS103のNo)、データ洗練部22は、外部サーバ装置40の駅名DB42を照合して駅名に関する情報要素を抽出する(ステップS104)。具体的には、データ洗練部22は、形態素解析により項目情報から得られた固有名詞と、駅名DB42に記憶される駅名との比較を行う。データ洗練部22は、例えば店舗の都道府県等の情報を取得している場合には、当該情報を用いて駅名DB42の検索範囲を狭めることができる。また、データ洗練部22は、駅名DB42から複数の駅名が候補として検出された場合、固有名詞と駅名との文字列の最長一致などに基づいて、1つの駅名を情報要素として選択することができる。なお、固有名詞と駅名との比較や、最長一致法による駅名の選択については、データ洗練部22ではなく、駅名DB42において処理を行い、データ洗練部22は駅名DB42から選択結果のみ受信する態様も可能である。   Further, for example, when the information element relating to the station name is not detected by the morphological analysis (eg, “Mitaka station” is abbreviated as “Mitaka”) (No in step S103), the data refinement unit 22 determines the station name of the external server device 40. The DB 42 is collated to extract information elements related to the station name (step S104). Specifically, the data refinement unit 22 compares the proper noun obtained from the item information by the morphological analysis and the station name stored in the station name DB 42. For example, if the data refinement unit 22 acquires information such as the prefecture of the store, the data refinement unit 22 can narrow the search range of the station name DB 42 using the information. Further, when a plurality of station names are detected as candidates from the station name DB 42, the data refinement unit 22 can select one station name as an information element based on the longest match of the character string of the proper noun and the station name. . Note that the comparison between proper nouns and station names and the selection of station names by the longest match method are not performed by the data refinement unit 22 but by the station name DB 42, and the data refinement unit 22 receives only the selection result from the station name DB 42. Is possible.

図6は、アクセス方法に関する項目情報から出口に関する情報要素を取得するフローチャートである。データ洗練部22は、前処理として、「」、[]、<>など、出口を強調するための記号をすべて除去する(ステップS201)。次に、データ洗練部22は、出口に関する情報要素の記載パターンに応じた正規表現により、項目情報に含まれる出口に関する情報要素を抽出する(ステップS202)。例えば、データ洗練部22は、下記の正規表現により出口に関する情報要素を抽出することができる。なお、下記正規表現はあくまで一例を示すものであって、当業者であれば、下記正規表現とは別に、種々の正規表現を作成可能であることに留意されたい。
"[A-Z]\\d*(口|出口)|(東|西|南|北|中央)口|\\d番(口|出口)“
FIG. 6 is a flowchart for acquiring an information element related to an exit from item information related to an access method. The data refinement unit 22 removes all symbols for emphasizing the exit, such as “”, [], <>, as preprocessing (step S 201). Next, the data refinement unit 22 extracts an information element related to the exit included in the item information using a regular expression corresponding to the description pattern of the information element related to the exit (step S202). For example, the data refinement unit 22 can extract information elements related to the exit using the following regular expression. It should be noted that the following regular expressions are merely examples, and those skilled in the art can create various regular expressions separately from the following regular expressions.
"[AZ] \\ d * (exit | exit) | (east | west | south | north | center) exit | \\ d (exit | exit)"

また、例えば、「八重洲口」といった「固有名詞+“口”」で表現される出口など、正規表現により出口に関する情報要素が検出されない場合(ステップS203のNo)、データ洗練部22は、項目情報を形態素解析して得られる固有名詞と、情報要素の記載パターンに基づく特徴語である“口”とからなる文字列を検索する(ステップS204)。データ洗練部22は、「固有名詞+“口”」となる単語を検索し、該当する単語が検出されると、かかる単語を出口に関する情報要素として抽出する(ステップS204)。なお、ここで用いる形態素解析の結果については、例えば駅名抽出に関しステップS102で取得した解析結果を用いても良いし、形態素解析部41に項目情報を再度送信し、新たに形態素解析の結果を取得しても良い。   Further, for example, when an information element related to the exit is not detected by a regular expression such as an exit represented by “proper noun +“ mouth ”” such as “Yaesuguchi” (No in step S203), the data refinement unit 22 Is searched for a character string consisting of a proper noun obtained by morphological analysis and “mouth” which is a characteristic word based on the description pattern of the information element (step S204). The data refinement unit 22 searches for a word “proprietary noun +“ mouth ”” and, when a corresponding word is detected, extracts the word as an information element related to the exit (step S204). As the result of the morpheme analysis used here, for example, the analysis result acquired in step S102 regarding the extraction of the station name may be used, or the item information is transmitted again to the morpheme analysis unit 41 to newly acquire the result of the morpheme analysis. You may do it.

図7は、アクセス方法に関する項目情報から移動情報(移動方法、移動時間、及び時間単位)に関する情報要素を取得するフローチャートである。データ洗練部22は、前処理として、「」、[]、<>など、移動情報を強調するための記号をすべて除去する(ステップS301)。次に、データ洗練部22は、複数の情報要素を含む移動情報の記載パターンに応じた正規表現により、項目情報から移動情報を抽出する(ステップS302)。例えば、データ洗練部22は、下記の正規表現により複数の情報要素を含む移動情報を抽出することができる。なお、下記正規表現はあくまで一例を示すものであって、当業者であれば、下記正規表現とは別に、種々の正規表現を作成可能であることに留意されたい。
"((徒歩|電車|バス)\\b*(分|秒))|\\b*分"
FIG. 7 is a flowchart for acquiring information elements relating to movement information (movement method, movement time, and time unit) from item information relating to the access method. The data refinement unit 22 removes all symbols for emphasizing movement information such as “”, [], <> as preprocessing (step S 301). Next, the data refiner 22 extracts the movement information from the item information using a regular expression corresponding to the movement information description pattern including a plurality of information elements (step S302). For example, the data refinement unit 22 can extract movement information including a plurality of information elements by the following regular expression. It should be noted that the following regular expressions are merely examples, and those skilled in the art can create various regular expressions separately from the following regular expressions.
"((Walk | train | bus | \\ b * (minute | second)) | \\ b * minute"

データ洗練部22は、複数の情報要素を含む移動情報を取得すると、移動情報における記載順などを基に、移動方法、移動時間、及び時間単位それぞれに関する情報要素を取得する(ステップS303)。例えば、移動時間は一般的にアラビア数字で記載されるため、データ洗練部22は、移動時間(第1の情報要素)の記載パターンに基づき移動時間を抽出した後、移動情報(項目情報)における情報要素の記載順に応じて、移動時間を基点として他の情報要素である移動方法及び時間単位の抽出を行うことができる。   When acquiring the movement information including a plurality of information elements, the data refinement unit 22 acquires information elements relating to the movement method, the movement time, and the time unit based on the order of description in the movement information (step S303). For example, since the travel time is generally written in Arabic numerals, the data refinement unit 22 extracts the travel time based on the travel time (first information element) description pattern, and then in the travel information (item information). Depending on the description order of the information elements, it is possible to extract the movement method and time unit as other information elements from the movement time as a base point.

図5〜7においてアクセス方法に関する項目情報から各情報要素を取得する方法を説明したが、1つの項目情報に複数のアクセス方法が記載されていることも考えられる。図8は、複数のアクセス方法を含む項目情報の一例を示す図である。図8のような場合であっても、各アクセス方法の記載は、上述の通り、一定の法則(各情報要素の記載パターンや各情報要素の記載順など)により類型化されている。即ち、例えば、各アクセス方法に関する項目情報は、駅名、出口、移動方法、移動時間、時間単位の順で記載されており、また、駅名、出口、移動方法、移動時間、時間単位それぞれの情報要素は、共通のパターンで表現されている。このため、データ洗練部22は、例えば図5〜図7に示す処理を複数回繰り返すことにより、複数のアクセス方法それぞれの情報要素を取得することができる。また、2番目以降のアクセス方法について、駅名、出口、移動方法、移動時間、時間単位のうち、省略された情報要素がある場合にも、例えば、省略された第1の情報要素(例えば駅名)の後に記載されたデータ(例えば出口及び移動情報)を、直前に記載された第1の情報要素(=駅名)に関連付けることによって、構造型データを生成することができる。具体的には、例えば図4の項目情報「A駅A出口徒歩1分・B出口徒歩3分」では、2番目のアクセス方法である「B出口徒歩3分」に関し、駅名の情報要素(第1の情報要素)が省略されている。この場合、駅名の後に記載されたデータである「B出口徒歩3分」を、直前に記載された第1の情報要素(駅名)である「A駅」に関連付けることによって、構造型データを作成することができる。   Although the method of acquiring each information element from the item information related to the access method has been described with reference to FIGS. 5 to 7, a plurality of access methods may be described in one item information. FIG. 8 is a diagram illustrating an example of item information including a plurality of access methods. Even in the case of FIG. 8, the description of each access method is categorized according to a certain rule (the description pattern of each information element, the description order of each information element, etc.) as described above. That is, for example, item information regarding each access method is described in the order of station name, exit, travel method, travel time, time unit, and information elements for each station name, exit, travel method, travel time, time unit Are expressed in a common pattern. For this reason, the data refinement part 22 can acquire each information element of a some access method by repeating the process shown, for example in FIGS. In addition, for the second and subsequent access methods, even when there is an omitted information element among the station name, exit, movement method, movement time, and time unit, for example, the omitted first information element (for example, station name) The structural type data can be generated by associating the data described after (for example, exit and movement information) with the first information element (= station name) described immediately before. Specifically, for example, in the item information “A station A exit 1 minute walk / B exit 3 minutes walk” in FIG. 4, the station name information element (No. 1 information element) is omitted. In this case, the structure type data is created by associating “3 minutes on foot from Exit B”, which is the data described after the station name, with “A station”, which is the first information element (station name) described immediately before. can do.

(b)住所
住所に関する項目情報からの情報要素の取得には、住所に関する項目情報の記載内容が一定の法則(各情報要素の記載パターンや各情報要素の記載順など)により類型化されていることに着目する。例えば、一般的な住所は、都道府県市町村、番地、建物名、階数の順で記載されており、また、番地、階数などの情報要素は、共通の記載パターンで表現されている。なお、一部の住所に関し、類型化されていない項目情報も存在し得るが、かかる一部住所の項目情報については、個別に例外処理を定義すればよく、本発明の有効性に影響を与えるものではないことに留意されたい。
(B) Address For acquiring information elements from item information related to addresses, the description contents of item information related to addresses are categorized according to certain rules (such as the description pattern of each information element and the description order of each information element). Focus on that. For example, general addresses are described in the order of prefectures, municipalities, addresses, building names, and floors, and information elements such as addresses and floors are expressed in a common description pattern. Note that item information that is not categorized may exist for some addresses, but for such item information, exception processing may be defined individually, which affects the effectiveness of the present invention. Note that it is not a thing.

図9は、住所に関する項目情報のデータ構造化の一例を示す図である。例えば、<address>タグで規定される「神奈川県相模原市相模大野3−16−1 レガロビルB1,1F」という項目情報は、「神奈川県相模原市相模大野」という都道府県市町村に関する情報要素と、「3−16−1」という番地に関する情報要素と、「レガロビル」という建物名に関する情報要素と、「B1」「1F」という階数に関する情報要素という、複数の情報要素を含んでおり、図9に示すグラフの通り構造化することができる。以下、データ洗練部22による都道府県市町村、番地、建物名、階数の各情報要素の取得について詳述する。   FIG. 9 is a diagram illustrating an example of data structuring of item information related to an address. For example, the item information “3-16-1 Sagamiono, Sagamihara City, Kanagawa Prefecture” defined by the <address> tag includes information elements related to prefectures and municipalities “Sagamiono, Sagamihara City, Kanagawa Prefecture” FIG. 9 includes a plurality of information elements including an information element related to the address “3-16-1”, an information element related to the building name “Regaro Building”, and an information element related to the floor number “B1” and “1F”. It can be structured as shown in the graph. Hereinafter, acquisition of each information element of the prefectural municipalities, street addresses, building names, and floors by the data refinement unit 22 will be described in detail.

図10は、住所に関する項目情報から各情報要素を取得するフローチャートである。データ洗練部22は、番地がアラビア数字を用いて記載されることを利用して、番地(アラビア数字)の前の文字列を都道府県市町村に関する情報要素として抽出する(ステップS401)。なお、都道府県市町村に関する情報要素は、例えば既存の方式によって、都道府県単位や市町村単位など、より細かい情報要素に細分化することが可能だが、本発明ではかかる細分化の詳述は行わない。データ洗練部22は、都道府県市町村に関する情報要素に続くアラビア数字及び記号(例えばハイフン「−」など)からなる文字列を、番地に関する情報要素として取得する(ステップS402)。なお、例えば、ハイフン等により複数のアラビア数字が記載されている場合には、先頭のアラビア数字から順に、丁目、番、号などより細かい情報要素に対応させることも可能である。   FIG. 10 is a flowchart for acquiring each information element from the item information regarding the address. Using the fact that the address is described using Arabic numerals, the data refinement unit 22 extracts the character string before the address (Arabic numerals) as an information element related to the prefectural municipalities (step S401). Note that information elements related to prefectures and municipalities can be subdivided into smaller information elements such as prefectural units and municipalities, for example, by existing methods. However, in the present invention, such subdivision is not described in detail. The data refinement unit 22 acquires a character string composed of Arabic numerals and symbols (for example, a hyphen “-”) following the information element related to the prefecture municipality as the information element related to the address (step S402). For example, when a plurality of Arabic numerals are written by hyphens, etc., it is possible to correspond to smaller information elements such as chome, number, and number in order from the first Arabic numeral.

データ洗練部22は、番地に関する情報要素に続く文字列を建物名に関する情報要素として抽出する(ステップS403)。ステップS403で抽出される建物名に関する情報要素には、建物の階数に関する情報要素が含まれる場合もあるため、データ洗練部22は、「階」「B」等の階数を示す文字列を正規表現等で抽出する(ステップS404)。なお、階数に関する情報要素が抽出された場合には、データ洗練部22は、建物名に関する情報要素から、階数に関する情報要素に対応する文字列を除外することに留意されたい。   The data refinement unit 22 extracts a character string following the information element related to the address as the information element related to the building name (step S403). Since the information element related to the building name extracted in step S403 may include an information element related to the floor number of the building, the data refinement unit 22 uses a regular expression to express a character string indicating the floor number such as “floor” and “B”. (Step S404). It should be noted that when the information element related to the floor is extracted, the data refinement unit 22 excludes the character string corresponding to the information element related to the floor from the information element related to the building name.

(c)営業予定
営業予定に関する項目情報からの情報要素の取得には、営業予定に関する項目情報の記載内容が一定の法則(各情報要素の記載パターンや各情報要素の記載順など)により類型化されていることに着目する。例えば、営業予定に関する項目情報は、営業日、営業区分、開店時間、閉店時間、LO(ラストオーダー)時間を含んでおり、また、営業日、営業区分、開店時間、閉店時間、LO時間の情報要素は、共通の記載パターンで表現されている。なお、これ以降、説明の便宜上、開店時間、閉店時間、LO時間を含む総称として、適宜、「営業時間」という表現を用いるものとする。
(C) Business schedule When acquiring information elements from item information related to business schedules, the description content of item information related to business schedules is categorized according to certain rules (such as the description pattern of each information element and the order in which each information element is described). Focus on what is being done. For example, item information relating to a business schedule includes business days, business categories, opening times, closing times, LO (last order) times, and information on business days, business categories, opening times, closing times, LO times. Elements are expressed in a common description pattern. Hereinafter, for convenience of explanation, the expression “business hours” will be used as appropriate as a general term including opening hours, closing times, and LO times.

特に、営業予定に関する項目情報に含まれる情報要素のパターン(以下、情報要素パターン)は、下記の3つの情報要素パターンに大別される。このような項目情報に含まれる情報要素に関する情報は、情報要素の抽出に有用となる。
(1)情報要素パターン1(営業時間のみ)
例:11:30〜翌5:00
(2)情報要素パターン2(最初に営業日、後続に営業時間)
例:月〜土/17:00〜23:30(L.O.23:00)
日・祝/17:30〜23:00(L.O.22:30)
(3)情報要素パターン3(最初に営業区分、後続に営業日、営業時間)
例:ランチ 月〜金 11:30〜14:00
ディナー 月〜土 17:00〜23:30 日祝 16:30〜22:30
In particular, information element patterns (hereinafter referred to as information element patterns) included in item information relating to business schedules are roughly divided into the following three information element patterns. Information on information elements included in such item information is useful for extracting information elements.
(1) Information element pattern 1 (business hours only)
Example: 11:30 to 5:00
(2) Information element pattern 2 (first business day, followed by business hours)
Example: Monday to Saturday / 17: 00 to 23:30 (L.O. 23:00)
Sun / Holiday / 17: 30-23: 00 (L.O. 22:30)
(3) Information element pattern 3 (first business division, followed by business day, business hours)
Example: Lunch Mon-Fri 11: 30-14: 00
Dinner Mon-Sat 17: 00-23: 30, Sundays and holidays 16: 30-22: 30

なお、一部の営業予定に関し、類型化されていない項目情報も存在し得るが、かかる一部営業予定の項目情報については、個別に例外処理を定義すればよく、本発明の有効性に影響を与えるものではないことに留意されたい。   In addition, there may be item information that is not categorized for some business schedules. However, for such item business schedule information, it is sufficient to define exception handling individually, which affects the effectiveness of the present invention. Note that it does not give

図11は、営業予定に関する項目情報のデータ構造化の一例を示す図である。例えば、<open>タグで規定される「ランチ 月〜金 11:00〜15:00(L.O.14:00) ディナー 月〜金 18:00〜23:00(L.O.22:00) 土日祝 18:00〜22:00(L.O.21:00)」という項目情報は、「月曜日」〜「日曜日」「祝日」という営業日に関する情報要素と、「ランチ」「ディナー」という営業区分に関する情報要素と、「11:00」「18:00」「19:00」という開店時間に関する情報要素と、「15:00」「23:00」「22:00」という閉店時間に関する情報要素と、「14:00」「22:00」「21:00」というLO時間に関する情報要素という、複数の情報要素を含んでおり、図11に示すグラフの通り構造化することができる。なお、図11において、説明の便宜上、「火曜日」及び「日曜日」に関してのみ後続のデータ構造を記載しているが、「月曜日」「水曜日」「木曜日」「金曜日」については「火曜日」と同様のデータ構造、「土曜日」「祝日」については「日曜日」と同様なデータ構造を有している点に留意されたい。以下、データ洗練部22による営業日、営業区分、開店時間、閉店時間、LO時間の各情報要素の取得について詳述する。   FIG. 11 is a diagram illustrating an example of the data structure of item information related to a business schedule. For example, “Lunch Monday-Friday 11: 00-15: 00 (LO14: 00) Dinner Monday-Friday 18: 00-23: 00 (LO22: 00) Saturdays, Sundays, and holidays 18:00 Item information of ˜22: 00 (LO21: 00) includes information elements related to business days “Monday” to “Sunday” and “holidays”, information elements related to business categories “lunch” and “dinner”, and “11 : 10:00, “18:00”, “19:00”, information elements related to the opening hours, “15:00”, “23:00”, “22:00”, information elements related to the closing times, “14:00”, “ It includes a plurality of information elements called information elements relating to the LO time of 22:00 and 21:00, and can be structured as shown in the graph of FIG. In FIG. 11, for convenience of explanation, the subsequent data structure is described only for “Tuesday” and “Sunday”, but “Monday”, “Wednesday”, “Thursday”, and “Friday” are similar to “Tuesday”. It should be noted that the data structure “Saturday” and “Holiday” have the same data structure as “Sunday”. Hereinafter, acquisition of each information element of the business day, business division, opening time, closing time, and LO time by the data refinement unit 22 will be described in detail.

データ洗練部22は、営業予定に関する項目情報の情報要素パターンを識別する(ステップS501)。上述の通り、営業予定に関する項目情報の情報要素パターンは3つのパターンに大別される。データ洗練部22は、項目情報の先頭の文字列を確認することにより、項目情報がどの情報要素パターンに対応するか識別することができる。具体的には、データ洗練部22は、項目情報の先頭文字列が営業時間(例えばアラビア数字など)を示す場合、項目情報は情報要素パターン1であると識別し、項目情報の先頭文字列が営業日(例えば月〜日曜日、祝日など)を示す場合、項目情報は情報要素パターン2であると識別し、項目情報の先頭文字列が営業区分(例えばランチ、ディナーなど)を示す場合、項目情報は情報要素パターン3であると識別することができる。   The data refinement unit 22 identifies the information element pattern of the item information related to the business schedule (step S501). As described above, information element patterns of item information related to business schedules are roughly divided into three patterns. The data refinement unit 22 can identify which information element pattern the item information corresponds to by checking the leading character string of the item information. Specifically, when the first character string of the item information indicates business hours (for example, Arabic numerals), the data refinement unit 22 identifies that the item information is the information element pattern 1, and the first character string of the item information When indicating business days (for example, Monday to Sunday, holidays), the item information is identified as information element pattern 2, and when the first character string of the item information indicates a business category (for example, lunch, dinner, etc.), item information Can be identified as the information element pattern 3.

次に、データ洗練部22は、識別した情報要素パターンにおける情報要素の記載パターン及び情報要素の記載順に応じて、項目情報に含まれる情報要素を抽出する。まず、データ洗練部22は、営業時間の記載パターンに応じた正規表現による文字列検索により、項目情報から営業時間を抽出する(ステップS502)。これは、営業時間は、情報要素パターン1〜3の全てに含まれるためである。ここで、営業情報の記載パターンは、「09:00〜22:00」という時間帯としての形式と、「21:00」という時刻としての形式との2つの記載パターンが含まれる。ここで、データ洗練部22は、「09:00〜22:00」など時間帯を示す記載パターンからなる文字列を検出すると、先頭の時間を開店時間に関する情報要素として抽出し、末尾の時間を閉店時間に関する情報要素として抽出する。また、データ洗練部22は、「21:00」など時刻を示す記載パターンからなる文字列を検出すると、当該時刻をLO時間に関する情報要素として抽出する。なお、データ洗練部22は、LO時間の抽出に関しては、「ラストオーダー」「LO」「L.O.」等の文字列を時刻と組み合わせ、組み合わせに該当する文字列が検出することによりLO時間に関する情報要素を抽出することができる。   Next, the data refinement unit 22 extracts information elements included in the item information according to the description pattern of the information elements in the identified information element pattern and the description order of the information elements. First, the data refinement unit 22 extracts business hours from the item information by a character string search using a regular expression corresponding to the business hours description pattern (step S502). This is because business hours are included in all of the information element patterns 1 to 3. Here, the description pattern of sales information includes two description patterns of a format as a time zone “09: 0 to 22:00” and a format as a time “21:00”. Here, when the data refinement unit 22 detects a character string including a description pattern indicating a time zone such as “09: 0 to 22:00”, the data refinement unit 22 extracts the first time as an information element related to the opening time, and sets the last time. Extracted as information elements related to closing hours. Further, when the data refinement unit 22 detects a character string including a description pattern indicating a time such as “21:00”, the data refinement unit 22 extracts the time as an information element related to the LO time. The data refinement unit 22 extracts the LO time by combining a character string such as “last order”, “LO”, and “LO” with the time and detecting the character string corresponding to the combination. Information elements can be extracted.

データ洗練部22は、営業時間の抽出後、識別した情報要素パターンに含まれる情報要素の記載パターンに応じた正規表現により、各情報要素を抽出する(ステップS503)。具体的には、データ洗練部22は、識別した情報要素パターンが情報要素パターン2である場合、情報要素パターンに含まれる営業日の記載パターンに応じた正規表現により、営業日に関する情報要素を抽出する。また、データ洗練部22は、識別した情報要素パターンが情報要素パターン3である場合、情報要素パターンに含まれる営業区分及び営業日それぞれの記載パターンに応じた正規表現により、営業区分及び営業日それぞれに関する情報要素を抽出する。なお、データ洗練部22は、識別した情報要素パターンが情報要素パターン1である場合、情報要素パターンには営業時間以外の情報要素が含まれないため、情報要素の抽出を終了する。   After the business hours are extracted, the data refinement unit 22 extracts each information element with a regular expression corresponding to the description pattern of the information element included in the identified information element pattern (step S503). Specifically, when the identified information element pattern is the information element pattern 2, the data refinement unit 22 extracts the information element related to the business day by a regular expression corresponding to the business day description pattern included in the information element pattern. To do. Further, when the identified information element pattern is the information element pattern 3, the data refinement unit 22 uses the regular expressions corresponding to the description patterns of the business segment and business day included in the information element pattern, respectively. Extract information elements about. Note that when the identified information element pattern is the information element pattern 1, the data refinement unit 22 ends the extraction of the information element because the information element pattern includes no information elements other than business hours.

営業日及び営業区分の抽出に関し、データ洗練部22は、営業予定に関する同義語を考慮した正規表現によって、営業日及び営業区分の抽出を行うことができる。図13は、営業予定に関する同義語リストの一例を示す図である。かかる同義語を踏まえた正規表現により文字列検索を行うことにより、営業日及び営業区分に関する情報要素をより確実に抽出することが可能となる。   Regarding the extraction of business days and business divisions, the data refinement unit 22 can extract business days and business divisions using regular expressions that take into account synonyms for business schedules. FIG. 13 is a diagram illustrating an example of a synonym list related to a business schedule. By performing a character string search using a regular expression based on such synonyms, it becomes possible to more reliably extract information elements related to business days and business categories.

なお、ステップS501〜S503に示す営業予定に関する項目情報からの情報要素の抽出に関し、具体的な正規表現の例示は行っていないが、当業者であれば、営業区分、営業日、営業時間の記載パターンに応じた、種々の正規表現を作成可能であることに留意されたい。   In addition, regarding the extraction of the information element from the item information regarding the business schedule shown in steps S501 to S503, specific regular expressions are not illustrated, but those skilled in the art will describe the business category, business day, and business time. Note that various regular expressions can be created depending on the pattern.

このように、本実施形態によれば、データ構造化装置1は、非構造型データである項目情報に含まれる情報要素の記載パターン及び情報要素の記載順に応じて、項目情報に含まれる情報要素を抽出し、抽出した情報要素を構造型データに変換する。これにより、ナビゲーションサービスに関する構造型データに含まれる非構造型データから、有用な情報を抽出、洗練し、構造型データへと変換することが可能となる。また、データ構造化装置1は、非構造型データから変換した構造型データを店舗メタデータDB30に格納する。サードパーティ事業者は、店舗メタデータDB30を核として新たなナビゲーションサービスを実施することにより、新たな利用形態に沿った店舗情報検索、即ち利用者の意図や目的に沿った新たな選択/強調を高精度で行うことが可能となる。また、アクセス方法、住所、営業予定などの有用な情報要素を含む非構造型データの項目情報から、情報要素毎に抽出、洗練したメタデータを、構造型データへ形式変換して店舗メタデータDB30へ蓄積しておくことにより、既存の機械的なデータ解釈の基盤を活用することが可能となり、新たなナビゲーションサービスを迅速かつ経済的に実現することが可能となる。   As described above, according to the present embodiment, the data structuring apparatus 1 determines the information elements included in the item information according to the description pattern of the information elements included in the item information that is unstructured data and the description order of the information elements. Is extracted, and the extracted information element is converted into structured data. This makes it possible to extract useful information from the unstructured data included in the structured data related to the navigation service, refine it, and convert it into structured data. Further, the data structuring apparatus 1 stores the structured data converted from the unstructured data in the store metadata DB 30. The third-party provider implements a new navigation service with the store metadata DB 30 as a core, thereby searching for store information according to a new usage form, that is, a new selection / emphasis according to the user's intention and purpose. It becomes possible to carry out with high precision. Also, the store metadata DB 30 is obtained by converting the format of the metadata extracted and refined for each information element from item information of unstructured data including useful information elements such as an access method, an address, and a business schedule into structural data. By accumulating data, it becomes possible to utilize the existing foundation of mechanical data interpretation, and to realize a new navigation service quickly and economically.

また、本実施形態によれば、データ構造化装置1は、情報要素の記載パターンに応じた正規表現による文字列検索により、項目情報に含まれる情報要素を抽出することができる。これにより、記載パターンに従う様々な情報要素を共通の正規表現により抽出することが可能になる。また、正規表現は柔軟な検索条件を作成することが可能であり、例えば、記載パターンから多少ゆらぎがある情報要素であっても、正規表現の設計に応じて、共通の正規表現により抽出すること可能である。   Further, according to the present embodiment, the data structuring apparatus 1 can extract information elements included in the item information by performing a character string search using a regular expression corresponding to the description pattern of the information elements. This makes it possible to extract various information elements according to the description pattern using a common regular expression. Also, regular expressions can create flexible search conditions. For example, even if an information element has some fluctuations from the description pattern, it can be extracted with a common regular expression according to the design of the regular expression. Is possible.

また、本実施形態によれば、データ構造化装置1は、項目情報を形態素解析して得られる固有名詞と、情報要素の記載パターンに基づく特徴語とからなる文字列を検索することにより、項目情報に含まれる情報要素を抽出することができる。これにより、正規表現では抽出されない情報要素を抽出することが可能となる。また、例えば外部データベースと連携して、形態素解析で得られた固有名詞と外部データベースとの値を比較することにより、情報要素を抽出することも可能となる。   Further, according to the present embodiment, the data structuring apparatus 1 searches for a character string composed of a proper noun obtained by morphological analysis of item information and a feature word based on the description pattern of the information element, thereby obtaining the item Information elements included in the information can be extracted. This makes it possible to extract information elements that are not extracted by regular expressions. In addition, for example, in cooperation with an external database, information elements can be extracted by comparing the values of proper nouns obtained by morphological analysis and the external database.

また、本実施形態によれば、データ構造化装置1は、ある第1の情報要素の記載パターンに基づき当該第1の情報要素を抽出した後、項目情報における情報要素の記載順に応じて、第1の情報要素を基点として他の情報要素の抽出を行うことができる。これにより、例えば正規表現や形態素解析では抽出が難しい情報要素であっても、他の情報要素を基点として抽出することが可能となる。   Further, according to the present embodiment, the data structuring apparatus 1 extracts the first information element based on the description pattern of a certain first information element, and then, according to the description order of the information elements in the item information, The extraction of other information elements can be performed using one information element as a base point. Thereby, for example, even if an information element is difficult to extract by regular expression or morphological analysis, it is possible to extract another information element as a base point.

また、本実施形態によれば、データ構造化装置1は、項目情報の情報要素パターンを識別し、識別した情報要素パターンにおける情報要素の記載パターン及び情報要素の記載順に応じて、項目情報に含まれる情報要素を抽出することができる。これにより、予め項目情報に含まれる情報要素を正確に把握した上で、各情報要素を抽出できるため、情報要素の抽出を高精度で行うことが可能となる。   Further, according to the present embodiment, the data structuring apparatus 1 identifies the information element pattern of the item information, and includes it in the item information according to the description pattern of the information elements in the identified information element pattern and the description order of the information elements. Information elements can be extracted. Accordingly, each information element can be extracted after accurately grasping the information element included in the item information in advance, so that the information element can be extracted with high accuracy.

本発明を諸図面や実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形や修正を行うことが容易であることに注意されたい。従って、これらの変形や修正は本発明の範囲に含まれることに留意されたい。例えば、各構成部、各ステップなどに含まれる機能などは論理的に矛盾しないように再配置可能であり、複数の構成部やステップなどを1つに組み合わせたり、或いは分割したりすることが可能である。   Although the present invention has been described based on the drawings and examples, it should be noted that those skilled in the art can easily make various modifications and corrections based on the present disclosure. Therefore, it should be noted that these variations and modifications are included in the scope of the present invention. For example, the functions included in each component, each step, etc. can be rearranged so that there is no logical contradiction, and multiple components, steps, etc. can be combined or divided into one It is.

1 データ構造化装置
10 データ取得部
20 データ構造化部
21 データ抽出部
22 データ洗練部
23 データ変換部
30 店舗メタデータDB
40 外部サーバ装置
41 形態素解析部
42 駅名DB
DESCRIPTION OF SYMBOLS 1 Data structuring apparatus 10 Data acquisition part 20 Data structuring part 21 Data extraction part 22 Data refinement part 23 Data conversion part 30 Store metadata DB
40 External server device 41 Morphological analyzer 42 Station name DB

Claims (5)

ナビゲーションサービスに関する構造型データに含まれる非構造型データを構造型データに変換するデータ構造化装置による非構造型データの構造化処理方法であって、
前記データ構造化装置による処理手順が、
前記ナビゲーションサービスに関する構造型データから、所定の項目に関する非構造型データである項目情報を抽出するステップと、
前記項目情報に含まれる情報要素の記載パターン及び情報要素の記載順に応じて、前記項目情報に含まれる情報要素を抽出する情報要素抽出ステップと、
抽出された前記情報要素を構造型データに変換するステップと、を含む非構造型データの構造化処理方法。
A method of structuring unstructured data by a data structuring device that converts unstructured data included in structured data related to a navigation service into structured data,
The processing procedure by the data structuring apparatus is as follows:
Extracting item information that is unstructured data related to a predetermined item from structural data related to the navigation service;
An information element extraction step for extracting information elements included in the item information according to a description pattern of information elements included in the item information and a description order of the information elements;
Converting the extracted information element into structured data, and structuring processing method of unstructured data.
前記情報要素抽出ステップにおいて、前記情報要素の記載パターンに応じた正規表現による文字列検索により、前記項目情報に含まれる前記情報要素を抽出する請求項1に記載の非構造型データの構造化処理方法。   2. The structuring process of unstructured data according to claim 1, wherein in the information element extraction step, the information element included in the item information is extracted by a character string search using a regular expression corresponding to a description pattern of the information element. Method. 前記情報要素抽出ステップにおいて、前記項目情報を形態素解析して得られる固有名詞と、前記情報要素の記載パターンに基づく特徴語とからなる文字列を検索することにより、前記項目情報に含まれる前記情報要素を抽出する請求項1又は2に記載の非構造型データの構造化処理方法。   In the information element extraction step, the information included in the item information is searched by searching for a character string consisting of a proper noun obtained by morphological analysis of the item information and a feature word based on a description pattern of the information element. The structured processing method for unstructured data according to claim 1 or 2, wherein elements are extracted. 前記情報要素抽出ステップにおいて、第1の情報要素の記載パターンに基づき当該第1の情報要素を抽出した後、前記項目情報における前記情報要素の前記記載順に応じて、前記第1の情報要素を基点として他の情報要素の抽出を行う請求項1乃至3のいずれか一項に記載の非構造型データの構造化処理方法。   In the information element extraction step, after the first information element is extracted based on the description pattern of the first information element, the first information element is used as a base point according to the description order of the information elements in the item information. The method for structuring processing of unstructured data according to any one of claims 1 to 3, wherein other information elements are extracted. 前記情報要素抽出ステップにおいて、前記項目情報の情報要素パターンを識別し、識別した前記項目情報の情報要素パターンにおける情報要素の記載パターン及び情報要素の記載順に応じて、前記項目情報に含まれる情報要素を抽出する請求項1乃至4のいずれか一項に記載の非構造型データの構造化処理方法。
In the information element extraction step, an information element pattern of the item information is identified, and an information element included in the item information according to a description pattern of the information element in the identified information element pattern of the item information and a description order of the information element The structured processing method for unstructured data according to any one of claims 1 to 4, wherein the data is extracted.
JP2011096330A 2011-04-22 2011-04-22 Structure processing method of non-structured data Withdrawn JP2012226705A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011096330A JP2012226705A (en) 2011-04-22 2011-04-22 Structure processing method of non-structured data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011096330A JP2012226705A (en) 2011-04-22 2011-04-22 Structure processing method of non-structured data

Publications (1)

Publication Number Publication Date
JP2012226705A true JP2012226705A (en) 2012-11-15

Family

ID=47276763

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011096330A Withdrawn JP2012226705A (en) 2011-04-22 2011-04-22 Structure processing method of non-structured data

Country Status (1)

Country Link
JP (1) JP2012226705A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015049769A1 (en) * 2013-10-03 2015-04-09 株式会社日立製作所 Data analysis system and method therefor
WO2019241630A1 (en) * 2018-06-15 2019-12-19 Deep Insight Solutions, Inc. Systems and methods for an artificial intelligence data fusion platform

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015049769A1 (en) * 2013-10-03 2015-04-09 株式会社日立製作所 Data analysis system and method therefor
JP6081609B2 (en) * 2013-10-03 2017-02-15 株式会社日立製作所 Data analysis system and method
WO2019241630A1 (en) * 2018-06-15 2019-12-19 Deep Insight Solutions, Inc. Systems and methods for an artificial intelligence data fusion platform

Similar Documents

Publication Publication Date Title
US11392896B2 (en) Event extraction systems and methods
Hiippala et al. Exploring the linguistic landscape of geotagged social media content in urban environments
Anuar et al. Smartphone's application adoption benefits using mobile hotel reservation system (MHRS) among 3 to 5-star city hotels in Malaysia
CN110019616B (en) POI (Point of interest) situation acquisition method and equipment, storage medium and server thereof
US8818997B2 (en) Information processing method, information processing apparatus, and storage medium with recorded information processing program
US20140280575A1 (en) Determining activities relevant to users
US20100161599A1 (en) Computer Method and Apparatus of Information Management and Navigation
Anaya et al. Traveler-facing technology in the tourism experience: A historical perspective
JP2007219655A (en) Facility information management system, facility information management method and facility information management program
CN105874531A (en) Terminal device, program, and server device for providing information according to user data input
Eshleman et al. " Hey# 311, come clean my street!": a spatio-temporal sentiment analysis of twitter data and 311 civil complaints
US20090186631A1 (en) Location Based Information Related to Preferences
US20150012543A1 (en) Region labeling method and device of data documents
JP4720569B2 (en) Employee residence search support program, employee residence search support device, and employee residence search support method
JP2012226705A (en) Structure processing method of non-structured data
Ramires et al. Pre-and post-pandemic travel behaviour and intentions: Clustering Portuguese generations
Boratinskii et al. Reshuffling city life: spatial and functional dynamics of urban activity in Tokyo during COVID-19
US9558262B2 (en) Sorting method of data documents and display method for sorting landmark data
Kim et al. A Study on Community Information Services for Elderly People in Public Libraries
JP6088023B1 (en) Reservation processing device, reservation processing method, and reservation processing program
JP2020194278A (en) Information processing system, data processing program, data processing apparatus, and data processing method
Edelmann Hermeneutics and Hindu Thought: Toward a Fusion of Horizons. Edited by Rita Sherma and Arvind Sharma.
US12002010B2 (en) Event extraction systems and methods
Konadl et al. Identifying sentiment influences provoked by context factors–results from a data analytics procedure performed on tweets
Andrae et al. OpenSensors: A community platform to enable the Sensor Web and foster earth observation research

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20140701