JP2012226705A - Structure processing method of non-structured data - Google Patents
Structure processing method of non-structured data Download PDFInfo
- Publication number
- JP2012226705A JP2012226705A JP2011096330A JP2011096330A JP2012226705A JP 2012226705 A JP2012226705 A JP 2012226705A JP 2011096330 A JP2011096330 A JP 2011096330A JP 2011096330 A JP2011096330 A JP 2011096330A JP 2012226705 A JP2012226705 A JP 2012226705A
- Authority
- JP
- Japan
- Prior art keywords
- information
- data
- information element
- item
- item information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、非構造型データの構造化処理方法に関し、特に、テキスト等の非構造型データから有用な情報を抽出、洗練し、構造型データに変換する非構造型データの構造化処理方法に関する。 The present invention relates to a structured processing method for unstructured data, and more particularly to a structured processing method for unstructured data that extracts useful information from unstructured data such as text, refines it, and converts it into structured data. .
近年、スマートフォンの登場に代表される、携帯端末の飛躍的な性能向上や多機能化により、現在地や目的地の周辺にある店舗(例えば飲食店やコンビニ)や施設(例えば交通機関やホテル)の情報を案内する情報サービス(以下、ナビゲーションサービス)を、時刻や場所を選ばずに利用することができる。例えば、ユーザは、店舗や施設利用の直前に現地で当該店舗や施設に関する情報の案内を受けることができる。 In recent years, with the dramatic improvement in performance and multi-functionality of mobile terminals, represented by the emergence of smartphones, stores (such as restaurants and convenience stores) and facilities (such as transportation facilities and hotels) around the current location and destination An information service for guiding information (hereinafter referred to as a navigation service) can be used regardless of time and place. For example, the user can receive information regarding the store or facility on site immediately before using the store or facility.
さらに、ナビゲーションサービスを提供するシステムの核となる店舗や施設の情報を蓄積したデータベース(以下、店舗情報DB)を外部に公開するAPI(Application Program Interface)も提供されている(例えば、非特許文献1、2参照)。これらのAPIでは、例えば図14のように、ナビゲーションサービスに関する種々の情報が得られる場合もあり、サードパーティ事業者が既存の店舗情報DBへアクセスしながら独自のナビゲーションサービスを新たに考案し提供できる余地がある。 Further, an API (Application Program Interface) that publishes a database (hereinafter referred to as store information DB) that stores store and facility information that is the core of a system that provides a navigation service to the outside is also provided (for example, non-patent literature). 1 and 2). In these APIs, for example, as shown in FIG. 14, various information related to the navigation service may be obtained, and a third-party provider can newly devise and provide a unique navigation service while accessing the existing store information DB. There is room.
ここで、携帯端末からナビゲーションサービスを利用する場合は、端末の表示能力(画面サイズ)に限りがあるため、また、利用者の手間を極力省くために、利用者の意図や目的沿った情報のみを選択/強調した形でナビゲーション結果などが表示されることが望ましい。 Here, when using the navigation service from a mobile terminal, the display capability (screen size) of the terminal is limited, and in order to save the user's effort as much as possible, only information in line with the user's intention and purpose It is desirable that the navigation result or the like is displayed in a form that is selected / emphasized.
従来の店舗情報DBにおいては、店舗情報はXML等の構造型データであり、店舗情報の各項目情報(例えば、アクセス方法、住所、営業予定など)は、所定のXMLタグによって規定されている。しかし、項目情報自体は、テキスト形式、即ち非構造型データとして蓄積されているものであって、例えばアクセス方法に関して、最寄りの駅名や駅の出口などの情報は構造化されていない。 In the conventional store information DB, store information is structured data such as XML, and each item information of the store information (for example, an access method, an address, a business schedule, etc.) is defined by a predetermined XML tag. However, the item information itself is stored in a text format, that is, as unstructured data. For example, regarding the access method, information such as the nearest station name and station exit is not structured.
携帯端末を用いたナビゲーションサービスにおいて、利用者の意図や目的に沿った選択/強調には様々な態様が考えられるが、かかる選択/強調を実現するためには、選択/強調に対して有用となりうる情報を構造型データとして予め用意しておくことが望ましい。 In a navigation service using a portable terminal, various modes can be considered for selection / emphasis according to the user's intention and purpose. In order to realize such selection / emphasis, it is useful for selection / emphasis. It is desirable to prepare available information as structural type data in advance.
このような問題を鑑み、本発明の目的は、ナビゲーションサービスに関する構造型データに含まれる非構造型データから、有用な情報を抽出、洗練し、構造型データへと変換する非構造型データの構造化処理方法を提供することである。 In view of such a problem, an object of the present invention is to extract the structure of unstructured data from the unstructured data included in the structured data related to the navigation service, refine it, and convert it into structured data. It is to provide a processing method.
本発明に係る非構造型データの構造化処理方法は、ナビゲーションサービスに関する構造型データに含まれる非構造型データを構造型データに変換するデータ構造化装置による非構造型データの構造化処理方法であって、前記データ構造化装置による処理手順が、前記ナビゲーションサービスに関する構造型データから、所定の項目に関する非構造型データである項目情報を抽出するステップと、前記項目情報に含まれる情報要素の記載パターン及び情報要素の記載順に応じて、前記項目情報に含まれる情報要素を抽出する情報要素抽出ステップと、抽出された前記情報要素を構造型データに変換するステップと、を含むものである。 The structured processing method of unstructured data according to the present invention is a structured processing method of unstructured data by a data structuring apparatus that converts unstructured data included in structured data related to a navigation service into structured data. The process procedure by the data structuring apparatus extracts item information that is unstructured data related to a predetermined item from structured data related to the navigation service, and description of information elements included in the item information According to the description order of the pattern and the information element, an information element extraction step for extracting the information element included in the item information and a step for converting the extracted information element into structural type data are included.
本発明による非構造型データの構造化処理方法によれば、ナビゲーションサービスに関する構造型データに含まれる非構造型データから、有用な情報を抽出、洗練し、構造型データへと変換することが可能となる。 According to the structured processing method for unstructured data according to the present invention, useful information can be extracted from the unstructured data included in the structured data related to the navigation service, refined, and converted into structured data. It becomes.
以降、諸図面を参照しながら、本発明の実施態様を詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
図1は、本発明の一実施形態に係るデータ構造化装置を含むシステム全体の構成を示す図である。データ構造化装置1は、データ取得部10と、データ構造化部20と、店舗メタデータDB30とを備えている。また、データ構造化装置1に接続する外部サーバ装置40は、形態素解析部41と駅名DB42とを備えている。なお、本実施形態においては、形態素解析部41と駅名DB42とを、外部サーバ装置40の機能として記載しているが、データ構造化装置1が形態素解析部41と駅名DB42との機能を備えても良いことに留意されたい。
FIG. 1 is a diagram showing a configuration of an entire system including a data structuring apparatus according to an embodiment of the present invention. The
データ取得部10は、既存のナビゲーションサービスが提供するAPIを用いて、外部の店舗情報DBより、項目別に記載された店舗情報を取得する。ここで、店舗情報は、例えばXML文書等の構造型データであって、店舗情報の項目とは、例えば、XML文書に含まれる所定のXMLタグ(<address><access>など)を示すものである。これ以降、各項目に関するデータ(例えばXMLタグで規定されたデータ)を項目情報と称する。
The
データ構造化部20は、データ取得部10が取得した店舗情報から、有用な非構造型データを含む項目を抽出するとともに、当該項目に関する項目情報から、有用な情報要素(例えば、メタ情報を付与可能な数値や単語)を取得する。ここで、詳細は後述するが、データ構造化部20は、情報要素の記載パターンに応じた正規表現による文字列検索や、項目情報における情報要素の記載順等に応じて、項目情報に含まれる情報要素を抽出する。また、データ構造化部20は、外部サーバ装置40の形態素解析部41及び駅名DB42を利用し、項目情報を形態素解析して得られる固有名詞と、情報要素の記載パターンに基づく特徴語(例えば“駅”、“口”など、情報要素検索にとって有用となる単語)とからなる文字列を検索することにより、項目情報に含まれる情報要素を抽出することができる。データ構造化部20は、抽出した情報要素を、Semantic Webなどの機械的なデータ解釈に適した構造型データ(メタデータ、例えばRDF:Resource Description Framework)に変換し、店舗メタデータDB30に格納する。ここで、情報要素をメタデータに変換するとは、例えば各情報要素を所定のXMLタグで規定するなど、各情報要素に対して所定のメタ情報を付与することを示すものである。
The
店舗メタデータDB30は、メタデータを格納するとともに、外部のサードパーティに対してメタデータへのアクセスに関するAPIを提供する。外部のサードパーティ事業者は、店舗メタデータDB30が提供するAPIを用いて必要なメタデータを取得し、クライアント端末に対して、例えばWebサービスとして、利用者の意図や目的に沿った選択/強調を行うナビゲーションサービスを提供することができる。
The
図2は、図1に示すデータ構造化装置1の構成をより詳細に示す図である。上述の通り、データ構造化装置1は、データ取得部10と、データ構造化部20と、店舗メタデータDB30とを備え、データ構造化部20は、データ抽出部21と、データ洗練部22と、データ変換部23とを備えている。データ取得部10及び店舗メタデータDB30の処理は上述の通りであり、これ以降、データ構造化部20が備えるデータ抽出部21、データ洗練部22、及びデータ変換部23の各処理について詳述する。
FIG. 2 is a diagram showing the configuration of the
データ抽出部21は、データ取得部10が取得した店舗情報から、有用な非構造型データを含む項目を抽出する。例えば、有用な非構造型データを含む項目は、事前にオフラインで定義しておくことができる。図3は、有用な非構造型データを含む項目の一例を示す図である。図3(a)は「アクセス方法」に関する項目であり、<access>タグによって項目情報が規定されている。図示の通り、<access>タグで規定される項目情報は、非構造型データではあるが、駅名、出口、移動方法、移動時間、時間単位などの有用な情報要素を含むものである。図3(b)は「住所」に関する項目であり、<address>タグによって項目情報が規定されている。図示の通り、<address>タグで規定される項目情報は、非構造型データではあるが、都道府県市町村、番地、建物名、階数などの有用な情報要素を含むものである。図3(c)は「営業予定」に関する項目であり、<open>タグによって項目情報が規定されている。図示の通り、<open>タグで規定される項目情報は、非構造型データではあるが、営業日、営業時間などの有用な情報要素を含むものである。
The
データ抽出部21は、異なる店舗情報DB間においてデータ構造(項目名、例えばXMLタグの名前)にバラつきがある場合にも、例えばXMLのスキーマ定義などを参照することにより、かかるバラつきを吸収することができる。データ抽出部21は、有用な非構造型データを含む項目を抽出すると、当該項目に含まれる項目情報をデータ洗練部22に供給する。
Even when the data structure (item name, for example, the name of the XML tag) varies between different store information DBs, the
データ洗練部22は、データ抽出部22が抽出した項目に含まれる項目情報から、有用な情報要素を抽出する。情報要素とは、例えばある意味を持った数値や単語であって、図3(a)のアクセス方法場合、駅名、出口、移動方法、移動時間、時間単位など、図3(b)の住所の場合、都道府県市町村、番地、建物名、階数など、図3(c)の営業予定の場合、営業日、営業時間などが情報要素の例として挙げられる。
The
データ洗練部22は、情報要素の記載パターンに応じた正規表現による文字列検索や、項目情報における情報要素の記載順等に応じて、項目情報に含まれる情報要素を抽出する。また、データ構造化部20は、外部サーバ装置40の形態素解析部41及び駅名DB42を利用し、項目情報を形態素解析して得られる固有名詞と、情報要素の記載パターンに基づく特徴語(例えば“駅”、“口”など)とからなる文字列を検索することにより、項目情報に含まれる情報要素を抽出することができる。なお、情報要素の取得の詳細については後述するものとする。データ洗練部22は、取得した情報要素をデータ変換部23に供給する。
The
データ変換部23は、データ洗練部22から供給された情報要素を、Semantic Webなどの機械的なデータ解釈に適した構造型データ(メタデータ)に変換する。具体的には、データ変換部23は、各情報要素の意味(メタ情報)を示すタグで各情報要素を規定することにより、各情報要素を構造型データに変換する。ここで、各情報要素の意味を示すタグとは、図3(a)のアクセス方法の場合、駅名を示す<station>、出口を示す<exit>、移動方法を示す<transport>、移動時間を示す<time>、時間単位を示す<unit>など、図3(b)の住所の場合、都道府県市町村を示す<area>、番地を示す<number>、建物名を示す<building>、階数を示す<floor>など、図3(c)の営業予定の場合、営業日を示す<day>、営業時間を示す<hour>などである。データ変換部23は、変換した構造型データ(メタデータ)を店舗メタデータDB30に格納する。
The
これ以降、データ洗練部22による項目情報からの情報要素の取得について詳述する。具体的には、図3(a)〜(c)に示すアクセス方法、住所、営業予定の各項目順に、データ洗練部22の処理を詳述する。
Hereinafter, acquisition of information elements from item information by the
(a)アクセス方法
アクセス方法に関する項目情報からの情報要素の取得には、アクセス方法に関する項目情報の記載内容が一定の法則(各情報要素の記載パターンや各情報要素の記載順など)により類型化されていることに着目する。例えば、非特許文献1のAPIから得られるアクセス方法に関する項目情報は、駅名、出口、移動方法、移動時間、時間単位の順で記載されており、また、駅名、出口、移動方法、移動時間、時間単位それぞれの情報要素は、共通の記載パターンで表現されている。なお、一部のアクセス方法に関し、類型化されていない項目情報も存在し得るが、かかる一部アクセス方法の項目情報については、個別に例外処理を定義すればよく、本発明の有効性に影響を与えるものではないことに留意されたい。
(A) Access method For obtaining information elements from item information related to access methods, the description content of item information related to access methods is categorized according to certain rules (such as the description pattern of each information element and the description order of each information element). Focus on what is being done. For example, the item information regarding the access method obtained from the API of
図4は、アクセス方法に関する項目情報のデータ構造化の一例を示す図である。例えば、<access>タグで規定される「A駅A出口徒歩1分・B出口徒歩3分」という項目情報は、「A駅」という駅名に関する情報要素と、「A出口」「B出口」という出口に関する情報要素と、「徒歩」という移動手段に関する情報要素と、「1」「3」という移動時間に関する情報要素と、「分」という時間単位に関する情報要素という、複数の情報要素を含んでおり、図4に示すグラフの通り構造化することができる。以下、データ洗練部22による駅名、出口、移動方法、移動時間、時間単位の各情報要素の取得について詳述する。
FIG. 4 is a diagram illustrating an example of data structuring of item information related to the access method. For example, the item information “1-minute walk from Exit A / A Exit / 3-minute walk from Exit B” defined by the <access> tag is the information element related to the station name “A Station” and “Exit A” and “Exit B”. It contains multiple information elements: an information element related to the exit, an information element related to the transportation means “walk”, an information element related to the travel time “1” and “3”, and an information element related to the time unit “minute”. As shown in the graph of FIG. Hereinafter, acquisition of each information element of the station name, exit, movement method, movement time, and time unit by the
図5は、アクセス方法に関する項目情報から駅名に関する情報要素を取得するフローチャートである。データ洗練部22は、前処理として、「」、[]、<>など、駅名を強調するための記号をすべて除去し(ステップS101)、前処理を行った項目情報を外部サーバ装置40の形態素解析部41に提供する。次に、データ洗練部22は、形態素解析部41から受信した解析結果に基づく駅名抽出を行う(ステップS102)。具体的には、データ洗練部22は、項目情報を形態素解析して得られる固有名詞と、情報要素の記載パターンに基づく特徴語である“駅”とからなる文字列を検索する。データ洗練部22は、「固有名詞+“駅”」となる単語を検索し、該当する単語が検出されると、かかる単語を駅名に関する情報要素として抽出する。
FIG. 5 is a flowchart for acquiring an information element related to a station name from item information related to an access method. The
また、例えば、「三鷹駅」が「三鷹」と省略されている場合など、形態素解析により駅名に関する情報要素が検出されない場合(ステップS103のNo)、データ洗練部22は、外部サーバ装置40の駅名DB42を照合して駅名に関する情報要素を抽出する(ステップS104)。具体的には、データ洗練部22は、形態素解析により項目情報から得られた固有名詞と、駅名DB42に記憶される駅名との比較を行う。データ洗練部22は、例えば店舗の都道府県等の情報を取得している場合には、当該情報を用いて駅名DB42の検索範囲を狭めることができる。また、データ洗練部22は、駅名DB42から複数の駅名が候補として検出された場合、固有名詞と駅名との文字列の最長一致などに基づいて、1つの駅名を情報要素として選択することができる。なお、固有名詞と駅名との比較や、最長一致法による駅名の選択については、データ洗練部22ではなく、駅名DB42において処理を行い、データ洗練部22は駅名DB42から選択結果のみ受信する態様も可能である。
Further, for example, when the information element relating to the station name is not detected by the morphological analysis (eg, “Mitaka station” is abbreviated as “Mitaka”) (No in step S103), the
図6は、アクセス方法に関する項目情報から出口に関する情報要素を取得するフローチャートである。データ洗練部22は、前処理として、「」、[]、<>など、出口を強調するための記号をすべて除去する(ステップS201)。次に、データ洗練部22は、出口に関する情報要素の記載パターンに応じた正規表現により、項目情報に含まれる出口に関する情報要素を抽出する(ステップS202)。例えば、データ洗練部22は、下記の正規表現により出口に関する情報要素を抽出することができる。なお、下記正規表現はあくまで一例を示すものであって、当業者であれば、下記正規表現とは別に、種々の正規表現を作成可能であることに留意されたい。
"[A-Z]\\d*(口|出口)|(東|西|南|北|中央)口|\\d番(口|出口)“
FIG. 6 is a flowchart for acquiring an information element related to an exit from item information related to an access method. The
"[AZ] \\ d * (exit | exit) | (east | west | south | north | center) exit | \\ d (exit | exit)"
また、例えば、「八重洲口」といった「固有名詞+“口”」で表現される出口など、正規表現により出口に関する情報要素が検出されない場合(ステップS203のNo)、データ洗練部22は、項目情報を形態素解析して得られる固有名詞と、情報要素の記載パターンに基づく特徴語である“口”とからなる文字列を検索する(ステップS204)。データ洗練部22は、「固有名詞+“口”」となる単語を検索し、該当する単語が検出されると、かかる単語を出口に関する情報要素として抽出する(ステップS204)。なお、ここで用いる形態素解析の結果については、例えば駅名抽出に関しステップS102で取得した解析結果を用いても良いし、形態素解析部41に項目情報を再度送信し、新たに形態素解析の結果を取得しても良い。
Further, for example, when an information element related to the exit is not detected by a regular expression such as an exit represented by “proper noun +“ mouth ”” such as “Yaesuguchi” (No in step S203), the
図7は、アクセス方法に関する項目情報から移動情報(移動方法、移動時間、及び時間単位)に関する情報要素を取得するフローチャートである。データ洗練部22は、前処理として、「」、[]、<>など、移動情報を強調するための記号をすべて除去する(ステップS301)。次に、データ洗練部22は、複数の情報要素を含む移動情報の記載パターンに応じた正規表現により、項目情報から移動情報を抽出する(ステップS302)。例えば、データ洗練部22は、下記の正規表現により複数の情報要素を含む移動情報を抽出することができる。なお、下記正規表現はあくまで一例を示すものであって、当業者であれば、下記正規表現とは別に、種々の正規表現を作成可能であることに留意されたい。
"((徒歩|電車|バス)\\b*(分|秒))|\\b*分"
FIG. 7 is a flowchart for acquiring information elements relating to movement information (movement method, movement time, and time unit) from item information relating to the access method. The
"((Walk | train | bus | \\ b * (minute | second)) | \\ b * minute"
データ洗練部22は、複数の情報要素を含む移動情報を取得すると、移動情報における記載順などを基に、移動方法、移動時間、及び時間単位それぞれに関する情報要素を取得する(ステップS303)。例えば、移動時間は一般的にアラビア数字で記載されるため、データ洗練部22は、移動時間(第1の情報要素)の記載パターンに基づき移動時間を抽出した後、移動情報(項目情報)における情報要素の記載順に応じて、移動時間を基点として他の情報要素である移動方法及び時間単位の抽出を行うことができる。
When acquiring the movement information including a plurality of information elements, the
図5〜7においてアクセス方法に関する項目情報から各情報要素を取得する方法を説明したが、1つの項目情報に複数のアクセス方法が記載されていることも考えられる。図8は、複数のアクセス方法を含む項目情報の一例を示す図である。図8のような場合であっても、各アクセス方法の記載は、上述の通り、一定の法則(各情報要素の記載パターンや各情報要素の記載順など)により類型化されている。即ち、例えば、各アクセス方法に関する項目情報は、駅名、出口、移動方法、移動時間、時間単位の順で記載されており、また、駅名、出口、移動方法、移動時間、時間単位それぞれの情報要素は、共通のパターンで表現されている。このため、データ洗練部22は、例えば図5〜図7に示す処理を複数回繰り返すことにより、複数のアクセス方法それぞれの情報要素を取得することができる。また、2番目以降のアクセス方法について、駅名、出口、移動方法、移動時間、時間単位のうち、省略された情報要素がある場合にも、例えば、省略された第1の情報要素(例えば駅名)の後に記載されたデータ(例えば出口及び移動情報)を、直前に記載された第1の情報要素(=駅名)に関連付けることによって、構造型データを生成することができる。具体的には、例えば図4の項目情報「A駅A出口徒歩1分・B出口徒歩3分」では、2番目のアクセス方法である「B出口徒歩3分」に関し、駅名の情報要素(第1の情報要素)が省略されている。この場合、駅名の後に記載されたデータである「B出口徒歩3分」を、直前に記載された第1の情報要素(駅名)である「A駅」に関連付けることによって、構造型データを作成することができる。
Although the method of acquiring each information element from the item information related to the access method has been described with reference to FIGS. 5 to 7, a plurality of access methods may be described in one item information. FIG. 8 is a diagram illustrating an example of item information including a plurality of access methods. Even in the case of FIG. 8, the description of each access method is categorized according to a certain rule (the description pattern of each information element, the description order of each information element, etc.) as described above. That is, for example, item information regarding each access method is described in the order of station name, exit, travel method, travel time, time unit, and information elements for each station name, exit, travel method, travel time, time unit Are expressed in a common pattern. For this reason, the
(b)住所
住所に関する項目情報からの情報要素の取得には、住所に関する項目情報の記載内容が一定の法則(各情報要素の記載パターンや各情報要素の記載順など)により類型化されていることに着目する。例えば、一般的な住所は、都道府県市町村、番地、建物名、階数の順で記載されており、また、番地、階数などの情報要素は、共通の記載パターンで表現されている。なお、一部の住所に関し、類型化されていない項目情報も存在し得るが、かかる一部住所の項目情報については、個別に例外処理を定義すればよく、本発明の有効性に影響を与えるものではないことに留意されたい。
(B) Address For acquiring information elements from item information related to addresses, the description contents of item information related to addresses are categorized according to certain rules (such as the description pattern of each information element and the description order of each information element). Focus on that. For example, general addresses are described in the order of prefectures, municipalities, addresses, building names, and floors, and information elements such as addresses and floors are expressed in a common description pattern. Note that item information that is not categorized may exist for some addresses, but for such item information, exception processing may be defined individually, which affects the effectiveness of the present invention. Note that it is not a thing.
図9は、住所に関する項目情報のデータ構造化の一例を示す図である。例えば、<address>タグで規定される「神奈川県相模原市相模大野3−16−1 レガロビルB1,1F」という項目情報は、「神奈川県相模原市相模大野」という都道府県市町村に関する情報要素と、「3−16−1」という番地に関する情報要素と、「レガロビル」という建物名に関する情報要素と、「B1」「1F」という階数に関する情報要素という、複数の情報要素を含んでおり、図9に示すグラフの通り構造化することができる。以下、データ洗練部22による都道府県市町村、番地、建物名、階数の各情報要素の取得について詳述する。
FIG. 9 is a diagram illustrating an example of data structuring of item information related to an address. For example, the item information “3-16-1 Sagamiono, Sagamihara City, Kanagawa Prefecture” defined by the <address> tag includes information elements related to prefectures and municipalities “Sagamiono, Sagamihara City, Kanagawa Prefecture” FIG. 9 includes a plurality of information elements including an information element related to the address “3-16-1”, an information element related to the building name “Regaro Building”, and an information element related to the floor number “B1” and “1F”. It can be structured as shown in the graph. Hereinafter, acquisition of each information element of the prefectural municipalities, street addresses, building names, and floors by the
図10は、住所に関する項目情報から各情報要素を取得するフローチャートである。データ洗練部22は、番地がアラビア数字を用いて記載されることを利用して、番地(アラビア数字)の前の文字列を都道府県市町村に関する情報要素として抽出する(ステップS401)。なお、都道府県市町村に関する情報要素は、例えば既存の方式によって、都道府県単位や市町村単位など、より細かい情報要素に細分化することが可能だが、本発明ではかかる細分化の詳述は行わない。データ洗練部22は、都道府県市町村に関する情報要素に続くアラビア数字及び記号(例えばハイフン「−」など)からなる文字列を、番地に関する情報要素として取得する(ステップS402)。なお、例えば、ハイフン等により複数のアラビア数字が記載されている場合には、先頭のアラビア数字から順に、丁目、番、号などより細かい情報要素に対応させることも可能である。
FIG. 10 is a flowchart for acquiring each information element from the item information regarding the address. Using the fact that the address is described using Arabic numerals, the
データ洗練部22は、番地に関する情報要素に続く文字列を建物名に関する情報要素として抽出する(ステップS403)。ステップS403で抽出される建物名に関する情報要素には、建物の階数に関する情報要素が含まれる場合もあるため、データ洗練部22は、「階」「B」等の階数を示す文字列を正規表現等で抽出する(ステップS404)。なお、階数に関する情報要素が抽出された場合には、データ洗練部22は、建物名に関する情報要素から、階数に関する情報要素に対応する文字列を除外することに留意されたい。
The
(c)営業予定
営業予定に関する項目情報からの情報要素の取得には、営業予定に関する項目情報の記載内容が一定の法則(各情報要素の記載パターンや各情報要素の記載順など)により類型化されていることに着目する。例えば、営業予定に関する項目情報は、営業日、営業区分、開店時間、閉店時間、LO(ラストオーダー)時間を含んでおり、また、営業日、営業区分、開店時間、閉店時間、LO時間の情報要素は、共通の記載パターンで表現されている。なお、これ以降、説明の便宜上、開店時間、閉店時間、LO時間を含む総称として、適宜、「営業時間」という表現を用いるものとする。
(C) Business schedule When acquiring information elements from item information related to business schedules, the description content of item information related to business schedules is categorized according to certain rules (such as the description pattern of each information element and the order in which each information element is described). Focus on what is being done. For example, item information relating to a business schedule includes business days, business categories, opening times, closing times, LO (last order) times, and information on business days, business categories, opening times, closing times, LO times. Elements are expressed in a common description pattern. Hereinafter, for convenience of explanation, the expression “business hours” will be used as appropriate as a general term including opening hours, closing times, and LO times.
特に、営業予定に関する項目情報に含まれる情報要素のパターン(以下、情報要素パターン)は、下記の3つの情報要素パターンに大別される。このような項目情報に含まれる情報要素に関する情報は、情報要素の抽出に有用となる。
(1)情報要素パターン1(営業時間のみ)
例:11:30〜翌5:00
(2)情報要素パターン2(最初に営業日、後続に営業時間)
例:月〜土/17:00〜23:30(L.O.23:00)
日・祝/17:30〜23:00(L.O.22:30)
(3)情報要素パターン3(最初に営業区分、後続に営業日、営業時間)
例:ランチ 月〜金 11:30〜14:00
ディナー 月〜土 17:00〜23:30 日祝 16:30〜22:30
In particular, information element patterns (hereinafter referred to as information element patterns) included in item information relating to business schedules are roughly divided into the following three information element patterns. Information on information elements included in such item information is useful for extracting information elements.
(1) Information element pattern 1 (business hours only)
Example: 11:30 to 5:00
(2) Information element pattern 2 (first business day, followed by business hours)
Example: Monday to Saturday / 17: 00 to 23:30 (L.O. 23:00)
Sun / Holiday / 17: 30-23: 00 (L.O. 22:30)
(3) Information element pattern 3 (first business division, followed by business day, business hours)
Example: Lunch Mon-Fri 11: 30-14: 00
Dinner Mon-Sat 17: 00-23: 30, Sundays and holidays 16: 30-22: 30
なお、一部の営業予定に関し、類型化されていない項目情報も存在し得るが、かかる一部営業予定の項目情報については、個別に例外処理を定義すればよく、本発明の有効性に影響を与えるものではないことに留意されたい。 In addition, there may be item information that is not categorized for some business schedules. However, for such item business schedule information, it is sufficient to define exception handling individually, which affects the effectiveness of the present invention. Note that it does not give
図11は、営業予定に関する項目情報のデータ構造化の一例を示す図である。例えば、<open>タグで規定される「ランチ 月〜金 11:00〜15:00(L.O.14:00) ディナー 月〜金 18:00〜23:00(L.O.22:00) 土日祝 18:00〜22:00(L.O.21:00)」という項目情報は、「月曜日」〜「日曜日」「祝日」という営業日に関する情報要素と、「ランチ」「ディナー」という営業区分に関する情報要素と、「11:00」「18:00」「19:00」という開店時間に関する情報要素と、「15:00」「23:00」「22:00」という閉店時間に関する情報要素と、「14:00」「22:00」「21:00」というLO時間に関する情報要素という、複数の情報要素を含んでおり、図11に示すグラフの通り構造化することができる。なお、図11において、説明の便宜上、「火曜日」及び「日曜日」に関してのみ後続のデータ構造を記載しているが、「月曜日」「水曜日」「木曜日」「金曜日」については「火曜日」と同様のデータ構造、「土曜日」「祝日」については「日曜日」と同様なデータ構造を有している点に留意されたい。以下、データ洗練部22による営業日、営業区分、開店時間、閉店時間、LO時間の各情報要素の取得について詳述する。
FIG. 11 is a diagram illustrating an example of the data structure of item information related to a business schedule. For example, “Lunch Monday-Friday 11: 00-15: 00 (LO14: 00) Dinner Monday-Friday 18: 00-23: 00 (LO22: 00) Saturdays, Sundays, and holidays 18:00 Item information of ˜22: 00 (LO21: 00) includes information elements related to business days “Monday” to “Sunday” and “holidays”, information elements related to business categories “lunch” and “dinner”, and “11 : 10:00, “18:00”, “19:00”, information elements related to the opening hours, “15:00”, “23:00”, “22:00”, information elements related to the closing times, “14:00”, “ It includes a plurality of information elements called information elements relating to the LO time of 22:00 and 21:00, and can be structured as shown in the graph of FIG. In FIG. 11, for convenience of explanation, the subsequent data structure is described only for “Tuesday” and “Sunday”, but “Monday”, “Wednesday”, “Thursday”, and “Friday” are similar to “Tuesday”. It should be noted that the data structure “Saturday” and “Holiday” have the same data structure as “Sunday”. Hereinafter, acquisition of each information element of the business day, business division, opening time, closing time, and LO time by the
データ洗練部22は、営業予定に関する項目情報の情報要素パターンを識別する(ステップS501)。上述の通り、営業予定に関する項目情報の情報要素パターンは3つのパターンに大別される。データ洗練部22は、項目情報の先頭の文字列を確認することにより、項目情報がどの情報要素パターンに対応するか識別することができる。具体的には、データ洗練部22は、項目情報の先頭文字列が営業時間(例えばアラビア数字など)を示す場合、項目情報は情報要素パターン1であると識別し、項目情報の先頭文字列が営業日(例えば月〜日曜日、祝日など)を示す場合、項目情報は情報要素パターン2であると識別し、項目情報の先頭文字列が営業区分(例えばランチ、ディナーなど)を示す場合、項目情報は情報要素パターン3であると識別することができる。
The
次に、データ洗練部22は、識別した情報要素パターンにおける情報要素の記載パターン及び情報要素の記載順に応じて、項目情報に含まれる情報要素を抽出する。まず、データ洗練部22は、営業時間の記載パターンに応じた正規表現による文字列検索により、項目情報から営業時間を抽出する(ステップS502)。これは、営業時間は、情報要素パターン1〜3の全てに含まれるためである。ここで、営業情報の記載パターンは、「09:00〜22:00」という時間帯としての形式と、「21:00」という時刻としての形式との2つの記載パターンが含まれる。ここで、データ洗練部22は、「09:00〜22:00」など時間帯を示す記載パターンからなる文字列を検出すると、先頭の時間を開店時間に関する情報要素として抽出し、末尾の時間を閉店時間に関する情報要素として抽出する。また、データ洗練部22は、「21:00」など時刻を示す記載パターンからなる文字列を検出すると、当該時刻をLO時間に関する情報要素として抽出する。なお、データ洗練部22は、LO時間の抽出に関しては、「ラストオーダー」「LO」「L.O.」等の文字列を時刻と組み合わせ、組み合わせに該当する文字列が検出することによりLO時間に関する情報要素を抽出することができる。
Next, the
データ洗練部22は、営業時間の抽出後、識別した情報要素パターンに含まれる情報要素の記載パターンに応じた正規表現により、各情報要素を抽出する(ステップS503)。具体的には、データ洗練部22は、識別した情報要素パターンが情報要素パターン2である場合、情報要素パターンに含まれる営業日の記載パターンに応じた正規表現により、営業日に関する情報要素を抽出する。また、データ洗練部22は、識別した情報要素パターンが情報要素パターン3である場合、情報要素パターンに含まれる営業区分及び営業日それぞれの記載パターンに応じた正規表現により、営業区分及び営業日それぞれに関する情報要素を抽出する。なお、データ洗練部22は、識別した情報要素パターンが情報要素パターン1である場合、情報要素パターンには営業時間以外の情報要素が含まれないため、情報要素の抽出を終了する。
After the business hours are extracted, the
営業日及び営業区分の抽出に関し、データ洗練部22は、営業予定に関する同義語を考慮した正規表現によって、営業日及び営業区分の抽出を行うことができる。図13は、営業予定に関する同義語リストの一例を示す図である。かかる同義語を踏まえた正規表現により文字列検索を行うことにより、営業日及び営業区分に関する情報要素をより確実に抽出することが可能となる。
Regarding the extraction of business days and business divisions, the
なお、ステップS501〜S503に示す営業予定に関する項目情報からの情報要素の抽出に関し、具体的な正規表現の例示は行っていないが、当業者であれば、営業区分、営業日、営業時間の記載パターンに応じた、種々の正規表現を作成可能であることに留意されたい。 In addition, regarding the extraction of the information element from the item information regarding the business schedule shown in steps S501 to S503, specific regular expressions are not illustrated, but those skilled in the art will describe the business category, business day, and business time. Note that various regular expressions can be created depending on the pattern.
このように、本実施形態によれば、データ構造化装置1は、非構造型データである項目情報に含まれる情報要素の記載パターン及び情報要素の記載順に応じて、項目情報に含まれる情報要素を抽出し、抽出した情報要素を構造型データに変換する。これにより、ナビゲーションサービスに関する構造型データに含まれる非構造型データから、有用な情報を抽出、洗練し、構造型データへと変換することが可能となる。また、データ構造化装置1は、非構造型データから変換した構造型データを店舗メタデータDB30に格納する。サードパーティ事業者は、店舗メタデータDB30を核として新たなナビゲーションサービスを実施することにより、新たな利用形態に沿った店舗情報検索、即ち利用者の意図や目的に沿った新たな選択/強調を高精度で行うことが可能となる。また、アクセス方法、住所、営業予定などの有用な情報要素を含む非構造型データの項目情報から、情報要素毎に抽出、洗練したメタデータを、構造型データへ形式変換して店舗メタデータDB30へ蓄積しておくことにより、既存の機械的なデータ解釈の基盤を活用することが可能となり、新たなナビゲーションサービスを迅速かつ経済的に実現することが可能となる。
As described above, according to the present embodiment, the
また、本実施形態によれば、データ構造化装置1は、情報要素の記載パターンに応じた正規表現による文字列検索により、項目情報に含まれる情報要素を抽出することができる。これにより、記載パターンに従う様々な情報要素を共通の正規表現により抽出することが可能になる。また、正規表現は柔軟な検索条件を作成することが可能であり、例えば、記載パターンから多少ゆらぎがある情報要素であっても、正規表現の設計に応じて、共通の正規表現により抽出すること可能である。
Further, according to the present embodiment, the
また、本実施形態によれば、データ構造化装置1は、項目情報を形態素解析して得られる固有名詞と、情報要素の記載パターンに基づく特徴語とからなる文字列を検索することにより、項目情報に含まれる情報要素を抽出することができる。これにより、正規表現では抽出されない情報要素を抽出することが可能となる。また、例えば外部データベースと連携して、形態素解析で得られた固有名詞と外部データベースとの値を比較することにより、情報要素を抽出することも可能となる。
Further, according to the present embodiment, the
また、本実施形態によれば、データ構造化装置1は、ある第1の情報要素の記載パターンに基づき当該第1の情報要素を抽出した後、項目情報における情報要素の記載順に応じて、第1の情報要素を基点として他の情報要素の抽出を行うことができる。これにより、例えば正規表現や形態素解析では抽出が難しい情報要素であっても、他の情報要素を基点として抽出することが可能となる。
Further, according to the present embodiment, the
また、本実施形態によれば、データ構造化装置1は、項目情報の情報要素パターンを識別し、識別した情報要素パターンにおける情報要素の記載パターン及び情報要素の記載順に応じて、項目情報に含まれる情報要素を抽出することができる。これにより、予め項目情報に含まれる情報要素を正確に把握した上で、各情報要素を抽出できるため、情報要素の抽出を高精度で行うことが可能となる。
Further, according to the present embodiment, the
本発明を諸図面や実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形や修正を行うことが容易であることに注意されたい。従って、これらの変形や修正は本発明の範囲に含まれることに留意されたい。例えば、各構成部、各ステップなどに含まれる機能などは論理的に矛盾しないように再配置可能であり、複数の構成部やステップなどを1つに組み合わせたり、或いは分割したりすることが可能である。 Although the present invention has been described based on the drawings and examples, it should be noted that those skilled in the art can easily make various modifications and corrections based on the present disclosure. Therefore, it should be noted that these variations and modifications are included in the scope of the present invention. For example, the functions included in each component, each step, etc. can be rearranged so that there is no logical contradiction, and multiple components, steps, etc. can be combined or divided into one It is.
1 データ構造化装置
10 データ取得部
20 データ構造化部
21 データ抽出部
22 データ洗練部
23 データ変換部
30 店舗メタデータDB
40 外部サーバ装置
41 形態素解析部
42 駅名DB
DESCRIPTION OF
40 External server device 41
Claims (5)
前記データ構造化装置による処理手順が、
前記ナビゲーションサービスに関する構造型データから、所定の項目に関する非構造型データである項目情報を抽出するステップと、
前記項目情報に含まれる情報要素の記載パターン及び情報要素の記載順に応じて、前記項目情報に含まれる情報要素を抽出する情報要素抽出ステップと、
抽出された前記情報要素を構造型データに変換するステップと、を含む非構造型データの構造化処理方法。 A method of structuring unstructured data by a data structuring device that converts unstructured data included in structured data related to a navigation service into structured data,
The processing procedure by the data structuring apparatus is as follows:
Extracting item information that is unstructured data related to a predetermined item from structural data related to the navigation service;
An information element extraction step for extracting information elements included in the item information according to a description pattern of information elements included in the item information and a description order of the information elements;
Converting the extracted information element into structured data, and structuring processing method of unstructured data.
In the information element extraction step, an information element pattern of the item information is identified, and an information element included in the item information according to a description pattern of the information element in the identified information element pattern of the item information and a description order of the information element The structured processing method for unstructured data according to any one of claims 1 to 4, wherein the data is extracted.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011096330A JP2012226705A (en) | 2011-04-22 | 2011-04-22 | Structure processing method of non-structured data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011096330A JP2012226705A (en) | 2011-04-22 | 2011-04-22 | Structure processing method of non-structured data |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012226705A true JP2012226705A (en) | 2012-11-15 |
Family
ID=47276763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011096330A Withdrawn JP2012226705A (en) | 2011-04-22 | 2011-04-22 | Structure processing method of non-structured data |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012226705A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015049769A1 (en) * | 2013-10-03 | 2015-04-09 | 株式会社日立製作所 | Data analysis system and method therefor |
WO2019241630A1 (en) * | 2018-06-15 | 2019-12-19 | Deep Insight Solutions, Inc. | Systems and methods for an artificial intelligence data fusion platform |
-
2011
- 2011-04-22 JP JP2011096330A patent/JP2012226705A/en not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015049769A1 (en) * | 2013-10-03 | 2015-04-09 | 株式会社日立製作所 | Data analysis system and method therefor |
JP6081609B2 (en) * | 2013-10-03 | 2017-02-15 | 株式会社日立製作所 | Data analysis system and method |
WO2019241630A1 (en) * | 2018-06-15 | 2019-12-19 | Deep Insight Solutions, Inc. | Systems and methods for an artificial intelligence data fusion platform |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11392896B2 (en) | Event extraction systems and methods | |
Hiippala et al. | Exploring the linguistic landscape of geotagged social media content in urban environments | |
Anuar et al. | Smartphone's application adoption benefits using mobile hotel reservation system (MHRS) among 3 to 5-star city hotels in Malaysia | |
CN110019616B (en) | POI (Point of interest) situation acquisition method and equipment, storage medium and server thereof | |
US8818997B2 (en) | Information processing method, information processing apparatus, and storage medium with recorded information processing program | |
US20140280575A1 (en) | Determining activities relevant to users | |
US20100161599A1 (en) | Computer Method and Apparatus of Information Management and Navigation | |
Anaya et al. | Traveler-facing technology in the tourism experience: A historical perspective | |
JP2007219655A (en) | Facility information management system, facility information management method and facility information management program | |
CN105874531A (en) | Terminal device, program, and server device for providing information according to user data input | |
Eshleman et al. | " Hey# 311, come clean my street!": a spatio-temporal sentiment analysis of twitter data and 311 civil complaints | |
US20090186631A1 (en) | Location Based Information Related to Preferences | |
US20150012543A1 (en) | Region labeling method and device of data documents | |
JP4720569B2 (en) | Employee residence search support program, employee residence search support device, and employee residence search support method | |
JP2012226705A (en) | Structure processing method of non-structured data | |
Ramires et al. | Pre-and post-pandemic travel behaviour and intentions: Clustering Portuguese generations | |
Boratinskii et al. | Reshuffling city life: spatial and functional dynamics of urban activity in Tokyo during COVID-19 | |
US9558262B2 (en) | Sorting method of data documents and display method for sorting landmark data | |
Kim et al. | A Study on Community Information Services for Elderly People in Public Libraries | |
JP6088023B1 (en) | Reservation processing device, reservation processing method, and reservation processing program | |
JP2020194278A (en) | Information processing system, data processing program, data processing apparatus, and data processing method | |
Edelmann | Hermeneutics and Hindu Thought: Toward a Fusion of Horizons. Edited by Rita Sherma and Arvind Sharma. | |
US12002010B2 (en) | Event extraction systems and methods | |
Konadl et al. | Identifying sentiment influences provoked by context factors–results from a data analytics procedure performed on tweets | |
Andrae et al. | OpenSensors: A community platform to enable the Sensor Web and foster earth observation research |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20140701 |