JP5182960B2 - 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体 - Google Patents

店舗名曖昧性解消装置、その方法、プログラム及び記録媒体 Download PDF

Info

Publication number
JP5182960B2
JP5182960B2 JP2010057039A JP2010057039A JP5182960B2 JP 5182960 B2 JP5182960 B2 JP 5182960B2 JP 2010057039 A JP2010057039 A JP 2010057039A JP 2010057039 A JP2010057039 A JP 2010057039A JP 5182960 B2 JP5182960 B2 JP 5182960B2
Authority
JP
Japan
Prior art keywords
store
store name
name
determined
record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010057039A
Other languages
English (en)
Other versions
JP2011191982A (ja
Inventor
のぞみ 小林
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010057039A priority Critical patent/JP5182960B2/ja
Publication of JP2011191982A publication Critical patent/JP2011191982A/ja
Application granted granted Critical
Publication of JP5182960B2 publication Critical patent/JP5182960B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、入力文章中に出現する店舗名(店舗の名称)のうち、店舗名らしいものを予め用意した店舗データベース中のレコードへ対応付ける技術に関する。本発明は、情報検索システムや情報抽出システムの前処理として利用でき、また、抽出された情報を集約する後処理にも使用できる。
従来、この種の技術としては、非特許文献1に記載されたものがある。非特許文献1では、人名、組織名、場所名(地名)、その他の固有名がwikipediaのどのページに対応するかを同定する問題を解いている。この手法では、入力文章中の固有名を対象に、予め自動的にwikipediaから作成しておいたsurface-entity(出現表記−実体)のリストから候補を取得し、前記固有名の周りに出現した特徴語から、対応するデータベース中のレコードのIDを推定する。
Silviu Cucerzan, "Large-Scale Named Entity Disambiguation Based on Wikipedia Data", Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2007 Association for Computational Linguistics, June 2007, pp. 708-716
前述した非特許文献1の手法では、入力文章から固有名を抽出するために、capitalization rule、統計情報及びwikipediaを使用しているが、日本語には英語のような固有名が大文字化されるというような取り決めは存在せず、また、wikipediaに個別の店舗名は存在していないため、この方法で店舗名を抽出することは難しい。
また、店舗名は一般名詞からなる名称が多いため、単に店舗名のリストで辞書引きして使うと、実際には店舗名ではない語を多く抽出してしまうという問題があった。既存の固有表現抽出器の場合、一般的に使用されているIREX(日本語の固有表現抽出技術のワークショップ)の固有表現の定義で「店舗名」というクラス(タイプ)が存在しないため、店舗名を含むと思われるクラス、即ち「場所名」や「組織名」を対象にすると、店舗名以外の表現が大量に得られ、処理の効率が悪くなるという問題があった。
<着眼点>
抽出された店舗名の候補が店舗名らしいか否かを、周辺の文脈を用いて判定する「店舗名判定部」を導入する。また、店舗名らしいと判例された店舗名について、周辺の文脈を用いて店舗データベース中の対応するレコードを特定する「曖昧性解消部」を導入する。
<本装置の特徴>
本装置は、形態素解析及び固有表現抽出処理済みの入力文章が入力されたときに、店舗名リストを使用して店舗名候補を抽出する店舗名候補抽出部と、抽出した店舗名候補が店舗名か否かを判定する店舗名判定部と、周辺の文脈などを使用して店舗名の曖昧性解消を行う曖昧性解消部とを備えた、店舗名と店舗データベースのレコードとの対応付けを行う装置である。
本発明によれば、一般名詞など、店舗名との曖昧性のある語に対してもその文脈を見ることで、出現した店舗名が真に店舗名か否かを判断でき、店舗名に対してのみ効率良く曖昧性解消を行うことができる。
本発明の店舗名曖昧性解消装置の実施の形態の一例を示す構成図 各データベースの詳細を示す説明図 本発明の店舗名曖昧性解消装置における処理の流れ図 店舗名リストの作成方法の一例を示す説明図 店舗らしさデータベースの作成方法の一例を示す説明図 店舗名候補抽出部の詳細を示す構成図 店舗名候補抽出部における処理の流れ図 店舗名判定部の詳細を示す構成図 店舗名判定部における処理の流れ図 曖昧性解消部の詳細を示す構成図 曖昧性解消部のチェーン店個別店舗判定部における処理の流れ図 曖昧性解消部の文脈に基づく店舗推定部における処理の流れ図 具体的な処理例を示す説明図 具体的な処理例を示す説明図
<装置構成の概要>
図1は本発明の店舗名曖昧性解消装置の実施の形態の一例を示すもので、図中、1は店舗データベース(DB)、2は店舗名リスト、3は店舗らしさデータベース(DB)、4は特徴語データベース(DB)、5は処理済み入力文章記憶部、6は店舗名候補抽出部、7は抽出済み店舗名候補記憶部、8は店舗名判定部、9は判定済み店舗名記憶部、10は曖昧性解消部である。
店舗DB1は、図2(a)に示すように、店舗に関する店舗情報、ここでは店舗名とともに当該店舗についての様々な属性値(店舗属性値)、例えば「電話番号」、「住所」、「ジャンル名」等を含む店舗情報をレコード毎にそのレコードIDとともに登録してなるもので、予め用意されている(例えば、既存のタウンページなど)ものとする。なお、ここでいう「レコードID」とは、データベースのレコードを一意に識別可能なものであれば何でも良く、必ずしも連番のものである必要はない(ここでは店舗属性値中の「電話番号」をそのままレコードIDとして用いるものとする。)。
店舗名リスト(記憶部)2は、図2(b)に示すように、店舗名の集合、ここでは店舗DB1中の店舗名(の表記)の集合とともに、当該店舗DB1中の店舗名から省略され得る語を削除した店舗名の集合とを登録してなるものである。
店舗らしさDB3は、図2(c)に示すように、入力文章中に出現する店舗名が店舗名らしいか否か(真に店舗名であるか否か)を判断するための情報、ここでは店舗名らしいか否かを数値的に表す情報である曖昧性フラグ(本例では「0」及び「2」は店舗名、「1」及び「3」は店舗名の可能性有り)と、当該店舗名が店舗である場合にその近傍に出現することが予想される店舗キーワード(但し、後述するように曖昧性フラグ「1」又は「3」の時のみ)とを店舗名毎に登録してなるものである。
特徴語DB4は、図2(d)に示すように、店舗DB1中の各レコード(の店舗)に対する特徴語の集合をそれぞれの重要度を表す重み値とともに各レコードIDに対応付けて登録してなるものである。
処理済み入力文章記憶部5は、入力文章中の各単語(の表記)に対し、その読み、品詞等の単語情報と、出現した文番号、形態素番号等の入力文章中での位置情報と、人名、場所名、組織名、人工物名等の固有表現のクラスを表す固有表現タグ(固有表現識別子)とをそれぞれ付与してなる形態素解析及び固有表現抽出処理済み入力文章(以下、処理済み入力文章)を記憶する。なお、処理済み入力文章は、自然言語で記述された入力文章に対し、周知の形態素解析処理と固有表現抽出処理とを行うことによって得られる。
店舗名候補抽出部6は、処理済み入力文章記憶部5に記憶された処理済み入力文章から店舗名リスト2中の店舗名と表記が一致する単語を全て抽出し、その単語の表記とともに前記処理済み入力文章中での位置情報等を店舗名候補として抽出済み店舗名候補リスト(記憶部)7に記憶する。
店舗名判定部8は、抽出済み店舗名候補リスト7中の店舗名候補に対し、店舗らしさDB3を用いて店舗名か否かを判定し、店舗名と判定された店舗名候補のみを判定済み店舗名として判定済み店舗名リスト(記憶部)9に記憶する。
曖昧性解消部10は、判定済み店舗名リスト9中の判定済み店舗名に対し、店舗DB1及び特徴語DB4を用いて店舗DB1中のどのレコードに対応するかを、前記処理済み入力文章中の当該判定済み店舗名の近傍に出現する前記店舗属性値に対応する制約語もしくは特徴語から判断し、店舗DB1の対応するレコードの少なくともレコードIDを当該店舗名とともに出力する。なお、対応するレコードがないと判断した場合は何も出力しない、あるいは当該店舗名のみ出力する。
<装置全体の処理の概要>
図3は図1の装置全体における処理の流れの概要を示すものである。
ここで、入力文章に対して周知の形態素解析及び固有表現抽出処理が施され、処理済み入力文章が処理済み入力文章記憶部5に記憶されているものとする。
まず、店舗名候補抽出部6は、処理済み入力文章記憶部5に記憶された処理済み入力文章から店舗名リスト2中の店舗名とその表記が一致する単語を全て抽出し、その単語の表記とともに前記処理済み入力文章中での位置情報等を店舗名候補として抽出済み店舗名候補リスト7に出力して記憶する(s1)。
次に、店舗名判定部8は、抽出済み店舗名候補リスト7が空かどうかを判定し(s2)、空でなければ、当該リスト7から店舗名候補を一つ取り出し(s3)、取り出した店舗名候補を入力として、店舗らしさDB3を用いて店舗名か否かを判定し、店舗名と判定された店舗名候補のみを判定済み店舗名として判定済み店舗名リスト9に出力して記憶する(s4)。なお、店舗名と判定されなかった場合は何も出力しない。
その後、s2に戻り、抽出済み店舗名候補リスト7が空になるまで前記同様の処理が繰り返され、当該リスト7が空になった時点で曖昧性解消部10の処理に移る。
次に、曖昧性解消手段10は、判定済み店舗名リスト9中の判定済み店舗名を入力として、店舗DB1及び特徴語DB4を用いて店舗DB1中のどのレコードに対応するかを、前記処理済み入力文章中の当該判定済み店舗名の近傍に出現する前記店舗属性値に対応する制約語もしくは特徴語から判断し、店舗DB1の対応するレコードの少なくともレコードIDを当該店舗名とともに出力する(s5)。なお、対応するレコードがないと判断した場合は何も出力しない、あるいは当該店舗名のみ出力する。
<店舗名リストの作成>
図4は店舗名リスト2の作成方法の一例を示すもので、店舗DB1に登録されている各店舗名をそのまま登録するとともに、店舗名からコア表記を生成するための「モデル」及び当該「モデル」を元に店舗名からコア表記を生成する「コア表記生成手段」を用いて、店舗DB1に登録されている各店舗名からコア表記をそれぞれ生成して登録することで作成する。なお、表記同一の店舗名については1つのみ残し、それ以外は削除するものとする。
ここで、「コア表記」とは、店舗名から省略され得る語(例えば「レストラン」、「xx店」など)を除いた、店舗の名称の最小単位の表記(例えば「中華飯店 橙屋xx店」が正式な店舗名である場合、「橙屋」がコア表記)を指す。また、前記「モデル」は人手でタグを付与したデータから周知の機械学習手法で構築するものとする。
<店舗らしさDBの作成>
図5は店舗らしさDB3の作成方法の一例を示すもので、店舗DB1を入力とし、形態素解析等で使用する名詞辞書や地名辞書、一般の辞典などからなる「一般語辞書」、チェーン店名の集合を登録してなる「チェーン店名リスト」及び当該「一般語辞書」「チェーン店名リスト」を元に店舗DB1中の店舗名及び前述したコア表記毎に曖昧性フラグと店舗キーワードとを生成する「データベース生成手段」を用いて作成する。ここで、この時の店舗DB1の各レコードには、前述した「コア表記生成手段」によって得られたコア表記及び元の店舗名からコア表記を削除した削除表記が登録されているものとする。
詳細には、店舗DB1中の各店舗名及びコア表記について「一般語辞書」及び「チェーン店名リスト」を完全一致で辞書引きし、いずれにもエントリがなければその曖昧性フラグを「0」(店舗名)とし、「一般語辞書」にのみエントリがあればフラグを「1」(店舗名の可能性有り)とし、「チェーン店名リスト」にのみエントリがあればフラグを「2」(チェーン店の店舗名)とし、「一般語辞書」及び「チェーン店名リスト」の両方にエントリがあればフラグを「3」(店舗名の可能性有り)とする。
さらに曖昧性フラグが「1」又は「3」である店舗名又はコア表記についてはそれぞれ、当該店舗名もしくはそのコア表記を有する店舗DB1のレコードから削除表記、ジャンル名、住所(形態素解析をかけ、形態素に分割)を抽出し、店舗キーワードとする。
<特徴語DBの作成>
特徴語DB4は、
(a)店舗DB1にある情報(住所、電話番号など)、
(b)店舗について書かれた文書集合から獲得した特徴語、
の二種類の情報を含む。
(a)は、自動的に店舗DB1から抽出可能である。どの情報が使用できるかは入手できる店舗DBに依存するため、どのフィールドを使用するかは人手で選択し、フィールドの抽出は自動で行う。データベースから抽出した特徴語の重み値は(b)よりも大きい値を仮定する。求め方には様々な方法が考えられるが、例えば、テストデータを用意して、その中で良い値を人手でチューニングする方法がある。
(b)は、まず店舗について書かれた文書集合を、店舗を一意に決定する語(例えば、電話番号)をキーワードとしてWebページを検索し、得られたページ集合を形態素解析した後、特徴語を抽出して特徴語DBを作成する。特徴語として固有名、名詞、名詞連続(複合名詞)、形態素解析器が未知語と出力した語を使用した。この特徴語にどういう重み値を付与するかについては様々な方法があるが、例えば「複数の実体で使われる語は弁別能力が低い」という考えに基づき、1実体を1文書と考えたidfを使うことができる。
なお、店舗名リスト2、店舗らしさDB3及び特徴語DB4のいずれも(手間はかかるが)、手作業により作成することも可能である。
<店舗名候補抽出部の詳細>
図6は店舗名候補抽出部の詳細を示すもので、処理済み入力文章を入力とし、その表記が店舗名リスト2中の店舗名と完全一致し、その前後が形態素境界となる文字列を店舗名候補として全て抽出する。
図7は店舗名候補抽出部における処理の流れ、即ち図3中のステップs1の詳細を示すものである。
店舗名候補抽出部6は、処理済み入力文章記憶部5から処理済み入力文章を単語(形態素)単位で読み出し(s11)、店舗名リスト2中の各店舗名と比較照合し(s12)、その表記が完全に一致した場合(s13)、当該単語(の表記)とともに前記処理済み入力文章中での位置情報等を店舗名候補として抽出済み店舗名候補リスト7に出力して記憶し(s14)、これを処理済み入力文章中の全ての単語について繰り返す(s15)。
<店舗名判定部の詳細>
図8は店舗名判定部8の詳細を示すもので、処理済み入力文章と、店舗名候補リストとを入力とし、店舗らしさDB3を用いて当該店舗名候補が店舗名か否かを判定する。
また、店舗名判定部8は、店舗名候補の表記で店舗らしさDB3を検索し、その店舗名が店舗名らしい否かの値、ここでは曖昧性フラグと、店舗キーワード(但し、曖昧性フラグ「1」又は「3」の時のみ)とを取得する店舗らしさデータベース照合部81と、曖昧性フラグが「0」又は「2」の場合は店舗名と判断し、曖昧性フラグが「1」又は「3」の場合は更に店舗キーワードを用いた判断規則と処理済み入力文章とがマッチするか否か、詳細には所定の文字列のいずれかが処理済み入力文章に存在するか否かを判断し、存在すれば店舗名であり、存在しなければ店舗名でないと判断し、店舗名と判断した店舗名候補のみを曖昧性フラグとともに判定済み店舗名として判定済み店舗名リスト9に出力して記憶する店舗名判断部82とを備えている。
ここで、所定の文字列とは、店舗名候補又は店舗名候補及び店舗キーワードを用いた様々な文字列、例えば
1.[店舗名候補]というお店(例えば文字列「橙屋というお店」「北極星というお店」)
2.[店舗名候補]という[店舗キーワード](例えば文字列「橙屋という中華」「北極星という洋食」)
3.[店舗キーワード][店舗名候補](例えば文字列「中華橙屋」「洋食北極星」)
などが挙げられる。
図9は店舗名判定部8における処理の流れ、即ち図3中のステップs4の詳細を示すものである。
まず、店舗らしさ照合部81は、抽出済み店舗名候補リスト7から取り出した店舗名候補をキーとして店舗らしさDB3を検索して、当該店舗名候補に対応する曖昧性フラグと、店舗キーワードとを取得する(s21)。
次に、店舗名判断部82は、前記得られた曖昧性フラグが「0」又は「2」であるか否かを判断し(s22,s23)、「0」又は「2」である、つまり店舗名と判断されればs26へ進む。
一方、曖昧性フラグが「0」又は「2」でない、つまり「1」又は「3」であれば、店舗名候補又は店舗名候補及び店舗キーワードから判断規則、つまり所定の文字列を生成し、処理済み入力文章と照合する(s24)。この際、所定の文字列中のいずれかが処理済み入力文章に存在すれば店舗名と判断してs26へ進み(s25)、存在しなければ店舗名でないと判断して処理を終了する。
店舗名判断部82は、店舗名と判定された店舗名候補を曖昧性フラグとともに判定済み店舗名として判定済み店舗名リスト9に出力して記憶する(s26)。
<曖昧性解消部の詳細>
図10は曖昧性解消部10の詳細を示すもので、処理済み入力文章と、判定済み店舗名リストとを入力とし、店舗名DB1及び特徴語DB4を用いて、前記店舗名とこれに対応する店舗名DB1のレコードIDとを出力する(但し、解なしと判定された場合は店舗名のみ出力する。)。
また、曖昧性解消部10は、判定済み店舗名リスト9中の判定済み店舗名をキーとして店舗DB1を検索し、対応するレコードの候補の集合を取得する候補生成部101と、判定済み店舗名リスト9中の各判定済み店舗名のうち、同じ店舗を指す判定済み店舗名(同じ店舗を指すか否かは、例えば表記が同じかどうかで判断)をまとめて一つのまとまりである店舗チェインを作成する文章内同一性判定部102と、各店舗チェインがチェーン店かそうでないかを判定(例えば、店舗チェインが曖昧性フラグ「2」又は「3」の判定済み店舗名を含むときはチェーン店、含まなければそうでないと判定)し、チェーン店と判定された店舗チェインに対し、処理済み入力文章の当該店舗チェインを構成する各判定済み店舗名が出現している周辺の文脈から、所定の制約語抽出規則に基づいて制約語を抽出し、当該抽出した制約語を店舗属性値に全て含むレコードの候補が一つであればその候補が対応するレコードであると決定するチェーン店個別店舗判定部103と、チェーン店でないと判定された店舗チェインに対し、処理済み入力文章の当該店舗チェインを構成する各判定済み店舗名が出現している周辺の名詞、未知語、固有表現を特徴語として抽出するとともに、当該店舗チェインを構成する各判定済み店舗名に対応するレコードの候補のレコードIDで特徴語DB4を検索して特徴語及びその重みを得て、それらの類似度を求め、当該類似度が所定の閾値以上であれば、そのレコードの候補が対応するレコードであると決定する文脈に基づく店舗推定部104と、対応するレコードが決定された(=データベース中のIDが決定された)場合は少なくともそのレコードIDを当該店舗名とともに出力する結果出力部105とを備えている。
ここで、所定の制約語抽出規則とは、例えば、
1.〈名詞,未知語の連続,場所名〉の[店舗名]
2.〈名詞,未知語の連続,場所名〉にある[店舗名]
などが挙げられ、〈〉に該当する部分を制約語として抽出する。なお、ここでいう[店舗名]は、処理対象としている店舗チェインの店舗名である。「場所名(地名)」かどうかは固有表現抽出処理の結果で判断できる。店舗名が出現した文の前方に場所名が存在しない場合、一つ前の文に場所名があればそれも制約語として抽出する。
なお、文脈に基づく店舗推定部104の他、別途内積などに基づいてスコアを再計算した後、閾値により判断する信頼度判定部を設けても良い。
図11は曖昧性解消部10のチェーン店個別店舗判定部103における処理の流れを示すものである。
まず、チェーン店個別店舗判定部103は、店舗チェインを構成する判定済み店舗名中に曖昧性フラグ「2」又は「3」のものが存在するか否かを判定することで、当該店舗チェインがチェーン店かそうでないかを判定する(s31)。この際、チェーン店でないと判定した場合は、当該店舗チェインを文脈に基づく店舗推定部104へ送る。
一方、チェーン店個別店舗判定部103は、チェーン店と判定された店舗チェインについて、処理済み入力文章の当該店舗チェインを構成する各判定済み店舗名が出現している周辺の文脈から、所定の制約語抽出規則に基づいて制約語を抽出する(s32)。この際、制約語が存在しなければ(s33)、当該店舗チェインの店舗名は対応するレコード無しと決定する(s34)。
次に、チェーン店個別店舗判定部103は、店舗チェインを構成する判定済み店舗名をキーとして店舗DB1を検索し、当該店舗名に対応するレコードの候補を取得する(s35)。さらに、チェーン店個別店舗判定部103は、s32で抽出した制約語を店舗属性値に全て含むレコードの候補が一つかどうかを判定し(s36)、一つであれば当該レコードの候補を対応するレコードと決定する(s37)。なお、2つ以上であれば、前記同様、対応するレコード無しと決定する(s34)。
図12は曖昧性解消部10の文脈に基づく店舗推定部104における処理の流れを示すものである。
まず、文脈に基づく店舗推定部104は、チェーン店でないと判定された店舗チェインに対し、処理済み入力文章の当該店舗チェインを構成する各判定済み店舗名が出現している周辺の名詞、未知語、固有表現を特徴語として抽出し、出現表記特徴語リストを作成する(s41)。
次に、文脈に基づく店舗推定部104は、店舗チェインを構成する判定済み店舗名をキーとして店舗DB1を検索し、当該店舗名に対応するレコードの候補を取得し(s42)、さらに当該レコードの候補のレコードIDで特徴語DB4を検索して特徴語及びその重みを取得する(s43)。
次に、文脈に基づく店舗推定部104は、前記店舗名に対応するレコードの候補毎に、その特徴語(のリスト)と前記出現表記特徴語リストとの類似度をcosine類似度などで求める(s44)。この際、類似度が所定の閾値以上の候補があれば(s45)、そのレコードの候補が対応するレコードであると決定し(s46)、所定の閾値以上の候補がなければ対応する候補無しと決定する(s47)。なお、所定の閾値以上の候補が複数ある場合はそのうちの類似度が最も高い候補を対応するレコードと決定する。
なお、チェーン店個別店舗判定部103、文脈に基づく店舗推定部104及び結果出力部105の処理は、文章内同一性判定部102で作成された全ての店舗チェインについて繰り返し行われる。
図13を参照して、本発明の店舗名曖昧性解消装置の動作について説明する。
[1]形態素解析及び固有表現抽出済みの入力文章が入力である。
[2]店舗名候補抽出部6では、処理済み入力文章から店舗名リスト2中の店舗名とその表記が一致する単語を全て抽出、ここでは「橙屋」を抽出し、その単語の表記とともに前記処理済み入力文章中での位置情報等を店舗名候補として抽出済み店舗名候補リスト7に出力して記憶する(s1)。
[3]抽出済み店舗名候補リスト7が空ではない(s2)ので、店舗名判定部8は、抽出済み店舗名候補リスト7から店舗名候補を一つ、ここでは「橙屋」を取り出す(s3)。
店舗名判定部8では、取り出した店舗名候補「橙屋」を入力として、店舗らしさDB3を用いて店舗名か否かを判定、ここでは店舗名候補「橙屋」は曖昧性フラグが「2」であるため、店舗名と判定し、判定済み店舗名として判定済み店舗名リスト9に出力して記憶する(s4)。
[4]曖昧性解消部10では、候補生成部101により判定済み店舗名、ここでは店舗名「橙屋」をキーとして店舗DB3を検索し、対応するレコードの候補の集合、ここではレコードID「04x-yyy-zzz」及び「03-qqqq-www」のレコードの候補を得る。
次に、曖昧性解消部10では、文章内同一性判定部102により店舗チェインを作成するが、ここでは判定済み店舗名が「橙屋」一つのみであるため、当該店舗名「橙屋」のみからなる店舗チェインが作成される。
次に、曖昧性解消部10では、チェーン店個別店舗判定部103により前記店舗名「橙屋」のみからなる店舗チェインがチェーン店かそうでないが判定されるが、店舗名候補「橙屋」の曖昧性フラグが「2」であるため、チェーン店であると判定される。
次に、曖昧性解消部10では、チェーン店個別店舗判定部103により処理済み入力文章の当該店舗チェインを構成する各判定済み店舗名が出現している周辺の文脈から、所定の制約語抽出規則に基づいて制約語を抽出、ここでは「菊名」が抽出される。
さらに、曖昧性解消部10では、チェーン店個別店舗判定部103により前記抽出された制約語を店舗属性値に全て含むレコードの候補が一つかどうかを判定するが、ここではレコードID「04x-yyy-zzz」のレコードの候補のみが前記制約語「菊名」を含むため、当該レコードID「04x-yyy-zzz」のレコードの候補が店舗名「橙屋」に対応するレコードと決定される。
図14を参照して、本発明の店舗名曖昧性解消装置の他の動作について説明する。
[1]形態素解析及び固有表現抽出済みの入力文章が入力である。
[2]店舗名候補抽出部6では、処理済み入力文章から店舗名リスト2中の店舗名とその表記が一致する単語を全て抽出、ここでは「北極星」を抽出し、その単語の表記とともに前記処理済み入力文章中での位置情報等を店舗名候補として抽出済み店舗名候補リスト7に出力して記憶する(s1)。
[3]抽出済み店舗名候補リスト7が空ではない(s2)ので、店舗名判定部8は、抽出済み店舗名候補リスト7から店舗名候補を一つ、ここでは「北極星」を取り出す(s3)。
店舗名判定部8では、取り出した店舗名候補「北極星」を入力として、店舗らしさDB3を用いて店舗名か否かを判定、ここでは店舗名候補「北極星」は曖昧性フラグが「1」であるため、店舗名候補又は店舗名候補及び店舗キーワードから所定の文字列を生成、ここでは「北極星というお店」「北極星という洋食」「洋食北極星」等を生成し、処理済み入力文章と照合するが、「洋食北極星」が一致するので店舗名と判定し、判定済み店舗名として判定済み店舗名リスト9に出力して記憶する(s4)。
[4]曖昧性解消部10では、候補生成部101により判定済み店舗名、ここでは店舗名「北極星」をキーとして店舗DB3を検索し、対応するレコードの候補の集合、ここではレコードID「06-ssss-ttt」のレコードの候補を得る。
次に、曖昧性解消部10では、文章内同一性判定部102により店舗チェインを作成するが、ここでは判定済み店舗名が「北極星」一つのみであるため、当該店舗名「北極星」のみからなる店舗チェインが作成される。
次に、曖昧性解消部10では、チェーン店個別店舗判定部103により前記店舗名「北極星」のみからなる店舗チェインがチェーン店かそうでないが判定されるが、店舗名候補「北極星」の曖昧性フラグが「1」であるため、チェーン店でないと判定される。
次に、曖昧性解消部10では、文脈に基づく店舗推定部104により処理済み入力文章の当該店舗チェインを構成する各判定済み店舗名が出現している周辺の名詞、未知語、固有表現が特徴語として抽出、ここでは「大阪」「ハンバーグ」が抽出される。
さらに、曖昧性解消部10では、文脈に基づく店舗推定部104により店舗名に対応するレコードの候補毎に、その特徴語(のリスト)と前記抽出した特徴語(のリスト)との類似度を求め、この類似度が所定の閾値以上の候補があれば、そのレコードの候補が対応するレコードであると決定する。この際、レコードID「06-ssss-ttt」のレコードの候補の類似度が閾値以上と判定されたとすると、当該レコードID「06-ssss-ttt」のレコードの候補が店舗名「北極星」に対応するレコードと決定される。
1:店舗データベース(DB)、2:店舗名リスト、3:店舗らしさデータベース(DB)、4:特徴語データベース(DB)、5:処理済み入力文章記憶部、6:店舗名候補抽出部、7:抽出済み店舗名候補記憶部(リスト)、8:店舗名判定部、9:判定済み店舗名記憶部(リスト)、10:曖昧性解消部。

Claims (8)

  1. 形態素解析及び固有表現抽出処理された入力文章中から店舗名を抽出し、当該抽出された店舗名を、店舗名及び店舗属性値を含む店舗情報をレコード毎にそのレコードIDとともに登録した店舗データベース中のレコードへ対応付ける装置であって、
    店舗名の集合を登録した店舗名リストと、
    入力文章中の店舗名が店舗名らしいか否かを判断するための情報を店舗名毎に登録した店舗らしさデータベースと、
    前記店舗データベース中の各レコードに対する特徴語の集合をそれぞれの重要度を表す重み値とともに各レコードIDに対応付けて登録した特徴語データベースと、
    形態素解析及び固有表現抽出処理済み入力文章から前記店舗名リスト中の店舗名と表記が一致する単語を全て抽出し、店舗名候補として出力する店舗名候補抽出部と、
    店舗名候補に対し、前記店舗らしさデータベースを用いて店舗名か否かを判定し、店舗名と判定された店舗名候補のみを判定済み店舗名として出力する店舗名判定部と、
    判定済み店舗名に対し、前記店舗データベース及び特徴語データベースを用いて店舗データベース中のどのレコードに対応するかを、前記処理済み入力文章中の当該判定済み店舗名の近傍に出現する前記店舗属性値に対応する制約語もしくは特徴語から判断し、店舗データベースの対応するレコードの少なくともレコードIDを当該店舗名とともに出力する曖昧性解消部とを備えた
    ことを特徴とする店舗名曖昧性解消装置。
  2. 請求項1に記載の店舗名曖昧性解消装置において、
    入力文章中の店舗名が店舗名らしいか否かを判断するための情報として、店舗名らしいか否かを数値的に表す情報である曖昧性フラグと、当該店舗名が店舗である場合にその近傍に出現することが予想される店舗キーワードを店舗名毎に登録した店舗らしさデータベースを用い、
    店舗名判定部は、
    店舗名候補をキーとして店舗らしさデータベースを検索し、曖昧性フラグ及び店舗キーワードを取得する店舗らしさデータベース照合部と、
    曖昧性フラグから店舗名候補が店舗名か否かを判断し、また、曖昧性フラグから判断できない場合は更に店舗キーワードを用いた所定の判断規則と処理済み入力文章とがマッチするか否かより店舗名か否かを判断する店舗名判断部とを備える
    ことを特徴とする店舗名曖昧性解消装置。
  3. 請求項1に記載の店舗名曖昧性解消装置において、
    曖昧性解消部は、
    判定済み店舗名をキーとして店舗データベースを検索し、対応するレコードの候補の集合を取得する候補生成部と、
    各判定済み店舗名のうち、同じ店舗を指す判定済み店舗名をまとめて一つのまとまりである店舗チェインを作成する文章内同一性判定部と、
    各店舗チェインがチェーン店かそうでないかを判定し、チェーン店と判定された店舗チェインに対し、処理済み入力文章の当該店舗チェインを構成する判定済み店舗名が出現している周辺の文脈から、所定の制約語抽出規則に基づいて制約語を抽出し、当該抽出した制約語を店舗属性値に全て含むレコードの候補が一つであればその候補が対応するレコードであると決定するチェーン店個別店舗判定部と、
    チェーン店でないと判定された店舗チェインに対し、処理済み入力文章の当該店舗チェインを構成する判定済み店舗名が出現している周辺の名詞、未知語、固有表現を特徴語として抽出するとともに、当該店舗チェイン中の各判定済み店舗名に対応するレコードの候補のレコードIDで特徴語データベースを検索して特徴語及びその重みを得て、それらの類似度を求め、所定の閾値以上であれば、そのレコードの候補が対応するレコードであると決定する文脈に基づく店舗推定部と、
    対応するレコードが決定された場合は少なくともそのレコードIDを当該店舗名とともに出力する結果出力部とを備える
    ことを特徴とする店舗名曖昧性解消装置。
  4. 形態素解析及び固有表現抽出処理された入力文章中から店舗名を抽出し、当該抽出された店舗名を、店舗名及び店舗属性値を含む店舗情報をレコード毎にそのレコードIDとともに登録した店舗データベース中のレコードへ対応付ける方法であって、
    店舗名候補抽出部が、形態素解析及び固有表現抽出処理済み入力文章から、店舗名の集合を登録した店舗名リスト中の店舗名と表記が一致する単語を全て抽出し、店舗名候補として出力する店舗名候補抽出ステップと、
    店舗名判定部が、店舗名候補に対し、入力文章中の店舗名が店舗名らしいか否かを判断するための情報を店舗名毎に登録した店舗らしさデータベースを用いて店舗名か否かを判定し、店舗名と判定された店舗名候補のみを判定済み店舗名として出力する店舗名判定ステップと、
    曖昧性解消部が、判定済み店舗名に対し、前記店舗データベース及び店舗データベース中の各レコードに対する特徴語の集合をそれぞれの重要度を表す重み値とともに各レコードIDに対応付けて登録した特徴語データベースを用いて、店舗データベース中のどのレコードに対応するかを、前記処理済み入力文章中の当該判定済み店舗名の近傍に出現する前記店舗属性値に対応する制約語もしくは特徴語から判断し、店舗データベースの対応するレコードの少なくともレコードIDを当該店舗名とともに出力する曖昧性解消ステップとを含む
    ことを特徴とする店舗名曖昧性解消方法。
  5. 請求項4に記載の店舗名曖昧性解消方法において、
    入力文章中の店舗名が店舗名らしいか否かを判断するための情報として、店舗名らしいか否かを数値的に表す情報である曖昧性フラグと、当該店舗名が店舗である場合にその近傍に出現することが予想される店舗キーワードを店舗名毎に登録した店舗らしさデータベースを用い、
    店舗名判定ステップは、
    店舗らしさデータベース照合部が、店舗名候補をキーとして店舗らしさデータベースを検索し、曖昧性フラグ及び店舗キーワードを取得するステップと、
    店舗名判断部が、曖昧性フラグから店舗名候補が店舗名か否かを判断し、また、曖昧性フラグから判断できない場合は更に店舗キーワードを用いた所定の判断規則と処理済み入力文章とがマッチするか否かより店舗名か否かを判断するステップとを含む
    ことを特徴とする店舗名曖昧性解消方法。
  6. 請求項4に記載の店舗名曖昧性解消方法において、
    曖昧性解消ステップは、
    候補生成部が、判定済み店舗名をキーとして店舗データベースを検索し、対応するレコードの候補の集合を取得するステップと、
    文章内同一性判定部が、各判定済み店舗名のうち、同じ店舗を指す判定済み店舗名をまとめて一つのまとまりである店舗チェインを作成するステップと、
    チェーン店個別店舗判定部が、各店舗チェインがチェーン店かそうでないかを判定し、チェーン店と判定された店舗チェインに対し、処理済み入力文章の当該店舗チェインを構成する判定済み店舗名が出現している周辺の文脈から、所定の制約語抽出規則に基づいて制約語を抽出し、当該抽出した制約語を店舗属性値に全て含むレコードの候補が一つであればその候補が対応するレコードであると決定するステップと、
    文脈に基づく店舗推定部が、チェーン店でないと判定された店舗チェインに対し、処理済み入力文章の当該店舗チェインを構成する判定済み店舗名が出現している周辺の名詞、未知語、固有表現を特徴語として抽出するとともに、当該店舗チェイン中の各判定済み店舗名に対応するレコードの候補のレコードIDで特徴語データベースを検索して特徴語及びその重みを得て、それらの類似度を求め、所定の閾値以上であれば、そのレコードの候補が対応するレコードであると決定するステップと、
    結果出力部が、対応するレコードが決定された場合は少なくともそのレコードIDを当該店舗名とともに出力するステップとを含む
    ことを特徴とする店舗名曖昧性解消方法。
  7. コンピュータを、請求項1乃至3のいずれかに記載の装置の各手段として機能させるためのプログラム。
  8. 請求項7に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2010057039A 2010-03-15 2010-03-15 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体 Active JP5182960B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010057039A JP5182960B2 (ja) 2010-03-15 2010-03-15 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010057039A JP5182960B2 (ja) 2010-03-15 2010-03-15 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2011191982A JP2011191982A (ja) 2011-09-29
JP5182960B2 true JP5182960B2 (ja) 2013-04-17

Family

ID=44796826

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010057039A Active JP5182960B2 (ja) 2010-03-15 2010-03-15 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP5182960B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026937B (zh) * 2019-11-13 2021-02-19 百度在线网络技术(北京)有限公司 提取poi名称的方法、装置、设备和计算机存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7333966B2 (en) * 2001-12-21 2008-02-19 Thomson Global Resources Systems, methods, and software for hyperlinking names
JP2003216605A (ja) * 2002-01-25 2003-07-31 Nippon Telegr & Teleph Corp <Ntt> 人名表現同定方法及びその装置と、人名表現同定プログラム及びそのプログラムを記録した記録媒体
JP4693065B2 (ja) * 2008-01-29 2011-06-01 日本電信電話株式会社 人名表現同定装置、その方法、プログラム及び記録媒体

Also Published As

Publication number Publication date
JP2011191982A (ja) 2011-09-29

Similar Documents

Publication Publication Date Title
US8055498B2 (en) Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in the dictionary
US8892420B2 (en) Text segmentation with multiple granularity levels
JP5257071B2 (ja) 類似度計算装置及び情報検索装置
CN102053991B (zh) 用于多语言文档检索的方法及系统
JP2007257644A (ja) 訳語候補文字列予測に基づく訳語取得のためのプログラム、方法および装置
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
TWI656450B (zh) 從中文語料庫提取知識的方法和系統
JP2020087353A (ja) 要約文生成方法、要約文生成プログラム及び要約文生成装置
CN106980664B (zh) 一种双语可比较语料挖掘方法及装置
JP6599219B2 (ja) 読み付与装置、読み付与方法、およびプログラム
CN112784009A (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
JP5355483B2 (ja) 略語完全語復元装置とその方法と、プログラム
JP2009205357A (ja) 中国語の品詞を判定する装置、方法およびプログラム
KR101663038B1 (ko) 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법
JP5182960B2 (ja) 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体
JP6059598B2 (ja) 情報抽出方法、情報抽出装置及び情報抽出プログラム
KR20130074176A (ko) 말뭉치 기반의 한국어 형태소 분석장치 및 그 분석방법
Ezhilarasi et al. Designing the neural model for POS tag classification and prediction of words from ancient stone inscription script
JP4693065B2 (ja) 人名表現同定装置、その方法、プログラム及び記録媒体
CN113836399A (zh) 主题推荐方法、装置、计算设备及存储介质
CN114298048A (zh) 命名实体识别方法及装置
CN115757760A (zh) 文本摘要提取方法及系统、计算设备、存储介质
JP7135730B2 (ja) 要約生成方法及び要約生成プログラム
JP5137140B2 (ja) 出現表記レコード同定装置、削除規則生成装置、その方法、プログラム及び記録媒体
JP6805927B2 (ja) インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20110613

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110614

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110615

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110616

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120607

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120619

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120719

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130111

R150 Certificate of patent or registration of utility model

Ref document number: 5182960

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160125

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350