JP5182960B2 - 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体 - Google Patents
店舗名曖昧性解消装置、その方法、プログラム及び記録媒体 Download PDFInfo
- Publication number
- JP5182960B2 JP5182960B2 JP2010057039A JP2010057039A JP5182960B2 JP 5182960 B2 JP5182960 B2 JP 5182960B2 JP 2010057039 A JP2010057039 A JP 2010057039A JP 2010057039 A JP2010057039 A JP 2010057039A JP 5182960 B2 JP5182960 B2 JP 5182960B2
- Authority
- JP
- Japan
- Prior art keywords
- store
- store name
- name
- determined
- record
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
抽出された店舗名の候補が店舗名らしいか否かを、周辺の文脈を用いて判定する「店舗名判定部」を導入する。また、店舗名らしいと判例された店舗名について、周辺の文脈を用いて店舗データベース中の対応するレコードを特定する「曖昧性解消部」を導入する。
本装置は、形態素解析及び固有表現抽出処理済みの入力文章が入力されたときに、店舗名リストを使用して店舗名候補を抽出する店舗名候補抽出部と、抽出した店舗名候補が店舗名か否かを判定する店舗名判定部と、周辺の文脈などを使用して店舗名の曖昧性解消を行う曖昧性解消部とを備えた、店舗名と店舗データベースのレコードとの対応付けを行う装置である。
図1は本発明の店舗名曖昧性解消装置の実施の形態の一例を示すもので、図中、1は店舗データベース(DB)、2は店舗名リスト、3は店舗らしさデータベース(DB)、4は特徴語データベース(DB)、5は処理済み入力文章記憶部、6は店舗名候補抽出部、7は抽出済み店舗名候補記憶部、8は店舗名判定部、9は判定済み店舗名記憶部、10は曖昧性解消部である。
図3は図1の装置全体における処理の流れの概要を示すものである。
図4は店舗名リスト2の作成方法の一例を示すもので、店舗DB1に登録されている各店舗名をそのまま登録するとともに、店舗名からコア表記を生成するための「モデル」及び当該「モデル」を元に店舗名からコア表記を生成する「コア表記生成手段」を用いて、店舗DB1に登録されている各店舗名からコア表記をそれぞれ生成して登録することで作成する。なお、表記同一の店舗名については1つのみ残し、それ以外は削除するものとする。
図5は店舗らしさDB3の作成方法の一例を示すもので、店舗DB1を入力とし、形態素解析等で使用する名詞辞書や地名辞書、一般の辞典などからなる「一般語辞書」、チェーン店名の集合を登録してなる「チェーン店名リスト」及び当該「一般語辞書」「チェーン店名リスト」を元に店舗DB1中の店舗名及び前述したコア表記毎に曖昧性フラグと店舗キーワードとを生成する「データベース生成手段」を用いて作成する。ここで、この時の店舗DB1の各レコードには、前述した「コア表記生成手段」によって得られたコア表記及び元の店舗名からコア表記を削除した削除表記が登録されているものとする。
特徴語DB4は、
(a)店舗DB1にある情報(住所、電話番号など)、
(b)店舗について書かれた文書集合から獲得した特徴語、
の二種類の情報を含む。
図6は店舗名候補抽出部の詳細を示すもので、処理済み入力文章を入力とし、その表記が店舗名リスト2中の店舗名と完全一致し、その前後が形態素境界となる文字列を店舗名候補として全て抽出する。
図8は店舗名判定部8の詳細を示すもので、処理済み入力文章と、店舗名候補リストとを入力とし、店舗らしさDB3を用いて当該店舗名候補が店舗名か否かを判定する。
1.[店舗名候補]というお店(例えば文字列「橙屋というお店」「北極星というお店」)
2.[店舗名候補]という[店舗キーワード](例えば文字列「橙屋という中華」「北極星という洋食」)
3.[店舗キーワード][店舗名候補](例えば文字列「中華橙屋」「洋食北極星」)
などが挙げられる。
図10は曖昧性解消部10の詳細を示すもので、処理済み入力文章と、判定済み店舗名リストとを入力とし、店舗名DB1及び特徴語DB4を用いて、前記店舗名とこれに対応する店舗名DB1のレコードIDとを出力する(但し、解なしと判定された場合は店舗名のみ出力する。)。
1.〈名詞,未知語の連続,場所名〉の[店舗名]
2.〈名詞,未知語の連続,場所名〉にある[店舗名]
などが挙げられ、〈〉に該当する部分を制約語として抽出する。なお、ここでいう[店舗名]は、処理対象としている店舗チェインの店舗名である。「場所名(地名)」かどうかは固有表現抽出処理の結果で判断できる。店舗名が出現した文の前方に場所名が存在しない場合、一つ前の文に場所名があればそれも制約語として抽出する。
Claims (8)
- 形態素解析及び固有表現抽出処理された入力文章中から店舗名を抽出し、当該抽出された店舗名を、店舗名及び店舗属性値を含む店舗情報をレコード毎にそのレコードIDとともに登録した店舗データベース中のレコードへ対応付ける装置であって、
店舗名の集合を登録した店舗名リストと、
入力文章中の店舗名が店舗名らしいか否かを判断するための情報を店舗名毎に登録した店舗らしさデータベースと、
前記店舗データベース中の各レコードに対する特徴語の集合をそれぞれの重要度を表す重み値とともに各レコードIDに対応付けて登録した特徴語データベースと、
形態素解析及び固有表現抽出処理済み入力文章から前記店舗名リスト中の店舗名と表記が一致する単語を全て抽出し、店舗名候補として出力する店舗名候補抽出部と、
店舗名候補に対し、前記店舗らしさデータベースを用いて店舗名か否かを判定し、店舗名と判定された店舗名候補のみを判定済み店舗名として出力する店舗名判定部と、
判定済み店舗名に対し、前記店舗データベース及び特徴語データベースを用いて店舗データベース中のどのレコードに対応するかを、前記処理済み入力文章中の当該判定済み店舗名の近傍に出現する前記店舗属性値に対応する制約語もしくは特徴語から判断し、店舗データベースの対応するレコードの少なくともレコードIDを当該店舗名とともに出力する曖昧性解消部とを備えた
ことを特徴とする店舗名曖昧性解消装置。 - 請求項1に記載の店舗名曖昧性解消装置において、
入力文章中の店舗名が店舗名らしいか否かを判断するための情報として、店舗名らしいか否かを数値的に表す情報である曖昧性フラグと、当該店舗名が店舗である場合にその近傍に出現することが予想される店舗キーワードを店舗名毎に登録した店舗らしさデータベースを用い、
店舗名判定部は、
店舗名候補をキーとして店舗らしさデータベースを検索し、曖昧性フラグ及び店舗キーワードを取得する店舗らしさデータベース照合部と、
曖昧性フラグから店舗名候補が店舗名か否かを判断し、また、曖昧性フラグから判断できない場合は更に店舗キーワードを用いた所定の判断規則と処理済み入力文章とがマッチするか否かより店舗名か否かを判断する店舗名判断部とを備える
ことを特徴とする店舗名曖昧性解消装置。 - 請求項1に記載の店舗名曖昧性解消装置において、
曖昧性解消部は、
判定済み店舗名をキーとして店舗データベースを検索し、対応するレコードの候補の集合を取得する候補生成部と、
各判定済み店舗名のうち、同じ店舗を指す判定済み店舗名をまとめて一つのまとまりである店舗チェインを作成する文章内同一性判定部と、
各店舗チェインがチェーン店かそうでないかを判定し、チェーン店と判定された店舗チェインに対し、処理済み入力文章の当該店舗チェインを構成する判定済み店舗名が出現している周辺の文脈から、所定の制約語抽出規則に基づいて制約語を抽出し、当該抽出した制約語を店舗属性値に全て含むレコードの候補が一つであればその候補が対応するレコードであると決定するチェーン店個別店舗判定部と、
チェーン店でないと判定された店舗チェインに対し、処理済み入力文章の当該店舗チェインを構成する判定済み店舗名が出現している周辺の名詞、未知語、固有表現を特徴語として抽出するとともに、当該店舗チェイン中の各判定済み店舗名に対応するレコードの候補のレコードIDで特徴語データベースを検索して特徴語及びその重みを得て、それらの類似度を求め、所定の閾値以上であれば、そのレコードの候補が対応するレコードであると決定する文脈に基づく店舗推定部と、
対応するレコードが決定された場合は少なくともそのレコードIDを当該店舗名とともに出力する結果出力部とを備える
ことを特徴とする店舗名曖昧性解消装置。 - 形態素解析及び固有表現抽出処理された入力文章中から店舗名を抽出し、当該抽出された店舗名を、店舗名及び店舗属性値を含む店舗情報をレコード毎にそのレコードIDとともに登録した店舗データベース中のレコードへ対応付ける方法であって、
店舗名候補抽出部が、形態素解析及び固有表現抽出処理済み入力文章から、店舗名の集合を登録した店舗名リスト中の店舗名と表記が一致する単語を全て抽出し、店舗名候補として出力する店舗名候補抽出ステップと、
店舗名判定部が、店舗名候補に対し、入力文章中の店舗名が店舗名らしいか否かを判断するための情報を店舗名毎に登録した店舗らしさデータベースを用いて店舗名か否かを判定し、店舗名と判定された店舗名候補のみを判定済み店舗名として出力する店舗名判定ステップと、
曖昧性解消部が、判定済み店舗名に対し、前記店舗データベース及び店舗データベース中の各レコードに対する特徴語の集合をそれぞれの重要度を表す重み値とともに各レコードIDに対応付けて登録した特徴語データベースを用いて、店舗データベース中のどのレコードに対応するかを、前記処理済み入力文章中の当該判定済み店舗名の近傍に出現する前記店舗属性値に対応する制約語もしくは特徴語から判断し、店舗データベースの対応するレコードの少なくともレコードIDを当該店舗名とともに出力する曖昧性解消ステップとを含む
ことを特徴とする店舗名曖昧性解消方法。 - 請求項4に記載の店舗名曖昧性解消方法において、
入力文章中の店舗名が店舗名らしいか否かを判断するための情報として、店舗名らしいか否かを数値的に表す情報である曖昧性フラグと、当該店舗名が店舗である場合にその近傍に出現することが予想される店舗キーワードを店舗名毎に登録した店舗らしさデータベースを用い、
店舗名判定ステップは、
店舗らしさデータベース照合部が、店舗名候補をキーとして店舗らしさデータベースを検索し、曖昧性フラグ及び店舗キーワードを取得するステップと、
店舗名判断部が、曖昧性フラグから店舗名候補が店舗名か否かを判断し、また、曖昧性フラグから判断できない場合は更に店舗キーワードを用いた所定の判断規則と処理済み入力文章とがマッチするか否かより店舗名か否かを判断するステップとを含む
ことを特徴とする店舗名曖昧性解消方法。 - 請求項4に記載の店舗名曖昧性解消方法において、
曖昧性解消ステップは、
候補生成部が、判定済み店舗名をキーとして店舗データベースを検索し、対応するレコードの候補の集合を取得するステップと、
文章内同一性判定部が、各判定済み店舗名のうち、同じ店舗を指す判定済み店舗名をまとめて一つのまとまりである店舗チェインを作成するステップと、
チェーン店個別店舗判定部が、各店舗チェインがチェーン店かそうでないかを判定し、チェーン店と判定された店舗チェインに対し、処理済み入力文章の当該店舗チェインを構成する判定済み店舗名が出現している周辺の文脈から、所定の制約語抽出規則に基づいて制約語を抽出し、当該抽出した制約語を店舗属性値に全て含むレコードの候補が一つであればその候補が対応するレコードであると決定するステップと、
文脈に基づく店舗推定部が、チェーン店でないと判定された店舗チェインに対し、処理済み入力文章の当該店舗チェインを構成する判定済み店舗名が出現している周辺の名詞、未知語、固有表現を特徴語として抽出するとともに、当該店舗チェイン中の各判定済み店舗名に対応するレコードの候補のレコードIDで特徴語データベースを検索して特徴語及びその重みを得て、それらの類似度を求め、所定の閾値以上であれば、そのレコードの候補が対応するレコードであると決定するステップと、
結果出力部が、対応するレコードが決定された場合は少なくともそのレコードIDを当該店舗名とともに出力するステップとを含む
ことを特徴とする店舗名曖昧性解消方法。 - コンピュータを、請求項1乃至3のいずれかに記載の装置の各手段として機能させるためのプログラム。
- 請求項7に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010057039A JP5182960B2 (ja) | 2010-03-15 | 2010-03-15 | 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010057039A JP5182960B2 (ja) | 2010-03-15 | 2010-03-15 | 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011191982A JP2011191982A (ja) | 2011-09-29 |
JP5182960B2 true JP5182960B2 (ja) | 2013-04-17 |
Family
ID=44796826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010057039A Active JP5182960B2 (ja) | 2010-03-15 | 2010-03-15 | 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5182960B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111026937B (zh) * | 2019-11-13 | 2021-02-19 | 百度在线网络技术(北京)有限公司 | 提取poi名称的方法、装置、设备和计算机存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7333966B2 (en) * | 2001-12-21 | 2008-02-19 | Thomson Global Resources | Systems, methods, and software for hyperlinking names |
JP2003216605A (ja) * | 2002-01-25 | 2003-07-31 | Nippon Telegr & Teleph Corp <Ntt> | 人名表現同定方法及びその装置と、人名表現同定プログラム及びそのプログラムを記録した記録媒体 |
JP4693065B2 (ja) * | 2008-01-29 | 2011-06-01 | 日本電信電話株式会社 | 人名表現同定装置、その方法、プログラム及び記録媒体 |
-
2010
- 2010-03-15 JP JP2010057039A patent/JP5182960B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011191982A (ja) | 2011-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8055498B2 (en) | Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in the dictionary | |
US8892420B2 (en) | Text segmentation with multiple granularity levels | |
JP5257071B2 (ja) | 類似度計算装置及び情報検索装置 | |
CN102053991B (zh) | 用于多语言文档检索的方法及系统 | |
JP2007257644A (ja) | 訳語候補文字列予測に基づく訳語取得のためのプログラム、方法および装置 | |
WO2005059771A1 (ja) | 対訳判断装置、方法及びプログラム | |
TWI656450B (zh) | 從中文語料庫提取知識的方法和系統 | |
JP2020087353A (ja) | 要約文生成方法、要約文生成プログラム及び要約文生成装置 | |
CN106980664B (zh) | 一种双语可比较语料挖掘方法及装置 | |
JP6599219B2 (ja) | 読み付与装置、読み付与方法、およびプログラム | |
CN112784009A (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
JP5355483B2 (ja) | 略語完全語復元装置とその方法と、プログラム | |
JP2009205357A (ja) | 中国語の品詞を判定する装置、方法およびプログラム | |
KR101663038B1 (ko) | 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법 | |
JP5182960B2 (ja) | 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体 | |
JP6059598B2 (ja) | 情報抽出方法、情報抽出装置及び情報抽出プログラム | |
KR20130074176A (ko) | 말뭉치 기반의 한국어 형태소 분석장치 및 그 분석방법 | |
Ezhilarasi et al. | Designing the neural model for POS tag classification and prediction of words from ancient stone inscription script | |
JP4693065B2 (ja) | 人名表現同定装置、その方法、プログラム及び記録媒体 | |
CN113836399A (zh) | 主题推荐方法、装置、计算设备及存储介质 | |
CN114298048A (zh) | 命名实体识别方法及装置 | |
CN115757760A (zh) | 文本摘要提取方法及系统、计算设备、存储介质 | |
JP7135730B2 (ja) | 要約生成方法及び要約生成プログラム | |
JP5137140B2 (ja) | 出現表記レコード同定装置、削除規則生成装置、その方法、プログラム及び記録媒体 | |
JP6805927B2 (ja) | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20110613 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110614 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110615 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110616 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120607 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120619 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120719 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130109 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130111 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5182960 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160125 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |