JP6662689B2 - 単語判定装置 - Google Patents

単語判定装置 Download PDF

Info

Publication number
JP6662689B2
JP6662689B2 JP2016078722A JP2016078722A JP6662689B2 JP 6662689 B2 JP6662689 B2 JP 6662689B2 JP 2016078722 A JP2016078722 A JP 2016078722A JP 2016078722 A JP2016078722 A JP 2016078722A JP 6662689 B2 JP6662689 B2 JP 6662689B2
Authority
JP
Japan
Prior art keywords
word
determined
characteristic
text
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016078722A
Other languages
English (en)
Other versions
JP2017191357A (ja
Inventor
桂一 落合
桂一 落合
佑介 深澤
佑介 深澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2016078722A priority Critical patent/JP6662689B2/ja
Publication of JP2017191357A publication Critical patent/JP2017191357A/ja
Application granted granted Critical
Publication of JP6662689B2 publication Critical patent/JP6662689B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、単語判定装置に関する。
従来、twitter(登録商標)等のSNS(Social Networking Service)等に投稿される投稿テキストに含まれる地名表記と予め地名表記が記憶された地名辞書とのマッチングを行うことで、投稿テキスト内に記載されている場所を特定する技術が知られている。ところで、地名表記は、曖昧性を有する場合がある。例えば、同じ地名表記が複数の異なる場所の名称として使用される場合(同一名称の場所が複数存在する場合)がある。このような地名表記の例としては、京都市及び大阪市のそれぞれに存在する「清水寺」等が挙げられる。また、地名表記が、地名以外の意味で使用される場合もある。このような地名表記の例としては、地名だけでなく人名としても使用される「大山」、「松島」等が挙げられる。
このような曖昧性を有する地名表記を含むテキストの曖昧性を解消する手法として、場所に関連付けられる特徴語を用いる手法が知られている(下記特許文献1参照)。この手法では、同一テキスト内に場所を示す地名表記と当該場所に関連付けられる特徴語とが両方含まれる場合に地名表記が当該場所を意味すると判定することにより、テキストの曖昧性を解消することができる。
特開2002−132791号公報
ところで、上記の特徴語を用いた手法によって曖昧性を解消可能なテキスト数を増やすためには、曖昧性を有する地名表記が示す場所に関連付けられる特徴語の数をなるべく多くすることが効果的である。特徴語を追加する方法としては、地名表記がテキスト中で特定の場所を意味するものとして用いられている複数のテキストを収集し、収集された複数のテキストにおいて出現頻度が高い単語(いわゆる共起語等)を当該特定の場所に関連付けられる特徴語として追加する方法がある。
しかしながら、この方法によって追加される特徴語は、実際に収集された複数のテキストにおいて地名表記と共に出現した単語に限定される。このため、特徴語の登録数を十分に確保できない場合がある。一方で、特定の場所との関連性があまり高くない単語を当該特定の場所に関連付けられる特徴語として追加してしまうと、上記の特徴語を用いた手法の判定精度が低下する虞がある。すなわち、地名表記が特定の場所を意味するものとして用いられていないテキストについて、地名表記が特定の場所を意味すると誤って判定してしまう虞がある。
そこで、本発明は、特定の場所に関連付けられる単語を、精度を担保しつつ増加させることができる単語判定装置を提供することを目的とする。
本発明の一形態に係る単語判定装置は、予め定められた特定の場所に関連付けられる単語である特徴語を取得する特徴語取得手段と、判定対象の単語を取得する単語取得手段と、判定対象の単語が含まれるテキスト及び特徴語が含まれるテキストを少なくとも含む複数のテキストを学習データとして用いた学習を実行し、学習の結果に基づいて判定対象の単語と特徴語との類似度を算出する類似度算出手段と、特定の場所に対応するエリアから投稿され、且つ、判定対象の単語が含まれる投稿テキストの数を示す投稿数を取得する投稿数取得手段と、類似度算出手段により算出された類似度と投稿数取得手段により取得された投稿数とに基づいて、判定対象の単語を特定の場所に関連付けるか否かを判定する判定手段と、を備える。
特定の場所に関連付けられる特徴語と類似する単語(例えば特徴語の類義語等)は、特徴語と同様に特定の場所に関連する単語である可能性が高いと考えられる。このため、上記単語判定装置によれば、判定対象の単語と特徴語との類似度に基づいて、判定対象の単語が特定の場所に関連する可能性を判断することができる。また、特定の場所に対応するエリア(例えば特定の場所の近傍のエリア)でよく使用される単語は、当該特定の場所の特徴を表している可能性が高いと考えられる。このため、上記単語判定装置によれば、特定の場所に対応するエリアから投稿された判定対象の単語が含まれる投稿テキストの数(投稿数)に基づいて、判定対象の単語が特定の場所の特徴を表している可能性を判断することができる。従って、上記単語判定装置では、類似度及び投稿数の両方に基づいて判定対象の単語を特定の場所に関連付けるか否かを決定することにより、特定の場所に関連付けられる単語を、精度を担保しつつ増加させることができる。
類似度算出手段は、判定対象の単語及び特徴語の各々をベクトルに変換し、変換されたベクトル同士のコサイン類似度を上記類似度として算出してもよい。
この構成によれば、判定対象の単語及び特徴語の各々をベクトルに変換することで、ベクトルを扱う公知の計算手法によって判定対象の単語と特徴語との類似度を簡易且つ確実に算出することができる。
判定手段は、類似度と予め定められた第1閾値とを比較し、投稿数と予め定められた第2閾値とを比較し、これらの比較結果に基づいて判定対象の単語を特定の場所に関連付けるか否かを判定してもよい。
この構成によれば、類似度及び投稿数と閾値(第1閾値及び第2閾値)との比較演算に基づいて、判定対象の単語を特定の場所に関連付けるか否かを簡易に判定することができる。また、この場合、判定対象の単語が特定の場所に関連付けられるための要件を、類似度及び投稿数のそれぞれについて個別に設定することができる。
判定手段は、類似度及び投稿数から1つの評価値を生成し、評価値と予め定められた第3閾値とを比較し、その比較結果に基づいて判定対象の単語を特定の場所に関連付けるか否かを判定してもよい。
この構成によれば、類似度及び投稿数から生成された1つの評価値と閾値(第3閾値)との比較演算に基づいて、判定対象の単語を特定の場所に関連付けるか否かを簡易に判定することができる。また、この場合、評価値を生成する際に、類似度及び投稿数のいずれを重視して判定するかを決定する重み付け等を行うことができる。
上記単語判定装置は、特定の場所を意味する可能性がある地名表記が含まれるテキストを取得し、テキストに特徴語又は判定手段により特定の場所に関連付けると決定された単語である拡張特徴語が含まれているか否かを判定し、テキストに特徴語又は拡張特徴語が含まれていると判定された場合に、地名表記がテキスト中で特定の場所を意味すると判定するテキスト判定手段を更に備えてもよい。
この構成では、予め用意されている特徴語が地名表記と共に含まれるテキストだけでなく、判定手段によって追加された拡張特徴語が地名表記と共に含まれるテキストについても、地名表記がテキスト中で特定の場所を意味すると判定することが可能となる。これにより、曖昧性を解消可能なテキスト数を増加させることができる。
本発明によれば、特定の場所に関連付けられる単語を、精度を担保しつつ増加させることができる単語判定装置を提供することができる。
一実施形態に係る単語判定装置の機能構成を示すブロック図である。 単語判定装置のハードウェア構成を示すブロック図である。 特徴語記憶部に記憶される特徴語辞書データの一例を示す図である。 単語判定装置における単語の判定に関する動作手順の一例を示すフローチャートである。 単語判定装置におけるテキスト判定部の動作手順の一例を示すフローチャートである。
以下、添付図面を参照して、本発明の一実施形態について詳細に説明する。なお、図面の説明において同一又は相当要素には同一符号を付し、重複する説明を省略する。また、本明細書において、カギ括弧(「」)で囲まれた内容は、テキスト表記(文字列)を表し、二重引用符(“”)で囲まれた内容は、概念としての場所を表している。
図1は、本発明の一実施形態に係る単語判定装置1の機能構成を示すブロック図である。単語判定装置1は、特定の場所に関連付けられる特徴語を拡張する処理(すなわち、後述する拡張特徴語を追加する処理)を実行する機能を備える装置である。また、単語判定装置1は、特徴語及び拡張特徴語を用いて、曖昧性を有する地名表記を含むテキストの曖昧性を解消するための処理を実行する機能も備えている。
特定の場所とは、地理的に特定される場所である。特定の場所の例としては、観光地、繁華街、施設(例えば駅、学校、寺社等)、山岳、湖沼、店舗等が挙げられる。ただし、特定の場所は、これらの例に限定されるものではなく、その場所を示す地名表記が存在し、且つ、特定の位置(例えば緯度及び経度)に関連付けられるものであればよい。
特徴語とは、特定の場所に関連付けられる単語である。ここで、特定の場所に関連付けられる単語とは、例えば、特定の場所に関する何らかの情報を示す単語や、特定の場所を意味する地名表記と共によく用いられるといった性質を有する単語等である。特徴語は、曖昧性(多義性)を有する地名表記がテキスト中で地名(場所)を意味するか否かを判定するための手がかりとして用いられる。具体的には、同一テキスト内に地名表記と特定の場所に関連付けられる特徴語とが両方含まれる場合に、当該地名表記がテキスト中で当該特定の場所を意味すると判定される。
地名表記とは、場所の名称を文字列で表現したものである。地名表記の中には、曖昧性を有する地名表記が存在する。曖昧性を有する地名表記の例としては、複数の異なる場所の名称として使用される地名表記がある。このような地名表記の具体例としては、京都市及び大阪市のそれぞれに存在する「清水寺」等が挙げられる。また、曖昧性を有する地名表記の他の例としては、地名以外の意味を有する地名表記(多義語)がある。このような地名表記の具体例としては、地名だけでなく人名としても使用される「大山」、「松島」等が挙げられる。
上述した特徴語は、例えば以下の手順によって用意される。まず、地名表記(ここでは「松島」)がテキスト中で特定の場所(ここでは“松島”)を意味するものとして用いられている複数のテキストが収集される。その後、収集された複数のテキストにおいて出現頻度が予め定められた閾値以上の単語が、“松島”に関連付けられる特徴語として抽出される。このような手順により、例えば日本の宮城県の観光地である“松島”に関連付けられる特徴語として、「花見」、「日本三景」及び「牡蠣」等の上記場所に関連する特徴を示す単語が抽出される。
ここで、曖昧性を有する地名表記「松島」を含む3つのテキストa〜cを具体例に挙げて、特徴語を用いた判定手法について説明する。ここでは、上述した「花見」、「日本三景」及び「牡蠣」が“松島”に関連付けられる特徴語として予め用意されているものとする。
テキストa:「日本三景の一つである松島を観光した。」
テキストb:「松島で花見をした。」
テキストc:「松島の桜が満開だ。」
テキストaには、地名表記「松島」と共に“松島”に関連付けられる特徴語「日本三景」が含まれている。同様に、テキストbには、地名表記「松島」と共に“松島”に関連付けられる特徴語「花見」が含まれている。このため、上述した特徴語に基づく判定手法により、テキストa,bについては、地名表記「松島」が各テキスト中で特定の場所“松島”を意味すると判定される。これにより、テキストa,bに含まれる地名表記「松島」が“松島”を意味するか否かに関して、テキストa,bの曖昧性は解消される。
一方、テキストcには、“松島”に関連付けられる特徴語が1つも含まれていない。このため、上述した特徴語に基づく判定手法では、テキストcに含まれる地名表記「松島」が“松島”を意味すると判定することができない。その結果、テキストcに含まれる地名表記「松島」が“松島”を意味するか否かに関して、テキストcの曖昧性は解消されない。
上述した特徴語に基づく判定によって曖昧性を解消可能なテキスト数をなるべく多くするためには、なるべく多くの特徴語を予め用意しておくことが好ましい。単語判定装置1は、このような課題を踏まえて、例えば上述した手順によって用意される特徴語を基にして、新たな特徴語(以下「拡張特徴語」)を増加させる。以下、単語判定装置1の各機能について詳述する。
図1に示すように、単語判定装置1は、特徴語取得部11(特徴語取得手段)と、特徴語記憶部12と、単語取得部13(単語取得手段)と、類似度算出部14(類似度算出手段)と、投稿数取得部15(投稿数取得手段)と、判定部16(判定手段)と、テキスト判定部17(テキスト判定手段)と、を備えている。
また、図2に示すように、単語判定装置1は、物理的には、1又は複数のCPU101と、主記憶装置であるRAM102及びROM103と、入力デバイスであるキーボード及びマウス等の入力装置104と、ディスプレイ等の出力装置105と、ネットワークカード等のデータ送受信デバイスである通信モジュール106と、HDD、SSD、及び半導体メモリ等の補助記憶装置107と、を含むコンピュータとして構成されている。なお、単語判定装置1は、単一の装置として構成されてもよいし、2以上の装置によって機能を分散した構成とされてもよい。
図1に示す単語判定装置1の各機能は、図2に示すCPU101及びRAM102等のハードウェア上に1又は複数の所定のコンピュータソフトウェアを読み込ませることにより、CPU101の制御のもとで入力装置104、出力装置105、及び通信モジュール106を動作させると共に、RAM102及び補助記憶装置107等におけるデータの読み出し及び書き込みを行うことで実現される。
特徴語取得部11は、予め定められた特定の場所に関連付けられる単語である特徴語を取得する手段である。本実施形態では一例として、特定の場所は上述した“松島”であり、特徴語取得部11は、“松島”に関連付けられる特徴語を取得するものとする。なお、処理対象となる特定の場所は、例えばオペレータ等によって入力されてもよい。
特徴語取得部11は、例えば、特徴語記憶部12を参照することにより、特徴語を取得する。ここで、特徴語記憶部12は、特定の場所毎に特徴語及び拡張特徴語を関連付けて記憶する手段である。具体的には、特徴語取得部11は、特徴語記憶部12において“松島”に関連付けて記憶されている特徴語を取得する。
図3は、特徴語記憶部12に記憶されている情報(特徴語辞書データ)の一例を示す。図3の(a)は初期状態における特徴語辞書データを示しており、図3の(b)は後述する判定部16によって拡張特徴語として決定された「桜」が追加された後の特徴語辞書データを示している。図3の例では、特徴語辞書データは、場所、特徴語、及び拡張特徴語が互いに関連付けられた情報として構成されている。この例では、場所を特定するためのデータとして、場所の名称を示す「松島」と共に当該場所の緯度x1及び経度y1が記憶されている。なお、図3の例では特徴語と後述する判定部16によって決定される拡張特徴語とが同一の場所(特徴語記憶部12)に記憶されるが、特徴語及び拡張特徴語は別々の記憶手段(例えば異なるファイル及びデータベース等)に分離されて記憶されてもよい。また、特徴語と拡張特徴語とは、互いに区別されずに記憶されてもよい。
特徴語記憶部12に記憶されている特徴語は、例えば、予め上述した手順を実行することによって得られた特徴語である。すなわち、地名表記「松島」がテキスト中で特定の場所“松島”を意味するものとして用いられている複数のテキストが収集され、当該複数のテキストにおいて出現頻度が予め定められた閾値以上の単語が、“松島”に関連付けられる特徴語(ここでは一例として、「花見」、「日本三景」、及び「牡蠣」)として記憶されている。この例では、特徴語取得部11は、“松島”に関連付けられる3つの特徴語「花見」、「日本三景」、及び「牡蠣」を特徴語記憶部12から取得することになる。
単語取得部13は、判定対象の単語を取得する手段である。単語取得部13によって取得された単語について、後述する類似度算出部14、投稿数取得部15、及び判定部16の処理が実行されることにより、当該単語を“松島”に関連付けるか否か(すなわち、当該単語を“松島”の拡張特徴語とするか否か)が決定される。
本実施形態では一例として、単語取得部13は、予め定められた期間(例えば現時点から1週間以内の期間等)に上述したSNSにおいて不特定多数のユーザによって投稿された複数の投稿テキストに含まれる各単語(例えば形態素解析により得られる各単語)を、判定対象の単語として取得する。ただし、単語取得部13が判定対象の単語を取得する方法はこれに限定されず、例えば、単語取得部13は、有償又は無償で公開されている辞書データベース等に登録されている単語を判定対象の単語として取得してもよい。
類似度算出部14は、単語取得部13により取得された判定対象の単語と特徴語取得部11により取得された特徴語との類似度を算出する手段である。具体的には、類似度算出部14は、判定対象の単語が含まれるテキスト及び特徴語が含まれるテキストを少なくとも含む複数のテキストを学習データとして用いた学習を実行し、当該学習の結果に基づいて判定対象の単語と特徴語との類似度を算出する。類似度算出部14は、例えば、上述した単語取得部13によって取得された投稿テキストを学習データとして用いることができる。これにより、類似度算出部14は、判定対象の各単語を含むテキストが含まれる学習データを容易に取得できる。
類似度算出部14は、例えば、参考文献(Tomas Mikolov, Wen-tau Yih, and Geoffrey Zweig. LinguisticRegularities in Continuous Space Word Representations. In Proceedings of NAACLHLT, 2013.)に示されるWord2Vec等による学習を実行することで、単語取得部13により取得された判定対象の各単語及び特徴語をベクトルに変換する。なお、Word2Vecは、単語をベクトル化して表現する自然言語処理の手法の一つである。Word2Vecでは、単語の共起関係に基づいて、互いに意味が近い単語同士が似たベクトルになるような計算が実行される。具体的には、ある単語の前後に出現する単語が似ていればベクトルの数値が近くなるような計算が実行される。このようにして変換されるベクトルは、例えば200次元程度のベクトルであり、変換されたベクトル同士の類似度(後述するコサイン類似度)は、元の単語が持つ意味(似た文脈で用いられる程度等)同士が近い程大きくなるという性質を有する。
ここで、一の判定対象の単語をベクトル化することで得られたベクトルをqとし、特徴語をベクトル化することで得られたベクトルをdとすると、類似度算出部14は、下記式(1)により、当該ベクトル同士のコサイン類似度を算出することができる。下記式(1)において、|V|はベクトルd,qの次元数であり、d,qはそれぞれベクトルd,qのi番目の要素を示している。
Figure 0006662689
上記式(1)で算出されるコサイン類似度は、−1から1の範囲をとり、1に近い程互いに類似していることを示す。このように算出された類似度(コサイン類似度)が大きい(1に近い)程、判定対象の単語と特徴語とは、互いに意味的に類似する程度が大きく、互いに類義語である可能性が高いという関係が成り立つ。類似度算出部14は、上記式(1)の計算処理を判定対象の各単語と特徴語との組について実行することにより、判定対象の各単語と特徴語とのコサイン類似度を算出する。類似度算出部14により算出された各単語と特徴語とのコサイン類似度は、後述する判定部16に出力される。
投稿数取得部15は、予め定められた期間(以下「特定期間」)内に特定の場所(ここでは“松島”)に対応するエリア(以下「特定エリア」)から投稿され、且つ、判定対象の単語が含まれる投稿テキストの数を示す投稿数を判定対象の単語毎に取得する手段である。
ここで、特定期間は、オペレータ等によって定められる集計対象期間であり、例えば投稿数の集計処理を開始する時点から1週間以内の期間等である。特定エリアは、特定の場所に関連付けられる地理的な範囲である。特定エリアとして定義される範囲については、オペレータ等によって任意に定められてよい。例えば、特定の場所が公園や動物園等の施設の場合、当該施設の敷地が特定エリアとして定められてもよいし、当該敷地だけでなく当該敷地から予め定めた距離以内の近傍範囲も含むエリアが特定エリアとして定められてもよい。また、例えば特定の場所について予め定められた代表位置(例えば緯度及び経度)から予め定められた半径距離内のエリアが、特定エリアとして定められてもよい。投稿テキストは、例えば上述したSNS等において不特定多数のユーザによって投稿されたテキストである。
以下、投稿数取得部15が上述した投稿数を取得する処理の一例について説明する。投稿数取得部15は、例えばSNSが公開しているAPIを介して、当該SNSに投稿された投稿テキストを取得する。この際、投稿数取得部15は、ジオタグを含む投稿テキストを収集する。ここで、ジオタグは、投稿テキストに付加された位置情報であり、例えば当該投稿テキストが投稿された場所の緯度及び経度を示す情報である。なお、このようなSNSの投稿テキストには、通常、ユーザによって投稿された日時を示す投稿日時の情報も付加されている。そこで、投稿数取得部15は、ジオタグ及び投稿日時に関するフィルタ条件(検索条件)を設定し、上述したAPIを介して当該フィルタ条件に合致する投稿テキストを抽出する。具体的には、投稿数取得部15は、ジオタグが示す位置(緯度及び経度)が特定エリアに含まれると共に投稿日時が特定期間に含まれることを上記フィルタ条件として設定して検索することで、特定期間内に特定エリアから投稿された投稿テキストを収集する。続いて、投稿数取得部15は、このようにして収集された投稿テキストのうちから、判定対象の単語が含まれる投稿テキストを抽出し、抽出された投稿テキストの数を集計する。このようにして、投稿数取得部15は、上述した投稿数を取得することができる。
なお、投稿数取得部15が投稿数を取得する処理は、単語取得部13によって取得された単語の各々について実行される必要があるが、特定期間内に特定エリアから投稿された投稿テキストを収集する処理については、最初の1回だけ実行されればよい。また、例えば所定の文字列を入力して当該文字列が含まれる投稿テキストの数を出力する機能が上記APIの機能として実装されている場合等には、投稿数取得部15は、上記フィルタ条件として、判定対象の単語の文字列を更に指定することで、上述した投稿数をAPIから直接取得してもよい。
判定部16は、類似度算出部14により算出された類似度と投稿数取得部15により取得された投稿数とに基づいて、判定対象の単語を特定の場所に関連付けるか否かを判定する手段である。判定部16は、判定対象の単語を特定の場所に関連付けると判定した場合、当該単語を特定の場所に新たに関連付けられる拡張特徴語として追加する。具体的には、判定部16は、拡張特徴語を特徴語記憶部12に記憶させる。
以下、判定部16の判定処理の第1の例及び第2の例について説明する。ここでは一例として、判定部16は、判定対象の単語「桜」を特定の場所“松島”に関連付けるか否か、すなわち単語「桜」を“松島”に関連付けられる拡張特徴語として追加するか否かを決定するものとして説明する。なお、以下の説明において、A及びBは、単語「桜」についての類似度及び投稿数を示す。
(第1の例)
判定部16は、類似度Aと予め定められた閾値d1(第1閾値)とを比較するとともに投稿数Bと予め定められた閾値d2(第2閾値)とを比較し、これらの比較結果に基づいて判定対象の単語「桜」を特定の場所“松島”に関連付けるか否かを判定する。具体的には、判定部16は、類似度Aが閾値d1以上であり且つ投稿数Bが閾値d2以上であるか否かを判定する。ここで、閾値d1,d2は、例えばオペレータによって設定される。判定部16は、類似度Aが閾値d1以上であり且つ投稿数Bが閾値d2以上である場合(「A≧d1且つB≧d2」が成立する場合)、判定対象の単語「桜」を“松島”に関連付けると決定し、当該単語「桜」を“松島”の拡張特徴語として特徴語記憶部12に記憶させる。
第1の例では、類似度A及び投稿数Bと閾値d1,d2との比較演算に基づいて、判定対象の単語を特定の場所に関連付けるか否かを簡易に判定することができる。また、この場合、判定対象の単語が特定の場所に関連付けられるための要件(すなわち、閾値d1,d2)を、類似度A及び投稿数Bのそれぞれについて個別に設定することができる。例えば閾値d1,d2の両方を比較的大きい値に設定することで、類似度に基づく判定及び投稿数に基づく判定の両方の判定基準を厳しくすることができる。これにより、判定部16によって追加される拡張特徴語の精度を高くすることができる。
(第2の例)
判定部16は、類似度A及び投稿数Bから1つの評価値を生成し、当該評価値と予め定められた閾値d3(第3閾値)とを比較し、その比較結果に基づいて判定対象の単語「桜」を特定の場所“松島”に関連付けるか否かを判定する。一例として、判定部16は、下記式(2)の左辺を評価として生成し、当該評価値が閾値d3以上であるか否かを判定する。ここで、tは0から1までの間で任意に決定されるパラメータである。パラメータt及び閾値d3は、例えばオペレータによって設定される。判定部16は、評価値が閾値d3以上である場合、判定対象の単語「桜」を“松島”に関連付けると決定し、当該単語「桜」を“松島”の拡張特徴語として特徴語記憶部12に記憶させる。
A×t+B×(1−t)≧d3 …(2)
第2の例では、類似度A及び投稿数Bから生成された1つの評価値(例えば、上記式(2)の左辺の値)と閾値d3との比較演算に基づいて、判定対象の単語を特定の場所に関連付けるか否かを簡易に判定することができる。また、この場合、評価値を生成する際に、類似度A及び投稿数Bのいずれを重視して判定するかを、パラメータtによって調整することができる。例えば、パラメータtを0.5より大きくした場合には、投稿数Bよりも類似度Aが重視されることになる。その結果、投稿数Bが比較的少なくても、類似度Aが比較的大きければ、上記式(2)が成立し易くなる。このように、第2の例によれば、類似度及び投稿数を重視するバランスをオペレータの好み等によって任意に定めることができる。また、上記例において、パラメータtを1に近付けた場合、特徴語の類義語である単語が投稿数の大小にかかわらず拡張特徴語として追加され易くなる。これにより、投稿数に基づく判定基準が緩和され、拡張特徴語として追加される単語の個数を増加させることが期待できる。
以下、上述した判定部16の処理によって拡張特徴語が適切に追加される理由について説明する。特定の場所に関連付けられる特徴語と類似する単語(例えば特徴語の類義語等)は、特徴語と同様に特定の場所に関連する単語である可能性が高いと考えられる。例えば上記例でいえば、“松島”に関連付けられる特徴語「花見」と類似する(すなわち意味的な関連性のある)単語「桜」は、特徴語「花見」と同様に“松島”に関連する単語である可能性が高いと考えられる。このため、上述した判定部16の処理によれば、判定対象の単語「桜」と特徴語「花見」との類似度に基づいて、判定対象の単語が特定の場所に関連する可能性を判断することができる。具体的には、特徴語との類似度が大きい単語ほど、特定の場所に関連する可能性が高いと判断することができる。従って、第1の例又は第2の例のように、類似度Aが大きい単語ほど拡張特徴語として追加され易くすることにより、拡張特徴語の精度を担保することができる。
また、特定エリア(例えば、特定の場所の近傍のエリア)でよく使用される単語は、当該特定の場所の特徴を表している可能性が高いと考えられる。このため、上述した判定部16の処理によれば、特定エリアから投稿された判定対象の単語が含まれる投稿テキストの数(投稿数)に基づいて、判定対象の単語が特定の場所の特徴に関連する可能性を判断することができる。具体的には、投稿数が多い単語ほど、特定の場所の特徴に関連する可能性が高いと判断することができる。従って、第1の例及び第2の例のように、投稿数Bが多い単語ほど拡張特徴語として追加され易くすることにより、拡張特徴語の精度を担保することができる。
テキスト判定部17は、特徴語記憶部12に記憶された特徴語及び拡張特徴語を用いて、曖昧性を有する地名表記(すなわち、特定の場所を意味する可能性がある地名表記)を含むテキストの曖昧性を解消するための処理を実行する手段である。ここでは、図3の(b)に示すように、判定部16の処理によって、単語「桜」が“松島”に関連付けられる拡張特徴語として特徴語記憶部12に記憶されているものとして、テキスト判定部17の処理について説明する。
テキスト判定部17は、まず、特定の場所(ここでは“松島”)を示す地名表記(ここでは「松島」)が含まれるテキストを判定対象テキストとして取得する。テキスト判定部17に対する判定対象テキストの入力方法は特に限定されないが、判定対象テキストは、例えばオペレータ等によって入力される。また、例えばSNS等において不特定多数のユーザによってリアルタイムに投稿される投稿テキストが、自動的に判定対象テキストとしてテキスト判定部17に入力されてもよい。
続いて、テキスト判定部17は、特徴語記憶部12において“松島”に関連付けて記憶されている特徴語(ここでは「花見」、「日本三景」、又は「牡蠣」)が判定対象テキストに含まれているか否かを判定する。例えば、テキスト判定部17は、判定対象テキストを形態素解析することで、判定対象テキストを複数の形態素に分割する。そして、テキスト判定部17は、複数の形態素のいずれかが上記特徴語のいずれかに一致するか否かを判定する。そして、テキスト判定部17は、複数の形態素のいずれかが上記特徴語のいずれかに一致した場合、判定対象テキストに特徴語が含まれていると判定する。テキスト判定部17は、判定対象テキストに特徴語が含まれていると判定された場合、判定対象テキスト中の地名表記「松島」が特定の場所“松島”を意味すると判定する。なお、ここまでの処理は、従来の特徴語を用いた判定処理と同様である。
一方、テキスト判定部17は、判定対象テキストに特徴語が含まれていると判定されなかった場合、特徴語記憶部12において“松島”に関連付けて記憶されている拡張特徴語(ここでは「桜」)が判定対象テキストに含まれているか否かを判定する。この判定は、特徴語が判定対象テキストに含まれているか否かの上述の判定と同様に行うことができる。テキスト判定部17は、判定対象テキストに拡張特徴語が含まれていると判定された場合には、判定対象テキスト中の地名表記「松島」が特定の場所“松島”を意味すると判定する。一方、テキスト判定部17は、判定対象テキストに特徴語が含まれていると判定されなかった場合、判定対象テキストの曖昧性を解消できなかった旨の判定結果を出力する。
以上のように、テキスト判定部17は、予め用意された特徴語が地名表記と共に含まれるテキストだけでなく、判定部16によって追加された拡張特徴語が地名表記と共に含まれるテキストについても、地名表記がテキスト中で特定の場所を意味すると判定することができる。これにより、例えば特徴語のみを用いた判定では曖昧性を解消することができなかった上述のテキストc「松島の桜が満開だ。」についても、拡張特徴語「桜」を用いた判定により、曖昧性を解消することが可能となる。このように判定部16によって追加された拡張特徴語を特徴語と同様に用いることで、曖昧性を解消可能なテキスト数を増加させることができる。
図4を用いて、単語判定装置1における単語の判定に関する動作手順について説明する。図4は、判定部16が上述した第1の例の判定処理を実行する場合の動作手順の一例を示すフローチャートである。
まず、特徴語取得部11は、特徴語記憶部12を参照し、特定の場所(ここでは“松島”)に関連付けられる特徴語(ここでは「花見」、「日本三景」、及び「牡蠣」)を取得する(ステップS1)。また、単語取得部13は、一例としてN個の単語k(k=1,・・・,N)を判定対象の単語として取得する(ステップS2)。続いて、単語判定装置1において、処理対象となる特徴語が決定される。ここでは一例として、特徴語として「花見」が選択されるものとする(ステップS3)。
続いて、類似度算出部14は、特徴語「花見」と判定対象の各単語kとの類似度Aを算出する(ステップS4)。類似度算出部14は、例えば上述したWord2Vec等の手法を用いることにより、判定対象の各単語k及び特徴語「花見」の各々をベクトルに変換する。そして、類似度算出部14は、上記式(1)により、各単語kが変換されたベクトルと特徴語「花見」が変換されたベクトルとのコサイン類似度を類似度Aとして算出する。
続いて、投稿数取得部15は、特定期間内に特定の場所“松島”に対応するエリアから投稿され、且つ、判定対象の各単語kが含まれる投稿テキストの数(投稿数B)を取得する(ステップS5)。続いて、判定部16は、判定対象の各単語kについて、“松島”の拡張特徴語とするか否かを判定する(ステップS6〜S9)。
具体的には、判定部16は、判定対象の単語を1つ選択し(ステップS6)、選択された単語kについて、類似度Aが閾値d1以上であり且つ投稿数Bが閾値d2以上であるという条件を満たすか否かを判定する(ステップS7)。類似度A及び投稿数Bが上記条件を満たすと判定された場合(ステップS7;YES)、判定部16は、判定対象の単語kを特定の場所“松島”に関連付けると決定する。すなわち、判定部16は、判定対象の単語kを“松島”に関連付けられる拡張特徴語として決定し、特徴語記憶部12に記憶させる(ステップS8)。このように追加された拡張特徴語は、上述したテキスト判定部17の判定処理に利用される。
一方、類似度A及び投稿数Bが上記条件を満たすと判定されなかった場合(ステップS7:NO)、判定対象の単語kは、拡張特徴語として追加されない(すなわち、ステップS8が実行されない)。
上記ステップS6〜S8の処理は、ステップS2で取得された全ての判定対象の単語kについて実行されるまで繰り返される(ステップS9:YES)。全ての判定対象の単語についてステップS6〜S8の処理が実行されて未判定の単語がなくなり(ステップS9:NO)、且つ、ステップS1で取得された特徴語のうち未判定の特徴語がある場合(ステップS10:YES)、未判定の特徴語について上記ステップS3〜S9の処理が実行される。なお、ある特徴語との組み合わせについてステップS8において拡張特徴語として決定された判定対象の単語は、他の特徴語との組み合わせについて判定される必要がない。従って、ステップS8で拡張特徴語として決定された単語は、その時点で判定対象の単語から除外されてもよい。
なお、上記各ステップの処理は、可能な範囲で実行順序が入れ替えられたり、並行して実行されたり、分割されたりしてもよい。例えば、ステップS7の判定は、類似度Aが閾値d1以上であるか否かの判定と、投稿数Bが閾値d2以上であるか否かの判定とに分割されてもよい。また、この場合、ステップS5の投稿数Bの取得の処理は、投稿数Bに基づく判定が必要な場合(すなわち類似度Aが閾値d1以上であると判定された場合)にのみ実行されるように、処理順序が入れ替えられてもよい。なお、判定部16が第1の例の判定処理の代わりに第2の例の判定処理を実行する場合、ステップS7の判定は、上記式(2)を満たすか否かの判定に置き換えられる。
図5を用いて、テキスト判定部17の動作手順の一例について説明する。テキスト判定部17は、まず、特定の場所(例えば“松島”)を示す地名表記(ここでは「松島」)が含まれるテキストを判定対象テキストとして取得する(ステップS21)。
続いて、テキスト判定部17は、特徴語記憶部12において“松島”に関連付けて記憶されている特徴語(ここでは「花見」、「日本三景」、又は「牡蠣」)が判定対象テキストに含まれているか否かを判定する(ステップS22)。テキスト判定部17は、判定対象テキストに特徴語が含まれていると判定された場合(ステップS22:YES)、判定対象テキスト中の地名表記「松島」が特定の場所“松島”を意味すると判定する(ステップS24)。
一方、テキスト判定部17は、判定対象テキストに特徴語が含まれていると判定されなかった場合(ステップS22:NO)、特徴語記憶部12において“松島”に関連付けて記憶されている拡張特徴語(ここでは「桜」)が判定対象テキストに含まれているか否かを判定する(ステップS23)。テキスト判定部17は、判定対象テキストに拡張特徴語が含まれていると判定された場合(ステップS23:YES)、判定対象テキスト中の地名表記「松島」が特定の場所“松島”を意味すると判定する(ステップS24)。一方、テキスト判定部17は、判定対象テキストに拡張特徴語が含まれていると判定されなかった場合(ステップS23:NO)、判定対象テキストの曖昧性を解消できなかった旨の判定結果を出力する(ステップS25)。
なお、図5に示すテキスト判定部17の動作手順は一例であり、テキスト判定部17は、例えば、ステップS22,S23の処理を同時に行ってもよい。すなわち、テキスト判定部17は、判定対象テキストに特徴語及び拡張特徴語のいずれかが含まれているか否かを1回の判定処理として実行してもよい。また、ステップS24において地名表記が特定の場所を意味すると判定された場合、テキスト判定部17は、特徴語に基づいて曖昧性が解消されたのか拡張特徴語に基づいて曖昧性が解消されたのかを示す情報を含む判定結果を出力してもよい。これにより、オペレータは、特徴語及び拡張特徴語のいずれに基づいて曖昧性が解消したかを把握することができる。その結果、例えば拡張特徴語に基づく判定精度が低い場合等に、オペレータは、上述した閾値d1,d2,d3及びパラメータt等の調整を必要に応じて行うことが可能となる。
以上説明した単語判定装置1では、判定対象の単語と特徴語との類似度に基づいて、判定対象の単語が特定の場所に関連する可能性を判断することができる。また、特定の場所に対応するエリアから投稿された判定対象の単語が含まれる投稿テキストの数(投稿数)に基づいて、判定対象の単語が特定の場所の特徴を表している可能性を判断することができる。従って、単語判定装置1によれば、類似度及び投稿数に基づいて判定対象の単語を特定の場所に関連付けるか否かを決定することにより、特定の場所に関連付けられる単語(拡張特徴語)を、精度を担保しつつ増加させることができる。
ここで、特徴語との類似度だけに基づいて拡張特徴語を追加する場合(すなわち、特徴語の類義語を直ちに拡張特徴語として追加する場合)、拡張特徴語の数を効率良く増やすことができる一方で、拡張特徴語の精度を十分に担保できない虞がある。一方、投稿数に基づいて判定対象の単語を拡張特徴語にするか否かを判定することにより、特定の場所に関連する単語を含む投稿テキストが当該特定の場所に対応する特定エリアにおいて特に投稿され易いという傾向に基づいて、拡張特徴語の精度を高めることができる。
また、類似度算出部14は、判定対象の単語及び特徴語の各々をベクトルに変換し、変換されたベクトル同士のコサイン類似度を類似度として算出する。この構成によれば、判定対象の単語及び特徴語の各々をベクトルに変換することで、ベクトルを扱う公知の計算手法によって判定対象の単語と特徴語との類似度を簡易且つ確実に算出することができる。
また、単語判定装置1は、特徴語記憶部12に記憶された特徴語及び拡張特徴語を用いて、曖昧性を有する地名表記を含むテキストの曖昧性を解消するための処理を実行するテキスト判定部17を備える。これにより、予め用意されている特徴語が地名表記と共に含まれるテキストだけでなく、判定部16によって追加された拡張特徴語が地名表記と共に含まれるテキストについても、地名表記がテキスト中で特定の場所を意味すると判定することが可能となる。その結果、曖昧性を解消可能なテキスト数を増加させることができる。
以上、本発明の一実施形態について説明したが、本発明は、上記実施形態に限定されない。
例えば、上記実施形態では、特定期間内に特定エリアから投稿され、且つ、判定対象の単語が含まれる投稿テキストの数(投稿数)を判定の指標として用いたが、必ずしも投稿数を直接的な指標として用いなくともよい。例えば、特定期間内に特定エリアから投稿された全ての投稿テキストに対する上記投稿数の割合を判定の指標として用いてもよい。
また、拡張特徴語を追加する機能要素(主に特徴語取得部11、単語取得部13、類似度算出部14、投稿数取得部15、及び判定部16)と、曖昧性を有する地名表記を含むテキストの曖昧性を解消するための機能要素(テキスト判定部17)とは、物理的に別の装置に分離されてもよい。この場合、各装置から特徴語記憶部12にアクセス可能とされればよい。
また、判定対象の単語と特徴語との類似度としては、上述したベクトル同士のコサイン類似度以外に、ベクトル同士の距離(ユークリッド距離)を用いてもよい。なお、判定対象の単語をベクトル変換したものと特徴語をベクトル変換したものとの距離は、当該単語と特徴語とが類似する度合いが大きい程小さくなる。
1…単語判定装置、11…特徴語取得部(特徴語取得手段)、12…特徴語記憶部、13…単語取得部(単語取得手段)、14…類似度算出部(類似度算出手段)、15…投稿数取得部(投稿数取得手段)、16…判定部(判定手段)、17…テキスト判定部(テキスト判定手段)、d1…閾値(第1閾値)、d2…閾値(第2閾値)、d3…閾値(第3閾値)。

Claims (5)

  1. 予め定められた特定の場所に関連付けられる単語である特徴語を取得する特徴語取得手段と、
    判定対象の単語を取得する単語取得手段と、
    前記判定対象の単語が含まれるテキスト及び前記特徴語が含まれるテキストを少なくとも含む複数のテキストを学習データとして用いた学習を実行し、前記学習の結果に基づいて前記判定対象の単語と前記特徴語との類似度を算出する類似度算出手段と、
    前記特定の場所に対応するエリアから投稿され、且つ、前記判定対象の単語が含まれる投稿テキストの数を示す投稿数を取得する投稿数取得手段と、
    前記類似度算出手段により算出された類似度と前記投稿数取得手段により取得された投稿数とに基づいて、前記判定対象の単語を前記特定の場所に関連付けるか否かを判定する判定手段と、
    を備える単語判定装置。
  2. 前記類似度算出手段は、前記判定対象の単語及び前記特徴語の各々をベクトルに変換し、変換されたベクトル同士のコサイン類似度を前記類似度として算出する、
    請求項1に記載の単語判定装置。
  3. 前記判定手段は、前記類似度と予め定められた第1閾値とを比較し、前記投稿数と予め定められた第2閾値とを比較し、これらの比較結果に基づいて前記判定対象の単語を前記特定の場所に関連付けるか否かを判定する、
    請求項1又は2に記載の単語判定装置。
  4. 前記判定手段は、前記類似度及び前記投稿数から1つの評価値を生成し、前記評価値と予め定められた第3閾値とを比較し、その比較結果に基づいて前記判定対象の単語を前記特定の場所に関連付けるか否かを判定する、
    請求項1又は2に記載の単語判定装置。
  5. 前記特定の場所を意味する可能性がある地名表記が含まれるテキストを取得し、前記テキストに前記特徴語又は前記判定手段により前記特定の場所に関連付けると決定された単語である拡張特徴語が含まれているか否かを判定し、前記テキストに前記特徴語又は前記拡張特徴語が含まれていると判定された場合に、前記地名表記が前記テキスト中で前記特定の場所を意味すると判定するテキスト判定手段を更に備える、
    請求項1〜4のいずれか一項に記載の単語判定装置。
JP2016078722A 2016-04-11 2016-04-11 単語判定装置 Active JP6662689B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016078722A JP6662689B2 (ja) 2016-04-11 2016-04-11 単語判定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016078722A JP6662689B2 (ja) 2016-04-11 2016-04-11 単語判定装置

Publications (2)

Publication Number Publication Date
JP2017191357A JP2017191357A (ja) 2017-10-19
JP6662689B2 true JP6662689B2 (ja) 2020-03-11

Family

ID=60085294

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016078722A Active JP6662689B2 (ja) 2016-04-11 2016-04-11 単語判定装置

Country Status (1)

Country Link
JP (1) JP6662689B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3531303A1 (en) 2018-02-27 2019-08-28 Micware Co., Ltd. Information retrieval apparatus, information retrieval system, information retrieval method, and program
JP6788637B2 (ja) * 2018-02-27 2020-11-25 株式会社 ミックウェア 情報検索装置及び情報検索システム
CN109885813B (zh) * 2019-02-18 2023-04-28 武汉瓯越网视有限公司 一种基于词语覆盖度的文本相似度的运算方法及系统
CN110781670B (zh) * 2019-10-28 2023-03-03 合肥工业大学 基于百科知识库和词向量的中文地名语义消歧方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5371480B2 (ja) * 2009-02-25 2013-12-18 株式会社 ミックウェア 情報処理装置、情報処理方法、およびプログラム
JP6191277B2 (ja) * 2013-06-25 2017-09-06 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、プログラム
JP2015049813A (ja) * 2013-09-03 2015-03-16 Kddi株式会社 情報提供システム、プログラムおよび情報提供方法

Also Published As

Publication number Publication date
JP2017191357A (ja) 2017-10-19

Similar Documents

Publication Publication Date Title
JP6662689B2 (ja) 単語判定装置
JP5087377B2 (ja) 地理的情報を含む文書群の検索装置、検索方法、検索プログラムおよびそのプログラムを記録した記録媒体
JP2018537760A (ja) アドレス情報に基づいたアカウントマッピングの方法及び装置
CN111460327A (zh) 兴趣地搜索方法及装置、存储介质、计算机设备
JP5757208B2 (ja) キーワード抽出システム、キーワード抽出方法及びプログラム
JP5980520B2 (ja) 効率的にクエリを処理する方法及び装置
JP5461388B2 (ja) Wwwを情報源として記述的な回答が可能な質問応答システム
JPWO2019234827A1 (ja) 情報処理装置、判定方法、及びプログラム
JP5154109B2 (ja) 文書検索装置、方法、及びプログラム
TWI571752B (zh) Retrieval method and information management device
JP6106070B2 (ja) 地名推定方法、地名推定装置及び地名推定プログラム
JP5708868B1 (ja) プログラム、情報処理装置及び方法
JP5806974B2 (ja) 近隣情報検索装置及び方法及びプログラム
JP5544003B2 (ja) 情報検索装置、情報検索システム、及び情報検索方法
JP6817246B2 (ja) データ処理装置、データ処理方法及びデータ処理プログラム
JP5977199B2 (ja) 地域連想語抽出装置、地域連想語抽出方法及び地域連想語抽出プログラム
US20150286687A1 (en) Information processing apparatus, information processing method, and recording medium
JP6679391B2 (ja) 地名表記判定装置
JP6578679B2 (ja) 画像処理装置及びプログラム
CN110083679B (zh) 搜索请求的处理方法、装置、电子设备和存储介质
JP5647090B2 (ja) クエリ推薦装置及び方法及びプログラム
KR20130104573A (ko) 형태소 기반 컨텐츠분류 방법 및 장치
JP5464976B2 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP5650607B2 (ja) 文書検索キーワード提示装置及び方法
JP5324903B2 (ja) 類似度計算装置、方法及びプログラム、データ検索システム及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200213

R150 Certificate of patent or registration of utility model

Ref document number: 6662689

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250