JP6662689B2

JP6662689B2 - 単語判定装置

Info

Publication number: JP6662689B2
Application number: JP2016078722A
Authority: JP
Inventors: 桂一落合; 佑介深澤
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2016-04-11
Filing date: 2016-04-11
Publication date: 2020-03-11
Anticipated expiration: 2036-04-11
Also published as: JP2017191357A

Description

本発明は、単語判定装置に関する。

従来、twitter（登録商標）等のＳＮＳ（Social Networking Service）等に投稿される投稿テキストに含まれる地名表記と予め地名表記が記憶された地名辞書とのマッチングを行うことで、投稿テキスト内に記載されている場所を特定する技術が知られている。ところで、地名表記は、曖昧性を有する場合がある。例えば、同じ地名表記が複数の異なる場所の名称として使用される場合（同一名称の場所が複数存在する場合）がある。このような地名表記の例としては、京都市及び大阪市のそれぞれに存在する「清水寺」等が挙げられる。また、地名表記が、地名以外の意味で使用される場合もある。このような地名表記の例としては、地名だけでなく人名としても使用される「大山」、「松島」等が挙げられる。

このような曖昧性を有する地名表記を含むテキストの曖昧性を解消する手法として、場所に関連付けられる特徴語を用いる手法が知られている（下記特許文献１参照）。この手法では、同一テキスト内に場所を示す地名表記と当該場所に関連付けられる特徴語とが両方含まれる場合に地名表記が当該場所を意味すると判定することにより、テキストの曖昧性を解消することができる。

特開２００２−１３２７９１号公報

ところで、上記の特徴語を用いた手法によって曖昧性を解消可能なテキスト数を増やすためには、曖昧性を有する地名表記が示す場所に関連付けられる特徴語の数をなるべく多くすることが効果的である。特徴語を追加する方法としては、地名表記がテキスト中で特定の場所を意味するものとして用いられている複数のテキストを収集し、収集された複数のテキストにおいて出現頻度が高い単語（いわゆる共起語等）を当該特定の場所に関連付けられる特徴語として追加する方法がある。

しかしながら、この方法によって追加される特徴語は、実際に収集された複数のテキストにおいて地名表記と共に出現した単語に限定される。このため、特徴語の登録数を十分に確保できない場合がある。一方で、特定の場所との関連性があまり高くない単語を当該特定の場所に関連付けられる特徴語として追加してしまうと、上記の特徴語を用いた手法の判定精度が低下する虞がある。すなわち、地名表記が特定の場所を意味するものとして用いられていないテキストについて、地名表記が特定の場所を意味すると誤って判定してしまう虞がある。

そこで、本発明は、特定の場所に関連付けられる単語を、精度を担保しつつ増加させることができる単語判定装置を提供することを目的とする。

本発明の一形態に係る単語判定装置は、予め定められた特定の場所に関連付けられる単語である特徴語を取得する特徴語取得手段と、判定対象の単語を取得する単語取得手段と、判定対象の単語が含まれるテキスト及び特徴語が含まれるテキストを少なくとも含む複数のテキストを学習データとして用いた学習を実行し、学習の結果に基づいて判定対象の単語と特徴語との類似度を算出する類似度算出手段と、特定の場所に対応するエリアから投稿され、且つ、判定対象の単語が含まれる投稿テキストの数を示す投稿数を取得する投稿数取得手段と、類似度算出手段により算出された類似度と投稿数取得手段により取得された投稿数とに基づいて、判定対象の単語を特定の場所に関連付けるか否かを判定する判定手段と、を備える。

特定の場所に関連付けられる特徴語と類似する単語（例えば特徴語の類義語等）は、特徴語と同様に特定の場所に関連する単語である可能性が高いと考えられる。このため、上記単語判定装置によれば、判定対象の単語と特徴語との類似度に基づいて、判定対象の単語が特定の場所に関連する可能性を判断することができる。また、特定の場所に対応するエリア（例えば特定の場所の近傍のエリア）でよく使用される単語は、当該特定の場所の特徴を表している可能性が高いと考えられる。このため、上記単語判定装置によれば、特定の場所に対応するエリアから投稿された判定対象の単語が含まれる投稿テキストの数（投稿数）に基づいて、判定対象の単語が特定の場所の特徴を表している可能性を判断することができる。従って、上記単語判定装置では、類似度及び投稿数の両方に基づいて判定対象の単語を特定の場所に関連付けるか否かを決定することにより、特定の場所に関連付けられる単語を、精度を担保しつつ増加させることができる。

類似度算出手段は、判定対象の単語及び特徴語の各々をベクトルに変換し、変換されたベクトル同士のコサイン類似度を上記類似度として算出してもよい。

この構成によれば、判定対象の単語及び特徴語の各々をベクトルに変換することで、ベクトルを扱う公知の計算手法によって判定対象の単語と特徴語との類似度を簡易且つ確実に算出することができる。

判定手段は、類似度と予め定められた第１閾値とを比較し、投稿数と予め定められた第２閾値とを比較し、これらの比較結果に基づいて判定対象の単語を特定の場所に関連付けるか否かを判定してもよい。

この構成によれば、類似度及び投稿数と閾値（第１閾値及び第２閾値）との比較演算に基づいて、判定対象の単語を特定の場所に関連付けるか否かを簡易に判定することができる。また、この場合、判定対象の単語が特定の場所に関連付けられるための要件を、類似度及び投稿数のそれぞれについて個別に設定することができる。

判定手段は、類似度及び投稿数から１つの評価値を生成し、評価値と予め定められた第３閾値とを比較し、その比較結果に基づいて判定対象の単語を特定の場所に関連付けるか否かを判定してもよい。

この構成によれば、類似度及び投稿数から生成された１つの評価値と閾値（第３閾値）との比較演算に基づいて、判定対象の単語を特定の場所に関連付けるか否かを簡易に判定することができる。また、この場合、評価値を生成する際に、類似度及び投稿数のいずれを重視して判定するかを決定する重み付け等を行うことができる。

上記単語判定装置は、特定の場所を意味する可能性がある地名表記が含まれるテキストを取得し、テキストに特徴語又は判定手段により特定の場所に関連付けると決定された単語である拡張特徴語が含まれているか否かを判定し、テキストに特徴語又は拡張特徴語が含まれていると判定された場合に、地名表記がテキスト中で特定の場所を意味すると判定するテキスト判定手段を更に備えてもよい。

この構成では、予め用意されている特徴語が地名表記と共に含まれるテキストだけでなく、判定手段によって追加された拡張特徴語が地名表記と共に含まれるテキストについても、地名表記がテキスト中で特定の場所を意味すると判定することが可能となる。これにより、曖昧性を解消可能なテキスト数を増加させることができる。

本発明によれば、特定の場所に関連付けられる単語を、精度を担保しつつ増加させることができる単語判定装置を提供することができる。

一実施形態に係る単語判定装置の機能構成を示すブロック図である。単語判定装置のハードウェア構成を示すブロック図である。特徴語記憶部に記憶される特徴語辞書データの一例を示す図である。単語判定装置における単語の判定に関する動作手順の一例を示すフローチャートである。単語判定装置におけるテキスト判定部の動作手順の一例を示すフローチャートである。

以下、添付図面を参照して、本発明の一実施形態について詳細に説明する。なお、図面の説明において同一又は相当要素には同一符号を付し、重複する説明を省略する。また、本明細書において、カギ括弧（「」）で囲まれた内容は、テキスト表記（文字列）を表し、二重引用符（“”）で囲まれた内容は、概念としての場所を表している。

図１は、本発明の一実施形態に係る単語判定装置１の機能構成を示すブロック図である。単語判定装置１は、特定の場所に関連付けられる特徴語を拡張する処理（すなわち、後述する拡張特徴語を追加する処理）を実行する機能を備える装置である。また、単語判定装置１は、特徴語及び拡張特徴語を用いて、曖昧性を有する地名表記を含むテキストの曖昧性を解消するための処理を実行する機能も備えている。

特定の場所とは、地理的に特定される場所である。特定の場所の例としては、観光地、繁華街、施設（例えば駅、学校、寺社等）、山岳、湖沼、店舗等が挙げられる。ただし、特定の場所は、これらの例に限定されるものではなく、その場所を示す地名表記が存在し、且つ、特定の位置（例えば緯度及び経度）に関連付けられるものであればよい。

特徴語とは、特定の場所に関連付けられる単語である。ここで、特定の場所に関連付けられる単語とは、例えば、特定の場所に関する何らかの情報を示す単語や、特定の場所を意味する地名表記と共によく用いられるといった性質を有する単語等である。特徴語は、曖昧性（多義性）を有する地名表記がテキスト中で地名（場所）を意味するか否かを判定するための手がかりとして用いられる。具体的には、同一テキスト内に地名表記と特定の場所に関連付けられる特徴語とが両方含まれる場合に、当該地名表記がテキスト中で当該特定の場所を意味すると判定される。

地名表記とは、場所の名称を文字列で表現したものである。地名表記の中には、曖昧性を有する地名表記が存在する。曖昧性を有する地名表記の例としては、複数の異なる場所の名称として使用される地名表記がある。このような地名表記の具体例としては、京都市及び大阪市のそれぞれに存在する「清水寺」等が挙げられる。また、曖昧性を有する地名表記の他の例としては、地名以外の意味を有する地名表記（多義語）がある。このような地名表記の具体例としては、地名だけでなく人名としても使用される「大山」、「松島」等が挙げられる。

上述した特徴語は、例えば以下の手順によって用意される。まず、地名表記（ここでは「松島」）がテキスト中で特定の場所（ここでは“松島”）を意味するものとして用いられている複数のテキストが収集される。その後、収集された複数のテキストにおいて出現頻度が予め定められた閾値以上の単語が、“松島”に関連付けられる特徴語として抽出される。このような手順により、例えば日本の宮城県の観光地である“松島”に関連付けられる特徴語として、「花見」、「日本三景」及び「牡蠣」等の上記場所に関連する特徴を示す単語が抽出される。

ここで、曖昧性を有する地名表記「松島」を含む３つのテキストａ〜ｃを具体例に挙げて、特徴語を用いた判定手法について説明する。ここでは、上述した「花見」、「日本三景」及び「牡蠣」が“松島”に関連付けられる特徴語として予め用意されているものとする。
テキストａ：「日本三景の一つである松島を観光した。」
テキストｂ：「松島で花見をした。」
テキストｃ：「松島の桜が満開だ。」

テキストａには、地名表記「松島」と共に“松島”に関連付けられる特徴語「日本三景」が含まれている。同様に、テキストｂには、地名表記「松島」と共に“松島”に関連付けられる特徴語「花見」が含まれている。このため、上述した特徴語に基づく判定手法により、テキストａ，ｂについては、地名表記「松島」が各テキスト中で特定の場所“松島”を意味すると判定される。これにより、テキストａ，ｂに含まれる地名表記「松島」が“松島”を意味するか否かに関して、テキストａ，ｂの曖昧性は解消される。

一方、テキストｃには、“松島”に関連付けられる特徴語が１つも含まれていない。このため、上述した特徴語に基づく判定手法では、テキストｃに含まれる地名表記「松島」が“松島”を意味すると判定することができない。その結果、テキストｃに含まれる地名表記「松島」が“松島”を意味するか否かに関して、テキストｃの曖昧性は解消されない。

上述した特徴語に基づく判定によって曖昧性を解消可能なテキスト数をなるべく多くするためには、なるべく多くの特徴語を予め用意しておくことが好ましい。単語判定装置１は、このような課題を踏まえて、例えば上述した手順によって用意される特徴語を基にして、新たな特徴語（以下「拡張特徴語」）を増加させる。以下、単語判定装置１の各機能について詳述する。

図１に示すように、単語判定装置１は、特徴語取得部１１（特徴語取得手段）と、特徴語記憶部１２と、単語取得部１３（単語取得手段）と、類似度算出部１４（類似度算出手段）と、投稿数取得部１５（投稿数取得手段）と、判定部１６（判定手段）と、テキスト判定部１７（テキスト判定手段）と、を備えている。

また、図２に示すように、単語判定装置１は、物理的には、１又は複数のＣＰＵ１０１と、主記憶装置であるＲＡＭ１０２及びＲＯＭ１０３と、入力デバイスであるキーボード及びマウス等の入力装置１０４と、ディスプレイ等の出力装置１０５と、ネットワークカード等のデータ送受信デバイスである通信モジュール１０６と、ＨＤＤ、ＳＳＤ、及び半導体メモリ等の補助記憶装置１０７と、を含むコンピュータとして構成されている。なお、単語判定装置１は、単一の装置として構成されてもよいし、２以上の装置によって機能を分散した構成とされてもよい。

図１に示す単語判定装置１の各機能は、図２に示すＣＰＵ１０１及びＲＡＭ１０２等のハードウェア上に１又は複数の所定のコンピュータソフトウェアを読み込ませることにより、ＣＰＵ１０１の制御のもとで入力装置１０４、出力装置１０５、及び通信モジュール１０６を動作させると共に、ＲＡＭ１０２及び補助記憶装置１０７等におけるデータの読み出し及び書き込みを行うことで実現される。

特徴語取得部１１は、予め定められた特定の場所に関連付けられる単語である特徴語を取得する手段である。本実施形態では一例として、特定の場所は上述した“松島”であり、特徴語取得部１１は、“松島”に関連付けられる特徴語を取得するものとする。なお、処理対象となる特定の場所は、例えばオペレータ等によって入力されてもよい。

特徴語取得部１１は、例えば、特徴語記憶部１２を参照することにより、特徴語を取得する。ここで、特徴語記憶部１２は、特定の場所毎に特徴語及び拡張特徴語を関連付けて記憶する手段である。具体的には、特徴語取得部１１は、特徴語記憶部１２において“松島”に関連付けて記憶されている特徴語を取得する。

図３は、特徴語記憶部１２に記憶されている情報（特徴語辞書データ）の一例を示す。図３の（ａ）は初期状態における特徴語辞書データを示しており、図３の（ｂ）は後述する判定部１６によって拡張特徴語として決定された「桜」が追加された後の特徴語辞書データを示している。図３の例では、特徴語辞書データは、場所、特徴語、及び拡張特徴語が互いに関連付けられた情報として構成されている。この例では、場所を特定するためのデータとして、場所の名称を示す「松島」と共に当該場所の緯度ｘ１及び経度ｙ１が記憶されている。なお、図３の例では特徴語と後述する判定部１６によって決定される拡張特徴語とが同一の場所（特徴語記憶部１２）に記憶されるが、特徴語及び拡張特徴語は別々の記憶手段（例えば異なるファイル及びデータベース等）に分離されて記憶されてもよい。また、特徴語と拡張特徴語とは、互いに区別されずに記憶されてもよい。

特徴語記憶部１２に記憶されている特徴語は、例えば、予め上述した手順を実行することによって得られた特徴語である。すなわち、地名表記「松島」がテキスト中で特定の場所“松島”を意味するものとして用いられている複数のテキストが収集され、当該複数のテキストにおいて出現頻度が予め定められた閾値以上の単語が、“松島”に関連付けられる特徴語（ここでは一例として、「花見」、「日本三景」、及び「牡蠣」）として記憶されている。この例では、特徴語取得部１１は、“松島”に関連付けられる３つの特徴語「花見」、「日本三景」、及び「牡蠣」を特徴語記憶部１２から取得することになる。

単語取得部１３は、判定対象の単語を取得する手段である。単語取得部１３によって取得された単語について、後述する類似度算出部１４、投稿数取得部１５、及び判定部１６の処理が実行されることにより、当該単語を“松島”に関連付けるか否か（すなわち、当該単語を“松島”の拡張特徴語とするか否か）が決定される。

本実施形態では一例として、単語取得部１３は、予め定められた期間（例えば現時点から１週間以内の期間等）に上述したＳＮＳにおいて不特定多数のユーザによって投稿された複数の投稿テキストに含まれる各単語（例えば形態素解析により得られる各単語）を、判定対象の単語として取得する。ただし、単語取得部１３が判定対象の単語を取得する方法はこれに限定されず、例えば、単語取得部１３は、有償又は無償で公開されている辞書データベース等に登録されている単語を判定対象の単語として取得してもよい。

類似度算出部１４は、単語取得部１３により取得された判定対象の単語と特徴語取得部１１により取得された特徴語との類似度を算出する手段である。具体的には、類似度算出部１４は、判定対象の単語が含まれるテキスト及び特徴語が含まれるテキストを少なくとも含む複数のテキストを学習データとして用いた学習を実行し、当該学習の結果に基づいて判定対象の単語と特徴語との類似度を算出する。類似度算出部１４は、例えば、上述した単語取得部１３によって取得された投稿テキストを学習データとして用いることができる。これにより、類似度算出部１４は、判定対象の各単語を含むテキストが含まれる学習データを容易に取得できる。

類似度算出部１４は、例えば、参考文献（Tomas Mikolov, Wen-tau Yih, and Geoffrey Zweig. LinguisticRegularities in Continuous Space Word Representations. In Proceedings of NAACLHLT, 2013.）に示されるWord2Vec等による学習を実行することで、単語取得部１３により取得された判定対象の各単語及び特徴語をベクトルに変換する。なお、Word2Vecは、単語をベクトル化して表現する自然言語処理の手法の一つである。Word2Vecでは、単語の共起関係に基づいて、互いに意味が近い単語同士が似たベクトルになるような計算が実行される。具体的には、ある単語の前後に出現する単語が似ていればベクトルの数値が近くなるような計算が実行される。このようにして変換されるベクトルは、例えば２００次元程度のベクトルであり、変換されたベクトル同士の類似度（後述するコサイン類似度）は、元の単語が持つ意味（似た文脈で用いられる程度等）同士が近い程大きくなるという性質を有する。

ここで、一の判定対象の単語をベクトル化することで得られたベクトルをｑとし、特徴語をベクトル化することで得られたベクトルをｄとすると、類似度算出部１４は、下記式（１）により、当該ベクトル同士のコサイン類似度を算出することができる。下記式（１）において、｜Ｖ｜はベクトルｄ，ｑの次元数であり、ｄ_ｉ，ｑ_ｉはそれぞれベクトルｄ，ｑのｉ番目の要素を示している。

上記式（１）で算出されるコサイン類似度は、−１から１の範囲をとり、１に近い程互いに類似していることを示す。このように算出された類似度（コサイン類似度）が大きい（１に近い）程、判定対象の単語と特徴語とは、互いに意味的に類似する程度が大きく、互いに類義語である可能性が高いという関係が成り立つ。類似度算出部１４は、上記式（１）の計算処理を判定対象の各単語と特徴語との組について実行することにより、判定対象の各単語と特徴語とのコサイン類似度を算出する。類似度算出部１４により算出された各単語と特徴語とのコサイン類似度は、後述する判定部１６に出力される。

投稿数取得部１５は、予め定められた期間（以下「特定期間」）内に特定の場所（ここでは“松島”）に対応するエリア（以下「特定エリア」）から投稿され、且つ、判定対象の単語が含まれる投稿テキストの数を示す投稿数を判定対象の単語毎に取得する手段である。

ここで、特定期間は、オペレータ等によって定められる集計対象期間であり、例えば投稿数の集計処理を開始する時点から１週間以内の期間等である。特定エリアは、特定の場所に関連付けられる地理的な範囲である。特定エリアとして定義される範囲については、オペレータ等によって任意に定められてよい。例えば、特定の場所が公園や動物園等の施設の場合、当該施設の敷地が特定エリアとして定められてもよいし、当該敷地だけでなく当該敷地から予め定めた距離以内の近傍範囲も含むエリアが特定エリアとして定められてもよい。また、例えば特定の場所について予め定められた代表位置（例えば緯度及び経度）から予め定められた半径距離内のエリアが、特定エリアとして定められてもよい。投稿テキストは、例えば上述したＳＮＳ等において不特定多数のユーザによって投稿されたテキストである。

以下、投稿数取得部１５が上述した投稿数を取得する処理の一例について説明する。投稿数取得部１５は、例えばＳＮＳが公開しているＡＰＩを介して、当該ＳＮＳに投稿された投稿テキストを取得する。この際、投稿数取得部１５は、ジオタグを含む投稿テキストを収集する。ここで、ジオタグは、投稿テキストに付加された位置情報であり、例えば当該投稿テキストが投稿された場所の緯度及び経度を示す情報である。なお、このようなＳＮＳの投稿テキストには、通常、ユーザによって投稿された日時を示す投稿日時の情報も付加されている。そこで、投稿数取得部１５は、ジオタグ及び投稿日時に関するフィルタ条件（検索条件）を設定し、上述したＡＰＩを介して当該フィルタ条件に合致する投稿テキストを抽出する。具体的には、投稿数取得部１５は、ジオタグが示す位置（緯度及び経度）が特定エリアに含まれると共に投稿日時が特定期間に含まれることを上記フィルタ条件として設定して検索することで、特定期間内に特定エリアから投稿された投稿テキストを収集する。続いて、投稿数取得部１５は、このようにして収集された投稿テキストのうちから、判定対象の単語が含まれる投稿テキストを抽出し、抽出された投稿テキストの数を集計する。このようにして、投稿数取得部１５は、上述した投稿数を取得することができる。

なお、投稿数取得部１５が投稿数を取得する処理は、単語取得部１３によって取得された単語の各々について実行される必要があるが、特定期間内に特定エリアから投稿された投稿テキストを収集する処理については、最初の１回だけ実行されればよい。また、例えば所定の文字列を入力して当該文字列が含まれる投稿テキストの数を出力する機能が上記ＡＰＩの機能として実装されている場合等には、投稿数取得部１５は、上記フィルタ条件として、判定対象の単語の文字列を更に指定することで、上述した投稿数をＡＰＩから直接取得してもよい。

判定部１６は、類似度算出部１４により算出された類似度と投稿数取得部１５により取得された投稿数とに基づいて、判定対象の単語を特定の場所に関連付けるか否かを判定する手段である。判定部１６は、判定対象の単語を特定の場所に関連付けると判定した場合、当該単語を特定の場所に新たに関連付けられる拡張特徴語として追加する。具体的には、判定部１６は、拡張特徴語を特徴語記憶部１２に記憶させる。

以下、判定部１６の判定処理の第１の例及び第２の例について説明する。ここでは一例として、判定部１６は、判定対象の単語「桜」を特定の場所“松島”に関連付けるか否か、すなわち単語「桜」を“松島”に関連付けられる拡張特徴語として追加するか否かを決定するものとして説明する。なお、以下の説明において、Ａ及びＢは、単語「桜」についての類似度及び投稿数を示す。

（第１の例）
判定部１６は、類似度Ａと予め定められた閾値ｄ１（第１閾値）とを比較するとともに投稿数Ｂと予め定められた閾値ｄ２（第２閾値）とを比較し、これらの比較結果に基づいて判定対象の単語「桜」を特定の場所“松島”に関連付けるか否かを判定する。具体的には、判定部１６は、類似度Ａが閾値ｄ１以上であり且つ投稿数Ｂが閾値ｄ２以上であるか否かを判定する。ここで、閾値ｄ１，ｄ２は、例えばオペレータによって設定される。判定部１６は、類似度Ａが閾値ｄ１以上であり且つ投稿数Ｂが閾値ｄ２以上である場合（「Ａ≧ｄ１且つＢ≧ｄ２」が成立する場合）、判定対象の単語「桜」を“松島”に関連付けると決定し、当該単語「桜」を“松島”の拡張特徴語として特徴語記憶部１２に記憶させる。

第１の例では、類似度Ａ及び投稿数Ｂと閾値ｄ１，ｄ２との比較演算に基づいて、判定対象の単語を特定の場所に関連付けるか否かを簡易に判定することができる。また、この場合、判定対象の単語が特定の場所に関連付けられるための要件（すなわち、閾値ｄ１，ｄ２）を、類似度Ａ及び投稿数Ｂのそれぞれについて個別に設定することができる。例えば閾値ｄ１，ｄ２の両方を比較的大きい値に設定することで、類似度に基づく判定及び投稿数に基づく判定の両方の判定基準を厳しくすることができる。これにより、判定部１６によって追加される拡張特徴語の精度を高くすることができる。

（第２の例）
判定部１６は、類似度Ａ及び投稿数Ｂから１つの評価値を生成し、当該評価値と予め定められた閾値ｄ３（第３閾値）とを比較し、その比較結果に基づいて判定対象の単語「桜」を特定の場所“松島”に関連付けるか否かを判定する。一例として、判定部１６は、下記式（２）の左辺を評価として生成し、当該評価値が閾値ｄ３以上であるか否かを判定する。ここで、ｔは０から１までの間で任意に決定されるパラメータである。パラメータｔ及び閾値ｄ３は、例えばオペレータによって設定される。判定部１６は、評価値が閾値ｄ３以上である場合、判定対象の単語「桜」を“松島”に関連付けると決定し、当該単語「桜」を“松島”の拡張特徴語として特徴語記憶部１２に記憶させる。
Ａ×ｔ＋Ｂ×（１−ｔ）≧ｄ３ …（２）

第２の例では、類似度Ａ及び投稿数Ｂから生成された１つの評価値（例えば、上記式（２）の左辺の値）と閾値ｄ３との比較演算に基づいて、判定対象の単語を特定の場所に関連付けるか否かを簡易に判定することができる。また、この場合、評価値を生成する際に、類似度Ａ及び投稿数Ｂのいずれを重視して判定するかを、パラメータｔによって調整することができる。例えば、パラメータｔを０．５より大きくした場合には、投稿数Ｂよりも類似度Ａが重視されることになる。その結果、投稿数Ｂが比較的少なくても、類似度Ａが比較的大きければ、上記式（２）が成立し易くなる。このように、第２の例によれば、類似度及び投稿数を重視するバランスをオペレータの好み等によって任意に定めることができる。また、上記例において、パラメータｔを１に近付けた場合、特徴語の類義語である単語が投稿数の大小にかかわらず拡張特徴語として追加され易くなる。これにより、投稿数に基づく判定基準が緩和され、拡張特徴語として追加される単語の個数を増加させることが期待できる。

以下、上述した判定部１６の処理によって拡張特徴語が適切に追加される理由について説明する。特定の場所に関連付けられる特徴語と類似する単語（例えば特徴語の類義語等）は、特徴語と同様に特定の場所に関連する単語である可能性が高いと考えられる。例えば上記例でいえば、“松島”に関連付けられる特徴語「花見」と類似する（すなわち意味的な関連性のある）単語「桜」は、特徴語「花見」と同様に“松島”に関連する単語である可能性が高いと考えられる。このため、上述した判定部１６の処理によれば、判定対象の単語「桜」と特徴語「花見」との類似度に基づいて、判定対象の単語が特定の場所に関連する可能性を判断することができる。具体的には、特徴語との類似度が大きい単語ほど、特定の場所に関連する可能性が高いと判断することができる。従って、第１の例又は第２の例のように、類似度Ａが大きい単語ほど拡張特徴語として追加され易くすることにより、拡張特徴語の精度を担保することができる。

また、特定エリア（例えば、特定の場所の近傍のエリア）でよく使用される単語は、当該特定の場所の特徴を表している可能性が高いと考えられる。このため、上述した判定部１６の処理によれば、特定エリアから投稿された判定対象の単語が含まれる投稿テキストの数（投稿数）に基づいて、判定対象の単語が特定の場所の特徴に関連する可能性を判断することができる。具体的には、投稿数が多い単語ほど、特定の場所の特徴に関連する可能性が高いと判断することができる。従って、第１の例及び第２の例のように、投稿数Ｂが多い単語ほど拡張特徴語として追加され易くすることにより、拡張特徴語の精度を担保することができる。

テキスト判定部１７は、特徴語記憶部１２に記憶された特徴語及び拡張特徴語を用いて、曖昧性を有する地名表記（すなわち、特定の場所を意味する可能性がある地名表記）を含むテキストの曖昧性を解消するための処理を実行する手段である。ここでは、図３の（ｂ）に示すように、判定部１６の処理によって、単語「桜」が“松島”に関連付けられる拡張特徴語として特徴語記憶部１２に記憶されているものとして、テキスト判定部１７の処理について説明する。

テキスト判定部１７は、まず、特定の場所（ここでは“松島”）を示す地名表記（ここでは「松島」）が含まれるテキストを判定対象テキストとして取得する。テキスト判定部１７に対する判定対象テキストの入力方法は特に限定されないが、判定対象テキストは、例えばオペレータ等によって入力される。また、例えばＳＮＳ等において不特定多数のユーザによってリアルタイムに投稿される投稿テキストが、自動的に判定対象テキストとしてテキスト判定部１７に入力されてもよい。

続いて、テキスト判定部１７は、特徴語記憶部１２において“松島”に関連付けて記憶されている特徴語（ここでは「花見」、「日本三景」、又は「牡蠣」）が判定対象テキストに含まれているか否かを判定する。例えば、テキスト判定部１７は、判定対象テキストを形態素解析することで、判定対象テキストを複数の形態素に分割する。そして、テキスト判定部１７は、複数の形態素のいずれかが上記特徴語のいずれかに一致するか否かを判定する。そして、テキスト判定部１７は、複数の形態素のいずれかが上記特徴語のいずれかに一致した場合、判定対象テキストに特徴語が含まれていると判定する。テキスト判定部１７は、判定対象テキストに特徴語が含まれていると判定された場合、判定対象テキスト中の地名表記「松島」が特定の場所“松島”を意味すると判定する。なお、ここまでの処理は、従来の特徴語を用いた判定処理と同様である。

一方、テキスト判定部１７は、判定対象テキストに特徴語が含まれていると判定されなかった場合、特徴語記憶部１２において“松島”に関連付けて記憶されている拡張特徴語（ここでは「桜」）が判定対象テキストに含まれているか否かを判定する。この判定は、特徴語が判定対象テキストに含まれているか否かの上述の判定と同様に行うことができる。テキスト判定部１７は、判定対象テキストに拡張特徴語が含まれていると判定された場合には、判定対象テキスト中の地名表記「松島」が特定の場所“松島”を意味すると判定する。一方、テキスト判定部１７は、判定対象テキストに特徴語が含まれていると判定されなかった場合、判定対象テキストの曖昧性を解消できなかった旨の判定結果を出力する。

以上のように、テキスト判定部１７は、予め用意された特徴語が地名表記と共に含まれるテキストだけでなく、判定部１６によって追加された拡張特徴語が地名表記と共に含まれるテキストについても、地名表記がテキスト中で特定の場所を意味すると判定することができる。これにより、例えば特徴語のみを用いた判定では曖昧性を解消することができなかった上述のテキストｃ「松島の桜が満開だ。」についても、拡張特徴語「桜」を用いた判定により、曖昧性を解消することが可能となる。このように判定部１６によって追加された拡張特徴語を特徴語と同様に用いることで、曖昧性を解消可能なテキスト数を増加させることができる。

図４を用いて、単語判定装置１における単語の判定に関する動作手順について説明する。図４は、判定部１６が上述した第１の例の判定処理を実行する場合の動作手順の一例を示すフローチャートである。

まず、特徴語取得部１１は、特徴語記憶部１２を参照し、特定の場所（ここでは“松島”）に関連付けられる特徴語（ここでは「花見」、「日本三景」、及び「牡蠣」）を取得する（ステップＳ１）。また、単語取得部１３は、一例としてＮ個の単語ｋ（ｋ＝１，・・・，Ｎ）を判定対象の単語として取得する（ステップＳ２）。続いて、単語判定装置１において、処理対象となる特徴語が決定される。ここでは一例として、特徴語として「花見」が選択されるものとする（ステップＳ３）。

続いて、類似度算出部１４は、特徴語「花見」と判定対象の各単語ｋとの類似度Ａ_ｋを算出する（ステップＳ４）。類似度算出部１４は、例えば上述したWord2Vec等の手法を用いることにより、判定対象の各単語ｋ及び特徴語「花見」の各々をベクトルに変換する。そして、類似度算出部１４は、上記式（１）により、各単語ｋが変換されたベクトルと特徴語「花見」が変換されたベクトルとのコサイン類似度を類似度Ａ_ｋとして算出する。

続いて、投稿数取得部１５は、特定期間内に特定の場所“松島”に対応するエリアから投稿され、且つ、判定対象の各単語ｋが含まれる投稿テキストの数（投稿数Ｂ_ｋ）を取得する（ステップＳ５）。続いて、判定部１６は、判定対象の各単語ｋについて、“松島”の拡張特徴語とするか否かを判定する（ステップＳ６〜Ｓ９）。

具体的には、判定部１６は、判定対象の単語を１つ選択し（ステップＳ６）、選択された単語ｋについて、類似度Ａ_ｋが閾値ｄ１以上であり且つ投稿数Ｂ_ｋが閾値ｄ２以上であるという条件を満たすか否かを判定する（ステップＳ７）。類似度Ａ_ｋ及び投稿数Ｂ_ｋが上記条件を満たすと判定された場合（ステップＳ７；ＹＥＳ）、判定部１６は、判定対象の単語ｋを特定の場所“松島”に関連付けると決定する。すなわち、判定部１６は、判定対象の単語ｋを“松島”に関連付けられる拡張特徴語として決定し、特徴語記憶部１２に記憶させる（ステップＳ８）。このように追加された拡張特徴語は、上述したテキスト判定部１７の判定処理に利用される。

一方、類似度Ａ_ｋ及び投稿数Ｂ_ｋが上記条件を満たすと判定されなかった場合（ステップＳ７：ＮＯ）、判定対象の単語ｋは、拡張特徴語として追加されない（すなわち、ステップＳ８が実行されない）。

上記ステップＳ６〜Ｓ８の処理は、ステップＳ２で取得された全ての判定対象の単語ｋについて実行されるまで繰り返される（ステップＳ９：ＹＥＳ）。全ての判定対象の単語についてステップＳ６〜Ｓ８の処理が実行されて未判定の単語がなくなり（ステップＳ９：ＮＯ）、且つ、ステップＳ１で取得された特徴語のうち未判定の特徴語がある場合（ステップＳ１０：ＹＥＳ）、未判定の特徴語について上記ステップＳ３〜Ｓ９の処理が実行される。なお、ある特徴語との組み合わせについてステップＳ８において拡張特徴語として決定された判定対象の単語は、他の特徴語との組み合わせについて判定される必要がない。従って、ステップＳ８で拡張特徴語として決定された単語は、その時点で判定対象の単語から除外されてもよい。

なお、上記各ステップの処理は、可能な範囲で実行順序が入れ替えられたり、並行して実行されたり、分割されたりしてもよい。例えば、ステップＳ７の判定は、類似度Ａ_ｋが閾値ｄ１以上であるか否かの判定と、投稿数Ｂ_ｋが閾値ｄ２以上であるか否かの判定とに分割されてもよい。また、この場合、ステップＳ５の投稿数Ｂ_ｋの取得の処理は、投稿数Ｂ_ｋに基づく判定が必要な場合（すなわち類似度Ａ_ｋが閾値ｄ１以上であると判定された場合）にのみ実行されるように、処理順序が入れ替えられてもよい。なお、判定部１６が第１の例の判定処理の代わりに第２の例の判定処理を実行する場合、ステップＳ７の判定は、上記式（２）を満たすか否かの判定に置き換えられる。

図５を用いて、テキスト判定部１７の動作手順の一例について説明する。テキスト判定部１７は、まず、特定の場所（例えば“松島”）を示す地名表記（ここでは「松島」）が含まれるテキストを判定対象テキストとして取得する（ステップＳ２１）。

続いて、テキスト判定部１７は、特徴語記憶部１２において“松島”に関連付けて記憶されている特徴語（ここでは「花見」、「日本三景」、又は「牡蠣」）が判定対象テキストに含まれているか否かを判定する（ステップＳ２２）。テキスト判定部１７は、判定対象テキストに特徴語が含まれていると判定された場合（ステップＳ２２：ＹＥＳ）、判定対象テキスト中の地名表記「松島」が特定の場所“松島”を意味すると判定する（ステップＳ２４）。

一方、テキスト判定部１７は、判定対象テキストに特徴語が含まれていると判定されなかった場合（ステップＳ２２：ＮＯ）、特徴語記憶部１２において“松島”に関連付けて記憶されている拡張特徴語（ここでは「桜」）が判定対象テキストに含まれているか否かを判定する（ステップＳ２３）。テキスト判定部１７は、判定対象テキストに拡張特徴語が含まれていると判定された場合（ステップＳ２３：ＹＥＳ）、判定対象テキスト中の地名表記「松島」が特定の場所“松島”を意味すると判定する（ステップＳ２４）。一方、テキスト判定部１７は、判定対象テキストに拡張特徴語が含まれていると判定されなかった場合（ステップＳ２３：ＮＯ）、判定対象テキストの曖昧性を解消できなかった旨の判定結果を出力する（ステップＳ２５）。

なお、図５に示すテキスト判定部１７の動作手順は一例であり、テキスト判定部１７は、例えば、ステップＳ２２，Ｓ２３の処理を同時に行ってもよい。すなわち、テキスト判定部１７は、判定対象テキストに特徴語及び拡張特徴語のいずれかが含まれているか否かを１回の判定処理として実行してもよい。また、ステップＳ２４において地名表記が特定の場所を意味すると判定された場合、テキスト判定部１７は、特徴語に基づいて曖昧性が解消されたのか拡張特徴語に基づいて曖昧性が解消されたのかを示す情報を含む判定結果を出力してもよい。これにより、オペレータは、特徴語及び拡張特徴語のいずれに基づいて曖昧性が解消したかを把握することができる。その結果、例えば拡張特徴語に基づく判定精度が低い場合等に、オペレータは、上述した閾値ｄ１，ｄ２，ｄ３及びパラメータｔ等の調整を必要に応じて行うことが可能となる。

以上説明した単語判定装置１では、判定対象の単語と特徴語との類似度に基づいて、判定対象の単語が特定の場所に関連する可能性を判断することができる。また、特定の場所に対応するエリアから投稿された判定対象の単語が含まれる投稿テキストの数（投稿数）に基づいて、判定対象の単語が特定の場所の特徴を表している可能性を判断することができる。従って、単語判定装置１によれば、類似度及び投稿数に基づいて判定対象の単語を特定の場所に関連付けるか否かを決定することにより、特定の場所に関連付けられる単語（拡張特徴語）を、精度を担保しつつ増加させることができる。

ここで、特徴語との類似度だけに基づいて拡張特徴語を追加する場合（すなわち、特徴語の類義語を直ちに拡張特徴語として追加する場合）、拡張特徴語の数を効率良く増やすことができる一方で、拡張特徴語の精度を十分に担保できない虞がある。一方、投稿数に基づいて判定対象の単語を拡張特徴語にするか否かを判定することにより、特定の場所に関連する単語を含む投稿テキストが当該特定の場所に対応する特定エリアにおいて特に投稿され易いという傾向に基づいて、拡張特徴語の精度を高めることができる。

また、類似度算出部１４は、判定対象の単語及び特徴語の各々をベクトルに変換し、変換されたベクトル同士のコサイン類似度を類似度として算出する。この構成によれば、判定対象の単語及び特徴語の各々をベクトルに変換することで、ベクトルを扱う公知の計算手法によって判定対象の単語と特徴語との類似度を簡易且つ確実に算出することができる。

また、単語判定装置１は、特徴語記憶部１２に記憶された特徴語及び拡張特徴語を用いて、曖昧性を有する地名表記を含むテキストの曖昧性を解消するための処理を実行するテキスト判定部１７を備える。これにより、予め用意されている特徴語が地名表記と共に含まれるテキストだけでなく、判定部１６によって追加された拡張特徴語が地名表記と共に含まれるテキストについても、地名表記がテキスト中で特定の場所を意味すると判定することが可能となる。その結果、曖昧性を解消可能なテキスト数を増加させることができる。

以上、本発明の一実施形態について説明したが、本発明は、上記実施形態に限定されない。

例えば、上記実施形態では、特定期間内に特定エリアから投稿され、且つ、判定対象の単語が含まれる投稿テキストの数（投稿数）を判定の指標として用いたが、必ずしも投稿数を直接的な指標として用いなくともよい。例えば、特定期間内に特定エリアから投稿された全ての投稿テキストに対する上記投稿数の割合を判定の指標として用いてもよい。

また、拡張特徴語を追加する機能要素（主に特徴語取得部１１、単語取得部１３、類似度算出部１４、投稿数取得部１５、及び判定部１６）と、曖昧性を有する地名表記を含むテキストの曖昧性を解消するための機能要素（テキスト判定部１７）とは、物理的に別の装置に分離されてもよい。この場合、各装置から特徴語記憶部１２にアクセス可能とされればよい。

また、判定対象の単語と特徴語との類似度としては、上述したベクトル同士のコサイン類似度以外に、ベクトル同士の距離（ユークリッド距離）を用いてもよい。なお、判定対象の単語をベクトル変換したものと特徴語をベクトル変換したものとの距離は、当該単語と特徴語とが類似する度合いが大きい程小さくなる。

１…単語判定装置、１１…特徴語取得部（特徴語取得手段）、１２…特徴語記憶部、１３…単語取得部（単語取得手段）、１４…類似度算出部（類似度算出手段）、１５…投稿数取得部（投稿数取得手段）、１６…判定部（判定手段）、１７…テキスト判定部（テキスト判定手段）、ｄ１…閾値（第１閾値）、ｄ２…閾値（第２閾値）、ｄ３…閾値（第３閾値）。

Claims

予め定められた特定の場所に関連付けられる単語である特徴語を取得する特徴語取得手段と、
判定対象の単語を取得する単語取得手段と、
前記判定対象の単語が含まれるテキスト及び前記特徴語が含まれるテキストを少なくとも含む複数のテキストを学習データとして用いた学習を実行し、前記学習の結果に基づいて前記判定対象の単語と前記特徴語との類似度を算出する類似度算出手段と、
前記特定の場所に対応するエリアから投稿され、且つ、前記判定対象の単語が含まれる投稿テキストの数を示す投稿数を取得する投稿数取得手段と、
前記類似度算出手段により算出された類似度と前記投稿数取得手段により取得された投稿数とに基づいて、前記判定対象の単語を前記特定の場所に関連付けるか否かを判定する判定手段と、
を備える単語判定装置。
前記類似度算出手段は、前記判定対象の単語及び前記特徴語の各々をベクトルに変換し、変換されたベクトル同士のコサイン類似度を前記類似度として算出する、
請求項１に記載の単語判定装置。
前記判定手段は、前記類似度と予め定められた第１閾値とを比較し、前記投稿数と予め定められた第２閾値とを比較し、これらの比較結果に基づいて前記判定対象の単語を前記特定の場所に関連付けるか否かを判定する、
請求項１又は２に記載の単語判定装置。
前記判定手段は、前記類似度及び前記投稿数から１つの評価値を生成し、前記評価値と予め定められた第３閾値とを比較し、その比較結果に基づいて前記判定対象の単語を前記特定の場所に関連付けるか否かを判定する、
請求項１又は２に記載の単語判定装置。
前記特定の場所を意味する可能性がある地名表記が含まれるテキストを取得し、前記テキストに前記特徴語又は前記判定手段により前記特定の場所に関連付けると決定された単語である拡張特徴語が含まれているか否かを判定し、前記テキストに前記特徴語又は前記拡張特徴語が含まれていると判定された場合に、前記地名表記が前記テキスト中で前記特定の場所を意味すると判定するテキスト判定手段を更に備える、
請求項１〜４のいずれか一項に記載の単語判定装置。