JP5223293B2 - 位置表現抽出装置、方法及びプログラム - Google Patents

位置表現抽出装置、方法及びプログラム Download PDF

Info

Publication number
JP5223293B2
JP5223293B2 JP2007277705A JP2007277705A JP5223293B2 JP 5223293 B2 JP5223293 B2 JP 5223293B2 JP 2007277705 A JP2007277705 A JP 2007277705A JP 2007277705 A JP2007277705 A JP 2007277705A JP 5223293 B2 JP5223293 B2 JP 5223293B2
Authority
JP
Japan
Prior art keywords
expression
information
text content
extracting
coordinate information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007277705A
Other languages
English (en)
Other versions
JP2009104528A (ja
Inventor
毅至 福居
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2007277705A priority Critical patent/JP5223293B2/ja
Publication of JP2009104528A publication Critical patent/JP2009104528A/ja
Application granted granted Critical
Publication of JP5223293B2 publication Critical patent/JP5223293B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、位置表現抽出装置、方法及びプログラムに関し、例えば、ネットワーク上に存在する様々なコンテンツが有する位置表現を抽出する位置表現抽出装置、方法及びプログラムに適用し得るものである。
近年、例えばインターネット等のネットワーク上に存在する様々なコンテンツに付与された位置情報(例えば、GPS情報など)を抽出し、この位置情報を用いた位置情報サービスが提供されている。
また、例えばGPS機能付きデジタルカメラを用いた位置情報サービスも提供されている。このサービスは、位置情報(GPS情報)を取得して、撮影時に位置情報を画像に付与する。そして、地図ソフトなどを用いて、位置情報をキーとして地図上の位置を検索するというものである。
しかしながら、ネットワーク上のコンテンツは位置情報が明示的に付与されていないものがほとんどである。また、上記GPS機能付きデジタルカメラを用いたサービスの場合も、位置情報が画像に自動的に付与される技術が定着しておらず、ほとんどの画像は位置情報が付与されないままネットワーク上に存在している。
従って、上記のような位置情報サービスを充実させるためには、インターネット上のコンテンツから位置情報を自動的に抽出する技術が重要になる。
従来、この種の技術としては、特許文献1に記載の技術がある。特許文献1には、ウェブテキストについて住所情報に関する抽出範囲を決定し、この決定した抽出範囲内のウェブテキストから複数の住所情報に該当する文字列を抽出する。そして、少なくとも抽出した文字列が特定のキーワードを含むかどうかを調べることにより各住所情報の重要度を決定し、重要度の低い住所情報に関する抽出した文字列を削除して必要な住所情報に関する文字列のみを残す、という技術である。
特開2004−280659号公報
しかしながら、上述した特許文献1に記載の技術は、特定のキーワードを含まない文字列の重要度に差をつけないため、一定の主題をもつ文書(例えば、ニュース記事やウェブログ(いわゆるブログ)記事など)においては主題と無関係な文字列も抽出してしまう。
つまり、対象の文書の主題とは何ら関連しない住所情報も抽出してしまうため、最適な位置情報の抽出ができない。
そのため、処理対象である入力文書の主題に強く関連する位置表現を判定することができ、その主題に対応した最適な位置表現を抽出することができる位置表現抽出装置、方法及びプログラムが求められている。
かかる課題を解決するために第1の本発明の位置表現抽出装置は、(1)少なくとも、複数の位置表現と、これら各位置表現の位置を特定する位置座標情報とを対応付けて格納する位置表現・位置座標情報対応テーブルと、(2)入力された文書から1又は複数の位置表現を抽出し、位置表現・位置座標情報対応テーブルを参照して、抽出した各位置表現の位置座標情報を求める位置表現抽出手段と、(3)文書から1又は複数の非テキストコンテンツを抽出し、各非テキストコンテンツに含まれている1又は複数の位置情報を抽出する非テキストコンテンツ位置情報抽出手段と、(4)非テキストコンテンツ位置情報抽出手段により抽出された各位置情報が示す位置と、位置表現抽出手段により抽出された上記各位置表現の位置座標情報が示す位置との間の距離を求め、各非テキストコンテンツの各位置情報が示す位置から距離が最小となる位置表現を代表位置表現と判定して出力する代表位置表現判定手段とを備えることを特徴とする。
第2の本発明の位置表現抽出方法は、コンピュータが、少なくとも、複数の位置表現と、これら各位置表現の位置を特定する位置座標情報とを対応付けて格納する位置表現・位置座標情報対応テーブルと、位置表現抽出手段と、非テキストコンテンツ位置情報抽出手段と、代表位置表現判定手段とを備え、(1)位置表現抽出手段が、入力された文書から1又は複数の位置表現を抽出し、位置表現・位置座標情報対応テーブルを参照して、抽出した各位置表現の位置座標情報を求める位置表現抽出工程と、(2)非テキストコンテンツ位置情報抽出手段が、文書から1又は複数の非テキストコンテンツを抽出し、各非テキストコンテンツに含まれている1又は複数の位置情報を抽出する非テキストコンテンツ位置情報抽出工程と、(3)代表位置表現判定手段が、非テキストコンテンツ位置情報抽出手段により抽出された各位置情報が示す位置と、位置表現抽出手段により抽出された各位置表現の位置座標情報が示す位置との間の距離を求め、各非テキストコンテンツの各位置情報が示す位置から距離が最小となる位置表現を代表位置表現と判定して出力する代表位置表現判定工程とを有することを特徴とする。
第3の本発明の位置表現抽出プログラムは、コンピュータが、少なくとも、複数の位置表現と、これら各位置表現の位置を特定する位置座標情報とを対応付けて格納する位置表現・位置座標情報対応テーブルを有し、コンピュータを、(1)入力された文書から1又は複数の位置表現を抽出し、位置表現・位置座標情報対応テーブルを参照して、抽出した各位置表現の位置座標情報を求める位置表現抽出手段、(2)文書から1又は複数の非テキストコンテンツを抽出し、各非テキストコンテンツに含まれている1又は複数の位置情報を抽出する非テキストコンテンツ位置情報抽出手段、(3)非テキストコンテンツ位置情報抽出手段により抽出された各位置情報が示す位置と、位置表現抽出手段により抽出された各位置表現の位置座標情報が示す位置との間の距離を求め、各非テキストコンテンツの各位置情報が示す位置から距離が最小となる位置表現を代表位置表現と判定して出力する代表位置表現判定手段として機能させるものである。
本発明によれば、処理対象である入力文書の主題に強く関連する位置表現を判定することで、当該文書の主題に最適な位置表現を抽出することができる。
(A)第1の実施形態
以下、本発明の位置表現抽出装置、方法及びプログラムの第1の実施形態を図面を参照しながら詳細に説明する。
第1の実施形態は、本発明の位置表現抽出装置、方法及びプログラムを利用して、入力されたウェブ文書(例えば、HTML(HyperText Markup Language)言語で記述されたウェブページなど)から主題に関連する位置表現を抽出する実施形態を例示して説明する。
(A−1)第1の実施形態の構成
図1は、第1の実施形態の位置表現抽出装置10の内部構成を示す内部構成図である。図1において、第1の実施形態の位置表現抽出装置10は、位置表現抽出部11、非テキストコンテンツ位置情報抽出部12、代表位置表現判定部13、位置表現・位置座標対応情報テーブル14を少なくとも有して構成される。
なお、第1の実施形態の位置表現抽出装置10の機能はソフトウェア処理により実現されるものである。つまり、例えば、位置表現抽出部11と非テキストコンテンツ位置情報抽出部12と位置表現判定部13は、専用の制御デバイスあるいは、プログラムを実行するプロセッサと、そのプロセッサで実行するプログラムとデータを記憶するRAM(Random Access Memory)、ROM(Read Only Memory)、HDD(Hard Disk Drive)などの記憶デバイスを含むハードウェア資源により実現される。
位置表現抽出部11は、入力されたウェブ文書15から1又は複数の位置表現を抽出し、位置表現・位置座標対応情報テーブル14を参照しながら、この抽出した各位置表現に対応する位置座標を求めるものである。また、位置表現抽出部11は、抽出した各位置表現の位置座標を代表位置表現判定部13に与えるものである。
また、位置表現抽出部11による位置表現の抽出方法としては、種々の方法を適用することができるが、例えば、予め設定された複数の位置表現を格納する位置表現データベースを参照して、パターンマッチングにより、ウェブ文書15から位置表現を抽出する方法を適用することができる。
そのため、例えばパターンマッチングにより位置表現を抽出する位置表現抽出部11の内部構成としては図2に示すような構成を備える。
図2は、位置表現抽出部11の内部構成を示す内部構成図である。図2に示すように、位置表現抽出部11は、位置表現抽出実行部111、位置表現データベース112を少なくとも有して構成される。
位置表現抽出実行部111は、位置表現データベース112を参照しながら、入力されたウェブ文書15から、パターンマッチングにより位置表現を抽出するものである。パターンマッチング技術は種々の方法を適用することができ、例えば、位置表現データベース112に格納される位置表現と一致する文字列を抽出する。なお、完全一致しない場合でも、一部に位置表現を含む文字列を抽出するようにしてもよい。
位置表現データベース112は、予め設定された複数の位置表現を格納するデータベースである。
なお、図2では、位置表現データベース112を有する場合を示したが、位置表現・位置座標対応情報テーブル14を用いて、位置表現・位置座標対応情報テーブル14に格納されている複数の位置表現とパターンマッチングにより抽出するようにしてもよい。
非テキストコンテンツ位置情報抽出部12は、入力されたウェブ文書15を構成する非テキストコンテンツ(例えば、静止画像、動画像、音声など)に含まれる1又は複数の位置情報を抽出し、この抽出した各位置情報の位置座標を求めるものである。また、非テキストコンテンツ位置情報抽出部12は、抽出した各位置表現の位置情報を代表位置表現判定部13に与えるものである。
ここで、非テキストコンテンツとしては、例えば、ウェブ文書に含まれる静止画像、動画像、音声などが該当する。また、これら非テキストコンテンツから位置情報を抽出する方法としては、その非テキストコンテンの種類に応じて、種々の方法を適用することができる。
図3は、非テキストコンテンツが静止画像である場合、この静止画像に含まれる位置情報を抽出するときの非テキストコンテンツ位置情報抽出部12の内部構成を示す内部構成図である。
図3に示すように、非テキストコンテンツ位置情報抽出部12は、メタデータ検出部121、位置情報抽出部122を少なくとも有するものである。
メタデータ検出部121は、入力されたウェブ文書15に含まれている静止画像データから、当該静止画像データに含まれているメタデータを検出するものである。
ここで、メタ情報について説明する。例えば、デジタルカメラなどで撮影された画像データには、当該静止画像に関連する情報が例えばExif(Exchangeable Image File Format)形式のメタデータとして付与されている。そこで、メタデータ検出部121は、静止画像データから、このメタデータを抽出するようにする。
なお、非テキストコンテンツの種類は静止画像に限定されるものではなく、また静止画像のメタデータの規格形式も特に限定されるものではなく、種々のものを広く適用することができる。
位置情報抽出部122は、メタデータ検出部121により検出されたメタデータを受け取り、このメタデータに含まれる1又は複数の位置情報を抽出するものである。
代表位置表現判定部13は、位置表現抽出部11により抽出された位置表現の位置情報と、非テキストコンテンツ位置情報抽出部12により抽出された位置表現の位置情報とに基づいて、ウェブ文書15の主題に関連する位置表現を求め、この位置表現を代表位置表現リスト16として出力するものである。
ここで、代表位置表現判定部13による代表位置表現の求める方法としては、非テキストコンテンツ位置情報抽出部12により抽出された位置表現の位置情報を基準とする。そして、位置表現抽出部11からの位置表現の位置情報の中から、上記基準点に最も近いものを代表位置表現とする方法を適用することができる。これは、ウェブ文書15に含まれている非テキストコンテンツの位置情報がウェブ文書15の主題に強く関連する場合が多いからである。
位置表現・位置座標対応情報テーブル14は、複数の位置表現と各位置表現の位置座標情報とを対応付けたテーブルであり、例えば、HDD、ROM等の記憶デバイスに記憶されるものである。
図4は、位置表現・位置座標対応情報テーブル14の構成例を示す構成図である。図4に示すように、位置表現・位置座標対応情報テーブル14は、「位置表現141」、「緯度142」、「経度143」を管理項目として有する。
「位置表現141」は、位置を表現するものを格納し、例えば、住所、施設名、建物名、スポット名などが該当する。「緯度142」、「経度143」は、対応する位置表現の位置座標情報とするものである。
なお、ここで説明した第1の実施形態の位置表現抽出装置10の構成は、機能別に説明したものであり、実現するハードウェアの物理構成が各部分毎に明確に分離され、独立に用意される必要はない。
例えば位置表現抽出部11と非テキストコンテンツ位置情報抽出部12と位置表現判定部13を実現するプロセッサとRAM、ROMは共通のものであってもよく、さらにプログラムを格納するHDDは位置表・位置座標対応テーブル14のHDDと共通のものであってもよく、さらには他の機能を実現する装置の一部を利用してもよい。また、本装置の構成する部分の一部はネットワークで接続された他の場所に分散配置してもよい。
(A−2)第1の実施形態の動作
次に、第1の実施形態の位置表現抽出装置10による位置表現抽出処理について図面を参照しながら説明する。
図5は、この実施形態の動作説明で用いる、処理対象のウェブ文書15の内容例を示すものである。
図5において、ウェブ文書15は、テキスト文書151、非テキストコンテンツ152、広告データ153、を有して構成されるものとする。
非テキストコンテンツ152は、例えばデジタルカメラ等により撮像された静止画像であり、この静止画像には位置情報を含むExif形式のメタデータが付与されているものとする。
広告データ153は、例えば、ユーザが作成したウェブ文書15に付与された広告データであり、広告主の住所が付与されているものとする。
この広告データ153は、テキスト文書、静止画像・動画像などの非テキストコンテンツなどを組み合わせて構成されるものであってよい。また、第1の実施形態の位置表現抽出装置10は、この広告データについても、テキスト文書と非テキストコンテンツとに応じた位置情報の抽出が可能である。
図5に示す例では、広告データ153は、テキスト文書として、「A電気工業」、「大阪府大阪市中央区本町X−Y−Z」を含むものとする。
図6は、第1の実施形態の位置表現抽出処理の動作を示すフローチャートである。
まず、処理対象のウェブ文書15が位置表現抽出装置10に入力されると、位置表現抽出部11により、ウェブ文書15からすべての位置表現が抽出される(ステップS101)。
例えば、図5に示すウェブ文書15が入力されると、位置表現抽出部11は、ウェブ文書15から、「大阪府大阪市中央区X−Y−Z」、「大阪城」、「大阪ドーム」を抽出する。
ステップ102では、ステップ101において抽出した位置表現の数を調べ、1個も取得できなかった場合は結果なしとして処理を終了する(ステップS102)。
一方、1個以上の位置表現を取得できた場合には、ステップS103に移行する。この実施形態の動作説明の例では、3個の位置表現を取得できたので、ステップS103に移行する。
次に、位置表現抽出部11では、位置表現・位置座標対応情報テーブル14を参照して、各位置表現に対応する位置座標情報(緯度情報、経度情報)を取得する(ステップS103)。
例えば、「大阪府大阪市中央区本町X−Y−Z」の位置表現に対して「緯度34.6841 経度135.5040」が取得され、「大阪ドーム」の位置表現に対して「緯度34.6694 経度135.4760」が取得され、「大阪城」の位置表現に対して「緯度34.6874 経度135.5259」が取得される。
また、非テキストコンテンツ位置情報抽出部12では、ウェブ文書15からすべての非テキストコンテンツが抽出される(ステップS104)。
例えば、ウェブ文書15には非テキストコンテンツ152として「大阪城の写真」が含まれているので、非テキストコンテンツ位置情報抽出部12はこの「大阪城の写真」を抽出する。
ステップS105では、ステップS104において抽出された非テキストコンテンツの数を調べ、1個取得できなかった場合にはステップS108に移行し、代表位置表現判定部13は、位置表現抽出部11からのすべての位置表現が選択されたものとみなされ、すべての位置表現をリストとして出力し、処理を終了する(ステップS108)。
一方、1個以上の非テキストコンテンツが抽出されると、ステップS106に移行する。この実施形態の動作説明では、1個の非テキストコンテンツ152が抽出されたので、ステップS108に移行する。
次に、非テキストコンテンツでは、抽出された非テキストコンテンツに含まれるメタデータを抽出し、このメタデータから位置情報を抽出する(ステップS106)。
このとき、複数個の非テキストコンテンツがある場合には、複数個の非テキストコンテンツのそれぞれの位置情報を抽出し、複数の位置情報を取得するようにしてもよい。さらに、1個の非テキストコンテンツのメタデータから複数の位置情報を取得するようにしてもよい。例えば、Exif形式のメタデータからは、撮影場所と撮影対象の場所の2個の位置情報が得られることがある。この場合には、それぞれの位置情報を抽出する。
また、メタデータから取得する位置情報が緯度情報・経度情報ではない場合もある。この場合、例えばメタデータの位置情報として「位置表現」が格納されているのであれば、非テキストコンテンツ位置情報抽出部12は、位置表現・位置座標対応情報テーブル12を用いて緯度情報・経度情報を求めるようにしてもよい。
例えば、この実施形態の動作説明では、非テキストコンテンツ152である「大阪城の写真」のメタデータには、「緯度34.6880 経度135.5344」の位置情報が付加されているものとする。そこで、非テキストコンテンツ位置情報抽出部12は、この「緯度34.6880 経度135.5344」を抽出する。
ステップS101において位置表現抽出部11により抽出された位置表現は、代表位置表現判定部13に与えられる。また、非テキストコンテンツ位置情報抽出部12により取得された位置情報も、代表位置表現判定部13に与えられる。
そして、代表位置表現判定部13により、位置表現抽出部11により抽出された位置表現の中から、ウェブ文書15の主題に強く関連する位置表現(代表位置表現)が選択される(ステップS107)。
このとき、代表位置表現判定部13は、非テキストコンテンツ位置情報抽出部12からの位置情報を基準点として、代表位置表現を選択する。
このように、非テキストコンテンツの位置情報を基準として利用することは、例えば、画像がウェブ文書15に含まれている場合、その画像がウェブ文書15の主題に強く関連している可能性が非常に高いからである。
これにより、ウェブ文書15の主題に最も強く関連する位置表現を判定し、この位置表現を代表位置表現として出力することができる(ステップS108)。その結果、当該ウェブ文書15に最適な位置表現を出力することができる。
例えば、非テキストコンテンツ152の位置情報が「緯度34.6880 経度135.5344」であるから、代表位置表現判定部13は、この緯度情報・経度情報を基準点とする。
そして、代表位置表現判定部13は、位置表現「大阪府大阪市中央区X−Y−Z」、「大阪城」、「大阪ドーム」のそれぞれの緯度情報・経度情報を用いて、基準点に最も近い距離の位置表現を選択する。
このとき、代表位置表現判定部13は、種々の方法を適用して、各位置表現の位置座標情報と基準点との間の距離を求めることができる。例えば、球面三角法などを用いて厳密に計算しても良いし、また例えば直角三角形の公式を用いた簡単なものでも良い。
そうすると、代表位置表現判定部13は、基準点「緯度34.6880 経度135.5344」に対して、最も距離が近いものは「大阪城」(緯度34.6874経度135.5259)であると判定し、この位置表現「大阪城」を代表位置表現として選択し、選択された代表位置表現リスト16を出力して終了する。
(A−3)第1の実施形態の効果
以上のように、第1の実施形態によれば、対象とするウェブ文書に複数の位置表現が存在する場合において、非テキストコンテンツから求めた位置情報を基準として、この基準から最も距離が近い位置表現を出力することで、対象のウェブ文書の主題に関連の強い位置表現を選択及び出力することが可能となる。
(B)他の実施形態
第1の実施形態では、処理対象として「ウェブ文書」を例示して説明したが、一般的なHTML言語で記述されたウェブページに限定されるものではない。また、例えば、RDFやPDFなどいわゆるリッチメディアと呼ばれる、テキストとそれ以外のさまざまなメディア情報(非テキストコンテンツ)を併せ持つ文書に適用することができる。
第1の実施形態において、代表位置表現判定部13は、非テキストコンテンツの位置情報が示す位置との間の距離が最も近い位置表現を選択し、この1個の位置表現を出力する場合を例示した。しかし、基準点からの距離が近い順に複数個の位置表現を並べ替えて、これら複数の位置表現を出力してもよい。これにより、文書の主題の関連度に応じた優先順位で位置表記を出力することができる。また、この場合、予め定めた個数の位置表現を出力するようにしてもよい。
さらに、主題とは無関係の非テキストコンテンツによる悪影響を抑えるために、すべての位置表現又は一部の位置表現と基準点との距離が、予め設定された閾値よりも大きな距離の位置表現しか存在しない場合は、その非テキストコンテンツに対する代表位置表現をあえて出力しないようにしてもよい。
第1の実施形態の説明においては、ウェブ文書に含まれる非テキストコンテンツの個数は1個であったが、複数の非テキストコンテンツが含まれるウェブ文書にも適用できる。この場合、各非テキストコンテンツに対応した代表位置表現が選択され、複数出力される。
非テキストコンテンツの位置情報が示す位置が複数ある場合、各位置情報の位置毎に、代表位置表現を出力するようにしてもよい。
第1の実施形態では、非テキストコンテンツが、例えばデジタルカメラなどで撮影した静止画像の場合を例示して説明したが、第1の実施形態でも示したが、動画像や音声などの場合にも適用できる。この場合、非テキストコンテンツ位置情報抽出部は、動画像データや音声データの設定データを検出し、この設定データから位置情報を抽出することで実現することができる。
第1の実施形態の位置表現抽出装置の内部構成を示す内部構成図である。 第1の実施形態の位置表現抽出部の内部構成を示す内部構成図である。 第1の実施形態の非テキストコンテンツ位置情報抽出部の内部構成を示す内部構成図である。 第1の実施形態の位置表現・位置座標対応情報テーブルの構成を示す構成図である。 第1の実施形態のウェブ文書の内容を示す説明図である。 第1の実施形態の位置表現抽出処理の動作を示すフローチャートである。
符号の説明
10…位置表現抽出装置、11…位置表現抽出部、12…非テキストコンテンツ位置情報抽出部、13…代表位置表現判定部、14…位置表現・位置座標対応情報テーブル。

Claims (7)

  1. 少なくとも、複数の位置表現と、これら各位置表現の位置を特定する位置座標情報とを対応付けて格納する位置表現・位置座標情報対応テーブルと、
    入力された文書から1又は複数の位置表現を抽出し、上記位置表現・位置座標情報対応テーブルを参照して、抽出した上記各位置表現の位置座標情報を求める位置表現抽出手段と、
    上記文書から1又は複数の非テキストコンテンツを抽出し、上記各非テキストコンテンツに含まれている1又は複数の位置情報を抽出する非テキストコンテンツ位置情報抽出手段と、
    上記非テキストコンテンツ位置情報抽出手段により抽出された上記各位置情報が示す位置と、上記位置表現抽出手段により抽出された上記各位置表現の位置座標情報が示す位置との間の距離を求め、上記各非テキストコンテンツの各位置情報が示す位置から距離が最小となる位置表現を代表位置表現と判定して出力する代表位置表現判定手段と
    を備えることを特徴とする位置表現抽出装置。
  2. 上記代表位置表現判定手段は、上記各非テキストコンテンツの上記各位置情報が示す位置と、抽出された上記各位置表現の位置座標情報が示す位置との距離に応じて、上記各位置表現に対して優先順位を付与することを特徴とする請求項1に記載の位置表現抽出装置。
  3. 上記代表位置表現判定手段は、当該非テキストコンテンツの上記位置情報が示す位置と、抽出されたすべての上記位置表現の位置座標情報が示す位置との距離が、予め定めた閾値より大きい場合、当該非テキストコンテンに対する代表位置表現を選択しないことを特徴とする請求項1又は2に記載の位置表現抽出装置。
  4. 上記代表位置表現判定手段は、上記各非テキストコンテンツの上記各位置情報が示す位置と、抽出された上記各位置表現の位置座標情報が示す位置との距離が最小となる位置表現を出力することに代えて、上記各非テキストコンテンツの上記各位置情報が示す位置と、抽出された上記各位置表現の位置座標情報が示す位置との距離が小さい順に複数の位置表現を並べ替えて、予め定められた個数の上記各位置表現を出力することを特徴とする請求項1〜3のいずれかに記載の位置表現抽出装置。
  5. 上記非テキストコンテンツ位置情報抽出手段は、上記各非テキストコンテンツに含まれる上記位置情報が位置座標情報でない場合、上記位置表現・位置座標情報対応テーブルを参照して、上記各非テキストコンテンツの各位置情報から位置座標情報を取得することを特徴とする請求項1に記載の位置表現抽出装置。
  6. コンピュータが、少なくとも、複数の位置表現と、これら各位置表現の位置を特定する位置座標情報とを対応付けて格納する位置表現・位置座標情報対応テーブルと、位置表現抽出手段と、非テキストコンテンツ位置情報抽出手段と、代表位置表現判定手段とを備え、
    上記位置表現抽出手段が、入力された文書から1又は複数の位置表現を抽出し、上記位置表現・位置座標情報対応テーブルを参照して、抽出した上記各位置表現の位置座標情報を求める位置表現抽出工程と、
    上記非テキストコンテンツ位置情報抽出手段が、上記文書から1又は複数の非テキストコンテンツを抽出し、上記各非テキストコンテンツに含まれている1又は複数の位置情報を抽出する非テキストコンテンツ位置情報抽出工程と、
    上記代表位置表現判定手段が、上記非テキストコンテンツ位置情報抽出手段により抽出された上記各位置情報が示す位置と、上記位置表現抽出手段により抽出された上記各位置表現の位置座標情報が示す位置との間の距離を求め、上記各非テキストコンテンツの各位置情報が示す位置から距離が最小となる位置表現を代表位置表現と判定して出力する代表位置表現判定工程と
    を有することを特徴とする位置表現抽出方法。
  7. コンピュータが、少なくとも、複数の位置表現と、これら各位置表現の位置を特定する位置座標情報とを対応付けて格納する位置表現・位置座標情報対応テーブルを有し、
    コンピュータを、
    入力された文書から1又は複数の位置表現を抽出し、上記位置表現・位置座標情報対応テーブルを参照して、抽出した上記各位置表現の位置座標情報を求める位置表現抽出手段、
    上記文書から1又は複数の非テキストコンテンツを抽出し、上記各非テキストコンテンツに含まれている1又は複数の位置情報を抽出する非テキストコンテンツ位置情報抽出手段、
    上記非テキストコンテンツ位置情報抽出手段により抽出された上記各位置情報が示す位置と、上記位置表現抽出手段により抽出された上記各位置表現の位置座標情報が示す位置との間の距離を求め、上記各非テキストコンテンツの各位置情報が示す位置から距離が最小となる位置表現を代表位置表現と判定して出力する代表位置表現判定手段
    として機能させる位置表現抽出プログラム。
JP2007277705A 2007-10-25 2007-10-25 位置表現抽出装置、方法及びプログラム Expired - Fee Related JP5223293B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007277705A JP5223293B2 (ja) 2007-10-25 2007-10-25 位置表現抽出装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007277705A JP5223293B2 (ja) 2007-10-25 2007-10-25 位置表現抽出装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2009104528A JP2009104528A (ja) 2009-05-14
JP5223293B2 true JP5223293B2 (ja) 2013-06-26

Family

ID=40706116

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007277705A Expired - Fee Related JP5223293B2 (ja) 2007-10-25 2007-10-25 位置表現抽出装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5223293B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5533510B2 (ja) * 2010-09-29 2014-06-25 日本電気株式会社 コンテンツ作成支援装置、及び、コンテンツ作成支援装置の制御プログラム
JP5731940B2 (ja) * 2011-09-29 2015-06-10 株式会社Nttドコモ テキスト位置判定装置及びテキスト位置判定方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004280659A (ja) * 2003-03-18 2004-10-07 Kddi Corp 住所情報の自動抽出方法、抽出装置、位置情報提供方法及び提供装置
JP2007052581A (ja) * 2005-08-17 2007-03-01 Sony Corp メタデータ生成装置、メタデータ生成システム、これらにおける処理方法ならびに当該方法をコンピュータに実行させるプログラム
JP4232774B2 (ja) * 2005-11-02 2009-03-04 ソニー株式会社 情報処理装置および方法、並びにプログラム

Also Published As

Publication number Publication date
JP2009104528A (ja) 2009-05-14

Similar Documents

Publication Publication Date Title
JP5353148B2 (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
US10437907B2 (en) Link expansion service
US9361317B2 (en) Method for entity enrichment of digital content to enable advanced search functionality in content management systems
JP2010073114A6 (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
US9928415B2 (en) Mathematical formula learner support system
JP2009122760A (ja) 文書処理装置、文書処理方法及び文書処理プログラム
US7899808B2 (en) Text enhancement mechanism
KR20100139012A (ko) 웹-기반 데스크톱 생산성 응용 프로그램을 통한 멀티미디어 파일의 삽입
JP2010538386A (ja) クエリ別検索コレクション生成方法およびシステム
US8850359B2 (en) Image processor and image processing method
JP5627332B2 (ja) データ検索装置及びその制御方法、コンピュータプログラム
JP2010262638A (ja) 代表者の信頼度を用いた検索結果順位化装置および方法
US9898463B2 (en) Document management server, document management method, and non-transitory storage medium storing program
JP7290391B2 (ja) 情報処理装置及びプログラム
JP5223293B2 (ja) 位置表現抽出装置、方法及びプログラム
US20090313558A1 (en) Semantic Image Collection Visualization
JP2007011973A (ja) 情報検索装置及び情報検索プログラム
JP5712496B2 (ja) アノテーション復元方法、アノテーション付与方法、アノテーション復元プログラム及びアノテーション復元装置
JP4885678B2 (ja) コンテンツ作成装置及びコンテンツ作成方法
JP5765452B2 (ja) アノテーション付与復元方法及びアノテーション付与復元装置
JP2011054006A (ja) 画像のキーワード決定システム
JP2009110506A (ja) 情報処理装置及び情報処理プログラム
JP2010009414A (ja) 関連情報登録装置、関連情報登録方法および関連情報登録プログラム
JP2005293123A (ja) コンテンツフィルタリングシステム、その方法およびプログラム
JP2008046850A (ja) 文書種類判別装置及び文書種類判別プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100811

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120719

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120731

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120927

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130225

R150 Certificate of patent or registration of utility model

Ref document number: 5223293

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160322

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees