JP5154132B2 - 名称変換認知装置、方法 - Google Patents

名称変換認知装置、方法 Download PDF

Info

Publication number
JP5154132B2
JP5154132B2 JP2007107243A JP2007107243A JP5154132B2 JP 5154132 B2 JP5154132 B2 JP 5154132B2 JP 2007107243 A JP2007107243 A JP 2007107243A JP 2007107243 A JP2007107243 A JP 2007107243A JP 5154132 B2 JP5154132 B2 JP 5154132B2
Authority
JP
Japan
Prior art keywords
name
unique name
unique
proper
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007107243A
Other languages
English (en)
Other versions
JP2008269014A (ja
Inventor
祐 宮崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2007107243A priority Critical patent/JP5154132B2/ja
Publication of JP2008269014A publication Critical patent/JP2008269014A/ja
Application granted granted Critical
Publication of JP5154132B2 publication Critical patent/JP5154132B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、名称を変換する装置に関する。更に詳しくは、施設名や地名等を含む固有名が変更された場合に旧い固有名を新しい固有名に変換する装置、方法、及びプログラムに関する。
従来より、市町村合併等により地名を変更する場合の方法として、変更された最新の地名のリストと従来のリストとを比較し、比較の結果が異なる場合に操作者の指示の下に地名を変換する方法が知られている(特許文献1参照)。また、最近の命名権ビジネス等の普及により、公共の施設の名称が変更される場合が増加しているが、この命名権は契約なので契約の満了に伴い元の名称に戻ったり、別の契約の成立により更に別の名称になったりすることがある。
このような変更された新しい地名等の固有名は、公共のメディアを通して普及するが、新しい固有名にいっせいに変更すると、固有名がなくなったかのように思え、混乱を招きかねない。しかし、新しい固有名と旧い固有名との併記は、できるだけ早期に解消したい。
一方、近年のインターネットの普及により、掲示板(BBS)やblog(Weblog)では、地名等の固有名の変更という身近な話題が、テキストデータとして大量に提供されている。そして、これらの膨大なデータから有益な情報を得るための試みがなされている。特に、膨大な文書データのなかから有益な情報を発掘する方法として、自然言語処理とデータマイニングとによるテキストマイニングを試みる方法が注目されている(非特許文献1参照)が、これらの方法によったとしても、地名等の固有名の変更に関する有益な情報が簡単に得られるわけではない。
特開平9−198450号公報 奥村学、南野朋之、藤木稔明、鈴木泰裕、「blogページの自動収集と監視に基づくテキストマイニング」、人工知能学会研究会資料SIG−SW&ONT−A401−01
しかしながら、地名等の固有名の変更に伴う混乱や不都合が発生しないようにしながら、旧い固有名を新しい固有名に変換するには、新しい固有名がどのように受け入れられつつあるかの情報が不可欠である。その情報を得るためには、インターネット上の、速報性やリアルタイム性がある大量のデータから、変更された固有名が実際にどのように認知されているかに関する情報を取得し、新しい固有名に変換する方法や時期等に反映させることが有望である。
本発明は、地名等の固有名が変更された場合に、新しい固有名の実際の認知のされ方を反映して、旧い固有名を新しい固有名に変換する装置を提供することを目的とする。
上述した課題を解決するために、本発明は、以下のようなものを提供する。
(1) 物や場所を表す固有名が変更された場合に、変更前の名前と変更後の名前を抽出し、変換するための名称変換認知装置であって、インターネットと通信を行う通信部と、前記通信部を介して取得した日付情報を含むテキスト文について、自然言語処理による解析を行い、前記固有名を検出し、検出した回数により前記固有名の注目度を判定する固有名バースト判定部と、前記注目度について前記固有名バースト判定部が所定の値以上と判定した第1の固有名と共起の関係にある第2の固有名を検出する共起固有名検出部と、前記共起固有名検出部が検出した共起の関係を時系列化した時系列データを作成する共起時系列作成部と、前記共起時系列作成部が作成した前記時系列データを基に、前記第1の固有名と前記第2の固有名との共起の関係が出現した時期を検出する出現時期検出部と、前記出現時期検出部が検出した前記出現した時期の後において、前記第1の固有名と前記第2の固有名との関係を示す情報を含んだ、前記第1の固有名と前記第2の固有名との固有名対応表を作成する対応表作成部と、を備えることを特徴とする名称変換認知装置。
(1)の構成によれば、名称変換認知装置において、通信部を介して取得した日付情報を含むテキスト文(例えば、blogや掲示板等のテキスト)について、固有名バースト判定部は、自然言語処理による解析(例えば、形態素解析、構文解析等)を行い、固有名を検出し、注目度を判定する。そして、共起固有名検出部は、注目度について固有名バースト判定部が所定の値以上と判定した第1の固有名と共起の関係にある第2の固有名を検出する。更に、共起時系列作成部は、共起の関係にある第1の固有名と第2の固有名について時系列データを作成する。そして、出現時期検出部が、時系列データを基に、共起関係が出現する時期を検出し、対応表作成部が、その出現する時期の後において、第1の固有名と第2の固有名との関係を示す情報を含んだ、第1の固有名と第2の固有名との固有名対応表を作成する。
このことにより、本発明は、インターネット上の大量の文書データを解析し、共起の関係にある2つの固有名を検出し、ある時期から共起の関係が出現し、出現後の関係を含んだ固有名対応表を作成するので、新しい固有名が実際に認知されはじめ、その後の認知のされ方をも含めた、実際の実情にあった固有名の変換が可能になる。したがって、新しい固有名の実際の認知のされ方を反映して、旧い固有名を新しい固有名に変換することができる。その結果、固有名の変更による混乱や不都合が発生しない可能性が高くなる。
(2) (1)に記載の名称変換認知装置において、前記固有名は、施設名、地名、住所であることを特徴とする名称変換認知装置。
(2)の構成によれば、固有名は、施設名、地名、住所である。このことにより、本発明は、インターネット上の大量の文書データを解析し、共起の関係にある2つの施設名、地名、住所等を検出し、ある時期から共起の関係が出現し、出現後の関係を含んだ固有名対応表を作成するので、新しい施設名、地名、住所等が実際に認知されはじめ、その後の認知のされ方をも含めた、実際の実情にあった施設名、地名、住所等の変換が可能になる。したがって、新しい施設名、地名、住所等の実際の認知のされ方を反映して、旧い施設名、地名、住所等を新しい施設名、地名、住所等に変換することができる。その結果、施設名、地名、住所等の変更による混乱や不都合が発生しない可能性が高くなる。
(3) (1)又は(2)に記載の名称変換認知装置において、前記特定の関係には、前記第1の固有名を検出した回数と前記第2の固有名を検出した回数との和に対する前記第2の固有名の検出の回数の割合が、所定の割合以上となることが含まれることを特徴とする名称変換認知装置。
(3)の構成によれば、(1)又は(2)に記載の名称変換認知装置において、対応表作成部は、第1の固有名と、第2の固有名との共起が出現した時期の後、第1の固有名の出現数と第2の固有名の出現数との和に対する第2の固有名の出現率が増加し、所定の割合以上となっている情報を含んだ、第1の固有名と第2の固有名との固有名対応表を作成する。
このことにより、第2の固有名が、認知されている情報を含んだ固有名対応表を作成するので、実際に、新しい固有名の認知のされ方を反映させた、名称変換装置を提供することができる。
(4) (1)乃至(3)に記載の名称変換認知装置において、前記通信部を介して、指定された地図データベースの前記第1の固有名を取得し、前記固有名対応表に基づいて、前記第1の固有名と対応する前記第2の固有名に変換することを特徴とする名称変換認知装置。
(4)の構成によれば、通信部を介して、地図データベースの旧い固有名(第1の固有名)を取得し、固有名対応表に基づき新しい固有名(第2の固有名)に変換する。
このことにより、実際に、新しい固有名等の認知のされ方を、地図データベースに反映させることができる。
(5) (1)乃至(4)に記載の名称変換認知装置において、前記通信部を介して、前記第1の固有名の問合せを取得し、前記固有名対応表に基づいて、前記第2の固有名を応答することを特徴とする名称変換認知装置。
(5)の構成によれば、通信部を介して、第1の固有名の問合せを取得し、固有名対応表に基づいて新しい固有名を応答する。
このことにより、新しい固有名等の実際の認知のされ方を反映させて、固有名の問合せに対し、新しい固有名を応答することができる。固有名が変更された場合には、検索の効率が落ちるが、この機能により応答した固有名についても検索すれば検索の効率の低下を防ぐことができる。
(6) 物や場所を表す固有名が変更された場合に、変更前の名前と変更後の名前を抽出し、変換する方法であって、インターネットと通信を行うステップと、前記通信を介して取得した日付情報を含むテキスト文について、自然言語処理による解析を行い、前記固有名を検出し、検出した回数により前記固有名の注目度を判定するステップと、前記注目度について前記固有名バースト判定部が所定の値以上と判定した第1の固有名と共起の関係にある第2の固有名を検出するステップと、前記検出した共起の関係を時系列化した時系列データを作成するステップと、前記作成した前記時系列データを基に、前記第1の固有名と前記第2の固有名との共起の関係が出現した時期を検出するステップと、前記出現した時期の後において、前記第1の固有名と前記第2の固有名との関係を示す情報を含んだ、前記第1の固有名と前記第2の固有名との固有名対応表を作成するステップと、を含む方法。
(6)の構成によれば、インターネットと通信を行い、通信を介して取得した日付情報を含むテキスト文について、自然言語処理による解析を行い、施設の名称を含む固有名を検出し、検出した回数により注目度を判定する。その後、注目度について所定の値以上と判定した第1の固有名と共起の関係にある第2の固有名を検出し、検出した共起の関係を時系列化した時系列データを作成する。更に、作成した時系列データを基に、第1の固有名と第2の固有名との共起の関係が出現した時期を検出し、出現した時期の後において、第1の固有名と第2の固有名との関係を示す情報を含んだ、第1の固有名と第2の固有名との固有名対応表を作成する。
このことにより、本発明の方法は、インターネット上の大量の文書データを解析し、共起の関係にある2つの固有名を検出し、ある時期からの共起の関係の出現を検出し、出現後の関係を含んだ固有名対応表を作成するので、新しい固有名が実際に認知されはじめ、その後の認知のされ方をも含めた、実際の実情にあった固有名の変換が可能になる。したがって、本発明の方法は、新しい固有名の実際の認知のされ方を反映して、旧い固有名を新しい固有名に変換することができる。その結果、固有名の変更による混乱や不都合が発生しない可能性が高くなる。
(7) 物や場所を表す固有名が変更された場合に、変更前の名前と変更後の名前を抽出し、変換するコンピュータ・プログラムであって、インターネットと通信を行うステップと、前記通信を介して取得した日付情報を含むテキスト文について、自然言語処理による解析を行い、前記固有名を検出し、検出した回数により前記固有名の注目度を判定するステップと、前記注目度について所定の値以上と判定した第1の固有名と共起の関係にある第2の固有名を検出するステップと、前記検出した共起の関係を時系列化した時系列データを作成するステップと、前記作成した前記時系列データを基に、前記第1の固有名と前記第2の固有名との共起の関係が出現した時期を検出するステップと、前記出現した時期の後において、前記第1の固有名と前記第2の固有名との関係を示す情報を含んだ、前記第1の固有名と前記第2の固有名との固有名対応表を作成するステップと、をコンピュータに実行させるコンピュータ・プログラム。
(7)の構成によれば、インターネットと通信を行い、通信を介して取得した日付情報を含むテキスト文について、自然言語処理による解析を行い、施設の名称を含む固有名を検出し、検出した回数により注目度を判定する。その後、注目度について所定の値以上と判定した第1の固有名と共起の関係にある第2の固有名を検出し、検出した共起の関係を時系列化した時系列データを作成する。更に、作成した時系列データを基に、第1の固有名と第2の固有名との共起の関係が出現した時期を検出し、出現した時期の後において、第1の固有名と第2の固有名との関係を示す情報を含んだ、第1の固有名と第2の固有名との固有名対応表をコンピュータに作成させることができる。
このことにより、本発明のコンピュータ・プログラムは、コンピュータに、インターネット上の大量のデータを解析させ、共起の関係にある2つの固有名を検出させ、ある時期からの共起の関係の出現を検出させ、出現後の関係を含んだ固有名対応表を作成させる。よって、新しい固有名が実際に認知されはじめ、その後の認知のされ方をも含めた、実際の実情にあった固有名の変換が可能になる。したがって、コンピュータは、新しい固有名の実際の認知のされ方を反映して、旧い固有名を新しい固有名に変換することができる。その結果、固有名の変更による混乱や不都合が発生しない可能性が高くなる。
本発明によれば、固有名が変更された場合に、新しい固有名の実際の認知のされ方を反映して、旧い固有名を新しい固有名に変換する装置を提供することができる。
本発明の一つの実施の形態として、名称変換認知装置10を例に挙げて説明する。この名称変換認知装置10は、通信部11と、固有名バースト判定部12と、共起固有名検出部13と、共起時系列作成部14と、出現時期検出部15と、対応表作成部16と、を備え、ている。以下、本発明の実施形態について、図に従って説明する。
図1は、名称変換認知装置10の動作環境を示す図である。名称変換認知装置10、サーバ20,30、クローラ40、地図サーバ50、クライアント60がネットワーク70(インターネット、LAN、WAN等)を介して接続されていることを示している。
サーバ20は、blog用のサーバとしてクライアント60がインターネットを介して書き込んだblogデータ(文書データ)を保存している。サーバ30は、掲示板用のサーバとしてクライアント60がインターネットを介して書き込んだ掲示板データ(文書データ)を保存している。クローラ40は、ウェブを巡回しホームページから文書データを収集し保存している。地図サーバ50は、地図に関するデータとして地図データや地名データ等を保存している。
図2は、名称変換認知装置10のハードウェア構成の一例を示す図である。名称変換認知装置10は、制御部101を構成するCPU(Central Processing Unit)1010(マルチプロセッサ構成ではCPU_A1012等複数のCPUが追加されてもよい)、バスライン1005、通信I/F1040、メインメモリ1050、BIOS(Basic Input Output System)1060、ハードディスク1070、並びにキーボード及びマウス1100等の入力手段や表示装置1022を備える。
BIOS1060は、名称変換認知装置10の起動時にCPU1010が実行するブートプログラムや、ハードウェアに依存するプログラム等を格納する。
ハードディスク1070は、名称変換認知装置10がサーバとして機能するための各種プログラム及び本発明の機能を実行するプログラムを記憶しており、更に必要に応じて各種データベースを構成可能である。
表示装置1022は、ユーザにデータの入力を受け付ける画面を表示したり、名称変換認知装置10による演算処理結果の画面を表示したりするものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
ここで、入力手段は、ユーザによる入力の受け付けを行うものであり、キーボード及びマウス1100等により構成してよい。
また、通信I/F1040は、名称変換認知装置10を専用ネットワーク又は公共ネットワークを介して端末と接続できるようにするためのネットワーク・アダプタである。
図3は、名称変換認知装置10の機能の構成と、構成部が処理するデータとの関連を示す図である。本装置は、ネットワークから収集した大量のデータ(例えば、クローラが収集したデータ)について、自然言語処理とデータマイニングとを行うテキストマイニングを行うことにより固有名対応表26を作成する。
通信部11は、クローラ等が定期的にネットワーク上のホームページ等から収集した大量の文書データである収集データ21を取得する。
固有名バースト判定部12は、通信部11が取得したテキスト文を自然言語処理することにより固有名を判別する。そして、データマイニング(例えば、出現数、出現率の算出)により注目度を判定し、年月日ごとに固有名と出現数、出現率及び注目度を含んだ固有名データ表22を作成する(後述する図8参照)。
本実施例では、自然言語処理として、形態素解析(文書を意味がわかる最小の単位に分割して、品詞を見分ける処理)、構文解析(それぞれの形態素がどう関係しているかを判断する処理)等を行い固有名を検出する。また、データマイニングを行い、注目度を算出する。本実施例では、年月日ごとに、検出した固有名の総出現数と、検出した固有名ごとの固有名出現数とをカウントし、固有名ごとの出現率(固有名出現数/総出現数)を算出する。また、出現数によるランキングを基に、注目度を作成する。
共起固有名検出部13は、テキスト文を自然言語処理することにより、共起が発生している固有名を検出し、年月日ごとの共起データ表23を作成する(後述する図9参照)。
本実施例では、固有名バースト判定部12が作成した固有名データ表22において、注目度の高い固有名を第1の固有名として、共起が発生している固有名を第2の固有名として検出する。共起を検出する条件として、例えば、前後10単語以内とする。これらの条件は、処理時に指定可能である。例えば、同一文内であることと指定することもできる。更に、特定の記号や語が伴うと指定することもできる。例えば、ヤフードーム(旧福岡ドーム)において使用される、第1の固有名の直後の記号()や:等、「旧」が伴うことを指定して、固有名の変更に関する共起を検出することもできる。
第1の固有名と共起する第2の固有名との関係の強さを計算する。関係の強さを測る尺度としては、相互情報量を求める方法もあるが、ここでは、シンプソン係数を用いた計算方法を用いることにする。シンプソン係数は、2つの語の共起の強さを測る尺度であり、次の数1の式で計算される。シンプソン係数は、スコア0〜1の範囲の値をとり、大きいほど共起が強い。
Figure 0005154132
共起時系列作成部14は、固有名データ表22と共起データ表23とに基づいて、共起の関係を時系列化した時系列データ表24を作成する(後述する図10)。固有名データ表22から注目度の高い固有名ごとに、年月を時系列とし、共起が発生している第2の固有名との一覧表である時系列データ表24を作成する(後述する図10)。
出現時期検出部15は、第1の固有名ごとの時系列データ表24から、特定の第2の固有名(例えば、第2の固有名について注目度が高い)との共起の発生だけについて注目した特定時系列データ表25を作成する(後述する図11)。そして、第2の固有名がある時期を境に共起が発生し、第2の固有名の出現数の増加の割合が所定の割合以上である場合に第2の固有名が出現したと判断する。所定の割合は、処理時に指定することが可能である。
対応表作成部16は、第1の固有名と第2の固有名との共起の出現を検出した場合に、第1の固有名と第2の固有名とを対応させた固有名対応表26を作成する。この固有名対応表26には、共起が出現した後において、第1の固有名と第2の固有名との関係を示す情報として認知度を含ませることができる。例えば、第2の固有名との共起が出現した後、第2の固有名の出現率が所定の割合以内であれば、認知度1とする。この場合は、第2の固有名の認知が進んでいないことを示し、例えば、固有名の表記に関しては併記の表現とする。また、第2の出現率が所定の割合以上であれば、認知度2とする。この場合は、第2の固有名の認知が進んでいることを示し、例えば、固有名の表記に関しては第2の固有名のみの表記とする。所定の割合は、第1の固有名の出現数と第2の固有名の出現数との和に対する第2の固有名の出現数の割合である。
図4は、名称変換認知装置10の処理内容を示すフローチャートである。
まず、ステップS101において、CPU1010は、自然言語処理を行う。具体的には、通信部11を介して取得したテキスト文に対し、形態素解析、構文解析等を行い、固有名の名詞を判別する。そして、所定の記憶領域に年月日ごとの固有名データ表22を作成する。
次に、ステップS102において、CPU1010は、固有名バースト判定処理を行う。具体的には、ステップS101で判別した固有名の出現率を算出し、ランキング付けを行い注目度を作成し、固有名データ表22に格納する。
次に、ステップS103において、CPU1010は、共起固有名検出処理を行う。具体的には、通信部11を介して取得したテキスト文を解析し、ステップS101で判別した固有名が、第2の固有名と共起していることを検出する。そして、所定の記憶領域に年月日ごとの共起データ表23を作成する。
次に、ステップS104において、1日分の処理が終了したか否かの判定を行う。1日分の処理が終了していない場合には、CPU1010は、次のデータを処理するためにステップS101へ行く。1日分の処理が終了した場合には、CPU1010は、次のステップS105へ行く。
次に、ステップS105において、CPU1010は、日付更新処理を行う。具体的には、データを処理する日付を更新する。
次に、ステップS106において、全データの処理が終了したか否かの判定を行う。具体的には、更新した日付に対応するデータがない場合には終了と判断する。全データの処理が終了していないと判断した場合には、CPU1010は、ステップS101へ行く。全データの処理が終了したと判断した場合には、次へ行く。
次に、ステップS107において、CPU1010は、時系列データ処理を行う。具体的には、固有名データ表22と共起データ表23とから第1の固有名ごとの時系列データ表24を作成する。
次に、ステップS108において、CPU1010は、出現時期検出処理を行う。具体的には、第1の固有名ごとの時系列データ表24から、特定の第2の固有名との共起の発生だけについて注目した特定時系列データ表25を作成する。そして、特定時系列対応表を分析し、第2の固有名がある時期を境に共起が発生し、第2の固有名の出現数の増加の割合が所定の割合以上である場合に第2の固有名が出現したと判断する。
次に、ステップS109において、CPU1010は、固有名対応表作成処理を行う。具体的には、第1の固有名に対し第2の固有名が出現したことが検出できた場合に第1の固有名と第2の固有名との対応するレコードを作成し固有名対応表26に格納する。更に特定時系列対応表を分析し、第2の固有名が出現した後において、第2の固有名の出現率についての認知度を算出後(後述する図13を参照)、格納し、処理を終了する。
図5は、名称変換認知装置10に対し、ネットワークを介して固有名の問合せが行われた場合の処理内容を示すフローチャートである。
まず、ステップS201において、CPU1010は、固有名問合せか否かを判断する。具体的には、通信I/F1040を介して受信した信号が、固有名についての所定の問合せであるか否かを判断する。固有名の問合せでないと判断した場合は、処理を終了する。固有名の問合せであると判断した場合は、次のステップへ行く。
次に、ステップS202において、CPU1010は、第2の固有名を応答する。具体的には、問合せの固有名を第1の固有名とし、固有名対応表26に基づき、第1の固有名に応じた第2の固有名を応答として送信し、処理を終了する。
図6は、名称変換認知装置10に対し、固有名の変更が要求された場合の処理内容を示すフローチャートである。
まず、ステップS301において、CPU1010は、指定された地図データベースから固有名を取得する。具体的には、指定された地図データベースと、通信I/F1040を介して所定の通信を行い、指定された地図データベースから固有名を取得する。
次に、ステップS302において、CPU1010は、地図データベースの固有名を変換する。具体的には、地図データベースから取得した固有名を第1の固有名とし、固有名対応表26に基づき、対応する第2の固有名に変換する。その後、地図データベースとの固有名変換プロトコルに従い、第2の固有名を送信し、処理を終了する。
図7は、ネットワークから収集したblogのテキスト文の例を示す図である。年月日は、blogに記載された日付を示している。blogに記載された日付が不完全な場合には、不足している情報を補完する。
図8は、固有名と、その固有名の出現数を年月日ごとに集計した値とからなる年月日ごとの固有名データ表22を示す図である。固有名は、固有名バースト判定部12が自然言語処理を行い検出した固有名である。出現数は、検出した固有名を検出ごとにカウントした数値である。総計は、出現数及び出現率の総和である。出現率は、個々の出現数を出現数の総和で割った値である。例えば、出現数の総和が1000の場合で、福岡ドームの出現数が400の場合は、福岡ドームの出現率は0.40である。注目度は出現率の高いものから順位をつけている。
図9は、年月日ごとに、検出した共起の固有名の組合せと、共起の出現数とからなる年月日ごとの共起データ表23を示す図である。
テキストを解析し第1の固有名と第2の固有名との共起が発生している共起出現数を年月日ごとに作成した共起データ表23を示す図である。第1の固有名は、固有名バースト判定部12が検出した固有名のうち、注目度が所定の値以上の固有名である。例えば、所定の値が3であれば注目度が3位以上、すなわち、固有名データ表22の注目度の値が1、2、3である固有名である。この所定の値は、処理時に設定可能である。第2の固有名は、第1の固有名との関係で共起が発生している固有名である。共起出現数は、共起が発生しているごとにカウントした数値である。共起率は、上述のシンプソン係数の算出式により算出した数値である。例えば、福岡ドームとヤフードームについて、R(福岡ドーム、ヤフードーム)=100/min(400,100)=1.00である。
図10は、年月日ごとの共起データ表23から、共起出現数を月ごとに集計し、時系列に並べた、第1の固有名ごとの時系列データ表24を示す図である。日付は、年月を示している。第1の固有名の出現数、第2の固有名の出現数、共起出現数は、それぞれ、年月日ごとの共起データ表23の対応する数値をその月で集計した値である。共起率は、集計した値を基に算出する。第2の固有名の注目度は、その月の第2の固有名の出現数を集計した値から求めている。
図11は、特定の第1の固有名と特定の第2の固有名とについて発生している共起を月ごとの時系列にした特定時系列データ表25を示す図である。日付は、年月を示している。第1の固有名の出現数、第2の固有名の出現数、共起出現数は、それぞれ、時系列データ表24の対応する数値と同じである。特定の第1の固有名と特定の第2の固有名との組合せごとに作成する。
特定の第1の固有名は、例えば、注目度1の固有名とし、特定の第2の固有名は注目度2の固有名として、特定時系列データ表25を作成する。同様に、注目度1の固有名を特定の第1の固有名とし、注目度2の固有名を特定の第2の固有名として、同様に特定時系列データ表25を作成する。更に、注目度2の固有名を特定の第1の固有名とし、注目度3の固有名を特定の第2の固有名として、同様に特定時系列データ表25を作成する。この組合せは、処理時に設定することができる。
図12は、図11の特定時系列データ表25をグラフ化し、表示装置に表示した画面を示す図である。左縦軸は、共起率を表している。右縦軸は、出現数を表している。横軸は、年月による時間軸である。第1の固有名の出現数を一点鎖線で表し、第2の固有名の出現数を破線で表し、第1の固有名と第2の固有名との共起率を実線で表している。この図で示される画面は、操作者の指定に応じて表示する。
図13は、第1の固有名と、その固有名に対応する第2の固有名の固有名対応表26を示す図である。旧い固有名は、第1の固有名に対応し、新しい固有名は、第2の固有名に対応している。認知度は、第2の固有名の出現率と出現からの期間とを所定の値と比較し、算出する。例えば、第2の固有名の出現から2ヶ月以内は認知度0とし、2ヶ月以降の出現率が0.4以下を認知度1とし、0.4以上0.6以下を認知度2とし、0.6以上を認知度3とすることができる。なお、出現率が、所定の期間について所定の値以上であることとすることもできる。これらの所定の値は、処理時に設定可能である。この認知度は、例えば、旧い固有名と新しい固有名とを併記するか否かを示す指標とすることができる。
図14は、固有名を変更する前の地図の例を示す図である。地図300に、施設名として福岡ドーム301、地名として福岡海浜公園302が記載されていることを示している。
図15は、固有名を変更した後の地図の例を示す図である。施設名が変更され、地図300に、福岡ドーム301が変更後の施設名としてヤフードーム303に変換されて記載されていることを示している。また、変更後の固有名の認知度が低いので、変更後の固有名と変更前の固有名とが併記されて変換され、地名がヤフー海浜公園(福岡海浜公園)304と記載されていることを示している。
本実施例によれば、インターネットと通信を行う通信部11を介して取得した日付情報を含むテキスト文について、固有名バースト判定部12は、自然言語処理による解析を行い、施設の名称を含む固有名を検出し、検出した回数により注目度を判定し、固有名データ表22を作成し、共起固有名検出部13は、前記固有名バースト判定部12が判定した第1の固有名とともに使用される共起の関係にある第2の固有名を検出し、共起データ表23を作成する。共起時系列作成部14は、固有名データ表22と共起データ表23とから共起の関係を時系列化した時系列データ表24を作成する。更に、出現時期検出部15は時系列データ表24を基に、特定の固有名に注目した特定時系列データ表25を作成し、前記第1の固有名と前記第2の固有名との共起の関係が出現した時期を検出する。そして、対応表作成部16は、前記出現時期検出部15が検出した前記出現した時期の後において、前記第1の固有名と前記第2の固有名との関係を示す情報を含んだ、前記第1の固有名と前記第2の固有名との固有名対応表26を作成する。また、指定された地図データベースに対し、固有名対応表26に基づいて、固有名を変換し、固有名の問合せに対し固有名対応表26に基づいた固有名の応答をする。
このことにより、固有名等が変更された場合に、新しい固有名の実際の認知のされ方を反映させて、旧い固有名を新しい固有名に変換する装置を提供することができる。したがって、固有名の変更に伴う混乱や不都合が発生しないようにできる可能性がある。また、固有名の問合せにも応答することができるので、他のシステムにおいて、旧い固有名で検索する場合には、応答した新しい固有名でも検索することにより、検索の効率が下がらないようにすることができる可能性がある。
なお、本発明の実施形態では、収集したデータについては、特に限定していないが、地域に限定したデータを収集し、解析の対象とすることにより、特定の地域での共起関係を検出し、地域で主に使用される地図等に反映させるとすることもできる。このことにより、新しい固有名の地域での実際の認知のされ方を反映して、旧い固有名を新しい固有名に変換することができる。
なお、本発明の実施形態では、収集したデータについては、特に限定していないが、地域に限定したデータを収集し、解析の対象とすることにより、特定の地域での共起関係を検出し、地域で主に使用される地図等に反映させるとすることもできる。このことにより、新しい固有名の地域での実際の認知のされ方を反映して、旧い固有名を新しい固有名に変換することができる。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。
本発明の動作環境を示す図である。 本発明のハードウェア構成の一例を示す図である。 本発明の機能の構成と、構成部が処理するデータとの関連を示す図である。 本発明の処理内容を示すフローチャートである。 本発明に対し、ネットワークを介して固有名の問合せが行われた場合の処理内容を示すフローチャートである。 本発明に対し、固有名の変更が要求された場合の処理内容を示すフローチャートである。 ネットワークから収集したblogのテキスト文の例を示す図である。 固有名と、その固有名の出現数を年月日ごとに集計した値とからなる年月日ごとの固有名データ表を示す図である。 年月日ごとに、検出した共起の固有名の組合せと、共起の出現数とからなる年月日ごとの共起データ表を示す図である。 年月日ごとの共起データ表から、共起出現数を月ごとに集計し、時系列に並べた、第1の固有名ごとの時系列データ表を示す図である。 特定の第1の固有名と特定の第2の固有名とについて発生している共起を月ごとの時系列にした特定時系列データ表を示す図である。 図11の特定時系列データ表をグラフ化し、表示装置に表示した画面を示す図である。 第1の固有名と、その固有名に対応する第2の固有名の固有名対応表を示す図である。 固有名を変更する前の地図の例を示す図である。 固有名を変更した後の地図の例を示す図である。
符号の説明
10 名称変換認知装置
11 通信部
12 固有名バースト判定部
13 共起固有名検出部
14 共起時系列作成部
15 出現時期検出部
16 対応表作成部
1010 CPU
1012 CPU_A
1022 表示装置
1040 通信I/F
1050 メインメモリ
1060 BIOS
1100 キーボード及びマウス

Claims (6)

  1. インターネットと通信を行う通信部と、
    前記通信部を介して取得した日付情報を含むテキスト文について、自然言語処理による解析を行い、固有名を検出し、検出した回数により前記固有名の注目度を判定する固有名バースト判定部と、
    前記注目度について前記固有名バースト判定部が所定の値以上と判定した前記固有名を第1の固有名として、当該第1の固有名と共起の関係にある固有名を第2の固有名として検出する共起固有名検出部と、
    前記共起固有名検出部が検出した共起の関係を時系列化した時系列データを作成する共起時系列作成部と、
    前記共起時系列作成部が作成した前記時系列データを基に、前記第1の固有名と前記第2の固有名との共起の関係が出現した時期を検出する出現時期検出部と、
    前記出現時期検出部が検出した前記出現した時期の後において前記第2の固有名の出現状態を基に生成された前記第1の固有名が前記第2の固有名に変更されたことの認知度について、前記第1の固有名を検出した回数と前記第2の固有名を検出した回数との和に対する前記第2の固有名の検出の回数の割合を算出し、該割合が所定の割合以上か判断し、判断結果を前記認知度として、前記第1の固有名、前記第2の固有名及び前記認知度からなる固有名対応表を作成する対応表作成部と、
    を備えることを特徴とする名称変換認知装置。
  2. 請求項1に記載の名称変換認知装置において、
    前記固有名は、施設名、地名、住所であることを特徴とする名称変換認知装置。
  3. 請求項1又は2に記載の名称変換認知装置において、
    前記通信部を介して、指定された地図データベースの前記第1の固有名を取得し、前記固有名対応表に基づいて、前記第1の固有名と対応する前記第2の固有名に変換することを特徴とする名称変換認知装置。
  4. 請求項1乃至に記載の名称変換認知装置において、
    前記通信部を介して、前記第1の固有名の問合わせを取得し、前記固有名対応表に基づいて、前記第2の固有名を応答することを特徴とする名称変換認知装置。
  5. コンピュータが、インターネットと通信を行うステップと、
    コンピュータが、前記通信を介して取得した日付情報を含むテキスト文について、自然言語処理による解析を行い、固有名を検出し、検出した回数により前記固有名の注目度を判定するステップと、
    コンピュータが、前記注目度について所定の値以上と判定した前記固有名を第1の固有名として、当該第1の固有名と共起の関係にある固有名を第2の固有名として検出するステップと、
    コンピュータが、前記検出した共起の関係を時系列化した時系列データを作成するステ
    ップと、
    コンピュータが、前記作成した前記時系列データを基に、前記第1の固有名と前記第2の固有名との共起の関係が出現した時期を検出するステップと、
    コンピュータが、前記出現した時期の後において前記第2の固有名の出現状態を基に生成された前記第1の固有名が前記第2の固有名に変更されたことの認知度について、前記第1の固有名を検出した回数と前記第2の固有名を検出した回数との和に対する前記第2の固有名の検出の回数の割合を算出し、該割合が所定の割合以上か判断し、判断結果を前記認知度として、前記第1の固有名、前記第2の固有名及び前記認知度からなる固有名対応表を作成するステップと、
    を含む方法。
  6. インターネットと通信を行うステップと、
    前記通信を介して取得した日付情報を含むテキスト文について、自然言語処理による解析を行い、固有名を検出し、検出した回数により前記固有名の注目度を判定するステップと、
    前記注目度について所定の値以上と判定した前記固有名を第1の固有名として、当該第1の固有名と共起の関係にある固有名を第2の固有名として検出するステップと、
    前記検出した共起の関係を時系列化した時系列データを作成するステップと、
    前記作成した前記時系列データを基に、前記第1の固有名と前記第2の固有名との共起の関係が出現した時期を検出するステップと、
    前記出現した時期の後において前記第2の固有名の出現状態を基に生成された前記第1の固有名が前記第2の固有名に変更されたことの認知度について、前記第1の固有名を検出した回数と前記第2の固有名を検出した回数との和に対する前記第2の固有名の検出の回数の割合を算出し、該割合が所定の割合以上か判断し、判断結果を前記認知度として、前記第1の固有名、前記第2の固有名及び前記認知度からなる固有名対応表を作成するステップと、
    をコンピュータに実行させるコンピュータ・プログラム。
JP2007107243A 2007-04-16 2007-04-16 名称変換認知装置、方法 Expired - Fee Related JP5154132B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007107243A JP5154132B2 (ja) 2007-04-16 2007-04-16 名称変換認知装置、方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007107243A JP5154132B2 (ja) 2007-04-16 2007-04-16 名称変換認知装置、方法

Publications (2)

Publication Number Publication Date
JP2008269014A JP2008269014A (ja) 2008-11-06
JP5154132B2 true JP5154132B2 (ja) 2013-02-27

Family

ID=40048473

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007107243A Expired - Fee Related JP5154132B2 (ja) 2007-04-16 2007-04-16 名称変換認知装置、方法

Country Status (1)

Country Link
JP (1) JP5154132B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5414284B2 (ja) * 2009-01-14 2014-02-12 株式会社 ミックウェア 地図情報処理装置、ナビゲーション装置、地図情報処理方法、およびプログラム
JP6897168B2 (ja) * 2017-03-06 2021-06-30 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
JP7091700B2 (ja) * 2018-02-21 2022-06-28 富士通株式会社 情報処理プログラム、メッセージ解析プログラム、情報処理装置及び情報処理方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3484018B2 (ja) * 1996-07-12 2004-01-06 株式会社東芝 文書検索システムおよび文書検索方法
JP2004102628A (ja) * 2002-09-09 2004-04-02 Acton Wins Co Ltd 住所表示変更用データの作成方法
JP2007018285A (ja) * 2005-07-07 2007-01-25 Cac:Kk 情報提供システム、情報提供方法、情報提供装置並びに情報提供プログラム

Also Published As

Publication number Publication date
JP2008269014A (ja) 2008-11-06

Similar Documents

Publication Publication Date Title
JP5106636B2 (ja) テキストセグメントを有する文書から用語を抽出するためのシステム
US8250651B2 (en) Identifying attributes of aggregated data
KR101524889B1 (ko) 간접 화법 내에서의 시맨틱 관계의 식별
US20140032529A1 (en) Information resource identification system
US20090319449A1 (en) Providing context for web articles
JP5040396B2 (ja) Webページ検索プログラム、方法、及び装置
JP2009151760A (ja) オブジェクト間競合指標計算方法およびシステム
TW201915777A (zh) 金融非結構化文本分析系統及其方法
US11669556B1 (en) Method and system for document retrieval and exploration augmented by knowledge graphs
CN112597775A (zh) 信贷风险预测方法及装置
CN110309463A (zh) 落地页优化方法、装置、计算机存储介质及网络设备
CN114201598B (zh) 文本推荐方法及文本推荐装置
JP2006268690A (ja) Faq提示・改善方法、faq提示・改善装置およびfaq提示・改善プログラム
JP2007304796A (ja) データベース解析システム及びデータベース解析方法及びプログラム
JP5154132B2 (ja) 名称変換認知装置、方法
US8112411B2 (en) Method and system for providing search results
CN116226494B (zh) 一种用于信息搜索的爬虫系统及方法
CN111126034B (zh) 医学变量关系的处理方法及装置、计算机介质和电子设备
CN110263083B (zh) 知识图谱的处理方法、装置、设备和介质
CN111814040A (zh) 维修案例搜索方法、装置、终端设备及存储介质
JP5042268B2 (ja) 適正単語取得装置、機械学習装置及び方法
JP2009098932A (ja) 連想検索システム
JP2010205006A (ja) 未来表現収集システム、未来表現収集方法および未来表現収集用プログラム
KR20080028031A (ko) 키워드 및 키워드에 관련된 각종 콘텐츠를 자동으로추출하고 디스플레이하는 시스템 및 방법
Anh Web Scraping: A Big Data Building Tool And Its Status In The Fintech Sector In Viet Nam

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090330

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111024

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120619

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120711

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120820

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121205

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151214

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5154132

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees