JP5094096B2 - 有名人の別表現の自動抽出装置、方法 - Google Patents

有名人の別表現の自動抽出装置、方法 Download PDF

Info

Publication number
JP5094096B2
JP5094096B2 JP2006317488A JP2006317488A JP5094096B2 JP 5094096 B2 JP5094096 B2 JP 5094096B2 JP 2006317488 A JP2006317488 A JP 2006317488A JP 2006317488 A JP2006317488 A JP 2006317488A JP 5094096 B2 JP5094096 B2 JP 5094096B2
Authority
JP
Japan
Prior art keywords
name
expression
occurrence
predetermined person
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006317488A
Other languages
English (en)
Other versions
JP2008130034A (ja
JP2008130034A5 (ja
Inventor
香里 谷尾
毅司 増山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2006317488A priority Critical patent/JP5094096B2/ja
Publication of JP2008130034A publication Critical patent/JP2008130034A/ja
Publication of JP2008130034A5 publication Critical patent/JP2008130034A5/ja
Application granted granted Critical
Publication of JP5094096B2 publication Critical patent/JP5094096B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、有名人の別表現の自動抽出装置に関する。更に詳しくは、有名人の別表現(別名、通称、愛称など)を自動抽出する装置、方法、及びプログラムに関する。
インターネットの普及や検索技術の向上により、キーワードを検索エンジンに入力するだけで手軽に大量のデータを入手することが可能になった。しかし、キーワード検索では意味が同じで表記の異なる語がある場合、ユーザ側で、キーワードの変更や絞り込みを必要とする、といった問題が存在する。この問題に対しては、現在ではサーバ側で、シソーラス(単語の上位/下位関係、部分/全体関係、同義関係、類義関係などによって単語を分類し、体系づけた辞書)を用いて検索支援をすることが行われている。しかし、人名に対してのシソーラスは存在しない、もしくは貧弱である。そこで、非特許文献1では、人名に対してWeb上からコーパス(コンピュータによる検索が可能になっている大量の言語データ)を収集し、そのコーパス内から人名のニックネームや愛称などの別名を抽出し、人名のシソーラスを構築する手法が提案されている。
古澤秀介,森田和宏,泓田正雄,青江順一:人名の別表記の自動抽出手法,言語処理学会第11回年次大会(NLP2005),695−698頁,2005年3月
非特許文献1に記載の「人名を含む別表現の自動抽出」によると、入力人名をキーワードとして、検索エンジンを使用しコーパスを取得する。次に、字種切りを使用して、漢字、数字、ローマ字、カタカナのみを残し、人名の別表現の候補を抽出する。更に、抽出した語句から入力人名を含む語句を取得し、取得した語句に対して形態素解析を行い、人名の別表記には不要な形態素を削除する。そして、この不要な形態素を不要語として定義し、削除することによって人名の別表記を抽出する。
また、同じく非特許文献1に記載の「人名を含まない別表現の自動抽出」によると、入力人名に対して「こと+入力人名」をキーワードとして、検索エンジンを使用し、コーパスを取得する。次に取得したコーパス内の「こと+人名」の前15文字をすべて取得する。更に、得られた15文字の実態表記をデータベースに登録し、後方一致により、一致部分の出現頻度を集計する。そして、データベースと出現頻度とから人名の別表記の候補を得て、文字単位で不適切な語を削除する。
しかしながら、このような非特許文献1に記載の方法では、「人名を含む別表現の自動抽出」と「人名を含まない別表現の自動抽出」とに分けて処理する必要があり、「人名を含む別表現の自動抽出」においては、入力した人名と文字列とのマッチング(比較)を必要とする。このような方法では、入力した人名全部を含まない別表現を抽出できない。また「人名を含まない別表現の自動抽出」の方法では、「こと+人名」のような個別のルールを必要とし、このようなルールに適合しない別表記を抽出することはできない。
本発明は、上記の課題に鑑み、入力した人名と文字列とのマッチングを必要とせず、また、「こと+人名」のような個別のルールを適用することなく、人名の別表記を自動抽出することが可能な新たな装置、方法などを提供することを目的とする。
本発明では以下のような解決手段を提供する。
(1)有名人の別表現を自動抽出する装置であって、
ネットワーク上で人名情報が含まれるデータベースから人名に関するデータを取得し、
人名と所定のキーワードとで条件検索し、得られた上位の検索結果を形態素解析する形態素解析部と、
前記形態素解析した語の中から特定の文書に偏って出現する頻度の高い語を選択し、前記選択した語と前記人名との共起の強さを計算し、前記共起の強い語を別表現候補として抽出する別表現候補抽出部と、
を備える装置。
このような構成によれば、本装置は、インターネット上などで人名情報が含まれるデータベース(例えばWikipediaのような信頼性の高いデータベース)から、人名に関するデータ(例えばWebページ)を取得し、本装置に備えられた形態素解析部によって、例えば、有名人リストのようなものから得た人名を、所定のキーワードとで条件検索し、得られた上位の検索結果を形態素解析する。ここで所定のキーワードとは、人名の別表現抽出のための手がかりとなる予め定められた複数の語句である。また、条件検索とは、例えば、人名と前述のキーワードのAND条件などである。更に、本装置の別表現抽出部は、形態素解析した語から、特定の文書に偏って出現する頻度の高い語を選択し、この選択した語と人名との共起の強さ(共起ヒット:関係の強さを測る尺度)を計算し、前記共起の強い語を別表現候補として抽出する。
このようにすることによって、日々更新されるインターネット上の既存のデータベースからの情報をインデックス化して効率化し、これを用いて予め登録しておいた人名リストとキーワードを用いて検索し、検索結果の上位に現れるような、Up To Dateの情報を元データ(コンテンツ)として利用することができるので信頼性、流行性、拡張性を同時にとりこむことができる。また、公知の技術であるTF*IDFと共起の強さの計算を組み合わせることにより、人名と関係が強い語句を別表現候補として抽出することができる。
(2)前記所定のキーワードは、「氏名」、「本名」、「旧性」、「別名」、「別表現」、「呼び名」、「ニックネーム」、「あだ名」、「俗称」、「通称」、「愛称」、「略称」、「芸名」、「アーティスト名」、「ペンネーム」、「幼名」の少なくとも一つを含む、(1)に記載の装置。
このような構成によれば、人名の別表現の抽出のための手がかりとなるような上記キーワードを多数登録しておくことで、別表現の抽出の効率化を行うことができる。もちろん、このキーワードは、経験則に基づいて更新していってもよい。
(3)前記共起の強さはシンプソン係数を用いて計算する、(1)または(2)に記載の装置。
このような構成によれば、前記の共起の強さ(共起ヒット)を公知の技術であるシンプソン係数の計算によって、また、特定の文書に偏って出現する頻度は、TF*IDF(Term Frequency−Inverse Document Frequency)値を用いて具体的に求めることができる。ここで、シンプソン係数とは、後述するように、スコアが0〜1の範囲で、値が大きいほど共起が強いと判断される尺度である。
(4)前記別表現候補抽出部によって前記抽出された別表現候補をランキング表示し、装置管理者に別表現としての妥当性を判断させる判定部を更に備え、前記判断に応じて前記別表現を別表現データベースに登録する、(3)に記載の装置。
このような構成によれば、本装置は、別表現候補として本装置が抽出した語を、更に装置管理者のような人目により判断させる手段を備えるので、より確実な別表現のみをデータベースに登録することができる。
(5)前記ランクング表示は、前記シンプソン係数とTF*IDF値の降順にソートして表示する、(4)に記載の装置。
このような構成によれば、ランキング表示において、シンプソン係数と、TF*IDF値を共にソートした結果を表示するので、装置管理者は、別表現候補を選択する際に両者の特性に基づいた判断をすることができる。
(6)有名人の別表現を自動抽出する方法であって、
人名と所定のキーワードとで条件検索するステップと、
前記条件検索で得られた上位の検索結果を形態素解析するステップと、
前記形態素解析した語の中から特定の文書に偏って出現する頻度の高い語を選択し、前記選択した語と前記人名との共起の強さを計算するステップと、
前記共起の強い語を別表現候補として抽出するステップと、
を含む方法。
このような構成によれば、ユーザまたはシステム側から任意に入力した人名と所定のキーワードで条件検索した上位検索結果をデータ元として使用するので、インターネット上でよく検索に使われるデータのみを対象とすることができ、また、この検索結果を前処理として形態素解析し、公知の技術であるTF*IDFと共起の強さの計算を組み合わせることによって、人名の別表現候補を効率よく抽出することができる。
(7)前記所定のキーワードは、「氏名」、「本名」、「旧性」、「別名」、「別表現」、「呼び名」、「ニックネーム」、「あだ名」、「俗称」、「通称」、「愛称」、「略称」、「芸名」、「アーティスト名」、「ペンネーム」、「幼名」の少なくとも一つを含む、(6)に記載の方法。
このような構成によれば、(2)と同様に、人名の別表現の抽出のための手がかりとなるような上記キーワードを多数登録しておくことで、別表現の抽出の効率化を行うことができる。
(8)前記共起の強さはシンプソン係数を用い、前記特定の文書に偏って出現する頻度はTF*IDF値を用いて計算する、(6)または(7)に記載の方法。
このような構成によれば、(3)と同様に、前記の共起の強さ(共起ヒット)を公知の技術であるシンプソン係数の計算によって、また特定の文書に偏って出現する頻度は、TF*IDF(Term Frequency−Inverse Document Frequency)値を用いて具体的に求めることができる。
(9)前記抽出された別表現候補をランキング表示し、装置管理者に別表現としての妥当性を判断させ、前記判断に応じて前記別表現を別表現データベースに登録するステップを更に含む、(8)に記載の方法。
このような構成によれば、(4)と同様に、別表現候補として抽出した語を、更に管理者のような人目により判断させる手段を備えるので、より確実な別表現のみをデータベースに登録することができる。
(10)前記ランクング表示は、前記シンプソン係数と前記TF*IDF値の降順にソートして表示する、(9)に記載の方法。
このような構成によれば(5)と同様に、ランキング表示において、シンプソン係数と、TF*IDF値を共にソートした結果を表示するので、別表現候補を選択する際に両者の特性に基づいた判断をすることができる。
(11)有名人の別表現を自動抽出するコンピュータ・プログラムであって、
人名と所定のキーワードとで条件検索するステップと、
前記条件検索で得られた上位の検索結果を形態素解析するステップと、
前記形態素解析した語の中からTF*IDF値の高い語を選択し、前記選択した語と前記人名との共起の強さを計算するステップと、
前記共起の強い語を別表現候補として抽出するステップと、
をコンピュータに実行させるコンピュータ・プログラム。
このような構成によれば(5)と同様な作用効果を奏する機能をコンピュータに実行させるコンピュータ・プログラムとして提供することができる。
本発明によれば、インターネット上のUp To Dateな情報源を元に、入力した人名と検索した文字列とのマッチングを使用せず、「こと+人名」のような個別のルールを適用することなく、新たな別名の表記を自動抽出することが可能な装置、方法などを提供することができる。
以下、本発明の実施形態について図を参照しながら説明する。但し、これらはあくまでも一例であって、本発明の技術的範囲はこれらに限定されるものではない。
図1は、本発明の好適な実施形態の一例に係る別表現抽出装置10の機能ブロックの概略を示す図である。
図示するように、別表現抽出装置10は、主として、インターネット40を介して様々なデータベースを備えたサーバ30と交信し、人名に関する多くのデータを集めるクローラ部11と、集めたデータにインデックスを施し、インデックスDB20に格納するインデックス作成部12、インデックス化されたデータを形態素(意味のある最小の文字列単位)に分解する形態素解析部13、形態素解析されたデータから人名の別表現候補を抽出する別表現候補抽出部14、別表現候補から人による確認をさせる判定部15、及び、確認された別名表現を多数格納する別表現DB21から構成される。ここで生成された別表現DB21は、人名別表現辞書のようなものとして機能し、日本語情報処理の効率化ツールの一つとなり得るものである。また、インデックスDB20と別表現DB21にアクセス制御を行うデータベースアクセス部19を備えてもよい。本装置は、他に、通信部18、入力部16、表示部17を備えるが、これらは一般的な情報処理装置に使用されるものであるので説明は省略する。
図2は、本発明の好適な実施形態の一例に係る別表現抽出装置10の処理フローの概略を示す図である。
まず、ステップS1において、Wikipedia(自由に投稿したり編集したりできる百科事典)など信頼性のある情報を多数備えたデータベースから、人名に関するデータをダウンロードしてインデックス化する。ここでのインデックス化は任意の方法であってよい。Wikipediaに関しては、例えば[ http://www.nature.com/nature/journal/V438/n7070/full/438900a.html、オンライン、2006年10月31日検索 ]のようなレポートを参照されたい。
次にステップS2において、別表現を検索したい人名の氏名など(例えば、「豊臣秀吉」と、「別名」のようなキーワードをAND条件で結んだ語句)を入力する。例えば、このような検索キーワードは、氏名」、「本名」、「旧性」、「別名」、「別表現」、「呼び名」、「ニックネーム」、「あだ名」、「俗称」、「通称」、「愛称」、「略称」、「芸名」、「アーティスト名」、「ペンネーム」、「幼名」のような別名を探索する手がかりとなるもので、これらのキーワードをインデックスのラベルとして、インデックスDB20を構成してもよい。そうようにすることで、検索の効率化が期待できる。
次に、ステップS3において、上記の検索結果の上位N件のページ中の文章を形態素解析する。形態素解析は、「茶筅」などの公知の技術を用いてよい。ここで、形態素解析は、助詞や接続詞など、人名の別表現として用いられる可能性の低い文字列を除去するようにしてもよい。
次に、ステップS4において、形態素解析された上位N件のページからTF*IDF値を用いて別表現候補を抽出する。TF*IDF値は、典型的には次の数1の式で計算され、特定のページに偏って多く出現するほど高いスコアをとる。
Figure 0005094096
更に、TF*IDFによって抽出された別表現候補と、前述の人名との関係の強さを計算する(ステップS5)。関係の強さを測る尺度としては、相互情報量を求める方法もあるが、ここでは、シンプソン係数を用いた計算方法を用いることにする。シンプソン係数は、二つの語の共起の強さを測る尺度であり、次の数2の式で計算される。シンプソン係数は、スコア0〜1の範囲の値をとり、大きいほど共起が強い。
Figure 0005094096
最後に、ステップS6において、上記ステップS5で求めた関係の強い語(共起の強い語)を別表現候補として抽出する。
図3は、本発明の好適な実施形態に係る別表現候補の抽出方式の共起ヒットの概念を示す図である。
この図では、有名人の例として、有名人リスト25にある「豊臣秀吉」に着目する。前述の方法により抽出された上位N件の形態素解析済みの語彙リスト35には、「木下藤吉郎」、「日吉丸」、「羽柴秀吉」のような別名候補を含まれるが、「義経」、「関ヶ原」などのように、関連はあるが別表現ではない語彙も多数含まれ得る。有名人リストの人名「豊臣秀吉」と共起しやすい語を、前述の共起ヒット計算により識別に役立てる。この例では、最終的に人の目による判断で、47a、47b、47cが別表現として採用と判断され、48が別表現としては不採用と判断される。
図4は、単純にシンプソン係数で降順にソートした結果の例を示す図である。
図示するように、シンプソン係数の大小だけでは、人名の別表現として関連なさそうな語、(「前田利家の実の娘」、「義経」)も抽出される。シンプソン係数の問題点は、低頻度な語は、共起が少なくてノイズである場合が多いが、シンプソン係数が高くなりやすいという点である。例えば「豊臣秀吉」の単独ヒット数が999,000で「前田利家の実の娘」の単独ヒット数が5の場合、つまり、|豊臣秀吉|=999,000で、|前田利家の実の娘|=5、|豊臣秀吉∩前田利家の実の娘|=5とすると、R(豊臣秀吉、前田利家の実の娘)=5/min(999,000,5)=5/5=1.00となる。すなわち、関係のなさそうな「前田利家の実の娘」のシンプソン係数は高くなることがある。
このような問題に対処するため、松尾らは閾値kによる解決策を提案している(松尾豊、友部博教、橋田浩一、石塚満 イベント空間支援における人間関係ネットワーク抽出技術の活用、第18回人口知能学会全国大会、3C1−04,2004年6月参照)。この方法では、単独ヒット数が閾値kに満たない語を除外する。すなわち、数2式を変形して、数3の式のように定義する。
Figure 0005094096
しかしながら、上記の閾値kで解決できない問題も已然として存在する。例えば、|豊臣秀吉|=999,000で、|関ヶ原|=821,000、|豊臣秀吉∩関ヶ原|=95,400とすると、R(豊臣秀吉、関ヶ原)=95,400/min(999,000,821,000)=95,400/821,000=0.116となる。ここで「関ヶ原」を別表現候補から除きたい場合、k=821,000になるが、k=821,000にするとほとんどの語が候補から外れてしまうことになる。
一方、TF*IDFによる本発明の手法では、TF*IDFの低い語は除外する。例えば、同じような共起ヒットでも、「関ヶ原」のTF=1,IDF=4.369、TF*IDF=4.369に対して、「木下藤吉郎」のTF=42、IDF=5.681、TF*IDF=238.602とすると、このTF*IDF値が相対的に低いものは、関係のなさそうな語として選別が可能である。
図5は、シンプソン係数とTF*IDF値を用いた別表現候補の抽出結果を示す図である。この図では、閾値として、k=30の他、更にTF*IDFの閾値=5を用い、第1の降順ソートキーとしてシンプソン係数を用い、第2の降順ソートキーとして、TF*IDFを用いている。
この結果から分かるように本発明のシンプソン係数とTF*IDFを組み合わせた手法は、人名の別表現候補の抽出に有効であることが確認される。
図6は、本発明の好適な実施形態の別の例に係る別表現抽出システムの処理フローの概略を示す図である。
図6の点線で囲んだ「自動化」の部分は、図1、2で説明した装置10と基本的には同様であるが、本システムではクローラ部11、インデックス作成部12、別表現候補抽出部14などの各部が別個の装置として存在してもよい。図6は、これらの装置を含んだ全体のシステムを示している。本システムでは、既に説明したように、Wikipediaなどの有用なサイトへのリンクを含んだURLリスト31を、クローラ部11が取得し(ステップS11)、インターネット40に対してそのURLへコンテンツをリクエストする(ステップS12)。そして、人名に関する情報(コンテンツ50)を取得する(ステップS13)。得られたコンテンツ50は、インデックス作成部12に渡され(ステップS14)、インデックス化された後(ステップS15)、別表現候補抽出部14によって、別表現候補51が抽出される(ステップS16)。この別表現候補51は、人の目による判定によって人名の最終的な別表現52であることを確認され(ステップS17)、別表現DB21に登録される。登録された別表現DB21の内容は、辞書のように外部に閲覧できるようにしてもよい(ステップS18)。なお、各装置の機能は、前述の説明と同様であるので詳細は省略する。
図7は、本発明の好適な実施形態の更に別の例に係る別表現抽出方法の処理フローの概略を示す図である。
図示するように、有名人リスト25から、検索エンジン11aに人名データが入力され、インターネット40から検索結果ページ50aが得られる。この方法では、図1のようなクローラ部11やインデックス作成部12、インデックスDB20などは必ずしも備えていなくともよい。検索エンジン11aがこれらの働きをするものと考えてもよい。
検索結果ページは、以下のようなステップを備えたスコア計算が施される。各ステップは図2にステップと同様であるが、ステップS3において、検索結果の上位N件の形態素解析を行う。次にステップS4において、TF*IDF値を求め、ステップS5において、共起ヒットの計算を行う。ステップS7は、図2にはない新たなステップで、別表現候補51に対して、フィルタリングやランキング表示を行う。この表示にはシンプソン係数をソートして表示してもよいし、シンプソン係数とTD*IDF値を並べて表示してもよい。これらの表示によって人の目による別表現の確定に役立てることができる。
[別表現抽出装置のハードウェア構成]
図8は、図1で説明した本発明の好適な実施形態の一例に係る別表現抽出装置10のハードウェア構成の一例を示す図である。別表現抽出装置10は、制御部101を構成するCPU(Central Processing Unit)1010(マルチプロセッサ構成ではCPU1012など複数のCPUが追加されてもよい)、バスライン1005、通信I/F1040、メインメモリ1050、BIOS(Basic Input Output System)1060、USBポート1090、I/Oコントローラ1070、並びにキーボード及びマウス1100などの入力手段や表示装置1022を備える。
I/Oコントローラ1070には、テープドライブ1072、ハードディスク1074、光ディスクドライブ1076、半導体メモリ1078、などの記憶手段を接続することができる。
BIOS1060は、別表現抽出装置10の起動時にCPU1010が実行するブートプログラムや、別表現抽出装置10のハードウェアに依存するプログラムなどを格納する。
記憶部107を構成するハードディスク1074は、別表現抽出装置10がサーバとして機能するための各種プログラム及び本発明の機能を実行するプログラムを記憶しており、更に必要に応じて各種データベースを構成可能である。
光ディスクドライブ1076としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク1077を使用する。光ディスク1077から光ディスクドライブ1076によりプログラムまたはデータを読み取り、I/Oコントローラ1070を介してメインメモリ1050またはハードディスク1074に提供することもできる。また、同様にテープドライブ1072に対応したテープメディア1071を主としてバックアップのために使用することもできる。
別表現抽出装置10に提供されるプログラムは、ハードディスク1074、光ディスク1077、またはメモリカードなどの記録媒体に格納されて提供される。このプログラムは、I/Oコントローラ1070を介して、記録媒体から読み出され、または通信I/F1040を介してダウンロードされることによって、別表現抽出装置10にインストールされ実行されてもよい。
前述のプログラムは、内部または外部の記憶媒体に格納されてもよい。ここで、記憶部107を構成する記憶媒体としては、ハードディスク1074、光ディスク1077、またはメモリカードの他に、MDなどの光磁気記録媒体、テープ媒体を用いることができる。また、専用通信回線やインターネットに接続されたサーバシステムに設けたハードディスク1074または光ディスクライブラリなどの記憶装置を記録媒体として使用し、通信回線を介してプログラムを別表現抽出装置10に提供してもよい。
ここで、表示装置1022は、ユーザにデータの入力を受け付ける画面を表示したり、別表現抽出装置10による演算処理結果の画面を表示したりするものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)などのディスプレイ装置を含む。
ここで、入力手段は、ユーザによる入力の受付を行うものであり、キーボード及びマウス1100などにより構成してよい。
また、通信I/F1040は、別表現抽出装置10を専用ネットワークまたは公共ネットワークを介して端末と接続できるようにするためのネットワーク・アダプタである。通信I/F1040は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。
以上の例は、別表現抽出装置10について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータをサーバ装置として動作させることにより上記で説明した機能を実現することもできる。したがって、本発明において一実施形態として説明したサーバにより実現される機能は、上述の方法を当該コンピュータにより実行することにより、或いは、上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。
本発明の好適な実施形態の一例に係る別表現抽出装置10の機能ブロックの概略を示す図である。 本発明の好適な実施形態の一例に係る別表現抽出装置10の処理フローの概略を示す図である。 本発明の好適な実施形態に係る別表現候補の抽出方式の共起ヒットの概念を示す図である。 シンプソン係数で降順にソートした結果の例を示す図である。 シンプソン係数とTF*IDF値を用いた別表現候補の抽出結果を示す図である。 本発明の好適な実施形態の別の例に係る別表現抽出システムの処理フローの概略を示す図である。 本発明の好適な実施形態の更に別の例に係る別表現抽出方法の処理フローの概略を示す図である。 図1で説明した本発明の好適な実施形態の一例に係る別表現抽出装置10のハードウェア構成の一例を示す図である。
符号の説明
10 別表現抽出装置
11 クローラ部
11a 検索エンジン
12 インデックス作成部
13 形態素解析部
14 別表現候補抽出部
15 判定部
16 入力部
17 表示部
18 通信部
19 データベースアクセス部
20 インデックスDB
21 別表現DB
25 有名人リスト
30 サーバ
31 URLリスト
35 上位N件の形態素解析済みの語彙リスト
40 インターネット
47a,47b,47c 採用リスト
48 不採用リスト
50 コンテンツ
50a 検索結果ページ
51 別表現候補
52 別表現
101 制御部
107 記憶部

Claims (12)

  1. インターネット上のデータベースから集められた人名情報を含むWebページがインデックス化されて格納されたインデックスDBから、所定の人名をキーとして検索し、その検索結果の複数のページの文書を形態素解析する形態素解析部と、
    前記形態素解析により得られた複数の語句について、出現頻度の特定のページへの偏り度合いを示すスコアと前記所定の人名との共起度を示すスコアとを計算し、各語句の両スコアに基づいて、前記複数の語句から、前記出現頻度の前記特定のページへの偏りが大きく、かつ、前記所定の人名との共起度が高い語句を、前記所定の人名の別表現候補として抽出する別表現候補抽出部と、
    を備える装置。
  2. 前記形態素解析部は、前記検索の際に、前記所定の人名と当該所定の人名の別表現の抽出のための手がかりとなる所定のキーワードとをキーとして検索する、請求項1に記載の装置。
  3. 前記所定のキーワードは、「氏名」、「本名」、「旧性」、「別名」、「別表現」、「呼び名」、「ニックネーム」、「あだ名」、「俗称」、「通称」、「愛称」、「略称」、「芸名」、「アーティスト名」、「ペンネーム」、「幼名」のいずれかである、請求項2に記載の装置。
  4. 前記別表現候補抽出部によって前記抽出された別表現候補について、前記両スコアに基づいて別表現候補のランキングを作成し、当該ランキングを表示装置に表示させ、管理者からの確認を受け付けた別表現候補を前記別表現候補を別表現データベースに登録する判定部を更に備える、請求項1から3のいずれかに記載の装置。
  5. 前記判定部が、前記ランキングの表示において、前記別表現候補を前記両スコアの降順にソートした情報を作成し、前記表示装置に表示させる、請求項4に記載の装置。
  6. 前記別表現候補抽出部が、前記出現頻度の前記特定のページへの偏り度合いを示すスコアを全ページにおける出現数をTFとしたTF*IDF値を用いて計算し、前記共起度を示すスコアをシンプソン係数を用いて計算する、請求項1から請求項5のいずれかに記載の装置。
  7. コンピュータが、
    インターネット上のデータベースから集められた人名情報を含むWebページがインデックス化されて格納されたインデックスDBから、所定の人名をキーとして検索し、その検索結果の複数のページの文書を形態素解析する第1のステップと、
    前記形態素解析により得られた複数の語句について、出現頻度の特定のページへの偏り度合いを示すスコアと前記所定の人名との共起度を示すスコアとを計算する第2のステップと、
    各語句の両スコアに基づいて、前記複数の語句から、前記出現頻度の前記特定のページへの偏りが大きく、かつ、前記所定の人名との共起度が高い語句を、前記所定の人名の別表現候補として抽出する第3のステップと、
    を実行する方法。
  8. 前記第1のステップは、前記検索の際に、前記所定の人名と当該所定の人名の別表現の抽出のための手がかりとなる所定のキーワードとをキーとして検索するステップである、請求項7に記載の方法。
  9. 前記コンピュータが、前記第3のステップの後に、前記抽出された別表現候補について、前記両スコアに基づいて別表現候補のランキングを作成し、当該ランキングを表示装置に表示させ、管理者からの確認を受け付けた別表現候補を別表現データベースに登録する第4のステップを更に実行する、請求項7または請求項8に記載の方法。
  10. 前記第4のステップでは、前記コンピュータが、前記ランキングの表示において、前記別表現候補を前記両スコアの降順にソートした情報を作成し、前記表示装置に表示させる、請求項9に記載の方法。
  11. 前記第2のステップでは、前記コンピュータが、前記出現頻度の前記特定のページへの偏り度合いを示すスコアを全ページにおける出現数をTFとしたTF*IDF値を用いて計算し、前記共起度を示すスコアをシンプソン係数を用いて計算する、請求項7から請求項10のいずれかに記載の方法。
  12. コンピュータに、
    インターネット上のデータベースから集められた人名情報を含むWebページがインデックス化されて格納されたインデックスDBから、所定の人名をキーとして検索し、その検索結果の複数のページの文書を形態素解析する第1のステップと、
    前記形態素解析により得られた複数の語句について、出現頻度の特定のページへの偏り度合いを示すスコアと前記所定の人名との共起度を示すスコアとを計算する第2のステップと、
    各語句の両スコアに基づいて、前記複数の語句から、前記出現頻度の前記特定のページへの偏りが大きく、かつ、前記所定の人名との共起度が高い語句を、前記所定の人名の別表現候補として抽出する第3のステップと、
    を実行させるためのコンピュータ・プログラム。
JP2006317488A 2006-11-24 2006-11-24 有名人の別表現の自動抽出装置、方法 Active JP5094096B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006317488A JP5094096B2 (ja) 2006-11-24 2006-11-24 有名人の別表現の自動抽出装置、方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006317488A JP5094096B2 (ja) 2006-11-24 2006-11-24 有名人の別表現の自動抽出装置、方法

Publications (3)

Publication Number Publication Date
JP2008130034A JP2008130034A (ja) 2008-06-05
JP2008130034A5 JP2008130034A5 (ja) 2009-02-19
JP5094096B2 true JP5094096B2 (ja) 2012-12-12

Family

ID=39555753

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006317488A Active JP5094096B2 (ja) 2006-11-24 2006-11-24 有名人の別表現の自動抽出装置、方法

Country Status (1)

Country Link
JP (1) JP5094096B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017006444A1 (ja) * 2015-07-07 2017-01-12 富士通株式会社 情報取得装置、情報取得プログラム及び情報取得方法
JP6164436B1 (ja) * 2016-01-18 2017-07-19 データ・サイエンティスト株式会社 ウェブページ解析装置、ウェブページ解析方法、及びプログラム

Also Published As

Publication number Publication date
JP2008130034A (ja) 2008-06-05

Similar Documents

Publication Publication Date Title
JP6095621B2 (ja) 回答候補間の関係を識別および表示する機構、方法、コンピュータ・プログラム、ならびに装置
US8346795B2 (en) System and method for guiding entity-based searching
JP3820242B2 (ja) 質問応答型文書検索システム及び質問応答型文書検索プログラム
US9483460B2 (en) Automated formation of specialized dictionaries
JP4778474B2 (ja) 質問応答装置、質問応答方法、質問応答プログラム並びにそのプログラムを記録した記録媒体
JP2008537225A (ja) クエリについての検索システムおよび方法
CN107967290A (zh) 一种基于海量科研资料的知识图谱网络构建方法及系统、介质
KR100396826B1 (ko) 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
JPH03172966A (ja) 類似文書検索装置
Al-Taani et al. An extractive graph-based Arabic text summarization approach
JP2010118021A (ja) トピックグラフを利用したドキュメント検索サーバ及び方法
JP2011085986A (ja) テキスト要約方法、その装置およびプログラム
Alami et al. Arabic text summarization based on graph theory
JP2009037420A (ja) 有害コンテンツの評価付与装置、プログラム及び方法
Garg et al. Maulik: A plagiarism detection tool for hindi documents
Versley et al. Not just bigger: Towards better-quality Web corpora
Konchady Building Search Applications: Lucene, LingPipe, and Gate
CN111259136A (zh) 一种基于用户偏好自动生成主题评价摘要的方法
Juan An effective similarity measurement for FAQ question answering system
JP5094096B2 (ja) 有名人の別表現の自動抽出装置、方法
JP5073349B2 (ja) 専門用語抽出装置、方法及びプログラム
Fauzi et al. Image understanding and the web: a state-of-the-art review
JP5269399B2 (ja) 構造化文書検索装置、方法およびプログラム
JP4621680B2 (ja) 定義付けシステムおよび方法
Sariki et al. A book recommendation system based on named entities

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081225

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081225

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110425

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120308

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120904

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120918

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5094096

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150928

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250