JP2009181183A - 人名表現同定装置、その方法、プログラム及び記録媒体 - Google Patents

人名表現同定装置、その方法、プログラム及び記録媒体 Download PDF

Info

Publication number
JP2009181183A
JP2009181183A JP2008017643A JP2008017643A JP2009181183A JP 2009181183 A JP2009181183 A JP 2009181183A JP 2008017643 A JP2008017643 A JP 2008017643A JP 2008017643 A JP2008017643 A JP 2008017643A JP 2009181183 A JP2009181183 A JP 2009181183A
Authority
JP
Japan
Prior art keywords
name
complete
incomplete
expression
personal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008017643A
Other languages
English (en)
Other versions
JP4693065B2 (ja
Inventor
Nozomi Kobayashi
のぞみ 小林
Yoshihiro Matsuo
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008017643A priority Critical patent/JP4693065B2/ja
Publication of JP2009181183A publication Critical patent/JP2009181183A/ja
Application granted granted Critical
Publication of JP4693065B2 publication Critical patent/JP4693065B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】文章中に完全名が存在しない場合でも、姓または名のいずれか一方のみ、ニックネーム等の人名表現に対応する完全名を同定可能とすること。
【解決手段】完全名・不完全名判定手段3により、処理済み文章中の人名表現について完全名か不完全名かを判定し、完全名同定手段4により、不完全名と判定された人名表現に関する特徴語を前記処理済み文章中から抽出して不完全名特徴語リストを作成するとともに、前記人名表現をキーとして不完全名−完全名対応データベース1を検索して完全名候補を抽出し、当該完全名候補をキーとして完全名特徴語データベース2を検索して当該完全名候補に対応する特徴語及びその重みを取得し、完全名候補の前記人名表現に対する類似度を、対応する特徴語及びその重みと前記不完全名特徴語リストとから計算し、最も類似度が高い完全名候補を前記人名表現に対応する完全名として出力する。
【選択図】図2

Description

本発明は、文章中に出現する人名表現が姓及び名からなる完全名でなく、それ以外の姓または名のいずれか一方のみ、ニックネーム等(以下、不完全名と呼ぶ。)である場合に、対応する完全名を同定する技術に関する。本発明は、情報検索システムや情報抽出システムの前処理として利用できる。
従来、この種の技術としては、文章内に完全名が存在する場合を対象として、当該文章から不完全表記を包含する人名表現を完全名候補として抽出し、役職情報などの付随情報を用いることで、同姓異名の人名の曖昧性を解消する方法があった(特許文献1参照)。
図1は従来の人名表現同定方法の概要を示すもので、これを用いて処理の流れを説明する。
[0]事前に、文章中から人名表現を抽出するとともに近くに出現する役職名などの情報を抽出しておく(例えば、「福田康夫と首相」、「福田と首相」の情報が抽出されたとする。)。
[1]正式人名表現変換装置により、姓のみの人名表現(この例では「福田」)に対し、役職名(「首相」など)を手がかりに当該文章中に出現した完全名を対応付ける(この場合、「首相」という役職から「福田」は「福田康夫」であると判断される)。
特開2003−216605号公報(発明の名称:人名表現同定方法及びその装置と、人名表現同定プログラム及びそのプログラムを記録した記録媒体)
しかし、前述した従来の人名表現同定方法では、以下のような問題があった。
・同じ文章中に出現する同姓異名の人名曖昧性解消のみ対象としており、例えば「福田康夫」が文章中に出現せず、「福田」のみが出現した場合にその完全名を同定することができない。
・不完全名を包含する人名表現のみが対象となるため、ニックネームの場合は完全名に変換できない(例えば、「ミキティ」と書かれていた場合に「安藤美紀」か「藤本美希」かの曖昧性解消は上記方法ではできない)。
本発明は、文章中に完全名が存在しない場合でも、姓または名のいずれか一方のみ、ニックネーム等の不完全名からなる人名表現に対応する完全名を同定可能とすることを目的とする。
本発明では、前記目的を達成するため、不完全名−完全名対応データベースを使用し、文章内の固有表現や出現位置の近傍の名詞等を手がかりとして、不完全名からなる人名表現に対応する完全名を同定する。
詳細には、
・不完全名とこれに対する少なくとも1つの完全名候補とを対応させて登録した不完全名−完全名対応データベースを用いて、不完全名からなる人名表現の完全名への変換候補を獲得する。これにより、従来技術では解けなかった「ニックネーム→完全名」の対応付けが可能になる。
・完全名が文章内に出現している場合、していない場合に分けて解く(完全名が文章内にあるほうが信頼性が高いので、文章内に出現している場合は文章内で解く。)。
◇まず、完全名が文章中に出現しているか否かを判定し、出現していればその完全名を、人名表現に対応する完全名として出力する。
◇出現していなければ、同定しようとしている人名表現の近くに出現している名詞や固有表現等を手がかりにして完全名を同定し、出力する。
図2は本発明の人名表現同定装置の概要を示すもので、不完全名−完全名対応データベース1と、完全名特徴語データベース2と、完全名・不完全名判定手段3と、完全名同定手段4とを備え、完全名・不完全名判定手段3により、予め入力文章に対して形態素解析処理及び固有表現抽出処理を行い、各単語に少なくとも品詞及び固有表現タグを付与してなる処理済み文章中の人名の固有表現タグが付された人名表現について完全名か不完全名かを判定し、完全名同定手段4により、不完全名と判定された人名表現に関する特徴語を前記処理済み文章中から抽出して不完全名特徴語リストを作成するとともに、前記不完全名と判定された人名表現をキーとして不完全名−完全名対応データベース1を検索して完全名候補を抽出し、当該完全名候補をキーとして完全名特徴語データベース2を検索して当該完全名候補に対応する特徴語及びその重みを取得し、完全名候補の前記不完全名と判定された人名表現に対する類似度を、対応する特徴語及びその重みと前記不完全名特徴語リストとから計算し、最も類似度が高い完全名候補を前記不完全名と判定された人名表現に対応する完全名として出力する如く構成されている。
本発明によれば、不完全名−完全名対応データベースを使用し、文章内の固有表現や出現位置の近傍の名詞等を手がかりとすることで、文章中に完全名が存在していない場合でも、不完全名からなる人名表現に対応する完全名を高精度で同定することができる。
図3は本発明の人名表現同定装置の実施の形態の一例を示すもので、図中、11は完全名データベース(DB)、12は不完全名−完全名対応データベース(DB)、13は完全名特徴語データベース(DB)、14は処理済み入力文章記憶部、15は人名表現抽出手段、16は抽出済み人名表現リスト、17は不完全名・完全名判定手段、18は出現完全名リスト、19は文章内対応表、20は完全名同定手段、21は不完全名特徴語リスト(記憶部)である。なお、不完全名−完全名対応データベース、完全名特徴語データベース、完全名・不完全名判定手段及び完全名同定手段の符号が図2と異なるのは、以下の説明を符号順に進める便宜上のためであり、内容的に異なるという意味ではない。
完全名DB11は、姓及び名からなる完全名を登録したもので、後述するように、人名表現が完全名か不完全名かを判定する際に使用する。
不完全名−完全名対応DB12は、不完全名とこれに対する少なくとも1つの完全名候補とを対応させて登録したもので、後述するように、不完全名と判定された人名表現に対応する完全名候補を抽出するために使用する。なお、「完全名−不完全名」ではなく、「不完全名−完全名」であるのは、今回の問題が「不完全名から完全名への対応付け」であるため、不完全名をキーとして完全名の候補を引きたいためである。
完全名特徴語データベース13は、完全名と当該完全名を特徴づける少なくとも1つの特徴語及びその重みとを対応させて登録したもので、後述するように、完全名候補に対応する特徴語及びその重みを取得するために使用する。ここで、各特徴語には「その完全名の人物に対する記述において、特徴的に使われる単語」、言い換えれば「その完全名の人物を特徴づける単語」に大きな重みがつくようなスコア付けを行う。
図4は各データベースの内容の一例を示すものである。
同図(a)は完全語DB11の一例を示すもので、様々な完全名、例えば「福田康夫、福田沙喜、福田赴夫、…」が登録されている。また、同図(b)は不完全名−完全名対応DB12の一例を示すもので、例えば「福田」という不完全名に対して、対応する完全名「福田康夫、福田沙喜、福田赴夫、…」が登録されている。
また、同図(c)は完全名特徴語データベースの一例を示すもので、例えば「福田康夫」という完全名に対しては、「首相」という名詞が重み10.57、「内閣」という名詞が重み10.89、「自民党」という固有表現が重み30.01として登録されている。
完全名PSN(の人物)に対する特徴的な単語tの重みは、例えば
score(PSN,t)=tf(t)*log(N/pf(t)) …(1)
(但し、tf(t):単語tが完全名PSN(の人物)と共起した頻度、N:人物の総数、pf(t):単語tが何人の人物と共起したか)より求めることができる。
この式は情報検索などの単語の重み付けに一般的に用いられているtfidfに似た式であるが、dfi(ある特徴語iの文章頻度)にあたる部分を、あるpfi(単語iが何人の人物と共起したか)に変更することで、「ある人物の文章でよく使われる単語の重み」に大きな重みがつくような式となっている。
処理済み入力文章記憶部14は、入力文章中の各単語に対し、その読み、品詞等の単語情報と、出現した文番号等の位置情報と、人名、場所名、組織名、人工物名等の固有表現のタイプを表す固有表現タグ(固有表現識別子)とをそれぞれ付与してなる処理済み入力文章を記憶する。なお、処理済み入力文章は、自然言語で記述された入力文章に対し、周知の形態素解析処理及び固有表現抽出処理を行うことによって得られる。
人名表現抽出手段15は、処理済み入力文章から人名表現のみを抽出、具体的には人名を表す固有表現タグが付与された単語のみを人名表現としてその単語情報、位置情報及び固有表現タグとともに抽出し、抽出済み人名表現リスト(記憶部)16に記憶する。
不完全名・完全名判定手段17は、抽出済み人名表現リスト16から入力文章中の人名表現を入力文章の文頭側より1つずつ取り出し、完全名か不完全名かを判定する。
具体的には、人名表現が、以下のいずれかの条件、即ち
・完全名DB11中に登録されている、
・2つの形態素から構成され且つその品詞が「姓」及び「名」である、
に当てはまれば完全名、そうでなければ不完全名と判定する。なお、不完全名と判定した場合、その人名表現をそのまま完全名同定手段20へ出力する。
さらに、不完全名・完全名判定手段17は、人名表現を完全名と判定した場合、入力文章内に完全名が出現したことを保持するため、以下の処理、即ち
・完全名と判定された人名表現が完全名DB11中に登録されていればその完全名を出現完全名リスト(記憶部)18に登録する、
・完全名と判定された人名表現が完全名DB11中に登録されていなければその完全名を「姓」と「名」に分け、「姓−完全名」及び「名−完全名」の対応表を作成し、これを文章内対応表(記憶部)19に登録する、
処理を行う。
なお、出現完全名リスト18及び文章内対応表19は入力文章ごとに新しく作成され、同じ入力文章を処理する間だけ使用される。
完全名同定手段20は、不完全名・完全名判定手段17から送られてきた人名表現、即ち不完全名と判定された人名表現に対し、完全名を同定するための以下の処理を行う。
(処理1)対応する完全名が入力文章内に存在すればその完全名を返す。具体的には、
(処理1−1)不完全名と判定された人名表現をキーとして文章内対応表19を検索し、対応する完全名が登録されていれば、当該完全名を前記不完全名と判定された人名表現に対応する完全名として当該人名表現とともに出力する、
(処理1−2)不完全名と判定された人名表現をキーとして不完全名−完全名対応DB12を検索して完全名候補の集合を抽出し、該完全名候補をキーとして出現完全名リスト18を検索し、対応する完全名が登録されていれば、当該完全名を前記不完全名と判定された人名表現に対応する完全名として当該人名表現とともに出力する、
処理を行う。
(処理2)対応する完全名を(処理1)で同定できなければ、以下の処理により完全名を返す。
(処理2−1)不完全名と判定された人名表現に関する特徴語を処理済み入力文章記憶部14から抽出して不完全名特徴語リスト(記憶部)21を作成する。ここで、特徴語としては、
(a)特定のパタンで出現する名詞や固有表現、
(b)不完全名と判定された人名表現が出現している文の近傍(同一文もしくは1つ前の文)に出現する名詞や固有表現、
(c)入力文章中に出現する固有表現、
を使用する。
前記(a)でいう「特定のパタンで出現する名詞や固有表現」の具体的な例としては、処理対象の不完全名と判定された人名表現をPSNとした場合に、以下のようなパタンで出現する単語Xが挙げられる。
パタン1:助詞「の」でPSNに係る名詞もしくは固有表現
XのPSN(例:SNAPの木村)
パタン2:PSNと直後に出現する名詞接尾辞
PSN X(X=名詞接尾辞)(例:福田首相、福田元首相
この場合、後述する類似度の計算において、「SNAPの木村」と「木村卓哉」との間、「福田首相」と「福田康夫」との間、「福田元首相」と「福田赴夫」との間では高い類似度が得られ、その完全名(人物)を特定するために有効であると考えられる。
また、前記(b)については、例えば入力文章に「昨日のサッカー日本VSブラジル戦は最後まで見てしまった。中村のシュートが…」という文がある場合、「サッカー」という語は人名表現「中村」の手がかりになり、その完全名(人物)を特定するために有効であると考えられる。
さらにまた、前記(c)については、例えば入力文章の文頭に「SNAPのライブに行った。」という文があり、その後、SNAPのメンバーについてずっと述べているような場合、「SNAP」という語は離れていても手がかりになり、その完全名(人物)を特定するために有効であると考えられる(但し、一般名詞に関してはノイズになる可能性が高いので固有表現のみに絞る。)。
なお、不完全名特徴語リスト(記憶部)21は不完全名と判定された人名表現ごとに新しく作成され、同じ人名表現を処理する間だけ使用される。
(処理2−2)前記(処理1−2)で得られている完全名候補をキーとして完全名特徴語DB13を検索して当該完全名候補に対応する特徴語及びその重みを取得し、完全名候補の前記不完全名と判定された人名表現に対する類似度を、対応する特徴語及びその重みと前記(処理2−1)で作成した不完全名特徴語リスト21とから計算する。
類似度の計算式には、cosine類似度、内積などが考えられる。この際、前記(a)に当てはまる特徴語は強力な手がかりと考えられるため、その重みを他の特徴語よりも高く設定(例えば、整数倍)しても良い。
具体的な計算式の例としては、完全名候補に対応する特徴語のうち、不完全名特徴語リスト中に存在する特徴語の重みを足す式(2)、即ち
sim(X,Y)=Σ[x∈X∩Y]w(x) …(2)
(但し、X:不完全名特徴リスト、Y:完全名候補の特徴語集合、w(x):特徴語の重み)より求めることができる。
(処理2−3)完全名候補のうち、最も類似度が高い完全名候補を前記不完全名と判定された人名表現に対応する完全名として当該人名表現とともに出力する。但し、その類似度が所定の閾値θよりも小さい時は、当該人名表現とともに対応する完全名無し(のメッセージ)を出力する。
図5は完全名・不完全名判定手段17における処理の流れを、また、図6は完全名同定手段20における処理の流れを示すもので、本発明の人名表現同定装置による具体的な処理例を示す図7を用いて具体的に説明する。
[0]入力文章、ここでは「テレビでは宮崎俊監督の「パウルの動く城」やってますね。うちはそろって宮崎ファン。さらにわたしはキムタクのファンでもあります。」は事前に周知の形態素解析処理及び固有表現抽出処理が施され、その処理済み入力文章が処理済み入力文章記憶部14に記憶され、また、前記処理済み入力文章から人名表現抽出手段15により人名表現、ここでは「宮崎俊」、「宮崎」、「キムタク」がその単語情報、位置情報及び固有表現タグとともに抽出され、抽出済み人名表現リスト16に記憶されているものとする。
[1]完全名・不完全名判定手段17は、まず、抽出済み人名表現リスト16に未処理の人名表現があるか否かを判定する(s1)。当初、前述したように「宮崎俊」、「宮崎」、「キムタク」の3つの人名表現があるので、Yesとなり、ステップs2に進む。
次に、完全名・不完全名判定手段17は、抽出済み人名表現リスト16から人名表現を入力文章の文頭側より1つ、ここでは「宮崎俊」を取り出す(s2)。なお、この際、完全名・不完全名判定手段17は、取り出した人名表現をリスト16から削除する、リスト16中の取り出した人名表現に処理済みのフラグを立てる等によって、ステップs1の処理を可能とするものとする。
次に、完全名・不完全名判定手段17は、取り出した人名表現、即ち「宮崎俊」をキーとして完全名DB11を検索(s3)し、登録されているか否かを判定する(s4)。ここで、人名表現「宮崎俊」が完全名DB11に登録されていたとすると、Yesとなり、ステップs5に進む。
完全名・不完全名判定手段17は、人名表現「宮崎俊」を完全名と判定し、出現完全名リスト18に登録し(s5)、ステップs1に戻る。
[2]完全名・不完全名判定手段17は、前記同様に抽出済み人名表現リスト16に未処理の人名表現があるか否かを判定するが(s1)、この場合、「宮崎」、「キムタク」の2つの人名表現が残っているので、Yesとなり、ステップs2に進み、抽出済み人名表現リスト16から人名表現を入力文章の文頭側より1つ、ここでは「宮崎」を取り出す(s2)。
次に、完全名・不完全名判定手段17は、取り出した人名表現、即ち「宮崎」をキーとして完全名DB11を検索し(s3)、登録されているか否かを判定する(s4)が、人名表現「宮崎」は不完全名であり、完全名DB11には当然登録されていないから、Noとなり、ステップs6に進む。
次に、完全名・不完全名判定手段17は、取り出した人名表現「宮崎」が2つの形態素から構成され且つその品詞が「姓」及び「名」であるか否かを、その単語情報から判定する(s6,s7)。人名表現「宮崎」は1つの形態素であるから、Noとなり、ステップs9以降、即ち完全名同定手段20による処理に進む。
なお、ここで、人名表現が2つの形態素から構成され且つその品詞が「姓」及び「名」であった場合はステップs8に進み、当該人名表現を完全名と判定して「姓」と「名」に分け、「姓−完全名」及び「名−完全名」の対応表を作成し、これを文章内対応表19に登録することになる(s8)。
完全名同定手段20は、人名表現「宮崎」をキーとして文章内対応表19を検索し(s9)、登録されているか否かを判定する(s10)が、この場合、文章内対応表19には何も登録されていないので、当然Noとなり、ステップs12に進む。
なお、ここで、人名表現に対応する完全名が登録されていれば、当該完全名を前記人名表現に対応する完全名として当該人名表現とともに出力することになる(s11)。
次に、完全名同定手段20は、人名表現「宮崎」をキーとして不完全名−完全名対応DB12を検索し、完全名候補の集合を抽出する(s12)。ここで、人名表現「宮崎」の完全名候補として不完全名−完全名対応DB12に「宮崎葵,宮崎俊,…」が登録されており、これらが抽出されたとする。
なお、完全名候補が1つも抽出されない場合(s13)はステップs22に進み、取り出した人名表現とともに対応する完全名無し(のメッセージ)を出力する(s22)。
次に、完全名同定手段20は、抽出した完全名候補「宮崎葵,宮崎俊,…」をそれぞれキーとして出現完全名リスト18を検索し(s14)、対応する完全名が登録されているか否かを判定する(s15)が、この場合、出現完全名リスト18には前述したように完全名「宮崎俊」が登録されているため、Yesとなり、ステップs16に進む。
完全名同定手段20は、前記完全名「宮崎俊」を人名表現「宮崎」に対応する完全名として当該人名表現「宮崎」とともに出力し(s16)、ステップs1、即ち完全名・不完全名判定手段17による処理に戻る。
[3]完全名・不完全名判定手段17は、再び抽出済み人名表現リスト16に未処理の人名表現があるか否かを判定するが(s1)、この場合、「キムタク」の1つの人名表現が残っているので、Yesとなり、ステップs2に進み、抽出済み人名表現リスト16から人名表現を入力文章の文頭側より1つ、ここでは「キムタク」を取り出す(s2)。
次に、完全名・不完全名判定手段17は、前記同様、取り出した人名表現「キムタク」をキーとして完全名DB11を検索し(s3)、登録されているか否かを判定する(s4)が、人名表現「キムタク」は不完全名であり、完全名DB11には当然登録されていないから、Noとなり、ステップs6に進む。
次に、完全名・不完全名判定手段17は、前記同様、取り出した人名表現「キムタク」が2つの形態素から構成され且つその品詞が「姓」及び「名」であるか否かを、その単語情報から判定する(s6,s7)。人名表現「キムタク」は1つの形態素であるから、Noとなり、ステップs9以降、即ち完全名同定手段20による処理に進む。
完全名同定手段20は、人名表現「キムタク」をキーとして文章内対応表19を検索し(s9)、登録されているか否かを判定する(s10)が、この場合も、文章内対応表19には何も登録されていないのでNoとなり、ステップs12に進む。
次に、完全名同定手段20は、前記同様、人名表現「キムタク」をキーとして不完全名−完全名対応DB12を検索し、完全名候補の集合を抽出する(s12)。ここで、不完全名−完全名対応DB12に人名表現「キムタク」の完全名候補として「木村卓也,木村卓哉,…」が登録されており、これらが抽出されたとする。
次に、完全名同定手段20は、前記同様、抽出した完全名候補「木村卓也,木村卓哉,…」をそれぞれキーとして出現完全名リスト18を検索し(s14)、対応する完全名が登録されているか否かを判定する(s15)が、この場合、出現完全名リスト18には対応する完全名が登録されていないため、Noとなり、ステップs17に進む。
完全名同定手段20は、人名表現「キムタク」に関する特徴語を処理済み入力文章記憶部14から抽出して不完全名特徴語リスト21を作成する(s17)。ここでは、『パウルの動く城』、『宮崎俊』、『宮崎』が前記(c)入力文章中に出現する固有表現として抽出され、『ファン』が前記(b)人名表現「キムタク」が出現している文の近傍に出現する名詞として抽出され、不完全名特徴語リスト21に登録される。
次に、完全名同定手段20は、ステップs12で得られている完全名候補「木村卓也,木村卓哉,…」をキーとして完全名特徴語DB13を検索して当該完全名候補に対応する特徴語及びその重みを取得する(s18)。ここでは、完全名候補「木村卓也」に対応する特徴語及びその重みとして、「<シャイアンツ:10.5,ファン:5.3,…>」
が取得され、また、完全名候補「木村卓哉」に対応する特徴語及びその重みとして、「<パウルの動く城:15.3,ファン:5.0,…>」が取得されたとする。
次に、完全名同定手段20は、各完全名候補「木村卓也,木村卓哉,…」の人名表現「キムタク」に対する類似度を、対応する特徴語及びその重みと前記ステップs17で作成した不完全名特徴語リスト21とからそれぞれ計算する(s19)。ここでは、完全名候補「木村卓也」に対応する特徴語のうち、不完全名特徴語リスト21中に存在する特徴語、即ち「ファン」の重み「5.3」が完全名候補「木村卓也」と人名表現「キムタク」の類似度として算出され、また、完全名候補「木村卓哉」に対応する特徴語のうち、不完全名特徴語リスト21中に存在する特徴語、即ち「パウルの動く城」の重み「15.3」及び「ファン」の重み「5.0」の和「20.3」が完全名候補「木村卓哉」と人名表現「キムタク」の類似度として算出される。
次に、完全名同定手段20は、完全名候補のうち、最も高い類似度が所定の閾値θ以上かどうかを判定する(s20)。ここで、閾値θが「15」であるとすると、Yesとなり、ステップs21に進む。
完全名同定手段20は、類似度の最も高い完全名候補、即ち「木村卓哉」を人名表現「キムタク」に対応する完全名として当該人名表現「キムタク」とともに出力し(s21)、ステップs1、即ち完全名・不完全名判定手段17による処理に戻る。
[4]完全名・不完全名判定手段17は、再び抽出済み人名表現リスト16に未処理の人名表現があるか否かを判定するが(s1)、この場合、残っていないで、Noとなり、処理を終了する。
このように本実施の形態によれば、不完全名−完全名対応データベースを使用し、文章内の固有表現や出現位置の近傍の名詞等を手がかりとすることで、文章中に完全名が存在していない場合でも、不完全名からなる人名表現に対応する完全名を高精度で同定することができる。
また、特徴ベクトルを出現文脈の近傍の名詞や文章全体の固有表現を使って作成することで、近傍の名詞(役職、…)の情報、出現した人物と共に書かれやすい固有表現(人、組織、場所など)の情報を組み込むことが可能である。
さらにまた、特徴語のスコアリングに人物を特徴づける語に高い重みを付与する枠組みを入れることで、最終的な完全名への変換精度向上が可能である。
<他の実施の形態>
(一文章中に出現する同一の不完全名が別の完全名を指す場合の処理)
一文章中に出現する同じ不完全名が別の完全名と対応する場合でも、出現した特徴語と不完全名の文間距離、単語間距離などを導入することで解くことが期待できる。
例として、下記に示す「キムタク」が2回出現し、それぞれが別の人物(この場合、前は「木村卓哉」を、後ろ側は「木村卓也」)を指す文章の場合を考える(左端の数字は文番号とする。)。
「1;SNAPのキムタクが〜。


5;あ、そういえば、昨日シャイアンツの試合みてきたんですけど、こっちのキムタクは…。」
例えば、特徴語の重みに文間の距離の逆数(不完全名の文−特徴語の文+1の絶対値の逆数)をかけることで、離れて出現した特徴語の重みを減少させることができる(同じ文に出現する場合は1になり、離れるほど減る)。
これにより、1文目の「キムタク」を考えた場合は、同じ文に出現している特徴語「SNAP」はそのまま特徴語の重みになるが、5文目の「ジャイアンツ」の重みは、|1/(1−5+1)|=0.2がかけられるために小さくなる。そのため、1文目の「キムタク」は「木村卓哉」と判断される。
同様に5文目の「キムタク」の場合は、「SNAP」の重みがディスカウントされるため、「シャイアンツ」の重みがきいて「木村卓也」として判断される。
このような枠組みを導入することで、同一文章中の複数の不完全名を正しく同定できると考えられる。
なお、実施の形態における処理済み入力文章記憶部、抽出済み人名表現リスト(記憶部)、出現完全名リスト(記憶部)、文章内対応表(記憶部)、不完全名特徴語リスト(記憶部)という記載は、どのようなデータを記憶するかという機能上の違いに基づく表現であり、ハードウェア的に個別の記憶部(記憶装置)が必要であるという意味ではない。また、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、図3の構成図に示された機能を実現するプログラムをインストールすることによっても実現可能である。
従来の人名表現同定方法の概要を示す説明図 本発明の人名表現同定装置の概要を示す説明図 本発明の人名表現同定装置の実施の形態の一例を示す構成図 各データベースの内容の一例を示す説明図 完全名・不完全名判定手段における処理の流れ図 完全名同定手段における処理の流れ図 本発明の人名表現同定装置による具体的な処理例を示す説明図
符号の説明
1,12:不完全名−完全名対応データベース(DB)、2,13:完全名特徴語データベース(DB)、3,17:不完全名・完全名判定手段、4,20:完全名同定手段、11:完全名データベース(DB)、14:処理済み入力文章記憶部、15:人名表現抽出手段、16:抽出済み人名表現リスト、18:出現完全名リスト、19:文章内対応表、21:不完全名特徴語リスト。

Claims (10)

  1. 少なくとも1つの文を含む文章に対して形態素解析処理及び固有表現抽出処理を行い、各単語に少なくとも品詞及び固有表現タグを付与してなる処理済み文章中の人名の固有表現タグが付された人名表現について、姓及び名からなる完全名でなく、それ以外の不完全名である場合に当該人名表現に対応する完全名を同定する人名表現同定装置であって、
    不完全名とこれに対する少なくとも1つの完全名候補とを対応させて登録した不完全名−完全名対応データベースと、
    完全名と当該完全名を特徴づける少なくとも1つの特徴語及びその重みとを対応させて登録した完全名特徴語データベースと、
    人名表現が完全名か不完全名かを判定する完全名・不完全名判定手段と、
    不完全名と判定された人名表現に関する特徴語を前記処理済み文章中から抽出して不完全名特徴語リストを作成するとともに、前記不完全名と判定された人名表現をキーとして不完全名−完全名対応データベースを検索して完全名候補を抽出し、当該完全名候補をキーとして完全名特徴語データベースを検索して当該完全名候補に対応する特徴語及びその重みを取得し、完全名候補の前記不完全名と判定された人名表現に対する類似度を、対応する特徴語及びその重みと前記不完全名特徴語リストとから計算し、最も類似度が高い完全名候補を前記不完全名と判定された人名表現に対応する完全名として出力する完全名同定手段とを備えた
    ことを特徴とする人名表現同定装置。
  2. 請求項1に記載の人名表現同定装置において、
    完全名・不完全名判定手段は、
    人名表現が、完全名を登録した完全名データベース中に登録されている、もしくは2つの形態素から構成され且つその品詞が「姓」及び「名」である、の少なくとも一方に当てはまる場合に完全名と判定する、
    ことを特徴とする人名表現同定装置。
  3. 請求項2に記載の人名表現同定装置において、
    完全名・不完全名判定手段は、前記に加え、
    完全名と判定された人名表現が完全名を登録した完全名データベース中に登録されていればその完全名を出現完全名リストに登録し、登録されていなければその完全名を「姓」と「名」に分け、「姓−完全名」及び「名−完全名」を文章内対応表に登録する、
    ことを特徴とする人名表現同定装置。
  4. 請求項3に記載の人名表現同定装置において、
    完全名同定手段は、前記処理に先立って、
    不完全名と判定された人名表現をキーとして文章内対応表を検索し、対応する完全名が登録されていれば、当該完全名を前記不完全名と判定された人名表現に対応する完全名として出力する、あるいは、
    不完全名と判定された人名表現をキーとして不完全名−完全名対応データベースを検索して完全名候補を抽出し、該完全名候補をキーとして出現完全名リストを検索し、対応する完全名が登録されていれば、当該完全名を前記不完全名と判定された人名表現に対応する完全名として出力する、
    ことを特徴とする人名表現同定装置。
  5. 少なくとも1つの文を含む文章に対して形態素解析処理及び固有表現抽出処理を行い、各単語に少なくとも品詞及び固有表現タグを付与してなる処理済み文章中の人名の固有表現タグが付された人名表現について、姓及び名からなる完全名でなく、それ以外の不完全名である場合に当該人名表現に対応する完全名を同定する人名表現同定方法であって、
    不完全名とこれに対する少なくとも1つの完全名候補とを対応させて登録した不完全名−完全名対応データベースと、
    完全名と当該完全名を特徴づける少なくとも1つの特徴語及びその重みとを対応させて登録した完全名特徴語データベースとを用い、
    完全名・不完全名判定手段が、人名表現が完全名か不完全名かを判定する工程と、
    完全名同定手段が、不完全名と判定された人名表現に関する特徴語を前記処理済み文章中から抽出して不完全名特徴語リストを作成するとともに、前記不完全名と判定された人名表現をキーとして不完全名−完全名対応データベースを検索して完全名候補を抽出し、当該完全名候補をキーとして完全名特徴語データベースを検索して当該完全名候補に対応する特徴語及びその重みを取得し、完全名候補の前記不完全名と判定された人名表現に対する類似度を、対応する特徴語及びその重みと前記不完全名特徴語リストとから計算し、最も類似度が高い完全名候補を前記不完全名と判定された人名表現に対応する完全名として出力する工程とを含む
    ことを特徴とする人名表現同定方法。
  6. 請求項5に記載の人名表現同定方法において、
    完全名・不完全名判定工程は、
    人名表現が、完全名を登録した完全名データベース中に登録されている、もしくは2つの形態素から構成され且つその品詞が「姓」及び「名」である、の少なくとも一方に当てはまる場合に完全名と判定する工程からなる、
    ことを特徴とする人名表現同定方法。
  7. 請求項6に記載の人名表現同定方法において、
    完全名・不完全名判定工程は、前記に加え、
    完全名と判定された人名表現が完全名を登録した完全名データベース中に登録されていればその完全名を出現完全名リストに登録し、登録されていなければその完全名を「姓」と「名」に分け、「姓−完全名」及び「名−完全名」を文章内対応表に登録する工程を含む、
    ことを特徴とする人名表現同定方法。
  8. 請求項7に記載の人名表現同定方法において、
    完全名同定工程は、前記工程に先立って、
    不完全名と判定された人名表現をキーとして文章内対応表を検索し、対応する完全名が登録されていれば、当該完全名を前記不完全名と判定された人名表現に対応する完全名として出力する、あるいは、
    不完全名と判定された人名表現をキーとして不完全名−完全名対応データベースを検索して完全名候補を抽出し、該完全名候補をキーとして出現完全名リストを検索し、対応する完全名が登録されていれば、当該完全名を前記不完全名と判定された人名表現に対応する完全名として出力する工程を含む、
    ことを特徴とする人名表現同定方法。
  9. コンピュータを、請求項1乃至4のいずれかに記載の人名表現同定装置の各手段として機能させるためのプログラム。
  10. 請求項9に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2008017643A 2008-01-29 2008-01-29 人名表現同定装置、その方法、プログラム及び記録媒体 Active JP4693065B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008017643A JP4693065B2 (ja) 2008-01-29 2008-01-29 人名表現同定装置、その方法、プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008017643A JP4693065B2 (ja) 2008-01-29 2008-01-29 人名表現同定装置、その方法、プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2009181183A true JP2009181183A (ja) 2009-08-13
JP4693065B2 JP4693065B2 (ja) 2011-06-01

Family

ID=41035149

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008017643A Active JP4693065B2 (ja) 2008-01-29 2008-01-29 人名表現同定装置、その方法、プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP4693065B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011191982A (ja) * 2010-03-15 2011-09-29 Nippon Telegr & Teleph Corp <Ntt> 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体
JP2016095698A (ja) * 2014-11-14 2016-05-26 日本電信電話株式会社 翻訳学習装置、翻訳装置、方法、及びプログラム
US11861521B2 (en) 2021-12-21 2024-01-02 PolyAI Limited System and method for identification and verification

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003216605A (ja) * 2002-01-25 2003-07-31 Nippon Telegr & Teleph Corp <Ntt> 人名表現同定方法及びその装置と、人名表現同定プログラム及びそのプログラムを記録した記録媒体
JP2005539283A (ja) * 2001-12-21 2005-12-22 ウエスト パブリッシング カンパニー,ディー.ビー.エー.ウエスト グループ 名前をハイパーリンクするためのシステム、方法、及びソフトウェア

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005539283A (ja) * 2001-12-21 2005-12-22 ウエスト パブリッシング カンパニー,ディー.ビー.エー.ウエスト グループ 名前をハイパーリンクするためのシステム、方法、及びソフトウェア
JP2003216605A (ja) * 2002-01-25 2003-07-31 Nippon Telegr & Teleph Corp <Ntt> 人名表現同定方法及びその装置と、人名表現同定プログラム及びそのプログラムを記録した記録媒体

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011191982A (ja) * 2010-03-15 2011-09-29 Nippon Telegr & Teleph Corp <Ntt> 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体
JP2016095698A (ja) * 2014-11-14 2016-05-26 日本電信電話株式会社 翻訳学習装置、翻訳装置、方法、及びプログラム
US11861521B2 (en) 2021-12-21 2024-01-02 PolyAI Limited System and method for identification and verification

Also Published As

Publication number Publication date
JP4693065B2 (ja) 2011-06-01

Similar Documents

Publication Publication Date Title
US7269544B2 (en) System and method for identifying special word usage in a document
US8494839B2 (en) Apparatus, method, and recording medium for morphological analysis and registering a new compound word
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
JP2017162190A (ja) 類似文書検索プログラム、類似文書検索装置、及び類似文書検索方法
JP2007257644A (ja) 訳語候補文字列予測に基づく訳語取得のためのプログラム、方法および装置
KR101664258B1 (ko) 텍스트 전처리 방법 및 이를 수행하는 전처리 시스템
WO2021249311A1 (zh) 命名实体的识别方法、识别设备及电子设备
JP5204244B2 (ja) 誤訳の検出を支援する装置及び方法
US20050004902A1 (en) Information retrieving system, information retrieving method, and information retrieving program
JP2017004127A (ja) テキスト分割プログラム、テキスト分割装置、及びテキスト分割方法
US8554539B2 (en) Method for analyzing morpheme using additional information and morpheme analyzer for executing the method
JP4693065B2 (ja) 人名表現同定装置、その方法、プログラム及び記録媒体
Mori et al. Language Resource Addition: Dictionary or Corpus?
WO2021107006A1 (ja) 情報処理装置、情報処理方法及びプログラム
JP2005202924A (ja) 対訳判断装置、方法及びプログラム
JP2003303194A (ja) 慣用句辞書作成装置、検索用インデックス作成装置、文書検索装置、それらの方法、プログラム及び記録媒体
JP2013109125A (ja) 単語追加装置、単語追加方法、およびプログラム
WO2021051600A1 (zh) 基于信息熵识别新词的方法、装置、设备及存储介质
JP2001101184A (ja) 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体
JP5182960B2 (ja) 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体
JP4915499B2 (ja) 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム
KR20210048713A (ko) 번역 엔진에 미포함된 신규 개체명에 대한 번역 기능을 제공하기 위한 번역 처리 장치 및 그 동작 방법
JP5137140B2 (ja) 出現表記レコード同定装置、削除規則生成装置、その方法、プログラム及び記録媒体
JP4468608B2 (ja) 意味情報推定装置、意味情報推定方法、及びプログラム
JP7216241B1 (ja) チャンキング実行システム、チャンキング実行方法、及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101208

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110216

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110217

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140304

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4693065

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350