JP4693065B2 - 人名表現同定装置、その方法、プログラム及び記録媒体 - Google Patents
人名表現同定装置、その方法、プログラム及び記録媒体 Download PDFInfo
- Publication number
- JP4693065B2 JP4693065B2 JP2008017643A JP2008017643A JP4693065B2 JP 4693065 B2 JP4693065 B2 JP 4693065B2 JP 2008017643 A JP2008017643 A JP 2008017643A JP 2008017643 A JP2008017643 A JP 2008017643A JP 4693065 B2 JP4693065 B2 JP 4693065B2
- Authority
- JP
- Japan
- Prior art keywords
- name
- complete
- incomplete
- expression
- full
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
・不完全名とこれに対する少なくとも1つの完全名候補とを対応させて登録した不完全名−完全名対応データベースを用いて、不完全名からなる人名表現の完全名への変換候補を獲得する。これにより、従来技術では解けなかった「ニックネーム→完全名」の対応付けが可能になる。
score(PSN,t)=tf(t)*log(N/pf(t)) …(1)
(但し、tf(t):単語tが完全名PSN(の人物)と共起した頻度、N:人物の総数、pf(t):単語tが何人の人物と共起したか)より求めることができる。
・完全名DB11中に登録されている、
・2つの形態素から構成され且つその品詞が「姓」及び「名」である、
に当てはまれば完全名、そうでなければ不完全名と判定する。なお、不完全名と判定した場合、その人名表現をそのまま完全名同定手段20へ出力する。
・完全名と判定された人名表現が完全名DB11中に登録されていればその完全名を出現完全名リスト(記憶部)18に登録する、
・完全名と判定された人名表現が完全名DB11中に登録されていなければその完全名を「姓」と「名」に分け、「姓−完全名」及び「名−完全名」の対応表を作成し、これを文章内対応表(記憶部)19に登録する、
処理を行う。
(処理1−1)不完全名と判定された人名表現をキーとして文章内対応表19を検索し、対応する完全名が登録されていれば、当該完全名を前記不完全名と判定された人名表現に対応する完全名として当該人名表現とともに出力する、
(処理1−2)不完全名と判定された人名表現をキーとして不完全名−完全名対応DB12を検索して完全名候補の集合を抽出し、該完全名候補をキーとして出現完全名リスト18を検索し、対応する完全名が登録されていれば、当該完全名を前記不完全名と判定された人名表現に対応する完全名として当該人名表現とともに出力する、
処理を行う。
(a)特定のパタンで出現する名詞や固有表現、
(b)不完全名と判定された人名表現が出現している文の近傍(同一文もしくは1つ前の文)に出現する名詞や固有表現、
(c)入力文章中に出現する固有表現、
を使用する。
XのPSN(例:SNAPの木村)
パタン2:PSNと直後に出現する名詞接尾辞
PSN X(X=名詞接尾辞)(例:福田首相、福田元首相)
この場合、後述する類似度の計算において、「SNAPの木村」と「木村卓哉」との間、「福田首相」と「福田康夫」との間、「福田元首相」と「福田赴夫」との間では高い類似度が得られ、その完全名(人物)を特定するために有効であると考えられる。
sim(X,Y)=Σ[x∈X∩Y]w(x) …(2)
(但し、X:不完全名特徴リスト、Y:完全名候補の特徴語集合、w(x):特徴語の重み)より求めることができる。
が取得され、また、完全名候補「木村卓哉」に対応する特徴語及びその重みとして、「<パウルの動く城:15.3,ファン:5.0,…>」が取得されたとする。
(一文章中に出現する同一の不完全名が別の完全名を指す場合の処理)
一文章中に出現する同じ不完全名が別の完全名と対応する場合でも、出現した特徴語と不完全名の文間距離、単語間距離などを導入することで解くことが期待できる。
「1;SNAPのキムタクが〜。
:
:
5;あ、そういえば、昨日シャイアンツの試合みてきたんですけど、こっちのキムタクは…。」
例えば、特徴語の重みに文間の距離の逆数(不完全名の文−特徴語の文+1の絶対値の逆数)をかけることで、離れて出現した特徴語の重みを減少させることができる(同じ文に出現する場合は1になり、離れるほど減る)。
Claims (4)
- 少なくとも1つの文を含む文章に対して形態素解析処理及び固有表現抽出処理を行い、各単語に少なくとも品詞及び固有表現タグを付与してなる処理済み文章中の人名の固有表現タグが付された人名表現について、姓及び名からなる完全名でなく、それ以外の不完全名である場合に当該人名表現に対応する完全名を同定する人名表現同定装置であって、
完全名を登録した完全名データベースと、
不完全名とこれに対する少なくとも1つの完全名候補とを対応させて登録した不完全名−完全名対応データベースと、
完全名と当該完全名を特徴づける少なくとも1つの特徴語及びその重みとを対応させて登録した完全名特徴語データベースと、
前記処理済み文章中の各人名表現が完全名か不完全名かを判定するとともに、完全名と判定された前記人名表現が前記完全名データベース中に登録されていればその完全名を出現完全名リストに登録し、登録されていなければその完全名を「姓」と「名」に分け、「姓−完全名」及び「名−完全名」の対応表を文章内対応表として登録する完全名・不完全名判定手段と、
不完全名と判定された前記人名表現をキーとして前記文章内対応表を検索し、対応する完全名が前記文章内対応表に登録されていれば、当該完全名を前記不完全名と判定された人名表現に対応する完全名として出力し、対応する完全名が前記文章内対応表に登録されていなければ、前記不完全名と判定された人名表現をキーとして不完全名−完全名対応データベースを検索して完全名候補を抽出し、当該完全名候補をキーとして前記出現完全名リストを検索し、対応する完全名が登録されていれば、当該完全名を前記不完全名と判定された人名表現に対応する完全名として出力し、対応する完全名が前記出現完全名リストに登録されていなければ、前記不完全名と判定された人名表現に対して所定の係り受け関係もしくは位置関係に出現する名詞や固有表現である特徴語を前記処理済み文章中から抽出して不完全名特徴語リストを作成し、前記完全名候補をキーとして前記完全名特徴語データベースを検索して当該完全名候補に対応する特徴語及びその重みを取得し、完全名候補の前記不完全名と判定された人名表現に対する類似度を、対応する特徴語及びその重みと前記不完全名特徴語リストとから計算し、最も類似度が高い完全名候補を前記不完全名と判定された人名表現に対応する完全名として出力する完全名同定手段とを備えた
ことを特徴とする人名表現同定装置。 - 少なくとも1つの文を含む文章に対して形態素解析処理及び固有表現抽出処理を行い、各単語に少なくとも品詞及び固有表現タグを付与してなる処理済み文章中の人名の固有表現タグが付された人名表現について、姓及び名からなる完全名でなく、それ以外の不完全名である場合に当該人名表現に対応する完全名を同定する人名表現同定方法であって、
完全名を登録した完全名データベースと、
不完全名とこれに対する少なくとも1つの完全名候補とを対応させて登録した不完全名−完全名対応データベースと、
完全名と当該完全名を特徴づける少なくとも1つの特徴語及びその重みとを対応させて登録した完全名特徴語データベースとを用い、
完全名・不完全名判定手段が、前記処理済み文章中の各人名表現が完全名か不完全名かを判定するとともに、完全名と判定された前記人名表現が前記完全名データベース中に登録されていればその完全名を出現完全名リストに登録し、登録されていなければその完全名を「姓」と「名」に分け、「姓−完全名」及び「名−完全名」の対応表を文章内対応表として登録する工程と、
完全名同定手段が、不完全名と判定された前記人名表現をキーとして前記文章内対応表を検索し、対応する完全名が前記文章内対応表に登録されていれば、当該完全名を前記不完全名と判定された人名表現に対応する完全名として出力し、対応する完全名が前記文章内対応表に登録されていなければ、前記不完全名と判定された人名表現をキーとして不完全名−完全名対応データベースを検索して完全名候補を抽出し、当該完全名候補をキーとして前記出現完全名リストを検索し、対応する完全名が登録されていれば、当該完全名を前記不完全名と判定された人名表現に対応する完全名として出力し、対応する完全名が前記出現完全名リストに登録されていなければ、前記不完全名と判定された人名表現に対して所定の係り受け関係もしくは位置関係に出現する名詞や固有表現である特徴語を前記処理済み文章中から抽出して不完全名特徴語リストを作成し、前記完全名候補をキーとして前記完全名特徴語データベースを検索して当該完全名候補に対応する特徴語及びその重みを取得し、完全名候補の前記不完全名と判定された人名表現に対する類似度を、対応する特徴語及びその重みと前記不完全名特徴語リストとから計算し、最も類似度が高い完全名候補を前記不完全名と判定された人名表現に対応する完全名として出力する工程とを含む
ことを特徴とする人名表現同定方法。 - コンピュータを、請求項1に記載の人名表現同定装置の各手段として機能させるためのプログラム。
- 請求項3に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008017643A JP4693065B2 (ja) | 2008-01-29 | 2008-01-29 | 人名表現同定装置、その方法、プログラム及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008017643A JP4693065B2 (ja) | 2008-01-29 | 2008-01-29 | 人名表現同定装置、その方法、プログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009181183A JP2009181183A (ja) | 2009-08-13 |
JP4693065B2 true JP4693065B2 (ja) | 2011-06-01 |
Family
ID=41035149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008017643A Active JP4693065B2 (ja) | 2008-01-29 | 2008-01-29 | 人名表現同定装置、その方法、プログラム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4693065B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5182960B2 (ja) * | 2010-03-15 | 2013-04-17 | 日本電信電話株式会社 | 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体 |
JP2016095698A (ja) * | 2014-11-14 | 2016-05-26 | 日本電信電話株式会社 | 翻訳学習装置、翻訳装置、方法、及びプログラム |
US11861521B2 (en) | 2021-12-21 | 2024-01-02 | PolyAI Limited | System and method for identification and verification |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003216605A (ja) * | 2002-01-25 | 2003-07-31 | Nippon Telegr & Teleph Corp <Ntt> | 人名表現同定方法及びその装置と、人名表現同定プログラム及びそのプログラムを記録した記録媒体 |
JP2005539283A (ja) * | 2001-12-21 | 2005-12-22 | ウエスト パブリッシング カンパニー,ディー.ビー.エー.ウエスト グループ | 名前をハイパーリンクするためのシステム、方法、及びソフトウェア |
-
2008
- 2008-01-29 JP JP2008017643A patent/JP4693065B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005539283A (ja) * | 2001-12-21 | 2005-12-22 | ウエスト パブリッシング カンパニー,ディー.ビー.エー.ウエスト グループ | 名前をハイパーリンクするためのシステム、方法、及びソフトウェア |
JP2003216605A (ja) * | 2002-01-25 | 2003-07-31 | Nippon Telegr & Teleph Corp <Ntt> | 人名表現同定方法及びその装置と、人名表現同定プログラム及びそのプログラムを記録した記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP2009181183A (ja) | 2009-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7269544B2 (en) | System and method for identifying special word usage in a document | |
JP3695191B2 (ja) | 翻訳支援装置及びその方法並びにコンピュータ可読記録媒体 | |
JP4694111B2 (ja) | 用例ベースの機械翻訳システム | |
WO2005059771A1 (ja) | 対訳判断装置、方法及びプログラム | |
JP2017162190A (ja) | 類似文書検索プログラム、類似文書検索装置、及び類似文書検索方法 | |
JP2007257644A (ja) | 訳語候補文字列予測に基づく訳語取得のためのプログラム、方法および装置 | |
US20080288243A1 (en) | Information Processing Apparatus, Informaton Processing Method, Program, and Recording Medium | |
JP5204244B2 (ja) | 誤訳の検出を支援する装置及び方法 | |
US7359896B2 (en) | Information retrieving system, information retrieving method, and information retrieving program | |
US8554539B2 (en) | Method for analyzing morpheme using additional information and morpheme analyzer for executing the method | |
JP4693065B2 (ja) | 人名表現同定装置、その方法、プログラム及び記録媒体 | |
JP6705352B2 (ja) | 言語処理装置、言語処理方法、及び言語処理プログラム | |
JP4401269B2 (ja) | 対訳判断装置及びプログラム | |
JP7475844B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2013109125A (ja) | 単語追加装置、単語追加方法、およびプログラム | |
JP2001101184A (ja) | 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体 | |
JP4915499B2 (ja) | 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム | |
JP5182960B2 (ja) | 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体 | |
JP4468608B2 (ja) | 意味情報推定装置、意味情報推定方法、及びプログラム | |
JP5137140B2 (ja) | 出現表記レコード同定装置、削除規則生成装置、その方法、プログラム及び記録媒体 | |
JP7216241B1 (ja) | チャンキング実行システム、チャンキング実行方法、及びプログラム | |
JP2018180839A (ja) | 文書間類似度計算方法、文書間類似度計算装置、及び文書間類似度計算プログラム | |
JP6934621B2 (ja) | 方法、装置、及びプログラム | |
JP2007148925A (ja) | 情報処理装置及び情報処理方法 | |
JP2006163953A (ja) | 単語ベクトル推定方法、単語ベクトル推定装置、プログラムおよび記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101208 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110128 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110216 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110217 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140304 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4693065 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |