JP2009181183A - 人名表現同定装置、その方法、プログラム及び記録媒体 - Google Patents
人名表現同定装置、その方法、プログラム及び記録媒体 Download PDFInfo
- Publication number
- JP2009181183A JP2009181183A JP2008017643A JP2008017643A JP2009181183A JP 2009181183 A JP2009181183 A JP 2009181183A JP 2008017643 A JP2008017643 A JP 2008017643A JP 2008017643 A JP2008017643 A JP 2008017643A JP 2009181183 A JP2009181183 A JP 2009181183A
- Authority
- JP
- Japan
- Prior art keywords
- name
- complete
- incomplete
- expression
- personal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【解決手段】完全名・不完全名判定手段3により、処理済み文章中の人名表現について完全名か不完全名かを判定し、完全名同定手段4により、不完全名と判定された人名表現に関する特徴語を前記処理済み文章中から抽出して不完全名特徴語リストを作成するとともに、前記人名表現をキーとして不完全名−完全名対応データベース1を検索して完全名候補を抽出し、当該完全名候補をキーとして完全名特徴語データベース2を検索して当該完全名候補に対応する特徴語及びその重みを取得し、完全名候補の前記人名表現に対する類似度を、対応する特徴語及びその重みと前記不完全名特徴語リストとから計算し、最も類似度が高い完全名候補を前記人名表現に対応する完全名として出力する。
【選択図】図2
Description
・不完全名とこれに対する少なくとも1つの完全名候補とを対応させて登録した不完全名−完全名対応データベースを用いて、不完全名からなる人名表現の完全名への変換候補を獲得する。これにより、従来技術では解けなかった「ニックネーム→完全名」の対応付けが可能になる。
score(PSN,t)=tf(t)*log(N/pf(t)) …(1)
(但し、tf(t):単語tが完全名PSN(の人物)と共起した頻度、N:人物の総数、pf(t):単語tが何人の人物と共起したか)より求めることができる。
・完全名DB11中に登録されている、
・2つの形態素から構成され且つその品詞が「姓」及び「名」である、
に当てはまれば完全名、そうでなければ不完全名と判定する。なお、不完全名と判定した場合、その人名表現をそのまま完全名同定手段20へ出力する。
・完全名と判定された人名表現が完全名DB11中に登録されていればその完全名を出現完全名リスト(記憶部)18に登録する、
・完全名と判定された人名表現が完全名DB11中に登録されていなければその完全名を「姓」と「名」に分け、「姓−完全名」及び「名−完全名」の対応表を作成し、これを文章内対応表(記憶部)19に登録する、
処理を行う。
(処理1−1)不完全名と判定された人名表現をキーとして文章内対応表19を検索し、対応する完全名が登録されていれば、当該完全名を前記不完全名と判定された人名表現に対応する完全名として当該人名表現とともに出力する、
(処理1−2)不完全名と判定された人名表現をキーとして不完全名−完全名対応DB12を検索して完全名候補の集合を抽出し、該完全名候補をキーとして出現完全名リスト18を検索し、対応する完全名が登録されていれば、当該完全名を前記不完全名と判定された人名表現に対応する完全名として当該人名表現とともに出力する、
処理を行う。
(a)特定のパタンで出現する名詞や固有表現、
(b)不完全名と判定された人名表現が出現している文の近傍(同一文もしくは1つ前の文)に出現する名詞や固有表現、
(c)入力文章中に出現する固有表現、
を使用する。
XのPSN(例:SNAPの木村)
パタン2:PSNと直後に出現する名詞接尾辞
PSN X(X=名詞接尾辞)(例:福田首相、福田元首相)
この場合、後述する類似度の計算において、「SNAPの木村」と「木村卓哉」との間、「福田首相」と「福田康夫」との間、「福田元首相」と「福田赴夫」との間では高い類似度が得られ、その完全名(人物)を特定するために有効であると考えられる。
sim(X,Y)=Σ[x∈X∩Y]w(x) …(2)
(但し、X:不完全名特徴リスト、Y:完全名候補の特徴語集合、w(x):特徴語の重み)より求めることができる。
が取得され、また、完全名候補「木村卓哉」に対応する特徴語及びその重みとして、「<パウルの動く城:15.3,ファン:5.0,…>」が取得されたとする。
(一文章中に出現する同一の不完全名が別の完全名を指す場合の処理)
一文章中に出現する同じ不完全名が別の完全名と対応する場合でも、出現した特徴語と不完全名の文間距離、単語間距離などを導入することで解くことが期待できる。
「1;SNAPのキムタクが〜。
:
:
5;あ、そういえば、昨日シャイアンツの試合みてきたんですけど、こっちのキムタクは…。」
例えば、特徴語の重みに文間の距離の逆数(不完全名の文−特徴語の文+1の絶対値の逆数)をかけることで、離れて出現した特徴語の重みを減少させることができる(同じ文に出現する場合は1になり、離れるほど減る)。
Claims (10)
- 少なくとも1つの文を含む文章に対して形態素解析処理及び固有表現抽出処理を行い、各単語に少なくとも品詞及び固有表現タグを付与してなる処理済み文章中の人名の固有表現タグが付された人名表現について、姓及び名からなる完全名でなく、それ以外の不完全名である場合に当該人名表現に対応する完全名を同定する人名表現同定装置であって、
不完全名とこれに対する少なくとも1つの完全名候補とを対応させて登録した不完全名−完全名対応データベースと、
完全名と当該完全名を特徴づける少なくとも1つの特徴語及びその重みとを対応させて登録した完全名特徴語データベースと、
人名表現が完全名か不完全名かを判定する完全名・不完全名判定手段と、
不完全名と判定された人名表現に関する特徴語を前記処理済み文章中から抽出して不完全名特徴語リストを作成するとともに、前記不完全名と判定された人名表現をキーとして不完全名−完全名対応データベースを検索して完全名候補を抽出し、当該完全名候補をキーとして完全名特徴語データベースを検索して当該完全名候補に対応する特徴語及びその重みを取得し、完全名候補の前記不完全名と判定された人名表現に対する類似度を、対応する特徴語及びその重みと前記不完全名特徴語リストとから計算し、最も類似度が高い完全名候補を前記不完全名と判定された人名表現に対応する完全名として出力する完全名同定手段とを備えた
ことを特徴とする人名表現同定装置。 - 請求項1に記載の人名表現同定装置において、
完全名・不完全名判定手段は、
人名表現が、完全名を登録した完全名データベース中に登録されている、もしくは2つの形態素から構成され且つその品詞が「姓」及び「名」である、の少なくとも一方に当てはまる場合に完全名と判定する、
ことを特徴とする人名表現同定装置。 - 請求項2に記載の人名表現同定装置において、
完全名・不完全名判定手段は、前記に加え、
完全名と判定された人名表現が完全名を登録した完全名データベース中に登録されていればその完全名を出現完全名リストに登録し、登録されていなければその完全名を「姓」と「名」に分け、「姓−完全名」及び「名−完全名」を文章内対応表に登録する、
ことを特徴とする人名表現同定装置。 - 請求項3に記載の人名表現同定装置において、
完全名同定手段は、前記処理に先立って、
不完全名と判定された人名表現をキーとして文章内対応表を検索し、対応する完全名が登録されていれば、当該完全名を前記不完全名と判定された人名表現に対応する完全名として出力する、あるいは、
不完全名と判定された人名表現をキーとして不完全名−完全名対応データベースを検索して完全名候補を抽出し、該完全名候補をキーとして出現完全名リストを検索し、対応する完全名が登録されていれば、当該完全名を前記不完全名と判定された人名表現に対応する完全名として出力する、
ことを特徴とする人名表現同定装置。 - 少なくとも1つの文を含む文章に対して形態素解析処理及び固有表現抽出処理を行い、各単語に少なくとも品詞及び固有表現タグを付与してなる処理済み文章中の人名の固有表現タグが付された人名表現について、姓及び名からなる完全名でなく、それ以外の不完全名である場合に当該人名表現に対応する完全名を同定する人名表現同定方法であって、
不完全名とこれに対する少なくとも1つの完全名候補とを対応させて登録した不完全名−完全名対応データベースと、
完全名と当該完全名を特徴づける少なくとも1つの特徴語及びその重みとを対応させて登録した完全名特徴語データベースとを用い、
完全名・不完全名判定手段が、人名表現が完全名か不完全名かを判定する工程と、
完全名同定手段が、不完全名と判定された人名表現に関する特徴語を前記処理済み文章中から抽出して不完全名特徴語リストを作成するとともに、前記不完全名と判定された人名表現をキーとして不完全名−完全名対応データベースを検索して完全名候補を抽出し、当該完全名候補をキーとして完全名特徴語データベースを検索して当該完全名候補に対応する特徴語及びその重みを取得し、完全名候補の前記不完全名と判定された人名表現に対する類似度を、対応する特徴語及びその重みと前記不完全名特徴語リストとから計算し、最も類似度が高い完全名候補を前記不完全名と判定された人名表現に対応する完全名として出力する工程とを含む
ことを特徴とする人名表現同定方法。 - 請求項5に記載の人名表現同定方法において、
完全名・不完全名判定工程は、
人名表現が、完全名を登録した完全名データベース中に登録されている、もしくは2つの形態素から構成され且つその品詞が「姓」及び「名」である、の少なくとも一方に当てはまる場合に完全名と判定する工程からなる、
ことを特徴とする人名表現同定方法。 - 請求項6に記載の人名表現同定方法において、
完全名・不完全名判定工程は、前記に加え、
完全名と判定された人名表現が完全名を登録した完全名データベース中に登録されていればその完全名を出現完全名リストに登録し、登録されていなければその完全名を「姓」と「名」に分け、「姓−完全名」及び「名−完全名」を文章内対応表に登録する工程を含む、
ことを特徴とする人名表現同定方法。 - 請求項7に記載の人名表現同定方法において、
完全名同定工程は、前記工程に先立って、
不完全名と判定された人名表現をキーとして文章内対応表を検索し、対応する完全名が登録されていれば、当該完全名を前記不完全名と判定された人名表現に対応する完全名として出力する、あるいは、
不完全名と判定された人名表現をキーとして不完全名−完全名対応データベースを検索して完全名候補を抽出し、該完全名候補をキーとして出現完全名リストを検索し、対応する完全名が登録されていれば、当該完全名を前記不完全名と判定された人名表現に対応する完全名として出力する工程を含む、
ことを特徴とする人名表現同定方法。 - コンピュータを、請求項1乃至4のいずれかに記載の人名表現同定装置の各手段として機能させるためのプログラム。
- 請求項9に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008017643A JP4693065B2 (ja) | 2008-01-29 | 2008-01-29 | 人名表現同定装置、その方法、プログラム及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008017643A JP4693065B2 (ja) | 2008-01-29 | 2008-01-29 | 人名表現同定装置、その方法、プログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009181183A true JP2009181183A (ja) | 2009-08-13 |
JP4693065B2 JP4693065B2 (ja) | 2011-06-01 |
Family
ID=41035149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008017643A Active JP4693065B2 (ja) | 2008-01-29 | 2008-01-29 | 人名表現同定装置、その方法、プログラム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4693065B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011191982A (ja) * | 2010-03-15 | 2011-09-29 | Nippon Telegr & Teleph Corp <Ntt> | 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体 |
JP2016095698A (ja) * | 2014-11-14 | 2016-05-26 | 日本電信電話株式会社 | 翻訳学習装置、翻訳装置、方法、及びプログラム |
US11861521B2 (en) | 2021-12-21 | 2024-01-02 | PolyAI Limited | System and method for identification and verification |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003216605A (ja) * | 2002-01-25 | 2003-07-31 | Nippon Telegr & Teleph Corp <Ntt> | 人名表現同定方法及びその装置と、人名表現同定プログラム及びそのプログラムを記録した記録媒体 |
JP2005539283A (ja) * | 2001-12-21 | 2005-12-22 | ウエスト パブリッシング カンパニー,ディー.ビー.エー.ウエスト グループ | 名前をハイパーリンクするためのシステム、方法、及びソフトウェア |
-
2008
- 2008-01-29 JP JP2008017643A patent/JP4693065B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005539283A (ja) * | 2001-12-21 | 2005-12-22 | ウエスト パブリッシング カンパニー,ディー.ビー.エー.ウエスト グループ | 名前をハイパーリンクするためのシステム、方法、及びソフトウェア |
JP2003216605A (ja) * | 2002-01-25 | 2003-07-31 | Nippon Telegr & Teleph Corp <Ntt> | 人名表現同定方法及びその装置と、人名表現同定プログラム及びそのプログラムを記録した記録媒体 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011191982A (ja) * | 2010-03-15 | 2011-09-29 | Nippon Telegr & Teleph Corp <Ntt> | 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体 |
JP2016095698A (ja) * | 2014-11-14 | 2016-05-26 | 日本電信電話株式会社 | 翻訳学習装置、翻訳装置、方法、及びプログラム |
US11861521B2 (en) | 2021-12-21 | 2024-01-02 | PolyAI Limited | System and method for identification and verification |
Also Published As
Publication number | Publication date |
---|---|
JP4693065B2 (ja) | 2011-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7269544B2 (en) | System and method for identifying special word usage in a document | |
US8494839B2 (en) | Apparatus, method, and recording medium for morphological analysis and registering a new compound word | |
WO2005059771A1 (ja) | 対訳判断装置、方法及びプログラム | |
JP2017162190A (ja) | 類似文書検索プログラム、類似文書検索装置、及び類似文書検索方法 | |
JP2007257644A (ja) | 訳語候補文字列予測に基づく訳語取得のためのプログラム、方法および装置 | |
KR101664258B1 (ko) | 텍스트 전처리 방법 및 이를 수행하는 전처리 시스템 | |
WO2021249311A1 (zh) | 命名实体的识别方法、识别设备及电子设备 | |
JP5204244B2 (ja) | 誤訳の検出を支援する装置及び方法 | |
US20050004902A1 (en) | Information retrieving system, information retrieving method, and information retrieving program | |
JP2017004127A (ja) | テキスト分割プログラム、テキスト分割装置、及びテキスト分割方法 | |
US8554539B2 (en) | Method for analyzing morpheme using additional information and morpheme analyzer for executing the method | |
JP4693065B2 (ja) | 人名表現同定装置、その方法、プログラム及び記録媒体 | |
Mori et al. | Language Resource Addition: Dictionary or Corpus? | |
WO2021107006A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2005202924A (ja) | 対訳判断装置、方法及びプログラム | |
JP2003303194A (ja) | 慣用句辞書作成装置、検索用インデックス作成装置、文書検索装置、それらの方法、プログラム及び記録媒体 | |
JP2013109125A (ja) | 単語追加装置、単語追加方法、およびプログラム | |
WO2021051600A1 (zh) | 基于信息熵识别新词的方法、装置、设备及存储介质 | |
JP2001101184A (ja) | 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体 | |
JP5182960B2 (ja) | 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体 | |
JP4915499B2 (ja) | 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム | |
KR20210048713A (ko) | 번역 엔진에 미포함된 신규 개체명에 대한 번역 기능을 제공하기 위한 번역 처리 장치 및 그 동작 방법 | |
JP5137140B2 (ja) | 出現表記レコード同定装置、削除規則生成装置、その方法、プログラム及び記録媒体 | |
JP4468608B2 (ja) | 意味情報推定装置、意味情報推定方法、及びプログラム | |
JP7216241B1 (ja) | チャンキング実行システム、チャンキング実行方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101208 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110128 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110216 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110217 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140304 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4693065 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |