JP2009140049A - 新規固有表現語彙獲得装置、その方法、プログラム及び記録媒体 - Google Patents
新規固有表現語彙獲得装置、その方法、プログラム及び記録媒体 Download PDFInfo
- Publication number
- JP2009140049A JP2009140049A JP2007313205A JP2007313205A JP2009140049A JP 2009140049 A JP2009140049 A JP 2009140049A JP 2007313205 A JP2007313205 A JP 2007313205A JP 2007313205 A JP2007313205 A JP 2007313205A JP 2009140049 A JP2009140049 A JP 2009140049A
- Authority
- JP
- Japan
- Prior art keywords
- reliability
- specific expression
- tag
- expression
- vocabulary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】タグ信頼度付与処理部12により、形態素解析済の大規模形態素解析済テキストから固有表現モデルを用いて各形態素がとり得る固有表現タグ毎の信頼度を算出し、各形態素に該固有表現タグとその信頼度を付与してタグ信頼度付テキストを生成し、固有表現展開処理部22により、タグ信頼度付テキストに対し、形態素毎に信頼度が上位N個のタグを取り出して展開し、固有表現を取り出し、固有表現語彙リストにないもののみを新規固有表現語彙候補として出力し、スコア計算処理部24により、各候補のタグ信頼度をその形態素数に対して正規化し、同一の表記及び固有表現状態を含む候補のタグ信頼度を加算してスコア化し、スコアが高い順に上位M個の候補を新規固有表現語彙リストとして出力する。
【選択図】図1
Description
持株/モチカブ/名詞/I−<ORG>
会社/ガイシャ/名詞/I−<ORG>
社長/シャチョウ/名詞/NIL
の/ノ/助詞/NIL
三浦/ミウラ/名詞:固有:姓:組織/B−<PSN>
氏/シ/名詞/NIL
「NTT/NTT/名詞:固有:組織 持株/モチカブ/名詞 会社/ガイシャ/名詞」の部分が3つの形態素から構成される固有表現状態<ORG>、「三浦/ミウラ/名詞:固有:姓:組織」が1つの形態素から構成される固有表現状態<PSN>である。なお、この例では「NTT」の品詞は「名詞:固有:組織」であり、組織になり得る固有名詞となっている。また、「三浦」の品詞は「名詞:固有:姓:組織」であり、姓か組織になり得る固有名詞となっている。このように、名詞には一般名詞だけではなく固有名詞という分類も存在し得るが、本特許でいう固有表現抽出とは、単に品詞が固有名詞である一つの形態素を抽出するということではなく、少なくとも1つの形態素のまとまりからなる組織名、人名、地名等の固有表現を抽出することを意味する。
1.フリーに記述されたWebテキストから前後の文脈に応じて新規語彙を獲得する技術が無い、
2.1の問題に対して既存の統計的手法で機械的な解析を行う場合は、そもそも既存の統計モデルにとっての新規語彙はうまく抽出できないという根本の問題がある、
3.2の問題に対して、既存の統計的手法のNbest出力を利用する場合は、下位の出力で新規語彙をうまく解析できる可能性がある一方、それら下位の解析結果から得られる語彙がどの程度確からしいのか客観的に評価できない、
という問題があった。
タグ信頼度付与手段12は、入力された大規模形態素解析済テキストに対し、固有表現モデル記憶部11に記憶された固有表現モデルを用いて個々の形態素がとり得る固有表現タグ毎の信頼度を算出し、各形態素に該固有表現タグとその信頼度を付与してタグ信頼度付テキストを生成し、タグ信頼度付テキスト記憶部13に記憶する。この際、信頼度には、タグ毎に算出した事後確率を用いる。
P(ti=ti,j|x)=αi,jβi,j (4)
前向き確率αi,jは、当該タグ候補より前方の前向き確率から式(5)(6)を用いて再帰的に計算できる。また、後ろ向き確率βi,jは、当該タグ候補より後方の後ろ向き確率から式(7)(8)を用いて再帰的に計算できる。従って、前向きアルゴリズムと後ろ向きアルゴリズム(例えば、北 研二「言語と計算4 確率的言語モデル」東京大学出版会、1999、101〜125頁)を用いてαi,j、βi,jを算出し、両者を乗算することにより、効率的に算出することも可能である。
固有表現展開処理部22は、図4に示すように、タグ信頼度付テキスト記憶部13からタグ信頼度付テキストを読み出し(s1)、タグ信頼度付テキストから形態素毎に信頼度が上位N個、ここでは信頼度が1位の固有表現タグ及び該1位の信頼度が所定の値以下の時のみ信頼度が2位の固有表現タグをその信頼度とともに取り出し(s2)、該取り出した固有表現タグ同士を適切かつ最長一致優先で文頭から文末まで接続して展開し(s3)、該展開した固有表現タグから固有表現を、1つの形態素から構成される場合はその形態素の表記とともに固有表現状態とタグ信頼度を含めて、また、複数の形態素から構成される場合は各表記をつなげた表記とともに固有表現状態と各タグ信頼度を含めて取り出し(s4)、該取り出した固有表現のうち、固有表現語彙リスト記憶部21に記憶された固有表現語彙リストにないもののみを新規固有表現語彙候補として出力し、新規固有表現語彙候補記憶部23に記憶する(s5)。
スコア計算処理部24は、図7に示すように、新規固有表現語彙候補記憶部23から新規固有表現語彙候補を読み出し(s11)、各新規固有表現語彙候補のタグ信頼度をその形態素数に対して正規化し(s12)、同一の表記及び固有表現状態を含む新規固有表現語彙候補のタグ信頼度を加算してスコア化し(s13)、スコアが高い順に上位M個の新規固有表現語彙候補を新規固有表現語彙リストとして出力する(s14)。
Claims (6)
- 形態素解析済のテキストの大規模な集合である大規模形態素解析済テキストから新規な固有表現語彙を獲得する装置であって、
予め所定の学習データから作成された固有表現抽出のための固有表現モデルを記憶する固有表現モデル記憶部と、
前記所定の学習データ中に含まれる固有表現からなる固有表現語彙リストを記憶する固有表現語彙リスト記憶部と、
入力された大規模形態素解析済テキストに対し、固有表現モデル記憶部に記憶された固有表現モデルを用いて個々の形態素がとり得る固有表現タグ毎の信頼度を算出し、各形態素に該固有表現タグとその信頼度を付与してタグ信頼度付テキストを生成して出力するタグ信頼度付与処理部と、
タグ信頼度付与処理部から出力されたタグ信頼度付テキストに対し、形態素毎に信頼度が上位N個の固有表現タグを取り出して展開し、該展開した固有表現タグから固有表現を取り出し、固有表現語彙リスト記憶部に記憶された固有表現語彙リストにないもののみを新規固有表現語彙候補として出力する固有表現展開処理部と、
固有表現展開処理部から出力された新規固有表現語彙候補に対し、各新規固有表現語彙候補のタグ信頼度をその形態素数に対して正規化し、同一の表記及び固有表現状態を含む新規固有表現語彙候補のタグ信頼度を加算してスコア化し、スコアが高い順に上位M個の新規固有表現語彙候補を新規固有表現語彙リストとして出力するスコア計算処理部とを備えた
ことを特徴とする新規固有表現語彙獲得装置。 - 請求項1に記載の新規固有表現語彙獲得装置において、
タグ信頼度付与処理部から出力されたタグ信頼度付テキストを記憶するタグ信頼度付テキスト記憶部からタグ信頼度付テキストを読み出し、タグ信頼度付テキストから形態素毎に信頼度が上位N個の固有表現タグをその信頼度とともに取り出し、該取り出した固有表現タグ同士を適切かつ最長一致優先で文頭から文末まで接続して展開し、該展開した固有表現タグから固有表現を、1つの形態素から構成される場合はその形態素の表記とともに固有表現状態とタグ信頼度を含めて、また、複数の形態素から構成される場合は各表記をつなげた表記とともに固有表現状態と各タグ信頼度を含めて取り出し、該取り出した固有表現のうち、固有表現語彙リスト記憶部に記憶された固有表現語彙リストにないもののみを新規固有表現語彙候補として出力する固有表現展開処理部を備えた
ことを特徴とする新規固有表現語彙獲得装置。 - 形態素解析済のテキストの大規模な集合である大規模形態素解析済テキストから新規な固有表現語彙を獲得する方法であって、
タグ信頼度付与処理手段が、入力された大規模形態素解析済テキストに対し、固有表現モデル記憶部に記憶された予め所定の学習データから作成された固有表現抽出のための固有表現モデルを用いて個々の形態素がとり得る固有表現タグ毎の信頼度を算出し、各形態素に該固有表現タグとその信頼度を付与してタグ信頼度付テキストを生成して出力するステップと、
固有表現展開処理手段が、タグ信頼度付与処理部から出力されたタグ信頼度付テキストに対し、形態素毎に信頼度が上位N個の固有表現タグを取り出して展開し、該展開した固有表現タグから固有表現を取り出し、固有表現語彙リスト記憶部に記憶された前記所定の学習データ中に含まれる固有表現からなる固有表現語彙リストにないもののみを新規固有表現語彙候補として出力するステップと、
スコア計算処理手段が、固有表現展開処理部から出力された新規固有表現語彙候補に対し、各新規固有表現語彙候補のタグ信頼度をその形態素数に対して正規化し、同一の表記及び固有表現状態を含む新規固有表現語彙候補のタグ信頼度を加算してスコア化し、スコアが高い順に上位M個の新規固有表現語彙候補を新規固有表現語彙リストとして出力するステップとを含む
ことを特徴とする新規固有表現語彙獲得方法。 - 請求項3に記載の新規固有表現語彙獲得方法において、
固有表現展開ステップは、
タグ信頼度付与処理部から出力されたタグ信頼度付テキストを記憶するタグ信頼度付テキスト記憶部からタグ信頼度付テキストを読み出すステップと、
タグ信頼度付テキストから形態素毎に信頼度が上位N個の固有表現タグをその信頼度とともに取り出すステップと、
該取り出した固有表現タグ同士を適切かつ最長一致優先で文頭から文末まで接続して展開するステップと、
該展開した固有表現タグから固有表現を、1つの形態素から構成される場合はその形態素の表記とともに固有表現状態とタグ信頼度を含めて、また、複数の形態素から構成される場合は各表記をつなげた表記とともに固有表現状態と各タグ信頼度を含めて取り出すステップと、
該取り出した固有表現のうち、固有表現語彙リスト記憶部に記憶された固有表現語彙リストにないもののみを新規固有表現語彙候補として出力して新規固有表現語彙候補記憶部に記憶するステップとからなる
ことを特徴とする新規固有表現語彙獲得方法。 - コンピュータを、請求項1または2に記載の新規固有表現語彙獲得装置の各手段として機能させるためのプログラム。
- 請求項5に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007313205A JP5041992B2 (ja) | 2007-12-04 | 2007-12-04 | 新規固有表現語彙獲得装置、その方法、プログラム及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007313205A JP5041992B2 (ja) | 2007-12-04 | 2007-12-04 | 新規固有表現語彙獲得装置、その方法、プログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009140049A true JP2009140049A (ja) | 2009-06-25 |
JP5041992B2 JP5041992B2 (ja) | 2012-10-03 |
Family
ID=40870624
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007313205A Expired - Fee Related JP5041992B2 (ja) | 2007-12-04 | 2007-12-04 | 新規固有表現語彙獲得装置、その方法、プログラム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5041992B2 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0652221A (ja) * | 1992-05-08 | 1994-02-25 | Fujitsu Ltd | 固有名詞の自動抽出方式 |
JP2004046775A (ja) * | 2002-05-15 | 2004-02-12 | Nippon Telegr & Teleph Corp <Ntt> | 固有表現抽出装置及び方法並びに固有表現抽出プログラム |
JP2007148785A (ja) * | 2005-11-28 | 2007-06-14 | Toshiba Corp | 固有表現抽出装置および方法 |
-
2007
- 2007-12-04 JP JP2007313205A patent/JP5041992B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0652221A (ja) * | 1992-05-08 | 1994-02-25 | Fujitsu Ltd | 固有名詞の自動抽出方式 |
JP2004046775A (ja) * | 2002-05-15 | 2004-02-12 | Nippon Telegr & Teleph Corp <Ntt> | 固有表現抽出装置及び方法並びに固有表現抽出プログラム |
JP2007148785A (ja) * | 2005-11-28 | 2007-06-14 | Toshiba Corp | 固有表現抽出装置および方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5041992B2 (ja) | 2012-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20100205198A1 (en) | Search query disambiguation | |
KR101136007B1 (ko) | 문서 감성 분석 시스템 및 그 방법 | |
US20100332217A1 (en) | Method for text improvement via linguistic abstractions | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
Ljubešić et al. | Standardizing tweets with character-level machine translation | |
JP2009223463A (ja) | 同義性判定装置、その方法、プログラム及び記録媒体 | |
CN110096572B (zh) | 一种样本生成方法、装置及计算机可读介质 | |
Urmi et al. | A corpus based unsupervised Bangla word stemming using N-gram language model | |
JP5524138B2 (ja) | 同義語辞書生成装置、その方法、及びプログラム | |
Tantuğ | Document categorization with modified statistical language models for agglutinative languages | |
Teixeira et al. | A bootstrapping approach for training a ner with conditional random fields | |
KR101333485B1 (ko) | 온라인 사전을 이용한 개체명 사전 구축 방법 및 이를 실행하는 장치 | |
JP2007156545A (ja) | 記号列変換方法、単語翻訳方法、その装置およびそのプログラム並びに記録媒体 | |
CN110263170A (zh) | 一种文本类别的自动标注方法及系统 | |
JP4873739B2 (ja) | テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体 | |
JP5812534B2 (ja) | 質問応答装置、方法、及びプログラム | |
Khan et al. | A clustering framework for lexical normalization of Roman Urdu | |
Chifu et al. | A system for detecting professional skills from resumes written in natural language | |
JP5152918B2 (ja) | 固有表現抽出装置、その方法およびプログラム | |
JP4143085B2 (ja) | 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP5853595B2 (ja) | 形態素解析装置、方法、プログラム、音声合成装置、方法、プログラム | |
JP2004355550A (ja) | 自然文検索装置、その方法及びプログラム | |
US20110106849A1 (en) | New case generation device, new case generation method, and new case generation program | |
JP5523929B2 (ja) | テキスト要約装置、テキスト要約方法及びテキスト要約プログラム | |
JP5041992B2 (ja) | 新規固有表現語彙獲得装置、その方法、プログラム及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100113 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20110613 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110614 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110615 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110616 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120629 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120709 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120710 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150720 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |