JP5224767B2 - 大規模タグ付きコーパス作成方法、その装置およびプログラム - Google Patents
大規模タグ付きコーパス作成方法、その装置およびプログラム Download PDFInfo
- Publication number
- JP5224767B2 JP5224767B2 JP2007264472A JP2007264472A JP5224767B2 JP 5224767 B2 JP5224767 B2 JP 5224767B2 JP 2007264472 A JP2007264472 A JP 2007264472A JP 2007264472 A JP2007264472 A JP 2007264472A JP 5224767 B2 JP5224767 B2 JP 5224767B2
- Authority
- JP
- Japan
- Prior art keywords
- tag
- word
- scale
- storage unit
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
固有表現抽出とは、自然言語で記述された文(平文)から、人名、場所名、組織名、人工物名等の固有名詞や、日付、金額等の数値表現を抽出するタスクであり、通常、予め形態素解析等を用いて単語単位に分割された平文に対して、各単語が固有表現のどのカテゴリに属するかを推定し、当該カテゴリを表す適切な識別子(タグ)を付与することにより抽出を行う。以下、本明細書では、このタグを固有表現タグと呼び、また、固有表現のカテゴリとしては人名、場所名、組織名の3種類のみを考え、それぞれのタグとして「PSN」、「LOC」、「ORG」を用いるものとする。さらに、実際には固有表現でない単語を固有表現の一種類として表すために「NIL」という固有表現タグを用いるものとする。
上述した固有表現抽出は、入力された単語列(単語情報付き単語列)に対して、確率を最大化するような固有表現タグ列を推定することにより実現される。即ち、入力単語列をW、ある固有表現タグ列をTとしたとき、以下の式を満足する固有表現タグ列
John Lafferty, Andrew McCallum, and Fernando Pereira, "Conditional random fields: Probabilistic models for segmenting and labeling sequence data", In Proceedings of the 18th International Conference on Machine Learning (ICML-2001), 2001, pages 282-289
P(ti=ti,j|W)=αi,jβi,j (5)
前向き確率αi,jは、当該タグ候補より前方の前向き確率から式(6)(7)を用いて再帰的に計算できる。また、後ろ向き確率βi,jは、当該タグ候補より後方の後ろ向き確率から式(8)(9)を用いて再帰的に計算できる。従って、前向きアルゴリズムと後ろ向きアルゴリズム(例えば、北 研二「言語と計算4 確率的言語モデル」東京大学出版会、1999、101〜125頁)を用いてαi,j、βi,jを算出し、両者を乗算することにより、効率的に算出することも可能である。
Claims (5)
- コンピュータを用いて、単語情報付き単語列の大規模な集合よりなる大規模タグなしコーパスから単語情報及び固有表現タグ付き単語列の大規模な集合よりなる大規模タグ付きコーパスを作成する方法であって、
コンピュータに、
大規模タグなしコーパス記憶部から単語情報付き単語列を読み出し、小規模固有表現モデル記憶部に記憶された、人手で正しい固有表現タグが付与された小規模タグ付きコーパスから作成した小規模固有表現モデルを用いて確率を最大化する固有表現タグ列を推定し、各単語に各固有表現タグをそれぞれ付与して単語情報及び固有表現タグ付き単語列を生成して単語列一時記憶部に記憶する固有表現抽出工程と、
前記読み出された単語情報付き単語列に対して、小規模固有表現モデル記憶部に記憶された小規模固有表現モデルを用いて単語単位に推定された固有表現タグ毎の信頼度を当該固有表現タグ毎に算出した事後確率から求め、タグ信頼度記憶部に記憶するタグ信頼度付与工程と、
単語列一時記憶部から単語情報及び固有表現タグ付き単語列を読み出すとともに、タグ信頼度記憶部から当該単語情報及び固有表現タグ付き単語列中の単語単位に推定された固有表現タグ毎の信頼度を読み出し、該信頼度に基づき、前記単語情報及び固有表現タグ付き単語列中の固有表現タグを許可するか不許可とするかを単語単位に判定する信頼度判定工程と、
不許可と判定された固有表現タグを含まない単語情報及び固有表現タグ付き単語列をそのまま大規模タグ付きコーパス記憶部に登録し、不許可と判定された固有表現タグを含む単語情報及び固有表現タグ付き単語列を表示部に表示し、該不許可と判定された固有表現タグを入力部から入力された固有表現タグに修正し、修正後の単語情報及び固有表現タグ付き単語列を大規模タグ付きコーパス記憶部に登録する手作業修正工程とを実行させる
ことを特徴とする大規模タグ付きコーパス作成方法。 - 前記小規模固有表現モデルは、条件付き確率場に基づくモデルである
ことを特徴とする請求項1に記載の大規模タグ付きコーパス作成方法。 - 単語情報付き単語列の大規模な集合よりなる大規模タグなしコーパスから単語情報及び固有表現タグ付き単語列の大規模な集合よりなる大規模タグ付きコーパスを作成する装置であって、
大規模タグなしコーパスを記憶する大規模タグなしコーパス記憶部と、
人手で正しい固有表現タグが付与された小規模タグ付きコーパスから作成した小規模固有表現モデルを記憶する小規模固有表現モデル記憶部と、
単語情報及び固有表現タグ付き単語列を一時記憶する単語列一時記憶部と、
単語情報付き単語列中の単語単位に推定された固有表現タグ毎の信頼度を記憶するタグ信頼度記憶部と、
大規模タグ付きコーパスを記憶する大規模タグ付きコーパス記憶部と、
大規模タグなしコーパス記憶部から単語情報付き単語列を読み出し、小規模固有表現モデル記憶部に記憶された小規模固有表現モデルを用いて確率を最大化する固有表現タグ列を推定し、各単語に各固有表現タグをそれぞれ付与して単語情報及び固有表現タグ付き単語列を生成して単語列一時記憶部に記憶する固有表現抽出手段と、
前記固有表現抽出手段で読み出された単語情報付き単語列に対し、小規模固有表現モデル記憶部に記憶された小規模固有表現モデルを用いて単語単位に推定された固有表現タグ毎の信頼度を当該固有表現タグ毎に算出した事後確率から求め、タグ信頼度記憶部に記憶するタグ信頼度付与手段と、
単語列一時記憶部から単語情報及び固有表現タグ付き単語列を読み出すとともに、タグ信頼度記憶部から当該単語情報及び固有表現タグ付き単語列中の単語単位に推定された固有表現タグ毎の信頼度を読み出し、該信頼度に基づき、前記単語情報及び固有表現タグ付き単語列中の固有表現タグを許可するか不許可とするかを単語単位に判定する信頼度判定手段と、
不許可と判定された固有表現タグを含まない単語情報及び固有表現タグ付き単語列をそのまま大規模タグ付きコーパス記憶部に登録するとともに、不許可と判定された固有表現タグを含む単語情報及び固有表現タグ付き単語列を表示部に表示し、該不許可と判定された固有表現タグを入力部から入力された固有表現タグに修正し、修正後の単語情報及び固有表現タグ付き単語列を大規模タグ付きコーパス記憶部に登録する修正・登録手段とを備えた
ことを特徴とする大規模タグ付きコーパス作成装置。 - 前記小規模固有表現モデルは、条件付き確率場に基づくモデルである
ことを特徴とする請求項3に記載の大規模タグ付きコーパス作成装置。 - コンピュータを、請求項3または4に記載の大規模タグ付きコーパス作成装置の各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007264472A JP5224767B2 (ja) | 2007-10-10 | 2007-10-10 | 大規模タグ付きコーパス作成方法、その装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007264472A JP5224767B2 (ja) | 2007-10-10 | 2007-10-10 | 大規模タグ付きコーパス作成方法、その装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009093481A JP2009093481A (ja) | 2009-04-30 |
JP5224767B2 true JP5224767B2 (ja) | 2013-07-03 |
Family
ID=40665400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007264472A Expired - Fee Related JP5224767B2 (ja) | 2007-10-10 | 2007-10-10 | 大規模タグ付きコーパス作成方法、その装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5224767B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5671891B2 (ja) * | 2010-09-01 | 2015-02-18 | 日本電気株式会社 | タグ付け装置、タグ付け方法およびプログラム |
WO2017130434A1 (ja) * | 2016-01-28 | 2017-08-03 | 楽天株式会社 | 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム |
JP6077727B1 (ja) * | 2016-01-28 | 2017-02-08 | 楽天株式会社 | 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム |
JP6997046B2 (ja) * | 2018-07-10 | 2022-01-17 | Kddi株式会社 | アノテーション支援装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3396734B2 (ja) * | 2000-09-14 | 2003-04-14 | 独立行政法人通信総合研究所 | コーパス誤りの検出・修正処理装置,コーパス誤りの検出・修正処理方法およびそのプログラム記録媒体 |
JP2006023968A (ja) * | 2004-07-08 | 2006-01-26 | Hitachi Ltd | 固有表現抽出方法および装置並びにそれらに用いるプログラム |
-
2007
- 2007-10-10 JP JP2007264472A patent/JP5224767B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009093481A (ja) | 2009-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3998668B2 (ja) | 形態素解析装置、方法及びプログラム | |
JP5130892B2 (ja) | 文字符号化処理方法及びシステム | |
KR100882766B1 (ko) | 형태소 해석 장치, 형태소 해석 방법 및 형태소 해석프로그램 | |
CN109933803B (zh) | 一种成语信息展示方法、展示装置、电子设备及存储介质 | |
JP6762819B2 (ja) | 入力支援装置およびプログラム | |
JP5224767B2 (ja) | 大規模タグ付きコーパス作成方法、その装置およびプログラム | |
CN111782892B (zh) | 基于前缀树的相似字符识别方法、设备、装置和存储介质 | |
JP2008276459A (ja) | 入力文字列予測装置、入力文字列予測プログラムおよび電子カルテシステム | |
JP2002117027A (ja) | 感情情報抽出方法および感情情報抽出プログラムの記録媒体 | |
JP5152918B2 (ja) | 固有表現抽出装置、その方法およびプログラム | |
JP4822847B2 (ja) | 音声変換処理装置 | |
JP2004348552A (ja) | 音声文書検索装置および方法およびプログラム | |
JP2019204415A (ja) | 言い回し文生成方法、言い回し文装置及びプログラム | |
JP2014228993A (ja) | 情報抽出方法、情報抽出装置及び情報抽出プログラム | |
JP2008090334A (ja) | 所在地解析装置、所在地解析方法及びそのプログラム並びに記録媒体 | |
JP4015661B2 (ja) | 固有表現抽出装置、方法、プログラム及びそれを記録した記録媒体 | |
JP5120749B2 (ja) | 木構造辞書を記録した記憶媒体、木構造辞書作成装置、及び木構造辞書作成プログラム | |
JP4510784B2 (ja) | 所在地解析装置、所在地解析方法及びそのプログラム並びに記録媒体 | |
JP2007140781A (ja) | 名義解析装置、名義解析方法及び名義解析プログラム | |
JP3379643B2 (ja) | 形態素解析方法および形態素解析プログラムを記録した記録媒体 | |
JP2006126886A (ja) | 文短縮用知識の学習装置、文短縮装置、機械翻訳装置および文短縮のためのコンピュータプログラム | |
JP5252209B2 (ja) | 読み生成装置 | |
JP2006134154A (ja) | 住所解析装置、住所解析方法及び住所解析プログラム | |
JP2001142893A (ja) | 情報公開装置および文章公開方法 | |
JP5216337B2 (ja) | 音声認識辞書の更新データ作成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100113 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20110613 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110614 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110615 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110616 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120629 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120709 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120905 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130311 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130312 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160322 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |