JP5152918B2 - 固有表現抽出装置、その方法およびプログラム - Google Patents
固有表現抽出装置、その方法およびプログラム Download PDFInfo
- Publication number
- JP5152918B2 JP5152918B2 JP2008302526A JP2008302526A JP5152918B2 JP 5152918 B2 JP5152918 B2 JP 5152918B2 JP 2008302526 A JP2008302526 A JP 2008302526A JP 2008302526 A JP2008302526 A JP 2008302526A JP 5152918 B2 JP5152918 B2 JP 5152918B2
- Authority
- JP
- Japan
- Prior art keywords
- tag
- specific expression
- reliability
- text
- morpheme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
持株/モチカブ/名詞/I−<ORG>
会社/ガイシャ/名詞/I−<ORG>
社長/シャチョウ/名詞/NIL
の/ノ/助詞/NIL
三浦/ミウラ/名詞:固有:姓:組織/B−<PSN>
氏/シ/名詞/NIL
ここで、「NTT/NTT/名詞:固有:組織 持株/モチカブ/名詞 会社/ガイシャ/名詞」の部分が3つの形態素から構成される固有表現状態<ORG>、また、「三浦/ミウラ/名詞:固有:姓:組織」が1つの形態素から構成される固有表現状態<PSN>である。なお、この例では「NTT」の品詞は「名詞:固有:組織」であり、組織になり得る固有名詞となっている。また、「三浦」の品詞は「名詞:固有:姓:組織」であり、姓が組織になり得る固有名詞となっている。このように、名詞には一般名詞だけではなく固有名詞という分類も存在し得るが、本特許でいう固有表現抽出とは、単に品詞が固有名詞である一つの形態素を抽出するということではなく、少なくとも1つの形態素のまとまりからなる組織名、人名、地名などの固有表現を抽出することを意味する。
Suzuki J.,McDermott E.and Isozaki H.:Training Conditional Random Fields with Multivariate Evaluation Measures,Proc.ofCOLING−ACL,pp.617−624,2006.
1.モデルを学習するために必要となる正解データの作成コストが高い、
2.1の問題に対して既存の統計的手法で機械的な解析結果を利用すれば作成コストは低下するが、データに解析誤りを含むためにモデルの学習には適さない、
3.更に2の問題については、解析誤りを含む箇所こそが効果的なモデルの学習に寄与すると期待されるため、このような解析誤りを含むデータを積極的に正解データとして利用したい、
という課題があった。
タグ信頼度付与手段12は、入力された大規模形態素解析済テキストに対し、固有表現抽出モデル記憶部11に記憶された固有表現抽出モデルを用いて個々の形態素がとり得る固有表現タグ毎の信頼度を算出し、各形態素に該固有表現タグとその信頼度を付与してタグ信頼度付テキストを生成し、タグ信頼度付テキスト記憶部13に記憶する。この際、信頼度には、タグ毎に算出した事後確率を用いる。
P(ti=ti,j|x)=αi,jβi,j (4)
前向き確率αi,jは、当該タグ候補より前方の前向き確率から式(5)(6)を用いて再帰的に計算できる。また、後ろ向き確率βi,jは、当該タグ候補より後方の後ろ向き確率から式(7)(8)を用いて再帰的に計算できる。従って、前向きアルゴリズムと後ろ向きアルゴリズム(例えば、北 研二「言語と計算4 確率的言語モデル」東京大学出版会、1999、101〜125頁)を用いてαi,j、βi,jを算出し、両者を乗算することにより、効率的に算出することも可能である。
タググラフ展開処理部22は、図4に示すように、タグ信頼度付テキスト記憶部13からタグ信頼度付テキストを読み出し(s1)、タグ信頼度付テキストから形態素毎に信頼度が上位N個、ここでは信頼度が1位の固有表現タグまたは該1位の信頼度が所定の値以下の時のみ信頼度が上位2位までの固有表現タグをその信頼度とともに取り出し(s2)、該取り出した固有表現タグ同士を適切かつ最長一致優先で文頭から文末まで接続してグラフ構造に展開し(s3)、該展開したグラフ構造に、前記タグ信頼度付テキストに含まれる形態素列を対応付けてタググラフ付テキストを生成し、タググラフ付テキスト記憶部23に記憶する(s4)。
コンテキスト抽出処理部24は、図6に示すように、タググラフ付テキスト記憶部23からタググラフ付テキストを読み出し(s11)、固有表現タグによって前記タググラフ付テキスト内で構成される固有表現状態および表記の組と固有表現リスト記憶部21に記憶された固有表現リストとを照合する(s12)。照合の結果、前記固有表現状態および表記の組が前記固有表現リスト中に存在する場合(s13)はその組を構成する固有表現タグを含むタグ列を正解タグ列と解釈し、当該正解タグ列に前記タググラフ付テキストに含まれる形態素列を対応付けて自動タグ修正済テキストを生成して出力する(s14)。なお、前述した固有表現状態および表記の組が前記固有表現リスト中に存在しない場合は何もせず、そのまま終了する。
以上の処理によって自動タグ修正済テキストを得られたら、その自動タグ修正済テキストを正解データとして、更新前のモデル作成に利用した所定の学習データ(正解データ)と併せてモデルの再学習(周知の自動学習)を実行させることにより、更新された固有表現抽出モデルが得られる。
・タグ信頼度に基づいて現時点の装置における解析誤りを自動的に判定する処理、
・上位N個までのタグ侯補を考慮して作成したタググラフと、予め用意した固有表現リストを利用して解析誤りのタグを自動で修正する処理、
を実行できる。これにより、再学習用の正解データを低コストで作成し、モデル更新を行うことができる。
Claims (5)
- 形態素解析済のテキストの大規模な集合である大規模形態素解析済テキストから固有表現抽出モデルの更新に利用できる正解データとしての自動タグ修正済テキストを生成する装置であって、
予め所定の学習データから作成された固有表現抽出のための固有表現抽出モデルを記憶する固有表現抽出モデル記憶部と、
固有表現である文字列についてその表記および当該固有表現の種類を表す固有表現状態からなる固有表現リストを記憶する固有表現リスト記憶部と、
入力された大規模形態素解析済テキストに対し、固有表現抽出モデル記憶部に記憶された固有表現抽出モデルを用いて条件付確率場を適用し、ある形態素の固有表現タグが特定のタグである時の全てのタグ列の事後確率を総和することで個々の形態素がとり得る固有表現タグ毎の信頼度を算出し、各形態素に該固有表現タグとその信頼度を付与してタグ信頼度付テキストを生成するタグ信頼度付与処理部と、
タグ信頼度付与処理部で生成されたタグ信頼度付テキストに対し、形態素毎に信頼度が上位N個の固有表現タグをグラフ構造に展開し、タググラフ付テキストを生成するタググラフ展開処理部と、
タググラフ展開処理部で生成されたタググラフ付テキストに対し、固有表現タグによって前記タググラフ付テキスト内で構成される固有表現状態および表記の組が固有表現リスト記憶部に記憶された固有表現リストに存在する場合は、その組を構成する固有表現タグを含むタグ列に、前記タググラフ付テキストに含まれる形態素列を対応付けて自動タグ修正済テキストを生成するコンテキスト抽出処理部とを備えた
ことを特徴とする固有表現抽出装置。 - 請求項1に記載の固有表現抽出装置において、
タグ信頼度付与処理部で生成されたタグ信頼度付テキストから、形態素毎に信頼度が1位の固有表現タグまたは該1位の信頼度が所定の値以下の時のみ信頼度が上位N位までの固有表現タグを取り出し、該取り出した固有表現タグ同士を、タグ間の不適切な接続を除外しかつ最長一致優先で文頭から文末まで接続してグラフ構造に展開し、該展開したグラフ構造に、前記タグ信頼度付テキストに含まれる形態素列を対応付けてタググラフ付テキストを生成するタググラフ展開処理部を備えた
ことを特徴とする固有表現抽出装置。 - 形態素解析済のテキストの大規模な集合である大規模形態素解析済テキストから固有表現抽出モデルの更新に利用できる正解データとしての自動タグ修正済テキストを生成する方法であって、
タグ信頼度付与処理部が、入力された大規模形態素解析済テキストに対し、固有表現抽出モデル記憶部に記憶された予め所定の学習データから作成された固有表現抽出のための固有表現抽出モデルを用いて条件付確率場を適用し、ある形態素の固有表現タグが特定のタグである時の全てのタグ列の事後確率を総和することで個々の形態素がとり得る固有表現タグ毎の信頼度を算出し、各形態素に該固有表現タグとその信頼度を付与してタグ信頼度付テキストを生成するステップと、
タググラフ展開処理部が、タグ信頼度付与処理部で生成されたタグ信頼度付テキストに対し、形態素毎に信頼度が上位N個の固有表現タグをグラフ構造に展開し、タググラフ付テキストを生成するステップと、
コンテキスト抽出処理部が、タググラフ展開処理部で生成されたタググラフ付テキストに対し、固有表現タグによって前記タググラフ付テキスト内で構成される固有表現状態および表記の組が固有表現リスト記憶部に記憶された固有表現である文字列についてその表記および当該固有表現の種類を表す固有表現状態からなる固有表現リストに存在する場合は、その組を構成する固有表現タグを含むタグ列に、前記タググラフ付テキストに含まれる形態素列を対応付けて自動タグ修正済テキストを生成するステップとを含む
ことを特徴とする固有表現抽出方法。 - 請求項3に記載の固有表現抽出方法において、
タググラフ展開処理部が、タグ信頼度付与処理部で生成されたタグ信頼度付テキストから、形態素毎に信頼度が1位の固有表現タグまたは該1位の信頼度が所定の値以下の時のみ信頼度が上位N位までの固有表現タグを取り出し、該取り出した固有表現タグ同士を、タグ間の不適切な接続を除外しかつ最長一致優先で文頭から文末まで接続してグラフ構造に展開し、該展開したグラフ構造に、前記タグ信頼度付テキストに含まれる形態素列を対応付けてタググラフ付テキストを生成するステップを含む
ことを特徴とする固有表現抽出方法。 - コンピュータを、請求項1または2に記載の固有表現抽出装置の各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008302526A JP5152918B2 (ja) | 2008-11-27 | 2008-11-27 | 固有表現抽出装置、その方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008302526A JP5152918B2 (ja) | 2008-11-27 | 2008-11-27 | 固有表現抽出装置、その方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010128774A JP2010128774A (ja) | 2010-06-10 |
JP5152918B2 true JP5152918B2 (ja) | 2013-02-27 |
Family
ID=42329126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008302526A Expired - Fee Related JP5152918B2 (ja) | 2008-11-27 | 2008-11-27 | 固有表現抽出装置、その方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5152918B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5754306B2 (ja) * | 2011-09-01 | 2015-07-29 | 富士ゼロックス株式会社 | 画像識別情報付与プログラム及び画像識別情報付与装置 |
JP5700566B2 (ja) * | 2012-02-07 | 2015-04-15 | 日本電信電話株式会社 | スコアリングモデル生成装置、学習データ生成装置、検索システム、スコアリングモデル生成方法、学習データ生成方法、検索方法及びそのプログラム |
CN105488025B (zh) | 2015-11-24 | 2019-02-12 | 小米科技有限责任公司 | 模板构建方法和装置、信息识别方法和装置 |
JP6934848B2 (ja) * | 2018-09-27 | 2021-09-15 | 株式会社Kddi総合研究所 | 学習データ作成装置並びに分類モデル学習装置及びカテゴリ付与装置 |
JP7273442B1 (ja) | 2022-10-07 | 2023-05-15 | Dcアーキテクト株式会社 | 情報処理システム、情報処理方法及びプログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0652221A (ja) * | 1992-05-08 | 1994-02-25 | Fujitsu Ltd | 固有名詞の自動抽出方式 |
JP4005477B2 (ja) * | 2002-05-15 | 2007-11-07 | 日本電信電話株式会社 | 固有表現抽出装置及び方法並びに固有表現抽出プログラム |
JP4074316B2 (ja) * | 2005-11-28 | 2008-04-09 | 株式会社東芝 | 固有表現抽出装置および方法 |
-
2008
- 2008-11-27 JP JP2008302526A patent/JP5152918B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010128774A (ja) | 2010-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103678271B (zh) | 一种文本校正方法及用户设备 | |
Shaalan et al. | Arabic word generation and modelling for spell checking. | |
JP2006031295A (ja) | 単語境界確率推定装置及び方法、確率的言語モデル構築装置及び方法、仮名漢字変換装置及び方法、並びに、未知語モデルの構築方法、 | |
Ljubešić et al. | Standardizing tweets with character-level machine translation | |
JP2020087353A (ja) | 要約文生成方法、要約文生成プログラム及び要約文生成装置 | |
TWI567569B (zh) | Natural language processing systems, natural language processing methods, and natural language processing programs | |
JP5152918B2 (ja) | 固有表現抽出装置、その方法およびプログラム | |
US11934781B2 (en) | Systems and methods for controllable text summarization | |
Mosavi Miangah | FarsiSpell: A spell-checking system for Persian using a large monolingual corpus | |
Jain et al. | “UTTAM” An Efficient Spelling Correction System for Hindi Language Based on Supervised Learning | |
CN102033866A (zh) | 用于校验化学名称的方法及系统 | |
CN107291730B (zh) | 对查询词提供校正建议的方法、装置、及概率词典构建方法 | |
JP2006338261A (ja) | 翻訳装置、翻訳方法及び翻訳プログラム | |
JP6476886B2 (ja) | キーワード抽出システム、キーワード抽出方法、及び、コンピュータ・プログラム | |
JP4005477B2 (ja) | 固有表現抽出装置及び方法並びに固有表現抽出プログラム | |
US11755837B1 (en) | Extracting content from freeform text samples into custom fields in a software application | |
CN111090720B (zh) | 一种热词的添加方法和装置 | |
JP7135730B2 (ja) | 要約生成方法及び要約生成プログラム | |
KR100892003B1 (ko) | 영어 작문 학습 시스템에서, 자동 철자오류 검출 및교정정보 제공 장치 및 그 방법 | |
Varol et al. | Estimation of quality of service in spelling correction using Kullback–Leibler divergence | |
WO2020250279A1 (ja) | モデル学習装置、方法及びプログラム | |
JP4915499B2 (ja) | 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム | |
CN112905026A (zh) | 展示单词建议的方法、装置、存储介质及计算机设备 | |
CN107203512B (zh) | 用于从用户的自然语言输入中提取关键元素的方法 | |
Hertel | Neural language models for spelling correction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20101215 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110223 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20110613 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110614 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110615 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110616 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120926 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121106 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121129 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121130 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151214 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5152918 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |