JP5085975B2 - 日本語固有表現抽出装置、日本語固有表現抽出方法、およびその方法をコンピュータに実行させるプログラム - Google Patents
日本語固有表現抽出装置、日本語固有表現抽出方法、およびその方法をコンピュータに実行させるプログラム Download PDFInfo
- Publication number
- JP5085975B2 JP5085975B2 JP2007117677A JP2007117677A JP5085975B2 JP 5085975 B2 JP5085975 B2 JP 5085975B2 JP 2007117677 A JP2007117677 A JP 2007117677A JP 2007117677 A JP2007117677 A JP 2007117677A JP 5085975 B2 JP5085975 B2 JP 5085975B2
- Authority
- JP
- Japan
- Prior art keywords
- japanese
- morpheme
- stored
- stack
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
まず、この発明の実施の形態にかかる日本語固有表現抽出装置のハードウェア構成について説明する。図1は、この発明の実施の形態にかかる日本語固有表現抽出装置のハードウェア構成の一例を示す説明図である。図1において、101は装置全体を制御するCPUを、102は基本入出力プログラムを記憶したROMを、103はCPU101のワークエリアとして使用されるRAMを、それぞれ示している。
つぎに、図2は、この発明の実施の形態にかかる日本語固有表現抽出装置の機能的構成を示す説明図である。この発明による日本語固有表現抽出装置は、対象となる日本語文書から日本語固有表現を抽出する。日本語固有表現とは、日本語において特定の対象(物、地名、人名など)を表現する用語である。日本語固有表現の詳細については後述する(図3を参照)。
日本語固有表現判断部204は、具体的には、取得部202によって取得された日本語文書を第1のコンテクスト(後述する図5におけるRC(RightContext))に格納し、当該第1のコンテクストに格納された日本語文書を、形態素抽出部203によって抽出された形態素ごとに先頭から順次抽出(ポップ)してスタック(図5におけるStack)に格納(プッシュ)する。その後、スタックに格納(プッシュ)された形態素が日本語固有表現であるか否かを判断する。そして、スタックに格納(プッシュ)された形態素が日本語固有表現である場合には、つぎに当該形態素を第2のコンテクスト(図5におけるLC(LeftContext))に格納(プッシュ)する。これが、上記SR法における「Reduce」アクションの手順である。
その際、日本語固有表現判断部204は、DB201における所定の記憶領域に記憶された日本語固有表現とスタックに格納された形態素とを比較することによって、日本語固有表現の最後尾要素とスタックに格納された形態素の最後尾要素とが一致するか否かを判断する。
また、日本語固有表現判断部204は、DB201の所定の記憶領域に記憶された日本語固有表現とスタックに格納された形態素とを比較することによって、日本語固有表現の最後尾要素とスタックに格納された形態素の最後尾要素とが一致するか否かを判断する。そして両者が一致する場合には、つぎに日本語固有表現の先頭要素とスタックに格納された形態素の形態素境界とが一致するか否かを判断する。なお、日本語固有表現の先頭要素とスタックに格納された形態素の形態素境界とが一致するか否かの判断をおこない、それに引き続き、日本語固有表現の最後尾要素とスタックに格納された形態素の最後尾要素とが一致するか否かの判断をおこなうようにしてもよい。
また、たとえば日本語固有表現判断部204は、DB201における所定の記憶領域に記憶された日本語固有表現とスタックに格納された形態素とを比較することによって、日本語固有表現の最後尾要素がスタックに格納された形態素に含まれているか否かを判断する。そして日本語固有表現の最後尾要素がスタックに格納された形態素に含まれている場合には、つぎに日本語固有表現の最後尾要素とスタックに格納された形態素の形態素境界とが一致するか否かを判断する。なお、日本語固有表現の最後尾要素とスタックに格納された形態素の形態素境界とが一致するか否かの判断をおこない、それに引き続き、日本語固有表現の最後尾要素がスタックに格納された形態素に含まれているか否かの判断をおこなうようにしてもよい。
(1)Erik F. Tjong Kim Sang and Jorn Veenstra. Representing text chunks. In Proceedings of the European Chapter of the Association for Computational Linguistics, pp. 173.179, 1999.
例文(1−2)賞味/期限/2/0/0/7/と/記載
郎」や「期限」などの推定に重要な情報を利用する手法を提案しているが、これは「7」の位置で固有表現の境界とその種類を同時推定しなければならないという復号化手法の本質的な問題を含んでいる。
参考文献(1)長尾 真 編、岩波講座ソフトウェア科学15「自然言語処理」、p155−156
参考文献(2)長尾真、中川祐志、松本祐治、橋田浩一:岩波講座、言語の科学8「言語の数理」、p108−109
202 取得部
203 形態素抽出部
204 日本語固有表現判断部
205 抽出部
206 記憶部
207 出力部
Claims (8)
- 日本語固有表現を抽出する日本語固有表現抽出装置であって、
対象となる日本語文書を取得する取得手段と、
前記取得手段によって取得された日本語文書を形態素解析して、当該日本語文書から形態素を抽出する形態素抽出手段と、
前記形態素抽出手段によって抽出された形態素を、Shift−Reduce法を用いて、当該形態素ごとに日本語固有表現か否かを判断する日本語固有表現判断手段と、
前記日本語固有表現判断手段によって日本語固有表現であると判断された形態素のみを抽出する抽出手段と、
を備え、
前記日本語固有表現判断手段は、前記取得手段によって取得された日本語文書を第1のコンテクストに格納し、当該第1のコンテクストに格納された日本語文書を、前記形態素抽出手段によって抽出された形態素ごとに先頭から順次抽出してスタックに格納し、その後、前記スタックに格納された形態素が日本語固有表現であるか否かを判断するとともに、当該形態素を第2のコンテクストに格納し、所定の記憶領域に記憶された日本語固有表現と前記スタックに格納された形態素とを比較し、前記日本語固有表現の最後尾要素と前記スタックに格納された形態素の最後尾要素とが一致する場合であって、前記日本語固有表現の先頭要素と前記スタックに格納された形態素の形態素境界とが一致しない場合は、前記スタックに格納されている形態素の先頭1文字を抽出し、前記第2のコンテクストに格納したのち、前記スタックに残された文字または文字列について判断することを特徴とする日本語固有表現抽出装置。 - 前記日本語固有表現判断手段は、所定の記憶領域に記憶された日本語固有表現と前記スタックに格納された形態素とを比較し、前記日本語固有表現の最後尾要素と前記スタックに格納された形態素の最後尾要素とが一致する場合であって、前記日本語固有表現を構成する形態素が前記第2のコンテクストに存在する場合は、前記第2のコンテクストに格納された形態素を抽出して前記スタックに格納したのち、前記スタックに格納された複数の形態素からなる形態素列について判断することを特徴とする請求項1に記載の日本語固有表現抽出装置。
- 日本語固有表現を抽出する日本語固有表現抽出装置であって、
対象となる日本語文書を取得する取得手段と、
前記取得手段によって取得された日本語文書を形態素解析して、当該日本語文書から形態素を抽出する形態素抽出手段と、
前記形態素抽出手段によって抽出された形態素を、Shift−Reduce法を用いて、当該形態素ごとに日本語固有表現か否かを判断する日本語固有表現判断手段と、
前記日本語固有表現判断手段によって日本語固有表現であると判断された形態素のみを抽出する抽出手段と、
を備え、
前記日本語固有表現判断手段は、前記取得手段によって取得された日本語文書を第1のコンテクストに格納し、当該第1のコンテクストに格納された日本語文書を、前記形態素抽出手段によって抽出された形態素ごとに先頭から順次抽出してスタックに格納し、その後、前記スタックに格納された形態素が日本語固有表現であるか否かを判断するとともに、当該形態素を第2のコンテクストに格納し、所定の記憶領域に記憶された日本語固有表現と前記スタックに格納された形態素とを比較し、前記日本語固有表現の最後尾要素が前記スタックに格納された形態素に含まれている場合であって、前記日本語固有表現の最後尾要素と前記スタックに格納された形態素の形態素境界とが一致しない場合は、前記スタックに格納されている形態素の最後尾1文字を抽出し、前記第1のコンテクストに格納したのち、前記スタックに残された文字または文字列について判断することを特徴とする日本語固有表現抽出装置。 - 前記日本語固有表現判断手段は、所定の記憶領域に記憶された日本語固有表現と前記スタックに格納された形態素とを比較し、前記日本語固有表現の最後尾要素と前記スタックに格納された形態素の最後尾要素とが一致する場合であって、前記日本語固有表現を構成する形態素が前記第2のコンテクストに存在する場合は、前記第2のコンテクストに格納された形態素を抽出して前記スタックに格納したのち、前記スタックに格納された複数の形態素からなる形態素列について判断することを特徴とする請求項3に記載の日本語固有表現抽出装置。
- コンピュータを用いて日本語固有表現を抽出する日本語固有表現抽出方法であって、
対象となる日本語文書を取得する取得工程と、
前記取得工程によって取得された日本語文書を形態素解析して、当該日本語文書から形態素を抽出する形態素抽出工程と、
前記形態素抽出工程によって抽出された形態素を、Shift−Reduce法を用いて、当該形態素ごとに日本語固有表現か否かを判断する日本語固有表現判断工程と、
前記日本語固有表現判断工程によって日本語固有表現であると判断された形態素のみを抽出する抽出工程と、
を前記コンピュータに実行させ、
前記日本語固有表現判断工程は、前記取得工程によって取得された日本語文書を第1のコンテクストに格納し、当該第1のコンテクストに格納された日本語文書を、前記形態素抽出工程によって抽出された形態素ごとに先頭から順次抽出してスタックに格納し、その後、前記スタックに格納された形態素が日本語固有表現であるか否かを判断するとともに、当該形態素を第2のコンテクストに格納し、所定の記憶領域に記憶された日本語固有表現と前記スタックに格納された形態素とを比較し、前記日本語固有表現の最後尾要素と前記スタックに格納された形態素の最後尾要素とが一致する場合であって、前記日本語固有表現の先頭要素と前記スタックに格納された形態素の形態素境界とが一致しない場合は、前記スタックに格納されている形態素の先頭1文字を抽出し、前記第2のコンテクストに格納したのち、前記スタックに残された文字または文字列について判断することを特徴とする日本語固有表現抽出方法。 - コンピュータを用いて日本語固有表現を抽出する日本語固有表現抽出方法であって、
対象となる日本語文書を取得する取得工程と、
前記取得工程によって取得された日本語文書を形態素解析して、当該日本語文書から形態素を抽出する形態素抽出工程と、
前記形態素抽出工程によって抽出された形態素を、Shift−Reduce法を用いて、当該形態素ごとに日本語固有表現か否かを判断する日本語固有表現判断工程と、
前記日本語固有表現判断工程によって日本語固有表現であると判断された形態素のみを抽出する抽出工程と、
を前記コンピュータに実行させ、
前記日本語固有表現判断工程は、前記取得工程によって取得された日本語文書を第1のコンテクストに格納し、当該第1のコンテクストに格納された日本語文書を、前記形態素抽出工程によって抽出された形態素ごとに先頭から順次抽出してスタックに格納し、その後、前記スタックに格納された形態素が日本語固有表現であるか否かを判断するとともに、当該形態素を第2のコンテクストに格納し、所定の記憶領域に記憶された日本語固有表現と前記スタックに格納された形態素とを比較し、前記日本語固有表現の最後尾要素が前記スタックに格納された形態素に含まれている場合であって、前記日本語固有表現の最後尾要素と前記スタックに格納された形態素の形態素境界とが一致しない場合は、前記スタックに格納されている形態素の最後尾1文字を抽出し、前記第1のコンテクストに格納したのち、前記スタックに残された文字または文字列について判断することを特徴とする日本語固有表現抽出方法。 - 日本語固有表現の抽出をコンピュータに実行させる日本語固有表現抽出プログラムであって、
対象となる日本語文書を取得する取得工程と、
前記取得工程によって取得された日本語文書を形態素解析して、当該日本語文書から形態素を抽出する形態素抽出工程と、
前記形態素抽出工程によって抽出された形態素を、Shift−Reduce法を用いて、当該形態素ごとに日本語固有表現か否かを判断する日本語固有表現判断工程と、
前記日本語固有表現判断工程によって日本語固有表現であると判断された形態素のみを抽出する抽出工程と、
を前記コンピュータに実行させ、
前記日本語固有表現判断工程は、前記取得工程によって取得された日本語文書を第1のコンテクストに格納し、当該第1のコンテクストに格納された日本語文書を、前記形態素抽出工程によって抽出された形態素ごとに先頭から順次抽出してスタックに格納し、その後、前記スタックに格納された形態素が日本語固有表現であるか否かを判断するとともに、当該形態素を第2のコンテクストに格納し、所定の記憶領域に記憶された日本語固有表現と前記スタックに格納された形態素とを比較し、前記日本語固有表現の最後尾要素と前記スタックに格納された形態素の最後尾要素とが一致する場合であって、前記日本語固有表現の先頭要素と前記スタックに格納された形態素の形態素境界とが一致しない場合は、前記スタックに格納されている形態素の先頭1文字を抽出し、前記第2のコンテクストに格納したのち、前記スタックに残された文字または文字列について判断することを特徴とする日本語固有表現抽出プログラム。 - 日本語固有表現の抽出をコンピュータに実行させる日本語固有表現抽出プログラムであって、
対象となる日本語文書を取得する取得工程と、
前記取得工程によって取得された日本語文書を形態素解析して、当該日本語文書から形態素を抽出する形態素抽出工程と、
前記形態素抽出工程によって抽出された形態素を、Shift−Reduce法を用いて、当該形態素ごとに日本語固有表現か否かを判断する日本語固有表現判断工程と、
前記日本語固有表現判断工程によって日本語固有表現であると判断された形態素のみを抽出する抽出工程と、
を前記コンピュータに実行させ、
前記日本語固有表現判断工程は、前記取得工程によって取得された日本語文書を第1のコンテクストに格納し、当該第1のコンテクストに格納された日本語文書を、前記形態素抽出工程によって抽出された形態素ごとに先頭から順次抽出してスタックに格納し、その後、前記スタックに格納された形態素が日本語固有表現であるか否かを判断するとともに、当該形態素を第2のコンテクストに格納し、所定の記憶領域に記憶された日本語固有表現と前記スタックに格納された形態素とを比較し、前記日本語固有表現の最後尾要素が前記スタックに格納された形態素に含まれている場合であって、前記日本語固有表現の最後尾要素と前記スタックに格納された形態素の形態素境界とが一致しない場合は、前記スタックに格納されている形態素の最後尾1文字を抽出し、前記第1のコンテクストに格納したのち、前記スタックに残された文字または文字列について判断することを特徴とする日本語固有表現抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007117677A JP5085975B2 (ja) | 2007-04-26 | 2007-04-26 | 日本語固有表現抽出装置、日本語固有表現抽出方法、およびその方法をコンピュータに実行させるプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007117677A JP5085975B2 (ja) | 2007-04-26 | 2007-04-26 | 日本語固有表現抽出装置、日本語固有表現抽出方法、およびその方法をコンピュータに実行させるプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008276418A JP2008276418A (ja) | 2008-11-13 |
JP5085975B2 true JP5085975B2 (ja) | 2012-11-28 |
Family
ID=40054307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007117677A Expired - Fee Related JP5085975B2 (ja) | 2007-04-26 | 2007-04-26 | 日本語固有表現抽出装置、日本語固有表現抽出方法、およびその方法をコンピュータに実行させるプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5085975B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5703722B2 (ja) * | 2010-12-03 | 2015-04-22 | 富士通株式会社 | 処理装置、処理方法、及び、プログラム |
JP2016173617A (ja) * | 2015-03-16 | 2016-09-29 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
-
2007
- 2007-04-26 JP JP2007117677A patent/JP5085975B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008276418A (ja) | 2008-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jarrar et al. | Curras: an annotated corpus for the Palestinian Arabic dialect | |
US11037028B2 (en) | Computer-implemented method of creating a translation model for low resource language pairs and a machine translation system using this translation model | |
US5895446A (en) | Pattern-based translation method and system | |
Goldsmith | Segmentation and morphology | |
TW200846939A (en) | Web-based collocation error proofing | |
JP7337770B2 (ja) | 文書レベルの自然言語処理モデルを訓練させる方法およびシステム | |
CN108319583A (zh) | 从中文语料库提取知识的方法与系统 | |
Masmoudi et al. | Transliteration of Arabizi into Arabic script for Tunisian dialect | |
Freihat et al. | A single-model approach for Arabic segmentation, POS tagging, and named entity recognition | |
JP3372532B2 (ja) | 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体 | |
WO2020170912A1 (ja) | 生成装置、学習装置、生成方法及びプログラム | |
Onyenwe et al. | A Basic Language Resource Kit Implementation for the Igbo NLP Project | |
Haq et al. | Urdu named entity recognition system using deep learning approaches | |
JP5085975B2 (ja) | 日本語固有表現抽出装置、日本語固有表現抽出方法、およびその方法をコンピュータに実行させるプログラム | |
JP2018072979A (ja) | 対訳文抽出装置、対訳文抽出方法およびプログラム | |
Pirinen | Weighted finite-state methods for spell-checking and correction | |
WO2009113289A1 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
Boisen et al. | Annotating Resources for Information Extraction. | |
Aziz et al. | A hybrid model for spelling error detection and correction for Urdu language | |
Murauer et al. | Generating cross-domain text classification corpora from social media comments | |
Borin et al. | Language technology for digital linguistics: Turning the linguistic survey of India into a rich source of linguistic information | |
Ning et al. | Team peter-parker at semeval-2019 task 4: Bert-based method in hyperpartisan news detection | |
Scheible et al. | GATEtoGerManC: A GATE-based Annotation Pipeline for Historical German. | |
WO2014030258A1 (ja) | 形態素解析装置、テキスト分析方法、及びそのプログラム | |
Alsayed et al. | A performance analysis of transformer-based deep learning models for Arabic image captioning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100329 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120515 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120713 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120807 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120906 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5085975 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150914 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |