JP5795302B2 - 形態素解析装置、方法、及びプログラム - Google Patents
形態素解析装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP5795302B2 JP5795302B2 JP2012267425A JP2012267425A JP5795302B2 JP 5795302 B2 JP5795302 B2 JP 5795302B2 JP 2012267425 A JP2012267425 A JP 2012267425A JP 2012267425 A JP2012267425 A JP 2012267425A JP 5795302 B2 JP5795302 B2 JP 5795302B2
- Authority
- JP
- Japan
- Prior art keywords
- notation
- character
- conversion
- symbol
- input sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
近年、メール、ブログ、ツイッター(登録商標)など、一般の人が自由な文体で記述するテキストメディアが急速に発達してきている。このようなメディアは、新聞などのプロの記者が一定の基準で書く整った文章と比べると、文体は話言葉に近く、また感情表現の意味も込めて「すっっっごい」「すご〜〜〜〜い」のように促音や長音を多用したり、「ぉはよぅ」「かわぃぃ」のように小書き文字を敢えて使用したりする事例が頻出する。
(2)変換前と変換後の入力文に対して変化が発生した文字位置の対応をとる。
(3)変換後の入力文に対して通常の形態素解析を実行する。
(4)変換後の形態素解析結果((3)の出力)に対して、変換前後の文字位置対応情報((2)の出力)から、表記を変換前のものに復元する。
本発明の実施の形態に係る形態素解析装置について説明する。図1に示すように、本発明の実施の形態に係る形態素解析装置100は、入力部10と、後述する形態素解析処理ルーチンを実行する演算部20と、出力部30と、を備えている。
20 演算部
22 前処理部
24 形態素解析部
26 復元処理部
30 出力部
100 形態素解析装置
220 入力文変換部
222 正規表現規則記憶部
224 文字位置対応部
Claims (4)
- 連続する長音、又は促音に対して、前記長音、又は促音を1つ残して全て削除する変換規則、及び表記を変換する対象となる少なくとも1つの文字又は記号のパターンを表す正規表現に対して、文字又は記号の削除、挿入、又は置換を行うことにより前記少なくとも1つの文字又は記号の表記を変換する変換規則を記憶する記憶手段と、
前記長音、又は促音を1つ残して全て削除する変換規則に基づいて、入力文の連続する長音、又は促音に対して、前記長音、又は促音を1つ残して全て削除した後に、前記少なくとも1つの文字又は記号の表記を変換する変換規則の正規表現と一致する入力文の部分における少なくとも1つの文字又は記号の表記を、前記変換規則に基づいて変換する変換手段と、
前記変換手段により文字又は記号の表記を変換した前記入力文について形態素解析を行う形態素解析手段と、
を含む形態素解析装置。 - 前記入力文と、前記変換手段により文字又は記号の表記を変換した前記入力文とに基づいて、前記入力文に含まれる文字又は記号の表記の各々と、前記変換した入力文に含まれる文字又は記号の表記の各々との対応付けを取得する文字位置対応手段と、
前記文字位置対応手段により取得した前記入力文と前記変換した入力文との対応付けに基づいて、前記形態素解析手段により取得した前記変換した入力文の形態素解析結果において、前記変換手段による変換前の文字又は記号の表記を復元する復元処理手段と、を更に含む請求項1記載の形態素解析装置。 - 連続する長音、又は促音に対して、前記長音、又は促音を1つ残して全て削除する変換規則、及び表記を変換する対象となる少なくとも1つの文字又は記号のパターンを表す正規表現に対して、文字又は記号の削除、挿入、又は置換を行うことにより前記少なくとも1つの文字又は記号の表記を変換する変換規則を記憶する記憶手段と、変換手段と、形態素解析手段とを含む、形態素解析装置における形態素解析方法であって、
前記変換手段により、前記長音、又は促音を1つ残して全て削除する変換規則に基づいて、入力文の連続する長音、又は促音に対して、前記長音、又は促音を1つ残して全て削除した後に、前記少なくとも1つの文字又は記号の表記を変換する変換規則の正規表現と一致する入力文の部分における少なくとも1つの文字又は記号の表記を、前記変換規則に基づいて変換し、
前記形態素解析手段により、前記変換手段により文字又は記号の表記を変換した前記入力文について形態素解析を行う
形態素解析方法。 - 連続する長音、又は促音に対して、前記長音、又は促音を1つ残して全て削除する変換規則、及び表記を変換する対象となる少なくとも1つの文字又は記号のパターンを表す正規表現に対して、文字又は記号の削除、挿入、又は置換を行うことにより前記少なくとも1つの文字又は記号の表記を変換する変換規則を記憶する記憶手段を有するコンピュータを、請求項1又は請求項2記載の形態素解析装置の各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012267425A JP5795302B2 (ja) | 2012-12-06 | 2012-12-06 | 形態素解析装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012267425A JP5795302B2 (ja) | 2012-12-06 | 2012-12-06 | 形態素解析装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014115718A JP2014115718A (ja) | 2014-06-26 |
JP5795302B2 true JP5795302B2 (ja) | 2015-10-14 |
Family
ID=51171678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012267425A Active JP5795302B2 (ja) | 2012-12-06 | 2012-12-06 | 形態素解析装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5795302B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7040227B2 (ja) * | 2018-03-30 | 2022-03-23 | 富士通株式会社 | 情報処理プログラム、情報処理方法、および情報処理装置 |
KR102528401B1 (ko) * | 2021-06-07 | 2023-05-03 | 삼육대학교산학협력단 | 대화형 형태소 분석을 제공하기 위한 시스템 |
-
2012
- 2012-12-06 JP JP2012267425A patent/JP5795302B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014115718A (ja) | 2014-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5997217B2 (ja) | 言語変換において複数の読み方の曖昧性を除去する方法 | |
Nelken et al. | Arabic diacritization using weighted finite-state transducers | |
Azmi et al. | A survey of automatic Arabic diacritization techniques | |
Roark et al. | Processing South Asian languages written in the Latin script: the Dakshina dataset | |
JP5599662B2 (ja) | 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法 | |
Sawalha et al. | SALMA: standard Arabic language morphological analysis | |
Ekbal et al. | Maximum entropy based bengali part of speech tagging | |
Mosavi Miangah | FarsiSpell: A spell-checking system for Persian using a large monolingual corpus | |
JP2002117027A (ja) | 感情情報抽出方法および感情情報抽出プログラムの記録媒体 | |
US10120843B2 (en) | Generation of parsable data for deep parsing | |
Chennoufi et al. | Impact of morphological analysis and a large training corpus on the performances of Arabic diacritization | |
JP5795302B2 (ja) | 形態素解析装置、方法、及びプログラム | |
Yusof et al. | Qur'anic words stemming | |
JP5979650B2 (ja) | 用語を適切な粒度で分割する方法、並びに、用語を適切な粒度で分割するためのコンピュータ及びそのコンピュータ・プログラム | |
Elbarougy et al. | A proposed natural language processing preprocessing procedures for enhancing arabic text summarization | |
KR20160086255A (ko) | 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법 | |
Lee et al. | Syllable-based Malay word stemmer | |
JP3952964B2 (ja) | 読み情報決定方法及び装置及びプログラム | |
JP4088171B2 (ja) | テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体 | |
Kumar et al. | Learning agglutinative morphology of Indian languages with linguistically motivated adaptor grammars | |
Baldwin et al. | Restoring punctuation and casing in English text | |
JP2014215970A (ja) | 誤り検出装置、方法、及びプログラム | |
AlGahtani et al. | Joint Arabic segmentation and part-of-speech tagging | |
Mars | Toward a robust spell checker for Arabic text | |
JP4941495B2 (ja) | ユーザ辞書作成システム、方法、及び、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140902 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141030 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150310 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150420 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150714 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150812 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5795302 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |