JP3855989B2 - 日本語文解析装置および日本語文解析方法 - Google Patents
日本語文解析装置および日本語文解析方法 Download PDFInfo
- Publication number
- JP3855989B2 JP3855989B2 JP2003380248A JP2003380248A JP3855989B2 JP 3855989 B2 JP3855989 B2 JP 3855989B2 JP 2003380248 A JP2003380248 A JP 2003380248A JP 2003380248 A JP2003380248 A JP 2003380248A JP 3855989 B2 JP3855989 B2 JP 3855989B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- character string
- unregistered
- words
- dictionary file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Description
また、未登録単語は文献中のキーワードとなる単語として用いられる新語である場合が多い。このため、文書検索の自動キーワード作成(インデックス作成)等の技術では、未登録単語をキーワードとして登録する必要がある。すなわち、文書検索の自動キーワード作成で辞書にない未登録単語をキーワードとして登録するためには、未登録単語を正確に検出しなければならない。
情報処理学会第36回(昭和63年前記)全国大会予稿集1231頁〜1232頁「日英機械翻訳用前編集システム(2)-形態素のあいまい性の検出方法- 」 情報処理学会第47回(平成5年後期)全国大会予稿集3−159頁〜3−160頁「選択的辞書引き機構を導入した日本語形態素解析における未知語推定機構」
前記辞書ファイルを用いて入力された文字列を単語に分割する形態素解析を行う形態素解析手段と、
前記入力された文字列中の連接するカタカナ文字列が前記形態素解析によって複数の単語に分割されたとき、前記辞書ファイルを用いて、ここで分割された単語内に、予め設定した複合語になりにくい品詞の単語が含まれているかどうかを判定し、予め設定した複合語になりにくい品詞の単語が含まれていると判定した場合に、該単語と該単語に連接する単語との組み合せ毎に、組み合わせた文字列を未登録単語として検出する未登録単語検出手段と、
該検出された未登録単語を前記辞書ファイルに仮登録する未登録単語登録手段と、を備えている。
前記辞書ファイルを用いて入力された文字列を単語に分割する形態素解析を行う形態素解析手段と、を備え、
前記属性を示すデータは、対応する単語が複合語を形成する可能性の少ない単語であるかどうかを表すデータを含み、
さらに、前記入力された文字列中の連接するカタカナ文字列が前記形態素解析によって複数の単語に分割されたとき、前記辞書ファイルを用いて、ここで分割された単語内に複合語を形成する可能性の少ない単語が含まれているかどうかを判定し、複合語を形成する可能性の少ない単語が含まれていると判定した場合に、該単語と該単語に連接する単語との組み合せ毎に、組み合わせた文字列を未登録単語として検出する未登録単語検出手段と、
該検出された未登録単語を前記辞書ファイルに仮登録する未登録単語登録手段と、を備えている。
前記未登録単語登録手段は、前記正当性検証手段が正当であることを検証した仮登録されている未登録単語を前記辞書ファイルに正式に登録する。
このルールでは、複合語ではない単語の文字列中に、登録単語と一致する文字列が含まれる可能性は、登録単語の文字列長が長くなるにつれて低下するという理由から、この実施の形態では、
(1) 文字列長が4文字以上の単語であれば正当性のある単語、
(2) 文字列長が2または3文字の単語であれば正当性の有無を判定できない単語、
(3) 1文字であれば正当性がない単語、であるとする。
このルールでは以下に示す品詞の働きに基づいて正当性を検証する。
感動詞は、他の単語を修飾したり、他の単語に修飾されたりする性質がないため、複合語の構成単語とはならない。
副詞は、他の単語を修飾したり、他の単語に修飾されたりする性質がないため、複合語の構成単語とはならない。
サ行変格活用以外の動詞は、複合語の構成単語とならない。
接頭辞は、複合語の最後に来ることはない。
接尾辞は、複合語の先頭にくることはない。
連濁は、複合語の先頭にくることはない。
(1) 単語が感動詞、副詞、サ行変格活用以外の動詞、のいずれかであれば、正当性のない単語、
(2) 単語が接頭辞で、且つ、該単語の後ろにカタカナ文字列が連接していないと、正当性のない単語、
(3) 単語が接尾辞、連濁で、且つ、該単語の前にカタカナ文字列が連接していないと、正当性のない単語、
(4) 上記(1)(2)(3) のいずれにも該当しないと、正当性の有無を判定できない単語、であるとする。
このルールでは、単語毎にその性質を、複合語を形成する可能性の多い単語、複合語を形成する可能性の少ない単語、どちらでもない単語(以下、有用な性質を持たない単語、と言う。)、のいずれかに設定しておき、
(1) 単語の性質が複合語を形成する可能性の多い単語であれば、正当性のある単語、
(2) 単語の性質が複合語を形成する可能性の少ない単語であれば、正当性のない単語、
(3) 単語の性質が有用な性質を持たない単語であれば、正当性の有無を判定できない単語、であるとする。
(1) 単語の品詞が感動詞、副詞、サ行変格活用以外の動詞、であるか、
(2) 単語の品詞が接頭辞で且つ後ろにカタカナ文字列が続いていないか、
(3) 単語の品詞が接尾辞または連濁で且つ前にカタカナ文字列が続いていないか、
を判定し(n43〜n45)、この(1) 〜(3) のいずれかに該当する単語であれば、n49で正当性のない単語と判定する。また、この(1) 〜(3) のいずれにも該当しない単語であれば、この単語の品詞によるルールからは該単語の正当性が検証できないとして、以下の単語の性質による正当性の検証を行う。
また、図6(B)に示すように、「インフレーター」と言う文字列に対して、形態素解析の結果が「イン」「フレー」を登録語、「ター」を未登録語とするものであれば、未登録語である「ター」の文字列長は1文字ではないので単語候補の構成要素として検出される。「イン」は文字列長、単語の品詞、および、その性質からも正当性が検証されない単語であるので、単語候補の構成要素として検出される(「イン」は有用な性質を持たない単語であるとする。)。また、感動詞「フレー」は単語の品詞によるルールによって正当性のない単語と判定されるので、前に隣合う単語「イン」とつなげた「インフレー」と後ろに隣合う単語「ター」とつなげた「フレーター」が単語候補の構成要素として検出される。したがって、この例では、「イン」「インフレー」「フレーター」「ター」の4つが単語候補の構成要素として検出される。
(1) 外来語の動詞、形容詞、名詞がカタカナ表記された日本語となる場合(図8(A)参照)
外来語の動詞は日本語のサ行変格活用の動詞の語幹となり、サ行変格活用の動詞の語幹は名詞として使われている。また、外来語の形容詞は日本語の形容動詞になる。さらに、外来語としても形容詞と名詞の両方の性質をもつものがカタカナ表記されることが多い。これらの理由から、この発生源から発生するカタカナ未登録語が名詞である確率が非常に高いといえる。
この発生源から発生するカタカナ未登録語は上記したようにサ行変格活用の動詞、形容動詞、名詞に加えて文法的に「名詞」と同様に扱われる固有名詞がほとんどであるといえる。したがって、この発生源から発生するカタカナ未登録語も名詞である確率が非常に高いといえる。
この場合には、その品詞がいろいろあって、どの品詞が多いということは一概に言うことはできないが、統計的に言って、このような発生源から発生するカタカナ未登録語の出現の頻度は非常に少ない。
(2) 文字列長が2文字の単語であれば正当性の有無を判定できない単語、
(3) 1文字であれば正当性がない単語、であるとする。
このように、変更することで辞書ファイル4に複数の登録単語からなる複合語が登録される可能性を減少させることができる。
n61で文字列が同一でないと判定すると、この文字列の形態素解析された結果に単語候補が2つ以上含まれているかどうかを判定する(n62)。n62で単語候補が2つ以上含まれている場合には、単語候補の正当性の検証ができないと判定して処理を完了する。一方、このカタカナ文字列中に単語候補が1つしか含まれていない場合には、各登録単語に対して上記した図5に示す正当性の検証処理を行う(n63、n64)。そして、全ての登録単語が正当性のある単語として判定されなければ(n65)、単語候補の正当性が検証できないとして処理を完了する。全ての登録単語の正当性が検証されれば、該単語候補は正当性があると判定して、辞書ファイル4に該単語候補を正式に登録する(n66)。単語候補を辞書ファイル4に正式に登録する処理は、その品詞を候補から名詞に変更する処理である。単語候補正式登録部10がこの仮登録されている単語候補を正式に登録する処理を行う。
「イズム」 a=1、b=6
「マネー」 a=5、b=0
単語の性質は、上記したように複合語を形成することが多い単語、複合語を形成することが少ない単語、有用な性質を持たない単語、の3つのいずれかに判定される。この実施の形態では、
a/(a+b)>0.8 が成立すればその性質を複合語のなかで独立した単語となりやすいとし、
b/(a+b)>0.8 が成立すればその性質を複合語のなかで独立した単語となりにくいとし、
それ以外は、有用な性質をもたない単語であると判定する。
2−テキストデータ記憶部
3−形態素解析部
4−辞書ファイル
5−単語候補検出部
6−単語候補登録部
7−単語候補検証部
8−単語候補削除部
9−登録単語検証部
10−単語候補正式登録部
Claims (6)
- 単語の文字列およびその単語の品詞を示すデータを登録した辞書ファイルと、
前記辞書ファイルを用いて入力された文字列を単語に分割する形態素解析を行う形態素解析手段と、
前記入力された文字列中の連接するカタカナ文字列が前記形態素解析によって複数の単語に分割されたとき、前記辞書ファイルを用いて、ここで分割された単語内に、予め設定した複合語になりにくい品詞の単語が含まれているかどうかを判定し、予め設定した複合語になりにくい品詞の単語が含まれていると判定した場合に、該単語と該単語に連接する単語との組み合せ毎に、組み合わせた文字列を未登録単語として検出する未登録単語検出手段と、
該検出された未登録単語を前記辞書ファイルに仮登録する未登録単語登録手段と、を備えた日本語文解析装置。 - 単語の文字列およびその単語の属性を示すデータを登録した辞書ファイルと、
前記辞書ファイルを用いて入力された文字列を単語に分割する形態素解析を行う形態素解析手段と、を備え、
前記属性を示すデータは、対応する単語が複合語を形成する可能性の少ない単語であるかどうかを表すデータを含み、
さらに、前記入力された文字列中の連接するカタカナ文字列が前記形態素解析によって複数の単語に分割されたとき、前記辞書ファイルを用いて、ここで分割された単語内に複合語を形成する可能性の少ない単語が含まれているかどうかを判定し、複合語を形成する可能性の少ない単語が含まれていると判定した場合に、該単語と該単語に連接する単語との組み合せ毎に、組み合わせた文字列を未登録単語として検出する未登録単語検出手段と、
該検出された未登録単語を前記辞書ファイルに仮登録する未登録単語登録手段と、を備えた日本語文解析装置。 - 前記未登録単語検出手段で検出され、前記未登録単語登録手段により前記辞書ファイルに仮登録されている未登録単語と一致する文字列の単語が前記形態素解析によって複数の単語に分割された単語内に含まれるとき、一致する文字列以外の単語の正当性を検証した検証結果に基づいて、該未登録単語が単語として正当なものであるかどうかを検証する正当性検証手段と、を備え、
前記未登録単語登録手段は、前記正当性検証手段が正当であることを検証した仮登録されている未登録単語を前記辞書ファイルに正式に登録する請求項1または2に記載の日本語文解析装置。 - 形態素解析手段が、単語の文字列およびその単語の品詞を示すデータを登録した辞書ファイルを用いて入力された文字列を単語に分割する形態素解析を行うステップと、
未登録単語検出手段が、前記入力された文字列中の連接するカタカナ文字列が前記形態素解析によって複数の単語に分割されたとき、前記辞書ファイルを用いて、ここで分割された単語内に、予め設定した複合語になりにくい品詞の単語が含まれているかどうかを判定し、予め設定した複合語になりにくい品詞の単語が含まれていると判定した場合に、該単語と該単語に連接する単語との組み合せ毎に、組み合わせた文字列を未登録単語として検出するステップと、
未登録単語登録手段が、該検出された未登録単語を前記辞書ファイルに仮登録するステップと、を有する日本語文解析方法。 - 形態素解析手段が、単語の文字列および対応する単語が複合語を形成する可能性の少ない単語であるかどうかを示すデータを含む単語の属性を示すデータを登録した辞書ファイルを用いて入力された文字列を単語に分割する形態素解析を行うステップと、
未登録単語検出手段が、前記入力された文字列中の連接するカタカナ文字列が前記形態素解析によって複数の単語に分割されたとき、前記辞書ファイルを用いて、ここで分割された単語内に複合語を形成する可能性の少ない単語が含まれているかどうかを判定し、複合語を形成する可能性の少ない単語が含まれていると判定した場合に、該単語と該単語に連接する単語との組み合せ毎に、組み合わせた文字列を未登録単語として検出するステップと、
未登録単語登録手段が、該検出された未登録単語を前記辞書ファイルに仮登録するステップと、を有する日本語文解析方法。 - 正当性検証手段が、前記未登録単語検出手段で検出され、前記未登録単語登録手段により前記辞書ファイルに仮登録されている未登録単語と一致する文字列の単語が前記形態素解析によって複数の単語に分割された単語内に含まれるとき、一致する文字列以外の単語の正当性を検証した検証結果に基づいて、該未登録単語が単語として正当なものであるかどうかを検証するステップと、
前記未登録単語登録手段が、前記正当性検証手段が正当であることを検証した仮登録されている未登録単語を前記辞書ファイルに正式に登録するステップと、を有する請求項4または5に記載の日本語文解析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003380248A JP3855989B2 (ja) | 2003-11-10 | 2003-11-10 | 日本語文解析装置および日本語文解析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003380248A JP3855989B2 (ja) | 2003-11-10 | 2003-11-10 | 日本語文解析装置および日本語文解析方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP03033996A Division JP3728789B2 (ja) | 1996-02-19 | 1996-02-19 | 日本語文解析装置および日本語文解析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004103037A JP2004103037A (ja) | 2004-04-02 |
JP3855989B2 true JP3855989B2 (ja) | 2006-12-13 |
Family
ID=32291020
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003380248A Expired - Lifetime JP3855989B2 (ja) | 2003-11-10 | 2003-11-10 | 日本語文解析装置および日本語文解析方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3855989B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100757340B1 (ko) * | 2006-03-30 | 2007-09-11 | 엔에이치엔(주) | 자동 추출을 이용한 형태소 분석기 성능 향상 방법 및 상기방법을 수행하는 시스템 |
JP2011175306A (ja) * | 2008-05-13 | 2011-09-08 | Nec Corp | 情報処理装置 |
JP5838781B2 (ja) * | 2011-12-20 | 2016-01-06 | 富士通株式会社 | 複合語読み表示方法及びプログラム,並びに読み生成装置 |
JP2014067179A (ja) * | 2012-09-25 | 2014-04-17 | Toshiba Corp | 文書処理装置及び文書処理プログラム |
-
2003
- 2003-11-10 JP JP2003380248A patent/JP3855989B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2004103037A (ja) | 2004-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7136806B2 (en) | Sentence segmentation method and sentence segmentation apparatus, machine translation system, and program product using sentence segmentation method | |
KR100999488B1 (ko) | 문서 표절 탐색 방법 및 장치 | |
JP2001034623A (ja) | 情報検索方法と情報検索装置 | |
US20070179779A1 (en) | Language information translating device and method | |
JP3855989B2 (ja) | 日本語文解析装置および日本語文解析方法 | |
Agbago et al. | Truecasing for the Portage system | |
KR20060043583A (ko) | 언어 데이터의 로그의 압축 방법 및 시스템 | |
JP3728789B2 (ja) | 日本語文解析装置および日本語文解析方法 | |
US20110106849A1 (en) | New case generation device, new case generation method, and new case generation program | |
CN113158693A (zh) | 基于汉语关键词的维吾尔语关键词生成方法、装置、电子设备及存储介质 | |
JP4682627B2 (ja) | 文書検索装置および方法 | |
JP4088171B2 (ja) | テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体 | |
CN114444491A (zh) | 新词识别方法和装置 | |
WO2018203388A1 (ja) | 読み推定装置 | |
JP4845921B2 (ja) | 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法 | |
JP2009181183A (ja) | 人名表現同定装置、その方法、プログラム及び記録媒体 | |
KR100283100B1 (ko) | 대용량 말뭉치를 위한 통계학적 용례 추출 수단 및 그 방법 | |
JPH09146952A (ja) | 形態素解析装置 | |
Kwok et al. | GeoName: a system for back-transliterating pinyin place names | |
JPH0668070A (ja) | 複合語辞書登録装置 | |
JP2000222432A (ja) | 文書検索装置、文書検索方法及び文書検索プログラムを記録した記録媒体 | |
Ren | A hybrid approach of text segmentation based on sensitive word concept for NLP | |
JPH10240736A (ja) | 形態素解析装置 | |
JP3233283B2 (ja) | 日本文文章解析装置 | |
JPH0757059A (ja) | 文字認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050719 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050802 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050930 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060822 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060904 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090922 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100922 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100922 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110922 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110922 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120922 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130922 Year of fee payment: 7 |
|
EXPY | Cancellation because of completion of term |