JP2004103037A - 日本語文解析装置および日本語文解析方法 - Google Patents

日本語文解析装置および日本語文解析方法 Download PDF

Info

Publication number
JP2004103037A
JP2004103037A JP2003380248A JP2003380248A JP2004103037A JP 2004103037 A JP2004103037 A JP 2004103037A JP 2003380248 A JP2003380248 A JP 2003380248A JP 2003380248 A JP2003380248 A JP 2003380248A JP 2004103037 A JP2004103037 A JP 2004103037A
Authority
JP
Japan
Prior art keywords
word
character string
words
unregistered
registered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003380248A
Other languages
English (en)
Other versions
JP3855989B2 (ja
Inventor
Tomoyuki Tada
多田 智之
Hidenobu Kaneoka
金岡 秀信
Toshihiro Fujinami
藤並 稔弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Omron Tateisi Electronics Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp, Omron Tateisi Electronics Co filed Critical Omron Corp
Priority to JP2003380248A priority Critical patent/JP3855989B2/ja
Publication of JP2004103037A publication Critical patent/JP2004103037A/ja
Application granted granted Critical
Publication of JP3855989B2 publication Critical patent/JP3855989B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】 未登録単語を含む文字列から、正確に未登録単語を形成する文字列のみを検出し、この検出した文字列の単語を未登録単語として登録する日本語文解析装置および日本語文解析方法を提供する。
【解決手段】 形態素解析部3が単語の文字列およびその単語の属性を示すデータを登録した辞書ファイル4を用いて入力された文字列を単語に分割する。そして、この分割された単語内に文字列長が1文字の単語、所定の品詞の単語、または、複合語を形成する可能性が少ない単語があれば、単語候補検出部5がこの単語とこの単語の前または後ろに隣合う単語とをつないだ文字列を未登録単語(単語候補)として検出し、辞書ファイル4に仮登録する。さらに、単語候補検証部7がこの仮登録された単語候補の正当性を検証する。正当性が検証された単語候補は単語候補正式登録部10によって正式に登録される。
【選択図】 図1

Description

 この発明は、入力された日本語文に含まれる辞書にのっていない単語、特にカタカナで記載された単語を検出し、この検出した単語を登録する日本語文解析装置および日本語文解析方法に関する。
 機械翻訳の前処理には、形態素解析と言われる処理が行われている。形態素解析とは、簡単にいうと入力された日本語文に対して辞書を用いて文節切りや単語切りなどを行う処理である。ここで、問題となるのは入力された日本語文中に辞書に載っていない単語(以下、未登録単語と言う。)が存在すると、形態素解析が正確に行えないという点である。したがって、機械翻訳にも失敗するという結果となる。そこで、機械翻訳の前処理で翻訳に失敗しそうなところを予め警告するためには、未登録語を正確に検出する必要がある。
 また、未登録単語は文献中のキーワードとなる単語として用いられる新語である場合が多い。このため、文書検索の自動キーワード作成(インデックス作成)等の技術では、未登録単語をキーワードとして登録する必要がある。すなわち、文書検索の自動キーワード作成で辞書にない未登録単語をキーワードとして登録するためには、未登録単語を正確に検出しなければならない。
 従来、未登録単語の検出処理は、未登録単語がカタカナ文字列である場合がほとんどであることから、辞書引きに失敗した文字列に同じ文字種(カタカナ)が連接する文字列全体を未登録語として検出するというものであった。
 例えば、「インタラプタ」という文字列に対して「イン」、「タラ」が辞書に登録されている登録語で、「プタ」が未登録語である場合には、「インタラプタ」を未登録単語として検出する方法(非特許文献1参照)や、「ニューステーションホテル」と言う文字列に対して辞書引きされる「ニュー」、「ニュース」「ホテル」等の情報は無視し、カタカナ文字列全体である「ニューステーションホテル」を未知語(本願で言う未登録単語)として検出する方法(非特許文献2参照)であった。
情報処理学会第36回(昭和63年前記)全国大会予稿集1231頁〜1232頁「日英機械翻訳用前編集システム(2)-形態素のあいまい性の検出方法- 」 情報処理学会第47回(平成5年後期)全国大会予稿集3−159頁〜3−160頁「選択的辞書引き機構を導入した日本語形態素解析における未知語推定機構」
 しかしながら、上記した未登録単語を抽出する方法では、カタカナの文字列が複数の単語からなる複合語であると、この複合語を未登録単語として検出してしまうという問題がある。例えば、「ファイナンシャルシステム」という文字列の単語(「ファイナンシャル」が未登録語であり、「システム」とつながって複合語を形成している単語)がある場合、登録語である「ファイ」や「システム」等の辞書引きされる情報を無視し(「ファイ」、「システム」は辞書ファイルに登録されている単語とする。)、「ファイナンシャルシステム」全体が未登録単語として検出される。また、「ファイナンシャル」という未登録単語を含む複合語である「ファイナンシャルバンキング」、「ファイナンシャルセンター」、「ファイナンシャルアドバイザー」、「ファイナンシャルプランナー」等も別の未登録単語として検出される(「バンキング」、「センター」、「アドバイザー」、「プランナー」等は辞書に登録されている単語であるとする。)。このため、機械翻訳の前処理における処理量が増加したり、文書検索のキーワードとして冗長なキーワード(複合語)が作成されるという結果となる。
 ここで、登録単語と照合しない部分のみを未登録単語として検出するという手法も考えられるが、この手法では検出すべき未登録単語の一部が登録単語と一致していると、この一致した部分が切り離された不適当な文字列の未登録単語が検出されることになる。上記した例の「ファイナンシャルシステム」という文字列に対して、「ファイ」、「システム」と言う登録単語に一致する部分を除いた「ナンシャル」という単語として正当性のない文字列を未登録単語として検出してしまう。さらに、未登録単語の文字列が複数の単語を連接させた文字列とたまたま一致する場合には、未登録単語が検出されないという問題もある。例えば、「カリマンタン」と言う文字列の未登録単語に対して「カリ」「マン」「タン」という3つの登録単語があると、未登録単語が検出されないということである。
 この発明の目的は、未登録単語を含むカタカナ文字列中から正確に未登録単語を形成する文字列のみを検出し、この検出した未登録単語を登録することのできる日本語文解析装置および日本語文解析方法を提供することにある。
 また、この発明は、検出された未登録単語の正当性を検出し、誤って検出されて登録された未登録単語を取り消すことのできる日本語文解析装置および日本語文解析方法を提供することを目的とする。
 この発明は、上記課題を解決するために以下の構成を備えている。
 (1)単語の文字列およびその単語の属性を示すデータを登録した辞書ファイルと、
 前記辞書ファイルを用いて入力された文字列を単語に分割する形態素解析を行う形態素解析手段と、
 前記入力された文字列中の連接するカタカナ文字列が前記形態素解析によって複数の単語に分割されたとき、予め設定した複合語になりにくい品詞の単語がこの分割された単語内に含まれていれば、該単語と該単語の前または後ろに隣合う単語とをつないだ文字列を未登録単語として検出する未登録単語検出手段と、
 該検出された未登録単語を登録する未登録単語登録手段と、を備えている。
 この構成では、形態素解析手段が辞書ファイルを用いて入力された文字列を単語に分割する形態素解析を行う。形態素解析された結果、連接するカタカナ文字列が複数の単語に分割されたときに、予め設定した複合語になりにくい品詞の単語がこの分割された単語内に含まれていれば、該単語と該単語の前または後ろに隣合う単語とをつないだ文字列を未登録単語として検出する。そして、未登録単語登録手段がこの検出された未登録単語を辞書ファイルに仮登録する。
 (2)単語の文字列およびその単語の属性を示すデータを登録した辞書ファイルと、
 前記辞書ファイルを用いて入力された文字列を単語に分割する形態素解析を行う形態素解析手段と、を備え、
 前記属性を示すデータは、対応する単語が複合語を形成する可能性の少ない単語であるかどうかを表すデータを含み、
 さらに、前記入力された文字列中の連接するカタカナ文字列が前記形態素解析によって複数の単語に分割されたとき、この分割された単語内に複合語を形成する可能性の少ない単語が含まれていれば該単語と該単語の前または後ろに隣合う単語とをつないだ文字列を未登録単語として検出する未登録単語検出手段と、
 該検出された未登録単語を登録する未登録単語登録手段と、を備えている。
 この構成では、形態素解析手段が辞書ファイルを用いて入力された文字列を単語に分割する形態素解析を行う。形態素解析された結果、連接するカタカナ文字列が複数の単語に分割されたときに、分割された単語内に複合語を形成する可能性の少ない単語が含まれていれば、未登録単語検出手段が該単語と該単語の前または後ろに隣合う単語とをつないだ文字列を未登録単語として検出する。そして、未登録単語登録手段がこの検出された未登録単語を辞書ファイルに仮登録する。
 (3)前記未登録単語検出手段で検出され、前記辞書ファイルに仮登録されている未登録単語と一致する文字列の単語が前記形態素解析によって複数の単語に分割された単語内に含まれるとき、一致する文字列以外の単語の正当性を検証した検証結果に基づいて、該未登録単語が単語として正当なものであるかどうかを検証する正当性検証手段と、を備え、
 前記未登録単語登録手段は、前記正当性検証手段が正当であることを検証した仮登録されている未登録単語を前記辞書ファイルに正式に登録する。
 この構成では、正当性検証手段が前記形態素解析によって複数の単語に分割された単語内に前記未登録単語検出手段で検出され、登録されている未登録単語と一致する文字列の単語が含まれるとき、一致する文字列以外の単語の正当性を検証した検証結果に基づいて、該未登録単語が単語として正当なものであるかどうかを検証する。そして、未登録単語登録手段が単語として正当なものであることが検証された辞書ファイルに仮登録されている未登録単語を正式に登録する。
 以上のように、この発明によれば、連接するカタカナ文字列に未登録単語含まれるときに、正確に未登録単語を形成する文字列の範囲を特定して、未登録単語を検出し、この検出した未登録単語を登録することができる。また、誤って検出され、辞書ファイルに登録された単語は最終的に削除されるので、辞書ファイルの容量が不要に大きくなることもない。
 図1は、この発明の実施の形態である日本語文解析装置の機能を示すブロック図である。日本語文解析装置1は、テキストデータ記憶部2と、形態素解析部3、辞書ファイル4と、単語候補検出部5と、単語候補登録部6と、単語候補検証部7と、単語候補削除部8と、登録単語検証部9と、単語候補正式登録部10とを備えている。テキストデータ記憶部2は、処理の対象となるテキストデータを記憶する。形態素解析部3は、前記テキストデータ記憶部2に記憶されているテキストデータに対して形態素解析を行う。辞書ファイル4は、単語の文字列と、該単語の属性(品詞等)を対応させて記憶している。単語候補検出部5は、前記形態素解析部3で形態素解析された結果に基づいて、辞書ファイル4に登録されていない未登録単語を単語候補として検出する。単語候補登録部6は、前記単語候補検出部5で検出された単語候補を辞書ファイル4に仮登録する。単語候補検証部7は、辞書ファイル4に仮登録されている単語候補の正当性を検証する。単語候補削除部8は、辞書ファイル4に仮登録されている単語候補で正当性が検証されなかった単語を削除する。登録単語検証部9は、未登録単語の含まれている可能性がある文字列中から検出された辞書ファイル4に登録されている単語の正当性を検証する。単語候補正式登録部10は、仮登録されている単語候補で正当性が検証されたときにこの単語候補を正式に登録する。
 図2は、この発明の実施の形態である日本語群解析装置の処理を示すフローチャートである。ここでは、日本語文解析装置1の一連の処理を簡単に説明する。日本語文解析装置1は、テキストデータ記憶部2に処理対象となるテキストデータを取り込み、記憶する(n1)。形態素解析部3は、句読点で区切られた文字列単位毎にテキストデータを取り込む(n2)。形態素解析部3は、句読点で区切られたテキストデータを取り込むと、辞書ファイル4を用いて形態素解析を行う(n3)。この形態素解析によって、n2で取り込まれた句読点で区切られたテキストデータが形態素に分割される。日本語文解析装置1は、n3において形態素解析部3で形態素解析された結果にカタカナ文字列の単語が含まれているかどうかを判定する(n4)。カタカナ文字列の単語が含まれていない場合には、n1でテキストデータ記憶部2に記憶したテキストデータを全て処理したかどうか(未処理のテキストデータが残っていないかどうか)を判定し(n11)、処理されていないテキストデータが残っているとn2に戻る。
 カタカナ文字列の単語が含まれている場合には、単語候補検出部5がこのカタカナ文字列の単語に未登録単語が含まれているかどうかを判定する(n5)。未登録語が含まれていると、単語候補検出部5はこの未登録単語に連接するカタカナ文字列の単語を含めたカタカナ文字列全体から単語候補を検出し、この検出した単語候補を辞書ファイル4に仮登録する第1の単語候補検出、登録処理を行う(n6)。n5で未登録単語が含まれていないと判定した場合、または、上記したn6の処理を完了すると、辞書ファイル4に登録されている複数のカタカナ文字列の登録単語が連接している箇所の有無を判定する(n7)。カタカナ文字列の登録単語が連接した箇所があると、この登録単語をつなげたカタカナ文字列全体から単語候補を検出し、この検出した単語候補を辞書ファイル4に仮登録する第2の単語候補検出、登録処理を行う(n8)。
 また、単語候補検証部7は、形態素解析によって分割された単語の中に、n6、または、n8で辞書ファイル4に仮登録されている単語候補と同じカタカナ文字列の単語があるかどうか(n6、または、n8で辞書ファイル4に仮登録した単語候補が別の文字列中から再出現しているかどうか)を判定する(n9)。単語候補が再出現していると、単語候補検証部7が辞書ファイル4に仮登録されているこの再出現した単語候補の正当性を検証する単語候補正当性検証処理を実行する(n10)。
 そして、未処理のテキストデータが残っていないかどうかをn11で判定し、未処理のテキストデータが残っていれば上記したn2〜n10の処理をくりかえす。未処理のテキストデータがなければ、辞書ファイル4に仮登録されている不要な単語候補(正当性が検証されなかった単語候補等)を全て削除して処理を完了する(n12)。
 以下、上記した処理を詳細に説明する。
 n1では、テキストデータ記憶部2が形態素解析を行う一連のテキストデータ(ファイル単位、レコード単位、ディレクトリ単位、ハードディスク単位、時間単位、100MB等のデータ量単位等)を取り込み、記憶する。
 n2、n3では、形態素解析部3がテキストデータ記憶部2に記憶された一連のテキストデータから、順次句読点で区切られた文字列単位で取り出し、形態素解析を行う。そして、形態素解析部3はこの形態素解析を行った句読点で区切られた文字列単位のテキストデータを単語に分割して出力する。
 例えば、形態素解析を行うテキストデータに「ファイナンシャルシステム」というカタカナ文字列が含まれているとする。また、辞書ファイル4には図3(A)に示すように「ファイ」「システム」という文字列が単語として登録されており、「ナンシャル」「ファイナンシャル」「ファイナンシャルシステム」という文字列の単語が登録されていないものとする。ここで、形態素解析部3はこの「ファイナンシャルシステム」と言うカタカナ文字列に対して形態素解析を行うと、図3(B)に示すように「ナ」「ン」「シャ」「ル」で辞書引きに失敗し、「ファイ」と「システム」とを品詞が名詞である単語として検出する。そして、形態素解析部3はこの連続して辞書引きに失敗した「ナ」「ン」「シャ」「ル」をつなげたカタカナ文字列「ナンシャル」を1つの未登録単語とみなし、図3(C)に示すように「ファイナンシャルシステム」と言う文字列の形態素解析の結果として「ファイ」、「ナンシャル」および「システム」の3つの単語を出力する。このとき「ナンシャル」の品詞は未登録語として出力される。
 n4では、形態素解析部3が出力した形態素解析結果にカタカナ文字列の単語が含まれているかどうかを判定する。ここで、形態素解析結果にカタカナ文字列の単語が含まれていない場合には、n5〜n10の処理を行わず、n11で未処理のテキストデータの有無を判定する。一方、形態素解析結果にカタカナ文字列の単語が含まれている場合にはn5〜n10の処理を行う。
 n5では、単語候補検出部5がこの形態素解析結果に未登録単語が含まれているかどうかを判定する。この実施の形態では、形態素解析の結果にその品詞が未登録語とされた単語を含んでいるときに、未登録単語が含まれていると判定する。上記した例では、品詞が未登録語とされた「ナンシャル」と言う単語が含まれているので、n5で未登録単語を含んでいると判定される。
 単語候補検出部5は、n5で未登録単語を含んでいると判定すると、この未登録単語に連接するカタカナ文字列全体から、単語候補を検出し、この検出した単語候補を辞書ファイル4に仮登録する第1の単語候補検出、登録処理を実行する。ここで、未登録単語に連接するカタカナ文字列全体とは、未登録単語の前または/および後ろに連続しているカタカナ文字列の単語(未登録単語に連接している単語)を含めたカタカナ文字列のことである。上記した例では、「ファイナンシャルシステム」が未登録単語に連接するカタカナ文字列全体となる。なお、「ファイ」の前および「システム」の後ろに、カタカナ文字列の単語が連接していないものとする。
 ここで、図4を参照しながら第1の単語候補検出、登録処理を詳細に説明する。図4は第1の単語候補検出、登録処理の流れを示すフローチャートである。このカタカナ文字列の未登録単語に連接するカタカナ文字列全体を1つの単語とし、品詞を名詞として辞書ファイル4に登録する(n21)。上記している例では「ファイナンシャルシステム」が単語(品詞は名詞)として辞書ファイル4に登録される。つぎに、n21で辞書ファイル4に登録した単語のカタカナ文字列中に含まれる未登録単語が1文字の単語であるかどうかを判定する(n22)。ここで、1文字の単語でなければこの未登録単語を単語候補の構成要素として検出する(n23)。未登録単語が1文字であり、この未登録単語の前にカタカナ文字列の登録単語が連接しているとこの登録単語と未登録単語とをつないだ文字列からなる単語を単語候補の構成要素として検出し、また、この未登録単語の前または後ろにカタカナ文字列の登録単語が連接しているとこの登録単語と未登録単語とをつないだ文字列からなる単語を単語候補の構成要素として検出する(n24)。例えば、「イリオモテ」と言う文字列に対して、形態素解析結果が「イ」が未登録語、「リオ」「モテ」が登録語である場合、「イ」が1文字の未登録であるので後ろの登録語「リオ」とつながれた「イリオ」が単語候補の構成要素として検出される。なお、形態素解析部3で未登録語である「イ」の前に検出している単語はカタカナ文字列ではないとする。また、この1文字の未登録単語の前後両方にカタカナ文字列の登録単語が連接している場合には、前に連接する登録単語とつながれた単語候補の構成要素と、後ろに連接する登録単語とつながれた単語候補の構成要素とを検出する。
 そして、形態素解析において、未登録単語を含むカタカナ文字列全体から検出されている登録単語(辞書ファイル4に登録されている単語)の正当性の対象となる登録単語の正当性検証処理を行う(n25)。ここでは、検証する登録単語が、複合語を形成しうる単語であれば正当性がある、複合語を形成しえない単語であれば正当性がない、とする。上記した「ファイナンシャルシステム」という文字列の例では「ファイ」と「システム」との2つの登録単語が正当性の検証対象となる。単語の正当性の検証は登録単語検証部9で行われる。単語の正当性は以下に示す(A)、(B)、(C)のルールに基づいて検証される。
 (A)単語の文字列長によるルール
 このルールでは、複合語ではない単語の文字列中に、登録単語と一致する文字列が含まれる可能性は、登録単語の文字列長が長くなるにつれて低下するという理由から、この実施の形態では、
 (1) 文字列長が4文字以上の単語であれば正当性のある単語、
 (2) 文字列長が2または3文字の単語であれば正当性の有無を判定できない単語、
(3) 1文字であれば正当性がない単語、であるとする。
 (B)単語の品詞によるルール
 このルールでは以下に示す品詞の働きに基づいて正当性を検証する。
 感動詞は、他の単語を修飾したり、他の単語に修飾されたりする性質がないため、複合語の構成単語とはならない。
 副詞は、他の単語を修飾したり、他の単語に修飾されたりする性質がないため、複合語の構成単語とはならない。
 サ行変格活用以外の動詞は、複合語の構成単語とならない。
 接頭辞は、複合語の最後に来ることはない。
 接尾辞は、複合語の先頭にくることはない。
 連濁は、複合語の先頭にくることはない。
 以上の理由から、本実施の形態では
 (1) 単語が感動詞、副詞、サ行変格活用以外の動詞、のいずれかであれば、正当性のない単語、
 (2) 単語が接頭辞で、且つ、該単語の後ろにカタカナ文字列が連接していないと、正当性のない単語、
 (3) 単語が接尾辞、連濁で、且つ、該単語の前にカタカナ文字列が連接していないと、正当性のない単語、
 (4) 上記(1)(2)(3) のいずれにも該当しないと、正当性の有無を判定できない単語、であるとする。
 (C)単語の性質によるルール
 このルールでは、単語毎にその性質を、複合語を形成する可能性の多い単語、複合語を形成する可能性の少ない単語、どちらでもない単語(以下、有用な性質を持たない単語、と言う。)、のいずれかに設定しておき、
 (1) 単語の性質が複合語を形成する可能性の多い単語であれば、正当性のある単語、
 (2) 単語の性質が複合語を形成する可能性の少ない単語であれば、正当性のない単語、
(3) 単語の性質が有用な性質を持たない単語であれば、正当性の有無を判定できない単語、であるとする。
 なお、この単語毎に性質を種類分けはする方法としては、複数の文献等から、単語毎に形成された複合語の数、一致する文字列を含む独立した単語(複合語でない単語)の数等の統計を取り、この統計に基づいて単語の性質を設定すればよい。また、人手による作業でこの統計を取ってもよいし、自動的に統計を取って単語の性質を設定するようにしてもよい。自動的にこの統計を取って単語の性質を設定する処理については後述する。
 図5は、n25における登録単語の正当性検証処理のフローチャートである。この処理は、最初に文字列長によるルールから単語の正当性を検証する。正当性を検証する登録単語の文字列長が、4文字以上、2または3文字、1文字、のいずれであるかを判定する(n41、n42)。ここで、文字列長が4文字以上であればn48において正当性のある単語と判定する。文字列長が1文字であればn49において正当性のない単語と判定する。文字列長が2または3文字であれば、単語の文字列長によるルールからは、該単語の正当性を検証できないとして、単語の品詞による正当性の検証を行う。
 ここでは、
(1) 単語の品詞が感動詞、副詞、サ行変格活用以外の動詞、であるか、
(2) 単語の品詞が接頭辞で且つ後ろにカタカナ文字列が続いていないか、
(3) 単語の品詞が接尾辞または連濁で且つ前にカタカナ文字列が続いていないか、
を判定し(n43〜n45)、この(1) 〜(3) のいずれかに該当する単語であれば、n49で正当性のない単語と判定する。また、この(1) 〜(3) のいずれにも該当しない単語であれば、この単語の品詞によるルールからは該単語の正当性が検証できないとして、以下の単語の性質による正当性の検証を行う。
 上記したように、単語毎に、複合語を形成する可能性の多い単語、複合語を形成する可能性の少ない単語、有用な性質を持たない単語、のいずれかの性質が設定されている。検証する単語の性質が上記したいずれに設定されているかを判定し(n46、n47)、複合語を形成する可能性の多い単語であればn48で正当性のある単語と判定する。また、複合語を形成する可能性の少ない単語であればn49で正当性のない単語と判定する。また、有用な性質を持たない単語であれば正当性を検証できない単語と判定する(n50)。以上のように、この処理では登録単語が正当性のある単語、正当性のない単語、または、正当性の検証できない単語のいずれかに判定される。なお、上記した実施の形態では、単語の文字列長によるルール、単語の品詞によるルール、単語の性質によるルール、の3つで単語の正当性を検証しているが、上記した任意のルール1つまたは2つを組み合わせて単語の正当性を検証するようにしてもよい。
 単語候補検出部5は,登録単語の正当性検証処理で、正当性があると判定された単語を単語候補の構成要素としては検出しない(n26→n30)。また、正当性がないと判定された単語であれば、前にカタカナ文字列の単語が連接していると、この単語とをつないだ文字列からなる単語を単語候補の構成要素として検出する(n29)。また、後ろにカタカナ文字列の単語が連接しているとこの単語とつないだ文字列からなる単語を単語候補の構成要素として検出する(n29)。正当性が検証されなかった単語であれば、その単語を単語候補の構成要素として検出する(n28)。
 例えば、図6(A)に示すように、「ファイナンシャルシステム」と言う文字列に対して、形態素解析によって「ファイ」「システム」が登録語、「ナンシャル」が未登録語とする結果であれば、未登録語である「ナンシャル」の文字列長は1文字ではないので、単語候補の構成要素として検出される。登録単語である「ファイ」は文字列長、単語の品詞、および、その性質からも正当性が検証されない単語であるので、単語候補の構成要素として検出される(「ファイ」は有用な性質を持たない単語であるとする。)。また、登録単語である「システム」は文字列長が4文字であるので、文字列長によるルールによって正当性がある単語と判定され、単語候補の構成要素として検出されない。したがって、この例では、「ファイ」と「ナンシャル」の2つが単語候補の構成要素として検出される。
 また、図6(B)に示すように、「インフレーター」と言う文字列に対して、形態素解析の結果が「イン」「フレー」を登録語、「ター」を未登録語とするものであれば、未登録語である「ター」の文字列長は1文字ではないので単語候補の構成要素として検出される。「イン」は文字列長、単語の品詞、および、その性質からも正当性が検証されない単語であるので、単語候補の構成要素として検出される(「イン」は有用な性質を持たない単語であるとする。)。また、感動詞「フレー」は単語の品詞によるルールによって正当性のない単語と判定されるので、前に隣合う単語「イン」とつなげた「インフレー」と後ろに隣合う単語「ター」とつなげた「フレーター」が単語候補の構成要素として検出される。したがって、この例では、「イン」「インフレー」「フレーター」「ター」の4つが単語候補の構成要素として検出される。
 また、図6(C)に示すように、「イリオモテ」と言う文字列に対して、形態素解析の結果が「イ」が未登録語、「リオ」「モテ」が登録語とするものであれば、未登録語である「イ」の文字列長は1文字であるので、その後ろに隣合う単語「リオ」とつながる。また、下一段動詞である「モテ」は単語の品詞によるルールによって正当性のない単語と判定され、前に隣合う単語「リオ」とつながる。ここで、「リオ」にはすでに「イ」が接続されているので、「イリオモテ」が単語候補の構成要素として検出される。
 さらに、図6(D)に示すように、「インタラプタ」言う文字列に対して、形態素解析の結果が「イン」「タラ」が登録語「プタ」が未登録語とするものであれば、未登録語である「プタ」の文字列長は1文字ではないの単語候補の構成要素として検出される。「イン」「タラ」は文字列長、単語の品詞、および、その性質からも正当性が検証されない単語であるので、その単語が単語候補の構成要素として検出される(「イン」「タラ」は有用な性質を持たない単語であるとする。)。したがって、この例では、「イン」「タラ」「プタ」の3つが単語候補の構成要素として検出される。
 このようにして検出された単語候補の構成要素および単語候補の構成要素で連接するものの組み合わせを、単語候補として作成する(n31)。例えば、図6(A)に示す例では、「ファイ」「ナンシャル」「ファイナンシャル」の3つが単語候補として作成される。また、図6(B)に示す例では、「イン」「インフレー」「フレーター」「ター」「インフレータ」が単語候補として作成される。図6(C)に示す例では、「イリオモテ」が単語候補として作成される。図6(D)に示す例では「イン」「タラ」「プタ」「インタラ」「タラプタ」「インタラプタ」が単語候補として作成される。なお、連接していない単語「イン」と「プタ」をつないだ「インプタ」という単語候補は作成されない。そして、n31で作成された単語候補で且つ辞書ファイル4に登録されていない文字列の単語候補を、辞書ファイル4に仮登録する(n32)。仮登録された単語候補の品詞は「候補」に設定される。また、単語候補の仮登録においては、この単語候補が切り出された元の文字列の単語(n21で登録された単語)を登録した辞書ファイル4内の位置を示すデータ(ポインタ)も同時に登録する。図7に単語候補が登録された辞書ファイル4の例を示す。図6(A)に示す例では、「ファイ」はすでに辞書に登録されているので「ナンシャル」「ファイナンシャル」の2つが単語候補として登録され、品詞は候補に設定されている。また、これらの単語候補は切り出された元の文字列の単語「ファイナンシャルシステム」が登録されている辞書ファイル4内の位置を示すデータ(ポインタ8)が付加されて辞書ファイル4に登録される。
 以下、n21で登録した単語の品詞を名詞とした理由について簡単に説明する。カタカナの未登録語の発生源は大きく分けて以下に示す(1) 〜(3) の3つであると考えられる。
 (1) 外来語の動詞、形容詞、名詞がカタカナ表記された日本語となる場合(図8(A)参照)
 外来語の動詞は日本語のサ行変格活用の動詞の語幹となり、サ行変格活用の動詞の語幹は名詞として使われている。また、外来語の形容詞は日本語の形容動詞になる。さらに、外来語としても形容詞と名詞の両方の性質をもつものがカタカナ表記されることが多い。これらの理由から、この発生源から発生するカタカナ未登録語が名詞である確率が非常に高いといえる。
 (2) 日本語で難しい漢字や強調したい単語などがカタカナ表記された場合(図8(B)参照)
 この発生源から発生するカタカナ未登録語は上記したようにサ行変格活用の動詞、形容動詞、名詞に加えて文法的に「名詞」と同様に扱われる固有名詞がほとんどであるといえる。したがって、この発生源から発生するカタカナ未登録語も名詞である確率が非常に高いといえる。
 (3) 外来語の擬音語や擬態語を転用、外来語の短縮、または、和声カタカナ語から発生する場合(図8(C)参照)
 この場合には、その品詞がいろいろあって、どの品詞が多いということは一概に言うことはできないが、統計的に言って、このような発生源から発生するカタカナ未登録語の出現の頻度は非常に少ない。
 以上の(1) 〜(3) の理由から、カタカナ未登録語の品詞を名詞とすることが最適である考えられるからである。
 n7では、形態素解析の結果から複数のカタカナ文字列の登録単語が連接している箇所があるかどうかを判定する。ここで、複数のカタカナ文字列の登録単語が連接している箇所があれば、n8で第2の単語候補検出、登録処理が実行される。図9は、第2の単語候補検出、登録処理の流れを示すフローチャートである。形態素解析結果において、複数のカタカナ文字列の登録単語が連接する例としては「カリマンタン」「カードシステム」等の文字列がある。「カリマンタン」という文字列の形態素解析結果を図10(A)に示し、「カードシステム」という文字列に対する形態素解析結果を図10(B)に示す。「カリマンタン」と言う文字列は、形態素解析で「カリ」「マン」「タン」という3つの登録単語が連接する文字列であると判定される。「カードシステム」と言う文字列は形態素解析で「カード」「システム」という2つの登録単語が連接する文字列であると判定される。
 登録単語検証部9が各登録単語に対して、単語の正当性を検証する(n51、n52)。この単語の正当性は上記した図5に示した処理で検証される。そして、正当性のない単語が検出されているか(n53)、または、正当性の検証できない単語が連接して検出されているかを判定する(n54)。ここで、正当性のない単語が検出されておらず、且つ、正当性の検証できない単語が連接していなければ、未登録単語が含まれている可能性が無いとして処理を完了する。正当性のない単語が検出されている場合、または、正当性を検証できない単語が連接して検出されている場合には、以下の処理が行われる。
 このカタカナ文字列全体を1つの単語とし、品詞を名詞として辞書ファイル4に登録する(n55)。正当性の検証できない単語を、単語候補の構成要素として検出する(n56)。また、正当性がないと判定された単語は、前にカタカナ文字列の登録単語が連接しているとこの登録単語とつないだ文字列からなる単語を単語候補の構成要素として検出し、また、後ろにカタカナ文字列の登録単語が連接しているとこの登録単語をつないだ文字列からなる単語を単語候補の構成要素として検出する(n57)。そして、検出された単語候補の構成要素を組み合わせて単語候補を作成し(n58)、作成された単語候補で且つ辞書ファイル4に登録されていない文字列の単語候補を、辞書ファイル4に仮登録する(n59)。仮登録された単語候補の品詞は候補に設定される。また、この単語候補が切り出された元の文字列の単語(n55で登録された単語)が登録されている辞書ファイル4内の位置も記憶される。
 例えば、「カリマンタン」という文字列を形態素解析した結果の「カリ」「マン」「タン」の3つの登録単語が全て正当性の検証できない単語であったとする。この場合、n55で「カリマンタン」の品詞を名詞として辞書ファイル4に登録する。また、「カリ」「マン」「タン」が単語候補の構成要素として検出され、「カリマン」「マンタン」が単語候補として仮登録される。なお、連接していない単語「カリ」「タン」をつないだ「カリタン」という単語は単語候補として作成されない。
 また、「カードシステム」という文字列の形態素解析の結果である「システム」は上記した文字列によるルールから正当性のある単語と判定される。したがって、正当性のない単語が検出されておらず、且つ、正当性の検証できない単語も連接しないので、未登録単語が含んでいる可能性が無いと判定され、n55以降処理が行われない。
 すなわち、この実施の形態では、形態素解析の結果に正当性のない単語が含まれている場合、または、正当性が検証できない単語が連接している場合に、カタカナ文字列中に未登録語含まれている可能性があると判断し、その他の場合であればカタカナ文字列中に未登録語含まれている可能性がないと判断している。そして、カタカナ文字列中に未登録語含まれている可能性があると判断した場合には、単語候補を作成し、これを辞書ファイル4に仮登録している。
 なお、この第2の単語候補検出、登録処理における単語の正当性の検証において、上記したルールでは厳しすぎて、正当性のある単語を正当性のない単語であると判定してしまうケースも想定される。このような場合には、辞書ファイル4に登録されている複数の単語からなる複合語が、未登録単語として登録されてしまうという問題が生じる恐れもある。このため、この第2の単語候補検出、登録処理における、上記した単語の正当性を検証する単語の文字列長によるルールを以下のように変更してもよい。
 (1) 文字列長が3文字以上の単語であれば正当性のある単語、
 (2) 文字列長が2文字の単語であれば正当性の有無を判定できない単語、
(3) 1文字であれば正当性がない単語、であるとする。
このように、変更することで辞書ファイル4に複数の登録単語からなる複合語が登録される可能性を減少させることができる。
 n9では、形態素解析された結果に辞書ファイル4に仮登録されている単語候補が含まれているか(単語候補が再出現したか)どうかを判定している。ここで、単語候補が再出現したと判定すると、n10の単語候補の正当性検証処理が実行される。図11は、単語候補の正当性検証処理を示すフローチャートである。最初に、再出現した単語候補に連接するがカタカナ文字列全体が、該単語候補を辞書ファイル4に仮登録したときに切り出した文字列と一致しているかどうかを判定する(n61)。すなわち、「ファイナンシャルシステム」という文字列から切り出された「ファイナンシャル」という単語が辞書ファイル4に仮登録されている場合、再度同じ文字列から「ファイナンシャル」という単語候補が切り出されたのかどうかを判定する。n61で、単語候補が切り出された文字列と同一であると判定すると、単語候補の正当性を正確に検証ができないとして処理を完了する。
 n61で文字列が同一でないと判定すると、この文字列の形態素解析された結果に単語候補が2つ以上含まれているかどうかを判定する(n62)。n62で単語候補が2つ以上含まれている場合には、単語候補の正当性の検証ができないと判定して処理を完了する。一方、このカタカナ文字列中に単語候補が1つしか含まれていない場合には、各登録単語に対して上記した図5に示す正当性の検証処理を行う(n63、n64)。そして、全ての登録単語が正当性のある単語として判定されなければ(n65)、単語候補の正当性が検証できないとして処理を完了する。全ての登録単語の正当性が検証されれば、該単語候補は正当性があると判定して、辞書ファイル4に該単語候補を正式に登録する(n66)。単語候補を辞書ファイル4に正式に登録する処理は、その品詞を候補から名詞に変更する処理である。単語候補正式登録部10がこの仮登録されている単語候補を正式に登録する処理を行う。
 例えば、「ファイナンシャルシステム」という文字列が検出されて、辞書ファイル4に「ファイナンシャル」「ナンシャル」が単語候補として仮登録されている。ここで、「ファイナンシャルアドバイザ」という文字列の形態素解析の結果は図12(A)に示すようになる。なお、「ファイナンシャルアドバイザ」という文字列の形態素解析の結果が、図12(B)に示すようになると考えることもできるが、形態素解析の一般的な手法である最長一致法(最も長い単語を優先する。)や、文節数最小法(分割する単語数を最小にする。)を用いることでこのような結果となることはない。そして、「アドバイザ」は文字列長から正当性のある単語と判定される。これにより、「ファイナンシャル」という文字列も正当性がある単語候補と判定され、辞書ファイル4における「ファイナンシャル」の品詞が候補から名詞に変更される。これによって、「ファイナンシャル」が辞書ファイル4に正式に登録されたことになる。
 n1で記憶した一連のテキストデータ全体に対して上記した処理が完了すると、辞書ファイル4に仮登録されている不要な単語を削除する処理を実行する。図14は、不要な単語を削除する不要単語削除処理の流れを示すフローチャートである。辞書ファイル4に登録されている単語で、その品詞が候補である単語を全て検出して削除する(n71〜n73)。これによって、単語候補として仮登録されたがその後に同じ文字列が出現しなかったものや、正当性が検証されなかった単語候補は全て削除される。例えば、図13に示した辞書ファイル4であれば「ナンシャル」「インフレー」「フレーター」・・・等が削除される(図15(A)参照)。そして、もとの文字列の位置を示すポインタを記憶している単語があれば、このポインタで指定される位置に登録されている単語を削除するとともに、このポインタも同時に削除する(n74〜n77)。これによって、上記した処理で正当性が検証され、正式な単語として辞書ファイル4に登録された単語を切り出したカタカナ文字列の単語が削除される。なお、このカタカナ文字列は複合語であり、辞書ファイル4に登録されていなくても問題はない。例えば、図15(A)に示した辞書ファイル4では「ファイナンシャルシステム」が削除される(図15(B)参照)が、「ファイナンシャル」と「システム」は単語として登録されているので、「ファイナンシャルシステム」が削除されたことで問題が生じることはない。
 以上、説明したように、本願発明では未登録単語と登録単語とが連接して形成されたカタカナ文字列の複合語から、未登録単語を正確に検出して辞書ファイル4に登録することができる。また、未登録単語の文字列と、複数の登録単語が連接して形成されたカタカナ文字列とが一致する場合であっても、未登録単語を正確に検出して辞書ファイル4に登録することができる。さらに、誤って登録された単語は、最終的に削除されるので、辞書ファイル4に不要な単語が登録されることもない。
 次に、自動的に統計を取って、単語毎にその性質を、複合語を形成することが多い単語、複合語を形成することが少ない単語、有用な性質を持たない単語、のいずれかに設定する処理を説明する。図16は、この単語の性質判定処理を示すフローチャートである。ここでは、図17に示すように辞書ファイル4は、単語毎にその性質を記憶するエリアを有している。図中において、複合語を形成することが多い単語の性質は1であり、複合語を形成することが少ない単語の性質は2であり、有用な性質を持たない単語の性質は3である。また、統計を取るデータとして複合語および単語(辞書ファイル4に登録されていない未登録単語を含む)を登録した統計データを用意する(図18参照)。なお、複合語には単語間に・を単語の区切りを示す記号として入れられている。
 n81で、統計を取る単語(以下、対象単語と言う。)が選択入力されると、その単語が部分文字列として含まれている全ての単語を検出する(n82)。例えば、対象単語が「イズム」であれば、図17に示す辞書ファイル4からは「イズム」「エゴイズム」「ダダイズム」「ヒロイズム」「ヘブライズム」が検出され、対象単語が「マネー」であれば「マネー」「マネージ」「マネージメント」「マネージャ」「マネージャー」が検出される。そして、統計データから1つずつ単語を抽出して(n83)、以下に示す判定を行う。なお、複合語からは・で区切られた単語毎に抽出する。例えば、統計データに複合語である「イズム・グループ」が入っていれば、「イズム」「グループ」の2つの単語として抽出する。
 n83で抽出した単語に対象単語が部分文字列として含まれているかどうかを判定し(n84)、含まれていなければn83に戻って次の単語を抽出する。一方、対象単語が部分文字列として含まれていれば、n83で抽出した単語と対象単語が完全に一致するか(文字列長がおなじかどうか)を判定し(n85)、文字列長が同じであれば、図示していないカウンタaを1カウントアップする(n86)。また、文字列長が同じでなければ、(n83で抽出した単語の文字列長が対象単語の文字列長よりも長ければ)、n83で抽出された単語と同じ単語がn82で検出されているかどうか(辞書ファイル4に完全に一致する単語が登録されているかどうか)を判定する(n87)。ここで、辞書ファイル4に完全に一致する単語が登録されていると判定すれば、n83に戻って次の単語を抽出する。例えば、辞書ファイル4に「エゴイズム」が登録されており、n83で抽出された単語も「エゴイズム」である場合である。辞書ファイル4に完全に一致する単語が登録されていないと判定すれば、図示していないカウンタbを1カウントアップする(n88)。n86、またはn88の処理が完了すると、n83に戻って次の単語を抽出する。なお、カウンタaおよびカウンタbは、n81で対象単語が選択されたときにカウント値が0に設定される。統計データの全ての単語を抽出して上記したn83以降の処理を完了すると(n89)、以下に示す単語の性質を判定する処理を行い(n90)、この性質を対象単語の性質として辞書ファイル4に登録する(n91)。
 図17に示す辞書ファイル4と図18に示す統計データを用い、「イズム」と「マネー」を対象単語としたときには、上記した処理でカウンタa、および、カウンタbの計数値は、以下のようになる。
  「イズム」 a=1、b=6
  「マネー」 a=5、b=0
 単語の性質は、上記したように複合語を形成することが多い単語、複合語を形成することが少ない単語、有用な性質を持たない単語、の3つのいずれかに判定される。この実施の形態では、
 a/(a+b)>0.8 が成立すればその性質を複合語のなかで独立した単語となりやすいとし、
 b/(a+b)>0.8 が成立すればその性質を複合語のなかで独立した単語となりにくいとし、
 それ以外は、有用な性質をもたない単語であると判定する。
 n90では、上記した処理で得られたカウンタa、および、カウンタbの計数値を用いて、上記の演算を行い、単語の性質を判定する。そして、n91でこの性質を対象単語の性質として辞書ファイル4に登録し、処理を完了する。
 以上のように、本実施の形態では単語の性質を統計に基づいて設定するようにしているので、客観的に単語の性質を設定することができる。
この発明の実施の形態である日本語文解析装置の機能を示すブロック図である。 この実施の形態の日本語文解析装置の処理を示すフローチャートである。 形態素解析の概念を示す図である。 第1の単語候補検出、登録処理の流れを示すフローチャートである。 登録単語の正当性検証処理のフローチャートである。 検出される単語候補の構成要素および作成される単語候補の例を示す図である。 単語候補が登録された辞書ファイルを示す図である。 カタカナ未登録語の発生源を説明する図である。 第2の単語候補検出、登録処理の流れを示すフローチャートである。 検出される単語候補の構成要素および作成される単語候補の例を示す図である。 単語候補の正当性検証処理を示すフローチャートである。 単語候補が含まれる文字列の形態素解析結果を示す図である。 仮登録されていた単語候補が正式に登録されたときの辞書ファイルを示す図である。 不要な単語を削除する不要単語削除処理の流れを示すフローチャートである。 不要な単語が削除されたときの辞書ファイルを示す図である。 単語性質判定処理を示すフローチャートである 単語の性質を記憶する辞書ファイルを示す図である。 統計データを示す図である。
符号の説明
 1−日本語文解析装置
 2−テキストデータ記憶部
 3−形態素解析部
 4−辞書ファイル
 5−単語候補検出部
 6−単語候補登録部
 7−単語候補検証部
 8−単語候補削除部
 9−登録単語検証部
 10−単語候補正式登録部

Claims (6)

  1.  単語の文字列およびその単語の属性を示すデータを登録した辞書ファイルと、
     前記辞書ファイルを用いて入力された文字列を単語に分割する形態素解析を行う形態素解析手段と、
     前記入力された文字列中の連接するカタカナ文字列が前記形態素解析によって複数の単語に分割されたとき、予め設定した複合語になりにくい品詞の単語がこの分割された単語内に含まれていれば、該単語と該単語の前または後ろに隣合う単語とをつないだ文字列を未登録単語として検出する未登録単語検出手段と、
     該検出された未登録単語を登録する未登録単語登録手段と、を備えた日本語文解析装置。
  2.  単語の文字列およびその単語の属性を示すデータを登録した辞書ファイルと、
     前記辞書ファイルを用いて入力された文字列を単語に分割する形態素解析を行う形態素解析手段と、を備え、
     前記属性を示すデータは、対応する単語が複合語を形成する可能性の少ない単語であるかどうかを表すデータを含み、
     さらに、前記入力された文字列中の連接するカタカナ文字列が前記形態素解析によって複数の単語に分割されたとき、この分割された単語内に複合語を形成する可能性の少ない単語が含まれていれば該単語と該単語の前または後ろに隣合う単語とをつないだ文字列を未登録単語として検出する未登録単語検出手段と、
     該検出された未登録単語を登録する未登録単語登録手段と、を備えた日本語文解析装置。
  3.  前記未登録単語検出手段で検出され、前記辞書ファイルに仮登録されている未登録単語と一致する文字列の単語が前記形態素解析によって複数の単語に分割された単語内に含まれるとき、一致する文字列以外の単語の正当性を検証した検証結果に基づいて、該未登録単語が単語として正当なものであるかどうかを検証する正当性検証手段と、を備え、
     前記未登録単語登録手段は、前記正当性検証手段が正当であることを検証した仮登録されている未登録単語を前記辞書ファイルに正式に登録する請求項1または2に記載の日本語文解析装置。
  4.  形態素解析手段が、単語の文字列およびその単語の属性を示すデータを登録した辞書ファイルを用いて入力された文字列を単語に分割する形態素解析を行うステップと、
     未登録単語検出手段が、前記入力された文字列中の連接するカタカナ文字列が前記形態素解析によって複数の単語に分割されたとき、予め設定した複合語になりにくい品詞の単語がこの分割された単語内に含まれていれば、該単語と該単語の前または後ろに隣合う単語とをつないだ文字列を未登録単語として検出するステップと、
     未登録単語登録手段が、該検出された未登録単語を前記辞書ファイルに仮登録するステップと、を有する日本語文解析方法。
  5.  形態素解析手段が、単語の文字列および対応する単語が複合語を形成する可能性の少ない単語であるかどうかを示すデータを含む単語の属性を示すデータを登録した辞書ファイルを用いて入力された文字列を単語に分割する形態素解析を行うステップと、
     未登録単語検出手段が、前記入力された文字列中の連接するカタカナ文字列が前記形態素解析によって複数の単語に分割されたとき、この分割された単語内に複合語を形成する可能性の少ない単語が含まれていれば該単語と該単語の前または後ろに隣合う単語とをつないだ文字列を未登録単語として検出するステップと、
     未登録単語登録手段が、該検出された未登録単語を前記辞書ファイルに仮登録するステップと、を有する日本語文解析方法。
  6.  正当性検証手段が、前記未登録単語検出手段で検出され、前記辞書ファイルに仮登録されている未登録単語と一致する文字列の単語が前記形態素解析によって複数の単語に分割された単語内に含まれるとき、一致する文字列以外の単語の正当性を検証した検証結果に基づいて、該未登録単語が単語として正当なものであるかどうかを検証するステップと、 
     前記未登録単語登録手段が、前記正当性検証手段が正当であることを検証した仮登録されている未登録単語を前記辞書ファイルに正式に登録するステップと、を有する請求項4または5に記載の日本語文解析方法。
JP2003380248A 2003-11-10 2003-11-10 日本語文解析装置および日本語文解析方法 Expired - Lifetime JP3855989B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003380248A JP3855989B2 (ja) 2003-11-10 2003-11-10 日本語文解析装置および日本語文解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003380248A JP3855989B2 (ja) 2003-11-10 2003-11-10 日本語文解析装置および日本語文解析方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP03033996A Division JP3728789B2 (ja) 1996-02-19 1996-02-19 日本語文解析装置および日本語文解析方法

Publications (2)

Publication Number Publication Date
JP2004103037A true JP2004103037A (ja) 2004-04-02
JP3855989B2 JP3855989B2 (ja) 2006-12-13

Family

ID=32291020

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003380248A Expired - Lifetime JP3855989B2 (ja) 2003-11-10 2003-11-10 日本語文解析装置および日本語文解析方法

Country Status (1)

Country Link
JP (1) JP3855989B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100757340B1 (ko) * 2006-03-30 2007-09-11 엔에이치엔(주) 자동 추출을 이용한 형태소 분석기 성능 향상 방법 및 상기방법을 수행하는 시스템
WO2009139240A1 (ja) * 2008-05-13 2009-11-19 日本電気株式会社 情報処理装置および情報処理方法ならびに記録媒体
JP2013130904A (ja) * 2011-12-20 2013-07-04 Fujitsu Ltd 複合語読み表示方法及びプログラム,並びに読み生成装置
CN103678476A (zh) * 2012-09-25 2014-03-26 株式会社东芝 文档处理装置以及文档处理方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100757340B1 (ko) * 2006-03-30 2007-09-11 엔에이치엔(주) 자동 추출을 이용한 형태소 분석기 성능 향상 방법 및 상기방법을 수행하는 시스템
WO2009139240A1 (ja) * 2008-05-13 2009-11-19 日本電気株式会社 情報処理装置および情報処理方法ならびに記録媒体
JP2013130904A (ja) * 2011-12-20 2013-07-04 Fujitsu Ltd 複合語読み表示方法及びプログラム,並びに読み生成装置
CN103678476A (zh) * 2012-09-25 2014-03-26 株式会社东芝 文档处理装置以及文档处理方法
JP2014067179A (ja) * 2012-09-25 2014-04-17 Toshiba Corp 文書処理装置及び文書処理プログラム

Also Published As

Publication number Publication date
JP3855989B2 (ja) 2006-12-13

Similar Documents

Publication Publication Date Title
KR102268875B1 (ko) 전자 장치에 텍스트를 입력하는 시스템 및 방법
Zhang et al. Syntactic processing using the generalized perceptron and beam search
US6862566B2 (en) Method and apparatus for converting an expression using key words
JP4769031B2 (ja) 言語モデルを作成する方法、かな漢字変換方法、その装置、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体
US9208140B2 (en) Rule based apparatus for modifying word annotations
JP2008108274A (ja) コーパスの中のテキストを構文解析するコンピュータ・プログラムおよび記録媒体
KR20100071287A (ko) 문서 표절 탐색 방법 및 장치
US7398210B2 (en) System and method for performing analysis on word variants
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
US6968308B1 (en) Method for segmenting non-segmented text using syntactic parse
Loftsson et al. Tagging a morphologically complex language using an averaged perceptron tagger: The case of Icelandic
US7684975B2 (en) Morphological analyzer, natural language processor, morphological analysis method and program
Agbago et al. Truecasing for the Portage system
KR20060043583A (ko) 언어 데이터의 로그의 압축 방법 및 시스템
JP3855989B2 (ja) 日本語文解析装置および日本語文解析方法
JPH0519186B2 (ja)
JP4856573B2 (ja) 要約文生成装置及び要約文生成プログラム
JP3728789B2 (ja) 日本語文解析装置および日本語文解析方法
JP2000089786A (ja) 音声認識結果の修正方法および装置
US20110106849A1 (en) New case generation device, new case generation method, and new case generation program
CN113158693A (zh) 基于汉语关键词的维吾尔语关键词生成方法、装置、电子设备及存储介质
CN114444491A (zh) 新词识别方法和装置
KR100283100B1 (ko) 대용량 말뭉치를 위한 통계학적 용례 추출 수단 및 그 방법
Zhu et al. Single character Chinese named entity recognition
McNeil Tunisian Arabic morphological parser

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050719

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050802

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050930

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060822

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060904

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090922

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100922

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100922

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110922

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110922

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120922

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130922

Year of fee payment: 7

EXPY Cancellation because of completion of term