JP4953431B2 - 品詞バリエーション生成装置 - Google Patents

品詞バリエーション生成装置 Download PDF

Info

Publication number
JP4953431B2
JP4953431B2 JP2006320720A JP2006320720A JP4953431B2 JP 4953431 B2 JP4953431 B2 JP 4953431B2 JP 2006320720 A JP2006320720 A JP 2006320720A JP 2006320720 A JP2006320720 A JP 2006320720A JP 4953431 B2 JP4953431 B2 JP 4953431B2
Authority
JP
Japan
Prior art keywords
speech
data
variation
analysis dictionary
japanese analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006320720A
Other languages
English (en)
Other versions
JP2008134842A (ja
Inventor
薫 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2006320720A priority Critical patent/JP4953431B2/ja
Publication of JP2008134842A publication Critical patent/JP2008134842A/ja
Application granted granted Critical
Publication of JP4953431B2 publication Critical patent/JP4953431B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、品詞バリエーション生成装置、方法、プログラム及び記録媒体に関する。より詳しくは、品詞バリエーションの生成装置、品詞バリエーションの生成方法、並びにプログラム、及び品詞バリエーションの生成方法を用いて辞書を作成する方法及び当該辞書を含む記録媒体に関する。
近年、端末の普及、及びインターネットの発達に伴い、インターネット等のネットワーク上のコンテンツを検索することが日常的に行われている。ネットワーク上のコンテンツを検索する際には、コンピュータによりユーザが入力した文字列を、日本語解析辞書を用いて単語単位に分割し、意味解析や構文解析を行うことにより日本語解析を行った上で、検索処理が行われている。
そのため、日本語解析辞書は、検索を行う際に重要な役割を担う。ユーザがコンテンツの作成等で使用している表記の単語が日本語解析辞書に登録されていないと、その表記の単語について分割をし、意味解析をすることができない。そのため、正しい検索をすることができず、ユーザの意図に反した検索結果しか得られない場合がある。言葉は、時代の流れに応じて変化及び変形し続けるものであり、話し言葉だけではなく、表記の言葉にも当てはまる。
このような現状から、日本語解析辞書については、元々標準的な日本語として登録されている単語だけでは足りないという問題がある。そのため、このような問題点を解消すべく、様々な方法を用いて単語についての日本語解析辞書の登録がなされている。例えば、文字種を区切ることにより、未知語を抽出するだけでなく、抽出された未知語の前方と後方との少なくとも一方の単語を抽出された未知語に結合して拡張未知語を生成し、生成した拡張未知語に類似する単語が辞書に既に登録されている場合は、当該拡張未知語も未知語として抽出することにより、複数の文字種が含まれる単語も同時に辞書に登録することができる辞書登録装置が示されている(特許文献1)。
特開2006−155528号公報
しかし、これらの手法によっても登録されない単語が存在する。最近では、ブログ等を通じた書き手の増加により、様々なアレンジがされた単語が用いられることが多くなってきている。例えば、形容詞表記のバリエーションに関して、今までにないほどの多様性を持ったものが存在している。実際にブログや掲示板等の形容詞の表記を収集し分析していくと、単純な「ゆらぎ」である「楽しい」−「たのしい」−「タノシイ」のような「漢字」−「かな」−「カナ」の変更によるものだけに止まらない。単純な「ゆらぎ」よりも複雑なバリエーションのものが現に作成され、使用されている。また、その新しい表記である、例えば、「きゃわいい」や「かわい〜」等が、かなりの市民権をもって使用されていることが分かっている。
これらのブログや掲示板等に掲載されている文書に用いられている品詞、特に形容詞の表記について分析したところ、ある一定の変換ルールが存在し、その変換ルールに基づいて作成された品詞のバリエーションが使用されていることを見出した。
そこで、本発明は、品詞に対して一定の変換ルールを使用することにより、品詞の表記バリエーションを自動的に生成する品詞バリエーション生成装置を提供することを目的とする。
上記目的のため、具体的には以下のようなものを提供する。
(1) 日本語解析辞書に登録されている品詞のデータを用いて前記品詞のバリエーションデータを生成し、前記日本語解析辞書に登録する品詞バリエーション生成装置であって、前記日本語解析辞書に登録されている形容詞のデータを抽出する品詞抽出部と、前記抽出された形容詞のデータが含む文字のうち任意の1文字を予め定められた所定の変換ルールに基づいて変換し、種々のバリエーションデータを生成するバリエーション生成部と、前記生成された種々のバリエーションデータを、品詞のバリエーションデータとして前記日本語解析辞書に登録するバリエーション登録部と、を備え、前記バリエーション生成部は、前記抽出された形容詞がかな又はカナである場合であって、語尾の文字が母音及び半母音の場合に当該文字を小文字に変換する母音、半母音−小文字変換部を有する、品詞バリエーション生成装置。
(2) 日本語解析辞書に登録されている品詞のデータを用いて前記品詞のバリエーションデータを生成し、前記日本語解析辞書に登録する品詞バリエーション生成装置であって、前記日本語解析辞書に登録されている形容詞のデータを抽出する品詞抽出部と、前記抽出された形容詞のデータが含む文字のうち任意の1文字を予め定められた所定の変換ルールに基づいて変換し、種々のバリエーションデータを生成するバリエーション生成部と、前記生成された種々のバリエーションデータを、品詞のバリエーションデータとして前記日本語解析辞書に登録するバリエーション登録部と、を備え、前記バリエーション生成部は、前記抽出された形容詞がかな又はカナである場合であって、前記抽出された形容詞を構成する文字に半母音が含まれる場合に、該半母音を母音に変換する半母音−母音変換部を有する、品詞バリエーション生成装置。
(3) 日本語解析辞書に登録されている品詞のデータを用いて前記品詞のバリエーションデータを生成し、前記日本語解析辞書に登録する品詞バリエーション生成装置であって、前記日本語解析辞書に登録されている形容詞のデータを抽出する品詞抽出部と、前記抽出された形容詞のデータが含む文字のうち任意の1文字を予め定められた所定の変換ルールに基づいて変換し、種々のバリエーションデータを生成するバリエーション生成部と、前記生成された種々のバリエーションデータを、品詞のバリエーションデータとして前記日本語解析辞書に登録するバリエーション登録部と、を備え、前記バリエーション生成部は、前記抽出された形容詞がかな又はカナである場合であって、前記抽出された形容詞を構成する文字に母音が含まれる場合に、該母音を半母音に変換する母音−半母音変換部を有する、品詞バリエーション生成装置。
(4) 日本語解析辞書に登録されている品詞のデータを用いて前記品詞のバリエーションデータを生成し、前記日本語解析辞書に登録する品詞バリエーション生成装置であって、前記日本語解析辞書に登録されている形容詞のデータを抽出する品詞抽出部と、前記抽出された形容詞のデータが含む文字のうち任意の1文字を予め定められた所定の変換ルールに基づいて変換し、種々のバリエーションデータを生成するバリエーション生成部と、前記生成された種々のバリエーションデータを、品詞のバリエーションデータとして前記日本語解析辞書に登録するバリエーション登録部と、を備え、前記バリエーション生成部は、前記抽出された形容詞がかな又はカナである場合に、語末の文字を音引きに変換する語末音引き挿入変換部を有する、品詞バリエーション生成装置。
上記の構成によれば、日本語解析辞書に登録されているデータの中から生成対象品詞のデータを抽出し、抽出された生成対象品詞のデータが含む文字のうち1文字以上を変換し、種々のバリエーションデータを生成する。その後、生成された種々のバリエーションデータを、品詞のバリエーションデータとして日本語解析辞書に登録することができる。
このことにより、生成対象品詞から生成されたバリエーションのデータを、日本語解析辞書に登録することができる。これらのバリエーションのデータは、ブログや掲示板に掲載されている品詞の変化形を分析した結果により生成したものである。よって、ブログや掲示板に掲載されているアレンジされた品詞について、日本語解析辞書に登録されることから、ブログ等の文書を入力としても正確に解析することができる。
また、上記の構成によれば、特に形容詞のデータについて、生成した種々のバリエーションのデータを形容詞のバリエーションデータとして日本語解析辞書に登録することができる。
検索において、特に評判検索において、形容詞は重要な品詞である。評判検索は、インターネットにおいて、日本語のWebページの情報を収集して、ある言葉に関する評判を調べる検索サービスを示す。ブログ等の書き込みを収集・分析することで、その言葉に関する肯定的意見と否定的意見の比率等を調べることができ、評判に関する具体的表現の分類を見ながらWebページを絞り込む事ができるものである。これらの検索において、現状の辞書では実際のブログ等にある特殊表記の形容詞を抽出することができなかった。しかし、形容詞の表記バリエーションを増やすことによって、より広範囲の情報を抽出したり、検索したりすることができる可能性がある。
(5) 前記品詞バリエーション生成装置は、前記生成された種々のバリエーションデータの件数を、Web上に存在するコンテンツデータを用いて集計する使用件数確認部をさらに備え、前記バリエーション登録部は、前記集計された種々のバリエーションデータの件数が所定数以上であることを条件として、前記バリエーションデータを登録する、(1)から(4)のうちのいずれか1項に記載の品詞バリエーション生成装置。
(5)の構成によれば、生成された種々のバリエーションデータの件数を、Web上に存在するコンテンツデータを用いて集計し、集計された種々のバリエーションデータの件数が所定数以上であることを条件として、バリエーションデータを登録することができる。ここで、所定数とは、一定数の使用が認められる品詞のバリエーションデータのみを登録するためにユーザにより予め定められた数である。
このことにより、実際に使用されている頻度が一定値以上の場合には、品詞のバリエーションデータを登録することができる。そのため、真に使用されている品詞のバリエーションデータのみが登録されることとなり、日本語解析辞書の領域を有効に使用することができる。また、実際に使用されていない、又はほとんど使用されていない品詞のバリエーションデータを含まないため、日本語解析辞書の品質が向上する。さらにまた、日本語解析辞書をサーチする際に、無駄なサーチをすることを防ぎ、高速なサーチを行うことが可能となる。
(6) 日本語解析辞書に登録されている品詞のデータを用いて前記品詞のバリエーションデータを生成し、前記日本語解析辞書に登録する品詞バリエーション生成方法であって、前記日本語解析辞書に登録されている形容詞のデータを抽出するステップと、前記抽出された形容詞のデータが含む文字のうち任意の1文字を予め定められた所定の変換ルールに基づいて変換し、種々のバリエーションデータを生成するステップと、前記生成された種々のバリエーションデータを、品詞のバリエーションデータとして前記日本語解析辞書に登録するステップと、を含み、前記種々のバリエーションデータを生成するステップは、前記抽出された形容詞がかな又はカナである場合であって、語尾の文字が母音及び半母音の場合に当該文字を小文字に変換するステップを含む品詞バリエーション生成方法。
(7) 日本語解析辞書に登録されている品詞のデータを用いて前記品詞のバリエーションデータを生成し、前記日本語解析辞書に登録する品詞バリエーション生成方法であって、前記日本語解析辞書に登録されている形容詞のデータを抽出するステップと、前記抽出された形容詞のデータが含む文字のうち任意の1文字を予め定められた所定の変換ルールに基づいて変換し、種々のバリエーションデータを生成するステップと、前記生成された種々のバリエーションデータを、品詞のバリエーションデータとして前記日本語解析辞書に登録するステップと、を含み、前記種々のバリエーションデータを生成するステップは、前記抽出された形容詞がかな又はカナである場合であって、前記抽出された形容詞を構成する文字に半母音が含まれる場合に、該半母音を母音に変換するステップを含む品詞バリエーション生成方法。
(8) 日本語解析辞書に登録されている品詞のデータを用いて前記品詞のバリエーションデータを生成し、前記日本語解析辞書に登録する品詞バリエーション生成方法であって、前記日本語解析辞書に登録されている形容詞のデータを抽出するステップと、前記抽出された形容詞のデータが含む文字のうち任意の1文字を予め定められた所定の変換ルールに基づいて変換し、種々のバリエーションデータを生成するステップと、前記生成された種々のバリエーションデータを、品詞のバリエーションデータとして前記日本語解析辞書に登録するステップと、を含み、前記種々のバリエーションデータを生成するステップは、前記抽出された形容詞がかな又はカナである場合であって、前記抽出された形容詞を構成する文字に母音が含まれる場合に、該母音を半母音に変換するステップを含む品詞バリエーション生成方法。
(9)日本語解析辞書に登録されている品詞のデータを用いて前記品詞のバリエーションデータを生成し、前記日本語解析辞書に登録する品詞バリエーション生成方法であって、前記日本語解析辞書に登録されている形容詞のデータを抽出するステップと、前記抽出された形容詞のデータが含む文字のうち任意の1文字を予め定められた所定の変換ルールに基づいて変換し、種々のバリエーションデータを生成するステップと、前記生成された種々のバリエーションデータを、品詞のバリエーションデータとして前記日本語解析辞書に登録するステップと、を含み、前記種々のバリエーションデータを生成するステップは、前記抽出された形容詞がかな又はカナである場合であって、語末の文字を音引きに変換するステップを含む品詞バリエーション生成方法。
(6)から(9)の構成によれば、上記(1)から(4)と同様な作用・効果を有する方法を提供することができる。
10) 日本語解析辞書に登録されている品詞のデータを用いて前記品詞のバリエーションデータを生成し、前記日本語解析辞書に登録させる、コンピュータによって実行される品詞バリエーション生成プログラムであって、コンピュータに、前記日本語解析辞書に登録されている形容詞のデータを抽出するステップと、前記抽出された形容詞のデータが含む文字のうち任意の1文字を予め定められた所定の変換ルールに基づいて変換し、種々のバリエーションデータを生成するステップと、前記生成された種々のバリエーションデータを、品詞のバリエーションデータとして前記日本語解析辞書に登録するステップと、を実行させ、前記種々のバリエーションデータを生成するステップは、前記抽出された形容詞がかな又はカナである場合であって、語尾の文字が母音及び半母音の場合に当該文字を小文字に変換するステップを含む品詞バリエーション生成プログラム。
11) 日本語解析辞書に登録されている品詞のデータを用いて前記品詞のバリエーションデータを生成し、前記日本語解析辞書に登録させる、コンピュータによって実行される品詞バリエーション生成プログラムであって、コンピュータに、前記日本語解析辞書に登録されている形容詞のデータを抽出するステップと、前記抽出された形容詞のデータが含む文字のうち任意の1文字を予め定められた所定の変換ルールに基づいて変換し、種々のバリエーションデータを生成するステップと、前記生成された種々のバリエーションデータを、品詞のバリエーションデータとして前記日本語解析辞書に登録するステップと、を実行させ、前記種々のバリエーションデータを生成するステップは、前記抽出された形容詞がかな又はカナである場合であって、前記抽出された形容詞を構成する文字に半母音が含まれる場合に、該半母音を母音に変換するステップを含む品詞バリエーション生成プログラム。
(12) 日本語解析辞書に登録されている品詞のデータを用いて前記品詞のバリエーションデータを生成し、前記日本語解析辞書に登録させる、コンピュータによって実行される品詞バリエーション生成プログラムであって、コンピュータに、前記日本語解析辞書に登録されている形容詞のデータを抽出するステップと、前記抽出された形容詞のデータが含む文字のうち任意の1文字を予め定められた所定の変換ルールに基づいて変換し、種々のバリエーションデータを生成するステップと、前記生成された種々のバリエーションデータを、品詞のバリエーションデータとして前記日本語解析辞書に登録するステップと、を実行させ、前記種々のバリエーションデータを生成するステップは、前記抽出された形容詞がかな又はカナである場合であって、前記抽出された形容詞を構成する文字に母音が含まれる場合に、該母音を半母音に変換するステップを含む品詞バリエーション生成プログラム。
(13) 日本語解析辞書に登録されている品詞のデータを用いて前記品詞のバリエーションデータを生成し、前記日本語解析辞書に登録させる、コンピュータによって実行される品詞バリエーション生成プログラムであって、コンピュータに、前記日本語解析辞書に登録されている形容詞のデータを抽出するステップと、前記抽出された形容詞のデータが含む文字のうち任意の1文字を予め定められた所定の変換ルールに基づいて変換し、種々のバリエーションデータを生成するステップと、前記生成された種々のバリエーションデータを、品詞のバリエーションデータとして前記日本語解析辞書に登録するステップと、を実行させ、前記種々のバリエーションデータを生成するステップは、前記抽出された形容詞がかな又はカナである場合であって、語末の文字を音引きに変換するステップを含む品詞バリエーション生成プログラム。
10)から(13)の構成によれば、上記(1)から(4)と同様な作用・効果を奏する機能をコンピュータに実行させるプログラムとして提供することができる。
(14) 日本語解析辞書に登録されている品詞のデータを用いて前記品詞のバリエーションデータを生成し、前記日本語解析辞書に登録させるプログラムをコンピュータに実行させることにより日本語解析辞書を作成する方法であって、前記日本語解析辞書に登録されている形容詞のデータを抽出するステップと、前記抽出された形容詞のデータが含む文字のうち任意の1文字を予め定められた所定の変換ルールに基づいて変換し、種々のバリエーションデータを生成するステップと、前記生成された種々のバリエーションデータを、品詞のバリエーションデータとして前記日本語解析辞書に登録するステップと、をコンピュータに実行させ、前記種々のバリエーションデータを生成するステップは、前記抽出された形容詞がかな又はカナである場合であって、語尾の文字が母音及び半母音の場合に当該文字を小文字に変換するステップを含むことにより日本語解析辞書を作成する方法。
(15) 日本語解析辞書に登録されている品詞のデータを用いて前記品詞のバリエーションデータを生成し、前記日本語解析辞書に登録させるプログラムをコンピュータに実行させることにより日本語解析辞書を作成する方法であって、前記日本語解析辞書に登録されている形容詞のデータを抽出するステップと、前記抽出された形容詞のデータが含む文字のうち任意の1文字を予め定められた所定の変換ルールに基づいて変換し、種々のバリエーションデータを生成するステップと、前記生成された種々のバリエーションデータを、品詞のバリエーションデータとして前記日本語解析辞書に登録するステップと、をコンピュータに実行させ、前記種々のバリエーションデータを生成するステップは、前記抽出された形容詞がかな又はカナである場合であって、前記抽出された形容詞を構成する文字に半母音が含まれる場合に、該半母音を母音に変換するステップを含むことにより日本語解析辞書を作成する方法。
(16) 日本語解析辞書に登録されている品詞のデータを用いて前記品詞のバリエーションデータを生成し、前記日本語解析辞書に登録させるプログラムをコンピュータに実行させることにより日本語解析辞書を作成する方法であって、前記日本語解析辞書に登録されている形容詞のデータを抽出するステップと、前記抽出された形容詞のデータが含む文字のうち任意の1文字を予め定められた所定の変換ルールに基づいて変換し、種々のバリエーションデータを生成するステップと、前記生成された種々のバリエーションデータを、品詞のバリエーションデータとして前記日本語解析辞書に登録するステップと、をコンピュータに実行させ、前記種々のバリエーションデータを生成するステップは、前記抽出された形容詞がかな又はカナである場合であって、前記抽出された形容詞を構成する文字に母音が含まれる場合に、該母音を半母音に変換するステップを含むことにより日本語解析辞書を作成する方法。
(17) 日本語解析辞書に登録されている品詞のデータを用いて前記品詞のバリエーションデータを生成し、前記日本語解析辞書に登録させるプログラムをコンピュータに実行させることにより日本語解析辞書を作成する方法であって、前記日本語解析辞書に登録されている形容詞のデータを抽出するステップと、前記抽出された形容詞のデータが含む文字のうち任意の1文字を予め定められた所定の変換ルールに基づいて変換し、種々のバリエーションデータを生成するステップと、前記生成された種々のバリエーションデータを、品詞のバリエーションデータとして前記日本語解析辞書に登録するステップと、をコンピュータに実行させ、前記種々のバリエーションデータを生成するステップは、前記抽出された形容詞がかな又はカナである場合であって、語末の文字を音引きに変換するステップを含むことにより日本語解析辞書を作成する方法。
(14)から(17)の構成によれば、上記(1)から(4)と同様な作用・効果を有する日本語解析辞書を作成する方法を提供することができる。
本発明によれば、品詞に対して一定の変換ルールを使用することにより、品詞の表記バリエーションを自動的に生成する品詞バリエーション生成装置を提供することができる。
以下、本発明を実施するための最良の形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
[システムの全体構成]
図1は、本発明の好適な実施形態の一例に係るコンピュータ・システム1の全体構成及び品詞バリエーション生成装置10の機能構成を表すブロック図である。
本発明の品詞バリエーション生成装置10は、通信回線30を介して、ユーザ端末20と接続されている。ユーザ端末20は、PCの他、携帯電話機やPDA等の携帯端末であってもよい。通信回線30は、例えばインターネットを指す。
この実施例においては、品詞バリエーション生成装置10は、少なくとも品詞分析サーバ40、及び検索サーバ50の両サーバを有し、通信回線30に接続されて構成されている。品詞バリエーション生成装置10内の品詞分析サーバ40、及び検索サーバ50の両サーバは、例えば、典型的には構内ネットワーク(LAN)、広域ネットワーク(WAN)、又は専用回線等により接続されている。また、この品詞バリエーション生成装置10は、上述した2つのサーバで構成されているが、サーバの物理的な構成はこれに限定されるものではない。サーバの数に制限はなく、必要に応じて1又は複数で構成してよい。また、サーバは、必要に応じてWebサーバ、DBサーバ、アプリケーションサーバを含んで構成してもよい。
品詞分析サーバ40は、本発明の中核機能を担うサーバであり、予め定められた変換ルールに基づき、品詞のバリエーションデータを生成する。基になる品詞は、日本語解析辞書49から抽出する。また、生成した品詞のバリエーションデータを、日本語解析辞書49に登録する。
検索サーバ50は、品詞分析サーバ40で生成された品詞のバリエーションデータをキーワードとして、Webページのデータを集積したWebページDB59にアクセスする。そして、入力データである品詞のバリエーションデータに対する応答として検索結果を得、その結果を品詞分析サーバ40に送信する。なお、検索サーバ50には公知の検索エンジンを用いてよい。
[各サーバの機能ブロック・処理フロー]
図2は、品詞バリエーション生成装置10を構成する各サーバの機能ブロックを示す図である。以下、品詞として、形容詞のバリエーションを生成する場合について記述する。
品詞分析サーバ40は、日本語解析辞書49から品詞が形容詞であるデータを抽出する品詞抽出部41、抽出した形容詞のデータを基にバリエーションデータを生成するバリエーション生成部42、生成されたバリエーションデータの使用件数を集計する使用件数確認部43、及び所定のバリエーションデータを日本語解析辞書49に登録するバリエーション登録部44を備える。
また、バリエーション生成部42は、漢字−かな−カナを相互に変換する漢字−かな−カナ変換部42A(第1の変換部)、母音及び半母音を小文字に変換する母音、半母音−小文字変換部42B(第2の変換部)、半母音を母音に変換する半母音−母音変換部42C(第3の変換部)、母音を半母音に変換する母音−半母音変換部42D(第4の変換部)、語頭に拗音を挿入する語頭拗音挿入部42E(第5の変換部)、及び語末に音引きを挿入する語末音引き挿入部42F(第6の変換部)を備える。
検索サーバ50は、品詞分析サーバ40から送信された検索キーワードである、バリエーションデータを受け付けるキーワード受付部51、受け付けたキーワードデータであるバリエーションデータを外部に送信するキーワード送信部52、各種の検索エンジンを備え、受け付けたキーワードに基づき検索処理を実行する検索処理部53、検索処理部53により検索した結果を送信するために検索結果を生成する検索結果生成部54、検索結果生成部54により生成された検索結果を品詞分析サーバ40に送信する検索結果送信部55、及び検索の際に行われた処理についてのログを記録する検索ログ記録部56を備える。
以上、サーバ各部の機能ブロックの概略を示したが、このような各部の構成は単に一例であり、サーバ間で様々なバリエーションが存在し得ることは言うまでもない。
[形容詞のバリエーション生成例]
図3は、形容詞に対するバリエーション生成を示す例である。バリエーション表記部60は、バリエーション生成部42が有する各変換部で変換されるバリエーションを示す。例えば、バリエーション表記部60の「A」は、「漢字−かな−カナ」のバリエーションを示し、これは、漢字−かな−カナ変換部42Aで行われる変換により生成されるバリエーションを示す。
同様に、バリエーション表記部60の「B」は、「母音、半母音−小文字」のバリエーションを示し、これは、母音、半母音−小文字変換部42Bで行われる変換により生成されるバリエーションを示す。また、バリエーション表記部60の「C」は、「半母音−母音」のバリエーションを示し、これは、半母音−母音変換部42Cで行われる変換により生成されるバリエーションを示す。
また、バリエーション表記部60の「D」は、「母音−半母音」のバリエーションを示し、これは、母音−半母音変換部42Dで行われる変換により生成されるバリエーションを示す。また、バリエーション表記部60の「E」は、「語頭拗音挿入」のバリエーションを示し、これは、語頭拗音挿入部42Eで行われる変換により生成されるバリエーションを示す。
最後に、バリエーション表記部60の「F」は、「語末音引き挿入」のバリエーションを示し、これは、語末音引き挿入部42Fで行われる変換により生成されるバリエーションを示す。
ここで、母音とは、言語音の最小単位である単音の分類の1つであり、呼気が口腔や咽頭での閉鎖や狭めをうけずに流れ出る音を指す。現代日本語では、「あ」・「い」・「う」・「え」・「お」の5つが該当する。また、半母音とは、音声学の用語であり、調音のしかたは母音に近いが、単独では音節を作らず、子音的な性質をもつ音を指す。現代日本語では、「や」・「ゆ」・「よ」の頭音[j]や「わ」の頭音[w]等の類が該当する。表記としては、前者は「ゃ」・「ゅ」・「ょ」と、後者は「ゎ」と記載できる。
また、拗音とは、日本語の音節のうち、「きゃ」「しゅ」「ちょ」「くゎ」のように2字の仮名で書き表すものを指す。ヤ行拗音とワ行拗音がある。本来の日本語の音節にはなく、漢字音をとり入れたために生じたものである。現代仮名遣いでは、イ段の仮名である「き」・「ぎ」・「し」・「じ」・「ち」・「に」・「ひ」・「び」・「ぴ」・「み」・「り」の11文字に、それぞれ小さく「ゃ」・「ゅ」・「ょ」を加えて書き表す音節「きゃ」「きゅ」「きょ」「ひゃ」「びゃ」「ぴゃ」等が該当する。他に、ワ行拗音として、「く」・「ぐ」にそれぞれ「わ(ゐ・ゑ)」を付けて書き表す音節であるが、現在では「くゎ」「ぐゎ」が方言に認められるだけである。
また、音引きとは、長音符「ー」のことである。本明細書においては、「ー」の他に「〜」をも含むものとする。
「かわいい」変形部61は、形容詞の1つである「かわいい」の様々なバリエーションについて記載している。同様に、「うれしい」変形部62は、形容詞の「うれしい」について、「さみしい」変形部63は、形容詞の「さみしい」について、それぞれ記載している。
ここで、「かわいい」変形部61に記載されているものを例に説明する。バリエーション表記部60の「A」は、漢字−かな−カナ変換部42Aにより生成されるものであり、「かわいい」の漢字−かな−カナ変形として、「可愛い」(漢字)、「かわいい」(かな)、及び「カワイイ」(カナ)が記載されている。この漢字−かな−カナ変換部42Aにより生成されるものは、他の形容詞についても同様に、漢字、かな、及びカナの3種類である。但し、形容詞の漢字記載がない場合には、かな及びカナの2種類となる。
「かわいい」変形部61のバリエーション表記部60の「B」には、母音、半母音−小文字変換部42Bにより生成されるものであり、「かわいい」の母音、半母音−小文字変換として、「可愛ぃ」(「い」の母音を小文字化)、「かわいぃ」(最後の「い」の母音を小文字化)、「かわぃぃ」(「い」の母音全てを小文字化)、「かゎぃぃ」(「わ」の半母音及び「い」の母音を小文字化)が記載されている。他には、「カワイィ」(最後の「イ」の母音を小文字化)、「カワィィ」(「イ」の母音全てを小文字化)、「カヮィィ」(「ワ」の半母音及び「イ」の母音を小文字化)が母音、半母音−小文字変換部42Bにより生成される。図3には、主にかなについての変形を例として記載しているが、上述のように漢字やカナについても生成される。また、以下のバリエーション表記部60が「C」であるもの以降に記載の処理により生成される形容詞のバリエーションについても、カナや漢字についても同様に変形したバリエーションが生成される。
「かわいい」変形部61のバリエーション表記部60の「C」には、半母音−母音変換部42Cにより生成される「かわいい」の半母音−母音変換として、「かあいい」(「わ」の半母音を母音化)が記載されている。
「かわいい」変形部61のバリエーション表記部60の「D」には、母音−半母音変換部42Dにより生成される「かわいい」の母音−半母音変換として、「かわゆい」(「い」の母音を半母音化)が記載されている。
「かわいい」変形部61のバリエーション表記部60の「E」には、語頭拗音挿入部42Eにより生成される「かわいい」の語頭拗音挿入として、「きゃわいい」(語頭の「か」を拗音化)が記載されている。
「かわいい」変形部61のバリエーション表記部60の「F」には、語末音引き挿入部42Fにより生成される「かわいい」の語末音引き挿入として、「かわいー」、「かわい〜」(語末の「い」を長音化)が記載されている。
「うれしい」変形部62や、「さみしい」変形部63についても、同様にバリエーション生成部42の各変換処理により生成される。「うれしい」変形部62について、バリエーション表記部60の「E」に、何も記載されていないのは、語頭を拗音化できないものであり、語頭拗音挿入部42Eによってバリエーションが生成できないためである。
[形容詞バリエーションの辞書登録処理フロー]
図4及び図5は、本発明の好適な実施形態の一例に係る品詞バリエーション生成装置10における形容詞バリエーションの辞書登録処理の流れを示すフローチャートである。
先ず、図4は、本発明に係る辞書登録処理を示すフローチャートである。この処理は、品詞分析サーバ40の制御部により行われる。
先ずステップS1において、品詞分析サーバ40の制御部(品詞抽出部41)は、日本語解析辞書49から形容詞のデータを1つ取り出す。その後、品詞分析サーバ40の制御部は、処理をステップS2に移す。
ステップS2では、品詞分析サーバ40の制御部(バリエーション生成部42)は、ステップS1で取り出した形容詞のデータからバリエーションデータを生成する。最初に行うバリエーションデータの生成は、漢字−かな−カナ変換部42Aによる生成である。その後、品詞分析サーバ40の制御部は、処理をステップS3に移す。
ステップS3では、品詞分析サーバ40の制御部(使用件数確認部43)は、ステップS2で生成したバリエーションデータについて、使用件数確認処理を行う。具体的には、品詞分析サーバ40の制御部(使用件数確認部43)は、バリエーションデータを検索サーバ50に送信し、処理結果を受信する。ステップS2で生成されたバリエーションデータは、1つである場合もあるが、複数生成される場合もある。複数生成された場合は、生成された複数のデータのそれぞれについて、使用件数確認処理を行う。その後、品詞分析サーバ40の制御部は、処理をステップS4に移す。
ステップS4では、ステップS3で確認したバリエーションデータの使用件数について、閾値以上であるか否かを判別する。閾値とは、ここでは、ユーザが定めたある一定の値を示し、ある一定の値以上の使用件数であれば、バリエーションデータを登録すると判断する基準値である。使用件数が閾値以上である場合(ステップS4の処理でYESが判断される場合)には、品詞分析サーバ40の制御部は、処理をステップS5に移す。他方、使用件数が閾値未満である場合(ステップS4の処理でNOが判断される場合)には、品詞分析サーバ40の制御部は、処理をステップS6に移す。
ステップS5では、品詞分析サーバ40の制御部(バリエーション登録部44)は、ステップS4で閾値以上の使用がされていると判断されたバリエーションデータを日本語解析辞書49に登録する。その後、品詞分析サーバ40の制御部は、処理をステップS6に移す。
ステップS6では、品詞分析サーバ40の制御部は、全てのバリエーションについて一連の処理を行い、バリエーションデータを調べたか否かを判別する。全てのバリエーションについて一連の処理を行っている場合(ステップS6でYESが判断される場合)には、品詞分析サーバ40の制御部は、処理をステップS7に移す。他方、全てのバリエーションについて一連の処理を行っていない場合(ステップS6でNOが判断される場合)には、品詞分析サーバ40の制御部は、処理をステップS2に移す。
なお、ステップS6からステップS2に移ると、品詞分析サーバ40の制御部(バリエーション生成部42)は、次に、母音、半母音−小文字変換部42Bによる生成を、ステップS1で取り出した形容詞データから行う。以下、語末音引き挿入部42Fによる生成まで一連の処理を繰り返す。
他方、ステップS7では、品詞分析サーバ40の制御部は、全ての形容詞について一連の処理を行い、バリエーションデータを調べたか否かを判別する。日本語解析辞書49に登録されている全ての形容詞について一連の処理を行っている場合(ステップS7でYESが判断される場合)には、品詞分析サーバ40の制御部は、本処理を終了する。他方、日本語解析辞書49に登録されている全ての形容詞について一連の処理が行われていない場合(ステップS7でNOが判断される場合)には、品詞分析サーバ40の制御部は、処理をステップS1に移す。
そして、日本語解析辞書49に登録されている全ての形容詞について、本処理を行うことにより、日本語解析辞書49には、全ての形容詞についてのバリエーションデータを登録することができるのである。
図5は、本発明に係る使用件数確認処理を示すフローチャートである。この処理は、図4のステップS3によりコールされ、検索サーバ50の制御部により行われる。
先ず、ステップS31では、検索サーバ50の制御部(キーワード受付部51)は、品詞分析サーバ40から送信された形容詞のバリエーションデータを受信し、受け付ける。その後、検索サーバ50の制御部は、処理をステップS32に移す。
ステップS32では、検索サーバ50の制御部(検索処理部53)は、WebページDB59に格納されているデータから、ステップS31で受け付けたバリエーションデータを検索する。その後、検索サーバ50の制御部は、処理をステップS33に移す。
ステップS33では、検索サーバ50の制御部(検索結果生成部54)は、検索されたバリエーションデータの総件数をカウントする。そして、検索サーバ50の制御部は、カウントした件数を基に、品詞分析サーバ40への送信データとして、検索された件数データを作成する。その後、検索サーバ50の制御部は、処理をステップS34に移す。
ステップS34では、検索サーバ50の制御部(検索結果送信部55)は、ステップ33で作成された検索された件数データを、品詞分析サーバ40に送信する。その後、検索サーバ50の制御部は、本処理を終了する。
[日本語解析辞書の例]
図6は、本発明に係る日本語解析辞書49の例を示す図である。
日本語解析辞書49は、品詞70、基本形71、バリエーション72、登録日73及び最終更新日74を含んでよい。
品詞70には、基本形71の日本語の品詞を示すデータが記憶されている。図6の例では、基本形71が「かわいい」という形容詞なので、品詞70には、「形容詞」が記憶されている。
バリエーション72は、基本形71から派生するバリエーションについてバリエーションデータが記憶されている。また、登録日73は、バリエーション72に示すバリエーションデータが最初に日本語解析辞書49に登録された日付が記憶されている。さらに、最終更新日74は、バリエーション72に示すバリエーションデータが既に登録されている場合に、その後の更新処理により最終に更新された最新の日付が記憶されている。
ここで、例えば、「かわいい」という形容詞の原形を示す場合は、バリエーション72、登録日73及び最終更新日74は空欄である。バリエーション72が空欄であることで、「かわいい」という原形そのものについての登録であることが把握できる。
また、図6では、形容詞「かわいい」から生成されるバリエーションデータである「かわゆい」について、基本形71が「かわいい」と、バリエーション72が「かわゆい」と記憶されることにより、一意に定まる。この例の場合、「かわゆい」という形容詞「かわいい」のバリエーションデータは、「2006/10/1」に登録され、「2006/10/29」に更新されたことを示す。同様に、形容詞「かわいい」の別のバリエーションデータである「きゃわいい」は、「2006/10/8」に登録され、「2006/10/29」に更新されたことを示す。
この例では、基本形である形容詞と、形容詞のバリエーションとを、1つのデータベースで作成する例を示しているが、このような形にとらわれるものではない。例えば、基本的な辞書の登録として、品詞70と基本形71とからなるデータベースと、基本形71、バリエーション72、登録日73、最終更新日74からなるデータベースと、の両方を有し、バリエーションデータのみを別データベースとして1つの辞書を作成してもよい。
図6に記載の日本語解析辞書49の例では、登録日73及び最終更新日74を有する。このような日付データを記憶することにより、登録日73のデータにより、いつごろから流行り始めた形容詞のバリエーションであるか、を把握することができると共に、最終更新日74のデータにより、まだ流行っているのか、それとももう使用されていないのか、を把握することができる。例えば、最終更新日74の日付から5年を経過している場合には、もう、このバリエーションは使用されていないと判断し、日本語解析辞書49の管理者が削除することができる。また、登録日73と最終更新日74とを比較して、長期間使用されているようなバリエーションであれば、一般的な日本語として定着してきたと判断することができる。
[品詞分析サーバ40及び検索サーバ50のハードウェア構成]
図7は、本発明の好適な実施形態の一例に係る品詞分析サーバ40及び検索サーバ50のハードウェア構成を示す図である。品詞分析サーバ40及び検索サーバ50は、制御部を構成するCPU(Central Processing Unit)110(マルチプロセッサ構成ではCPU120等複数のCPUが追加されてもよい)、バスライン105、通信I/F140、メインメモリ150、BIOS(Basic Input Output System)160、USBポート190、I/Oコントローラ170、並びにキーボード及びマウス180等の入力手段や表示装置122を備える。
I/Oコントローラ170には、テープドライブ172、ハードディスク174、光ディスクドライブ176、半導体メモリ178、等の記憶手段を接続することができる。
BIOS160は、品詞分析サーバ40及び検索サーバ50の起動時にCPU110が実行するブートプログラムや、品詞分析サーバ40及び検索サーバ50のハードウェアに依存するプログラム等を格納する。
ハードディスク174は、品詞分析サーバ40及び検索サーバ50として機能するための各種プログラム及び本発明の機能を実行するプログラムを記憶しており、さらに必要に応じて各種データベースを構成可能である。
光ディスクドライブ176としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク177を使用する。光ディスク177から光ディスクドライブ176によりプログラム又はデータを読み取り、I/Oコントローラ170を介してメインメモリ150又はハードディスク174に提供することもできる。また、同様にテープドライブ172に対応したテープメディア171を主としてバックアップのために使用することもできる。
品詞分析サーバ40及び検索サーバ50に提供されるプログラムは、ハードディスク174、光ディスク177、又はメモリーカード等の記録媒体に格納されて提供される。このプログラムは、I/Oコントローラ170を介して、記録媒体から読み出され、又は通信I/F140を介してダウンロードされることによって、品詞分析サーバ40及び検索サーバ50にインストールされ実行されてもよい。
上述のプログラムは、内部又は外部の記憶媒体に格納されてもよい。ここで、品詞分析サーバ40の日本語解析辞書49及び検索サーバ50のWebページDB59を含む記憶部を構成する記憶媒体としては、ハードディスク174、光ディスク177、又はメモリーカードの他に、MD等の光磁気記録媒体、テープメディア171を用いることができる。また、専用通信回線やインターネット等の通信回線30及び通信回線31に接続されたサーバシステムに設けたハードディスク174又は光ディスクライブラリ等の記憶装置を記録媒体として使用し、通信回線30及び通信回線31を介してプログラムを品詞分析サーバ40及び検索サーバ50に提供してもよい。
ここで、表示装置122は、品詞分析サーバ40及び検索サーバ50の管理者にデータの入力を受け付ける画面を表示したり、品詞分析サーバ40及び検索サーバ50による演算処理結果の画面を表示したりするものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
ここで、入力手段は、品詞分析サーバ40及び検索サーバ50の管理者による入力の受け付けを行うものであり、キーボード及びマウス180等により構成してよい。
また、通信I/F140は、品詞分析サーバ40及び検索サーバ50を専用ネットワーク又は公共ネットワークを介して端末と接続できるようにするためのネットワーク・アダプタである。通信I/F140は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。
以上の例は、品詞分析サーバ40及び検索サーバ50について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータを品詞分析サーバ40及び検索サーバ50として動作させることにより上記で説明した機能を実現することもできる。従って、本発明において一実施形態として説明した品詞分析サーバ40及び検索サーバ50により実現される機能は、上述の方法を当該コンピュータにより実行することにより、あるいは、上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。
本発明の好適な実施形態の一例に係るコンピュータ・システムの全体構成及び品詞バリエーション生成装置の構成を表すブロック図である。 本発明に係る品詞バリエーション生成装置を構成する各サーバの機能ブロックを示す図である。 本発明に係る形容詞に対するバリエーション生成を示す例である。 本発明に係る辞書登録処理を示すフローチャートである。 本発明に係る使用件数確認処理を示すフローチャートである。 本発明に係る日本語解析辞書の例を示す図である。 本発明に係る各サーバのハードウェア構成の一例を示す図である。
符号の説明
1 コンピュータ・システム
10 品詞バリエーション生成装置
20 ユーザ端末
30 通信回線
40 品詞分析サーバ
41 品詞抽出部
42 バリエーション生成部
42A 漢字−かな−カナ変換部
42B 母音、半母音−小文字変換部
42C 半母音−母音変換部
42D 母音−半母音変換部
42E 語頭拗音挿入部
42F 語末音引き挿入部
43 使用件数確認部
44 バリエーション登録部
49 日本語解析辞書
50 検索サーバ
51 キーワード受付部
52 キーワード送信部
53 検索処理部
54 検索結果生成部
55 検索結果送信部
56 検索ログ記録部
59 WebページDB

Claims (17)

  1. 日本語解析辞書に登録されている品詞のデータを用いて前記品詞のバリエーションデータを生成し、前記日本語解析辞書に登録する品詞バリエーション生成装置であって、
    前記日本語解析辞書に登録されている形容詞のデータを抽出する品詞抽出部と、
    前記抽出された形容詞のデータが含む文字のうち任意の1文字を予め定められた所定の変換ルールに基づいて変換し、種々のバリエーションデータを生成するバリエーション生成部と、
    前記生成された種々のバリエーションデータを、品詞のバリエーションデータとして前記日本語解析辞書に登録するバリエーション登録部と、を備え、
    前記バリエーション生成部は、
    前記抽出された形容詞がかな又はカナである場合であって、語尾の文字が母音及び半母音の場合に当該文字を小文字に変換する母音、半母音−小文字変換部を有する、品詞バリエーション生成装置。
  2. 日本語解析辞書に登録されている品詞のデータを用いて前記品詞のバリエーションデータを生成し、前記日本語解析辞書に登録する品詞バリエーション生成装置であって、
    前記日本語解析辞書に登録されている形容詞のデータを抽出する品詞抽出部と、
    前記抽出された形容詞のデータが含む文字のうち任意の1文字を予め定められた所定の変換ルールに基づいて変換し、種々のバリエーションデータを生成するバリエーション生成部と、
    前記生成された種々のバリエーションデータを、品詞のバリエーションデータとして前記日本語解析辞書に登録するバリエーション登録部と、を備え、
    前記バリエーション生成部は、
    前記抽出された形容詞がかな又はカナである場合であって、前記抽出された形容詞を構成する文字に半母音が含まれる場合に、該半母音を母音に変換する半母音−母音変換部を有する、品詞バリエーション生成装置。
  3. 日本語解析辞書に登録されている品詞のデータを用いて前記品詞のバリエーションデータを生成し、前記日本語解析辞書に登録する品詞バリエーション生成装置であって、
    前記日本語解析辞書に登録されている形容詞のデータを抽出する品詞抽出部と、
    前記抽出された形容詞のデータが含む文字のうち任意の1文字を予め定められた所定の変換ルールに基づいて変換し、種々のバリエーションデータを生成するバリエーション生成部と、
    前記生成された種々のバリエーションデータを、品詞のバリエーションデータとして前記日本語解析辞書に登録するバリエーション登録部と、を備え、
    前記バリエーション生成部は、
    前記抽出された形容詞がかな又はカナである場合であって、前記抽出された形容詞を構成する文字に母音が含まれる場合に、該母音を半母音に変換する母音−半母音変換部を有する、品詞バリエーション生成装置。
  4. 日本語解析辞書に登録されている品詞のデータを用いて前記品詞のバリエーションデータを生成し、前記日本語解析辞書に登録する品詞バリエーション生成装置であって、
    前記日本語解析辞書に登録されている形容詞のデータを抽出する品詞抽出部と、
    前記抽出された形容詞のデータが含む文字のうち任意の1文字を予め定められた所定の変換ルールに基づいて変換し、種々のバリエーションデータを生成するバリエーション生成部と、
    前記生成された種々のバリエーションデータを、品詞のバリエーションデータとして前記日本語解析辞書に登録するバリエーション登録部と、を備え、
    前記バリエーション生成部は、
    前記抽出された形容詞がかな又はカナである場合に、語末の文字を音引きに変換する語末音引き挿入変換部を有する、品詞バリエーション生成装置。
  5. 前記品詞バリエーション生成装置は、
    前記生成された種々のバリエーションデータの件数を、Web上に存在するコンテンツデータを用いて集計する使用件数確認部をさらに備え、
    前記バリエーション登録部は、前記集計された種々のバリエーションデータの件数が所定数以上であることを条件として、前記バリエーションデータを登録する、請求項1から4のうちのいずれか1項に記載の品詞バリエーション生成装置。
  6. 日本語解析辞書に登録されている品詞のデータを用いて前記品詞のバリエーションデータを生成し、前記日本語解析辞書に登録する品詞バリエーション生成方法であって、
    前記日本語解析辞書に登録されている形容詞のデータを抽出するステップと、
    前記抽出された形容詞のデータが含む文字のうち任意の1文字を予め定められた所定の変換ルールに基づいて変換し、種々のバリエーションデータを生成するステップと、
    前記生成された種々のバリエーションデータを、品詞のバリエーションデータとして前記日本語解析辞書に登録するステップと、を含み、
    前記種々のバリエーションデータを生成するステップは、
    前記抽出された形容詞がかな又はカナである場合であって、語尾の文字が母音及び半母音の場合に当該文字を小文字に変換するステップを含む品詞バリエーション生成方法。
  7. 日本語解析辞書に登録されている品詞のデータを用いて前記品詞のバリエーションデータを生成し、前記日本語解析辞書に登録する品詞バリエーション生成方法であって、
    前記日本語解析辞書に登録されている形容詞のデータを抽出するステップと、
    前記抽出された形容詞のデータが含む文字のうち任意の1文字を予め定められた所定の変換ルールに基づいて変換し、種々のバリエーションデータを生成するステップと、
    前記生成された種々のバリエーションデータを、品詞のバリエーションデータとして前記日本語解析辞書に登録するステップと、を含み、
    前記種々のバリエーションデータを生成するステップは、
    前記抽出された形容詞がかな又はカナである場合であって、前記抽出された形容詞を構成する文字に半母音が含まれる場合に、該半母音を母音に変換するステップを含む品詞バリエーション生成方法。
  8. 日本語解析辞書に登録されている品詞のデータを用いて前記品詞のバリエーションデータを生成し、前記日本語解析辞書に登録する品詞バリエーション生成方法であって、
    前記日本語解析辞書に登録されている形容詞のデータを抽出するステップと、
    前記抽出された形容詞のデータが含む文字のうち任意の1文字を予め定められた所定の変換ルールに基づいて変換し、種々のバリエーションデータを生成するステップと、
    前記生成された種々のバリエーションデータを、品詞のバリエーションデータとして前記日本語解析辞書に登録するステップと、を含み、
    前記種々のバリエーションデータを生成するステップは、
    前記抽出された形容詞がかな又はカナである場合であって、前記抽出された形容詞を構成する文字に母音が含まれる場合に、該母音を半母音に変換するステップを含む品詞バリエーション生成方法。
  9. 日本語解析辞書に登録されている品詞のデータを用いて前記品詞のバリエーションデータを生成し、前記日本語解析辞書に登録する品詞バリエーション生成方法であって、
    前記日本語解析辞書に登録されている形容詞のデータを抽出するステップと、
    前記抽出された形容詞のデータが含む文字のうち任意の1文字を予め定められた所定の変換ルールに基づいて変換し、種々のバリエーションデータを生成するステップと、
    前記生成された種々のバリエーションデータを、品詞のバリエーションデータとして前記日本語解析辞書に登録するステップと、を含み、
    前記種々のバリエーションデータを生成するステップは、
    前記抽出された形容詞がかな又はカナである場合であって、語末の文字を音引きに変換するステップを含む品詞バリエーション生成方法。
  10. 日本語解析辞書に登録されている品詞のデータを用いて前記品詞のバリエーションデータを生成し、前記日本語解析辞書に登録させる、コンピュータによって実行される品詞バリエーション生成プログラムであって、
    コンピュータに、
    前記日本語解析辞書に登録されている形容詞のデータを抽出するステップと、
    前記抽出された形容詞のデータが含む文字のうち任意の1文字を予め定められた所定の変換ルールに基づいて変換し、種々のバリエーションデータを生成するステップと、
    前記生成された種々のバリエーションデータを、品詞のバリエーションデータとして前記日本語解析辞書に登録するステップと、を実行させ
    前記種々のバリエーションデータを生成するステップは、
    前記抽出された形容詞がかな又はカナである場合であって、語尾の文字が母音及び半母音の場合に当該文字を小文字に変換するステップを含む品詞バリエーション生成プログラム。
  11. 日本語解析辞書に登録されている品詞のデータを用いて前記品詞のバリエーションデータを生成し、前記日本語解析辞書に登録させる、コンピュータによって実行される品詞バリエーション生成プログラムであって、
    コンピュータに、
    前記日本語解析辞書に登録されている形容詞のデータを抽出するステップと、
    前記抽出された形容詞のデータが含む文字のうち任意の1文字を予め定められた所定の変換ルールに基づいて変換し、種々のバリエーションデータを生成するステップと、
    前記生成された種々のバリエーションデータを、品詞のバリエーションデータとして前記日本語解析辞書に登録するステップと、を実行させ
    前記種々のバリエーションデータを生成するステップは、
    前記抽出された形容詞がかな又はカナである場合であって、前記抽出された形容詞を構成する文字に半母音が含まれる場合に、該半母音を母音に変換するステップを含む品詞バリエーション生成プログラム。
  12. 日本語解析辞書に登録されている品詞のデータを用いて前記品詞のバリエーションデータを生成し、前記日本語解析辞書に登録させる、コンピュータによって実行される品詞バリエーション生成プログラムであって、
    コンピュータに、
    前記日本語解析辞書に登録されている形容詞のデータを抽出するステップと、
    前記抽出された形容詞のデータが含む文字のうち任意の1文字を予め定められた所定の変換ルールに基づいて変換し、種々のバリエーションデータを生成するステップと、
    前記生成された種々のバリエーションデータを、品詞のバリエーションデータとして前記日本語解析辞書に登録するステップと、を実行させ、
    前記種々のバリエーションデータを生成するステップは、
    前記抽出された形容詞がかな又はカナである場合であって、前記抽出された形容詞を構成する文字に母音が含まれる場合に、該母音を半母音に変換するステップを含む品詞バリエーション生成プログラム。
  13. 日本語解析辞書に登録されている品詞のデータを用いて前記品詞のバリエーションデータを生成し、前記日本語解析辞書に登録させる、コンピュータによって実行される品詞バリエーション生成プログラムであって、
    コンピュータに、
    前記日本語解析辞書に登録されている形容詞のデータを抽出するステップと、
    前記抽出された形容詞のデータが含む文字のうち任意の1文字を予め定められた所定の変換ルールに基づいて変換し、種々のバリエーションデータを生成するステップと、
    前記生成された種々のバリエーションデータを、品詞のバリエーションデータとして前記日本語解析辞書に登録するステップと、を実行させ、
    前記種々のバリエーションデータを生成するステップは、
    前記抽出された形容詞がかな又はカナである場合であって、語末の文字を音引きに変換するステップを含む品詞バリエーション生成プログラム。
  14. 日本語解析辞書に登録されている品詞のデータを用いて前記品詞のバリエーションデータを生成し、前記日本語解析辞書に登録させるプログラムをコンピュータに実行させることにより日本語解析辞書を作成する方法であって、
    前記日本語解析辞書に登録されている形容詞のデータを抽出するステップと、
    前記抽出された形容詞のデータが含む文字のうち任意の1文字を予め定められた所定の変換ルールに基づいて変換し、種々のバリエーションデータを生成するステップと、
    前記生成された種々のバリエーションデータを、品詞のバリエーションデータとして前記日本語解析辞書に登録するステップと、をコンピュータに実行させ、
    前記種々のバリエーションデータを生成するステップは、
    前記抽出された形容詞がかな又はカナである場合であって、語尾の文字が母音及び半母音の場合に当該文字を小文字に変換するステップを含むことにより日本語解析辞書を作成する方法。
  15. 日本語解析辞書に登録されている品詞のデータを用いて前記品詞のバリエーションデータを生成し、前記日本語解析辞書に登録させるプログラムをコンピュータに実行させることにより日本語解析辞書を作成する方法であって、
    前記日本語解析辞書に登録されている形容詞のデータを抽出するステップと、
    前記抽出された形容詞のデータが含む文字のうち任意の1文字を予め定められた所定の変換ルールに基づいて変換し、種々のバリエーションデータを生成するステップと、
    前記生成された種々のバリエーションデータを、品詞のバリエーションデータとして前記日本語解析辞書に登録するステップと、をコンピュータに実行させ、
    前記種々のバリエーションデータを生成するステップは、
    前記抽出された形容詞がかな又はカナである場合であって、前記抽出された形容詞を構成する文字に半母音が含まれる場合に、該半母音を母音に変換するステップを含むことにより日本語解析辞書を作成する方法。
  16. 日本語解析辞書に登録されている品詞のデータを用いて前記品詞のバリエーションデータを生成し、前記日本語解析辞書に登録させるプログラムをコンピュータに実行させることにより日本語解析辞書を作成する方法であって、
    前記日本語解析辞書に登録されている形容詞のデータを抽出するステップと、
    前記抽出された形容詞のデータが含む文字のうち任意の1文字を予め定められた所定の変換ルールに基づいて変換し、種々のバリエーションデータを生成するステップと、
    前記生成された種々のバリエーションデータを、品詞のバリエーションデータとして前記日本語解析辞書に登録するステップと、をコンピュータに実行させ、
    前記種々のバリエーションデータを生成するステップは、
    前記抽出された形容詞がかな又はカナである場合であって、前記抽出された形容詞を構成する文字に母音が含まれる場合に、該母音を半母音に変換するステップを含むことにより日本語解析辞書を作成する方法。
  17. 日本語解析辞書に登録されている品詞のデータを用いて前記品詞のバリエーションデータを生成し、前記日本語解析辞書に登録させるプログラムをコンピュータに実行させることにより日本語解析辞書を作成する方法であって、
    前記日本語解析辞書に登録されている形容詞のデータを抽出するステップと、
    前記抽出された形容詞のデータが含む文字のうち任意の1文字を予め定められた所定の変換ルールに基づいて変換し、種々のバリエーションデータを生成するステップと、
    前記生成された種々のバリエーションデータを、品詞のバリエーションデータとして前記日本語解析辞書に登録するステップと、をコンピュータに実行させ、
    前記種々のバリエーションデータを生成するステップは、
    前記抽出された形容詞がかな又はカナである場合であって、語末の文字を音引きに変換するステップを含むことにより日本語解析辞書を作成する方法。
JP2006320720A 2006-11-28 2006-11-28 品詞バリエーション生成装置 Active JP4953431B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006320720A JP4953431B2 (ja) 2006-11-28 2006-11-28 品詞バリエーション生成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006320720A JP4953431B2 (ja) 2006-11-28 2006-11-28 品詞バリエーション生成装置

Publications (2)

Publication Number Publication Date
JP2008134842A JP2008134842A (ja) 2008-06-12
JP4953431B2 true JP4953431B2 (ja) 2012-06-13

Family

ID=39559658

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006320720A Active JP4953431B2 (ja) 2006-11-28 2006-11-28 品詞バリエーション生成装置

Country Status (1)

Country Link
JP (1) JP4953431B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62278666A (ja) * 1986-05-27 1987-12-03 Nec Corp カタカナ変換方式
JPH07113925B2 (ja) * 1988-08-31 1995-12-06 インターナショナル・ビジネス・マシーンズ・コーポレーション 文字表記結果の対応関係判定システム
JP2001350566A (ja) * 2000-06-08 2001-12-21 Takayuki Sakaba 長音入力変換装置
JP2004318480A (ja) * 2003-04-16 2004-11-11 Sony Corp 電子機器装置、新語抽出方法、およびプログラム
JP4760043B2 (ja) * 2005-02-14 2011-08-31 日本電気株式会社 言語解析方法およびプログラム

Also Published As

Publication number Publication date
JP2008134842A (ja) 2008-06-12

Similar Documents

Publication Publication Date Title
US8463598B2 (en) Word detection
Cook et al. An unsupervised model for text message normalization
KR101435265B1 (ko) 언어 변환에 있어서 다중 리딩 모호성 해결을 위한 방법
US8731901B2 (en) Context aware back-transliteration and translation of names and common phrases using web resources
Roark et al. Processing South Asian languages written in the Latin script: the Dakshina dataset
CN102439540B (zh) 输入法编辑器
US8412517B2 (en) Dictionary word and phrase determination
KR101279676B1 (ko) 언어 모델을 생성하기 위한 방법, 가나-간지 변환 방법 및그 장치
Tabassum et al. A survey on text pre-processing & feature extraction techniques in natural language processing
ERYİǦİT et al. Social media text normalization for Turkish
US20120179694A1 (en) Method and system for enhancing a search request
JP2005267638A (ja) 改善されたスペルチェックのためのシステムおよび方法
Satapathy et al. A review of shorthand systems: From brachygraphy to microtext and beyond
KR20080021064A (ko) 중국어 2행연구의 생성
US10606903B2 (en) Multi-dimensional query based extraction of polarity-aware content
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
JP5097802B2 (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
Sharma et al. Word prediction system for text entry in Hindi
JP4953431B2 (ja) 品詞バリエーション生成装置
Rodrigues Processing highly variant language using incremental model selection
JP4953440B2 (ja) 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体
Mekki et al. COTA 2.0: An automatic corrector of tunisian Arabic social media texts
CN113158693A (zh) 基于汉语关键词的维吾尔语关键词生成方法、装置、电子设备及存储介质
JP2014215970A (ja) 誤り検出装置、方法、及びプログラム
CN110874527A (zh) 一种基于云端的智能释义注音系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090316

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110801

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120214

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120312

R150 Certificate of patent or registration of utility model

Ref document number: 4953431

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150323

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250