JP2006178671A - 同義語対抽出方法、同義語対抽出装置、同義語対抽出プログラム、及び同義語対抽出プログラム記録媒体 - Google Patents

同義語対抽出方法、同義語対抽出装置、同義語対抽出プログラム、及び同義語対抽出プログラム記録媒体 Download PDF

Info

Publication number
JP2006178671A
JP2006178671A JP2004370058A JP2004370058A JP2006178671A JP 2006178671 A JP2006178671 A JP 2006178671A JP 2004370058 A JP2004370058 A JP 2004370058A JP 2004370058 A JP2004370058 A JP 2004370058A JP 2006178671 A JP2006178671 A JP 2006178671A
Authority
JP
Japan
Prior art keywords
synonym
pair
word
synonym pair
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004370058A
Other languages
English (en)
Inventor
Shuichi Nakawatase
秀一 中渡瀬
Ryoji Kataoka
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004370058A priority Critical patent/JP2006178671A/ja
Publication of JP2006178671A publication Critical patent/JP2006178671A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】日本語文書中に含まれる括弧内の単語と括弧直前の単語による単語対を同義語対と判定する場合において、同義語対を精度高く抽出することができる。
【解決手段】同義語対抽出装置1は、形態素解析部12において、形態素解析を行い、固有表現解析部14において、形態素解析の結果から固有表現解析を行い、固有表現を有する単語を抽出し、該単語に固有表現カテゴリを付与する。次に、同義語対候補抽出処理部15において、括弧で囲われた複合名詞と、該括弧の直前に位置する複合名詞の対が存在するか否かを判定し、複合名詞の対が存在するときは、この対を同義語対候補として同義語対候補記憶部16に格納し、同義語判定処理部17において、同義語対候補記憶部16に格納された同義語対候補を取得し、同義語対候補の固有名詞カテゴリが一致するか否かを検証し、一致するときは、同義語対として同義語対記憶部18に出力する。
【選択図】図1

Description

本発明は、日本語文書に含まれる同義語対を抽出する技術に関し、詳しくは、括弧内の単語と括弧直前の単語による単語対を同義語対と判定する同義語対抽出方法、同義語対抽出装置、同義語対抽出プログラム、及び同義語対抽出プログラム記録媒体に関する。
日本語文章においては、文章中の丸括弧内の単語と、丸括弧直前の単語とは同義語である場合が多い。この丸括弧内の単語と、丸括弧直前の単語で構成される単語対が同義語であるか否かを判定する技術としては、例えば、非特許文献1に示すような技術がある。非特許文献1は、単語を構成する文字種(平仮名や数字の存在)や特徴的な表現(例えば、平成〜、〜年、〜社長など)をもとに同義語になりにくい単語対を同義語対から除く技術を開示している。
また、特許文献1は、丸括弧内の単語と、丸括弧直前の単語で構成される単語対において、丸括弧内の単語が予め定めた数詞や地名であるときは、これを同義語対から除くという技術を開示している。
湯村武、外4名,「テキストデータベースからの同意表現の抽出」,情報処理学会,情報処理学会47回(平成5年後期)全国大会予稿集,3-79−3-80 特許第3350556号公報
しかしながら、上述した従来技術には、以下のような問題がある。
特許文献1に示すように、同義語対の候補に地名が含まれる場合に、これを除くというのは、「新広島空港(豊田郡本郷町)」のような場合には、有効であるが、「カフカス(コーカサス)」、「ミャンマー(旧ビルマ)」及び「ハンガリー侵攻(ハンガリー動乱)」のようなケースも存在するため、普遍的な規則とはならず、有効に機能しない場合がある。
また、非特許文献1に示すように、同義語対となりにくい特徴的な表現の場合においても、この規則が有効に機能しない場合がある。例えば、「〜会長」の場合を例に挙げると、「政府税制調査会(加藤寛会長)」や「宮沢元蔵相(宮沢派会長)」などがあるが、この場合、前者は同義語候補から除外しても構わないが、後者は同義語対となるべき単語対であるため、除外してはならないものである。
本発明は上記の問題を解決するためになされたものであり、日本語文書中に含まれる括弧内の単語と括弧直前の単語による単語対を同義語対と判定する場合において、同義語対を精度高く抽出することができる同義語対抽出方法、同義語対抽出装置、同義語対抽出プログラム、及び同義語対抽出プログラム記録媒体を提供することを目的とする。
上記目的を達成するため、請求項1記載の本発明は、日本語文書を入力する入力ステップと、入力された日本語文書を単語単位に分割し、各々の単語に品詞属性を与える形態素解析ステップと、前記形態素解析ステップにより与えられた品詞属性に基づいて、各々の単語から固有表現を抽出し、抽出された固有表現を有する単語に固有表現属性を与える固有表現解析ステップと、入力された日本語文書中に現れる括弧内の単語と、該括弧直前の単語の対を同語語対候補として抽出する同語語対候補抽出ステップと、抽出された同義語対候補に含まれる2つの単語の品詞属性及び固有表現属性に基づいて、2つの単語が同義語対であるか否かを判定する同義語判定ステップと、前記同義語判定ステップで判定された同義語対を出力する出力ステップと、をコンピュータが実行する同義語対抽出方法であることを特徴とする。
請求項2記載の本発明は、請求項1記載の発明において、前記同義語判定ステップは、同義語対候補に含まれる2つの単語の品詞属性及び固有表現属性が一致するときは、同義語対であると判定することを特徴とする。
請求項3記載の本発明は、請求項1又は2記載の発明において、前記同語語対候補抽出ステップで抽出される前記括弧内の単語及び前記括弧直前の単語は、複合名詞であることを特徴とする。
請求項4記載の本発明は、日本語文書を入力する入力手段と、入力された日本語文書を単語単位に分割し、各々の単語に品詞属性を与える形態素解析手段と、形態素解析手段により与えられた品詞属性に基づいて、各々の単語から固有表現を抽出し、抽出された固有表現を有する単語に固有表現属性を与える固有表現解析手段と、入力された日本語文書中に現れる括弧内の単語と、該括弧直前の単語を同語語対候補として抽出する同語語対候補抽出手段と、抽出された同義語対候補に含まれる2つの単語の品詞属性及び固有表現属性に基づいて、2つの単語が同義語対であるか否かを判定する同義語判定手段と、前記同義語判定手段で判定された同義語対を出力する出力手段と、を有する同義語対抽出装置であることを特徴とする。
請求項5記載の本発明は、請求項4記載の発明において、前記同義語判定手段は、同義語対候補に含まれる2つの単語の品詞属性及び固有表現属性が一致するときは、同義語対であると判定することを特徴とする。
請求項6記載の本発明は、請求項4又は5記載の発明において、前記同語語対候補抽出手段で抽出される前記括弧内の単語及び前記括弧直前の単語は、複合名詞であることを特徴とする。
請求項7記載の本発明は、コンピュータが読み取り可能な同義語対抽出プログラムであって、日本語文書を入力する入力ステップと、入力された日本語文書を単語単位に分割し、各々の単語に品詞属性を与える形態素解析ステップと、前記形態素解析ステップにより与えられた品詞属性に基づいて、各々の単語から固有表現を抽出し、抽出された固有表現を有する単語に固有表現属性を与える固有表現解析ステップと、入力された日本語文書中に現れる括弧内の単語と、該括弧直前の単語の対を同語語対候補として抽出する同語語対候補抽出ステップと、抽出された同義語対候補に含まれる2つの単語の品詞属性及び固有表現属性に基づいて、2つの単語が同義語対であるか否かを判定する同義語判定ステップと、前記同義語判定ステップで判定された同義語対を出力する出力ステップと、を前記コンピュータに実行させることを特徴とする。
請求項8記載の本発明は、請求項7記載の発明において、前記同義語判定ステップは、同義語対候補に含まれる2つの単語の品詞属性及び固有表現属性が一致するときは、同義語対であると判定することを特徴とする。
請求項9記載の本発明は、請求項7又は8記載の発明において、前記同語語対候補抽出ステップで抽出される前記括弧内の単語及び前記括弧直前の単語は、複合名詞であることを特徴とする。
請求項10記載の本発明は、請求項7乃至9のいずれか1項に記載の同義語対抽出プログラムをコンピュータが読み取り可能な記録媒体に記録する同義語対抽出プログラム記録媒体であることを特徴とする。
本発明によれば、日本語文書中に含まれる括弧内の単語と括弧直前の単語による単語対を同義語対と判定する場合において、同義語対の候補である単語対の品詞属性及び固有表現属性に基づいて同義語対であるか否かを判定するので、同義語対を精度高く抽出することができる。
以下、本発明の実施の形態を図面を用いて説明する。
図1は本発明の実施の形態に係る同義語対抽出装置1の概略構成図である。図1に示す同義語対抽出装置1は、文書データ記憶部11、形態素解析部12、形態素辞書13、固有表現解析部14、同義語対候補抽出処理部15、同義語対候補記憶部16、同義語判定処理部17、及び同義語対記憶部18を備えている。
同義語対抽出装置1は、少なくとも演算機能及び制御機能を備えた中央演算装置(CPU)、プログラムやデータを格納する機能を有するRAM等からなる主記憶装置(メモリ)を有する電子的な装置から構成されているものである。また、同義語対抽出装置1は、主記憶装置の他、ハードディスクなどの補助記憶装置を具備していてもよい。
このうち、形態素解析部12、固有表現解析部14、同義語対候補抽出部15、及び同語語判定処理部17は、上記CPUによる演算制御機能を具体的に示したものに他ならない。また、文書データ記憶部11、形態素辞書13、同義語対候補記憶部16、及び同義語対記憶部18は、上記主記憶装置及び補助記憶装置の機能を備えたものである。
また、本実施の形態に係る各種処理を実行するプログラムは、前述した主記憶装置またはハードディスクに格納されているものである。そして、このプログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD−ROMなどのコンピュータ読み取り可能な記録媒体に記録することも、通信ネットワークを介して配信することも可能である。
さらに、同義語対抽出装置1は、物理的に一つからなる装置の他、複数の装置がネットワーク接続されたシステムなどのいずれの構成であってもよい。
文書データ記憶部11は、電子化された日本語文書のデータを記憶している文書データベースであり、本実施形態においては、この日本語文書の中から同義語対が抽出されるようになっている。
形態素解析部12は、文書データ記憶部11に記憶された日本語文書の形態素解析を行うもので、文書データ記憶部11から入力された日本語文書を単語単位に分割し、それぞれの単語に品詞情報を与えるようになっている。また、形態素辞書13は、上述した形態素解析を行う際に、参照される辞書データベースであり、形態素情報としては、品詞、読み、接続情報などを備えている。 尚、本実施の形態における形態素解析方式は、公開されている既存技術を採用するもので、例えば、最長一致法、字種切り法、文節数最小法、接続規則法などのいずれかを用いてもよい。
固有表現解析部14は、形態素解析部12において形態素解析された形態素解析済みデータをもとに、該形態素解析済みデータに含まれている固有表現を抽出し、さらに、この固有表現にカテゴリ(以下、固有表現カテゴリという)を付与するようになっている。ここで、抽出対象となる固有表現は、大別して固有名詞的表現(組織名、人名、地名、固有物名)、時間表現(日付表現、時間表現)、数量表現(金額表現、割合表現)などがある。本実施形態においては、固有表現のカテゴリを人名、場所、組織名、日時、一般の5つに分類しており、このうちのいずれかのカテゴリが固有表現に対して与えられる。尚、本実施の形態における固有表現解析方式は、公開されている既存技術を採用するもので、例えば、IREX(Information Retrieval and Extraction Exercise)などを用いてもよい。
上述した形態素解析及び固有表現解析を、具体例を用いて説明する。例えば、“空から北朝鮮民主主義人民共和国(北朝鮮)の海岸が見える”という文を形態素解析により単語に分割し、品詞情報を与え、さらに、固有表現解析により固有表現カテゴリが与えられると、解析結果は、図2(a)のようになる。
同義語対候補抽出処理部15は、形態素解析と固有表現解析によって得られた単語列の中に、括弧で囲われた複合名詞と、該括弧の直前に位置する複合名詞の対が存在すれば、この対を同義語対候補として抽出し、同義語対候補記憶部16に記憶するようになっている。ここで、複合名詞とは、名詞及び名詞相当の接辞が結合して一つの名詞になるものをいい、例えば、「自然」「言語」「処理」というような単語をつなげて「自然言語処理」という一つの名詞として扱うものである。
図2(a)に示す具体例を用いると、括弧で囲われた複合名詞「北朝鮮」及び、括弧直前に複合名詞「北朝鮮民主主義人民共和国」が存在するので、この単語対を抽出し、固有名詞カテゴリとともに同義語対候補記憶部16に格納する。尚、図2(b)は、同義語対候補記憶部16に格納された同義語対候補の一例である。
同義語判定処理部17は、同義語対候補抽出処理部15において抽出された同義語対候補を同義語対候補記憶部16から取得し、固有表現カテゴリを用いて同義語対でないものを除外し、同義語対だけを同義語対記憶部18に記憶するようになっている。ここで、同義語対の判定は、同義語対候補に含まれる2つの複合名詞の固有表現カテゴリを比較し、一致するときは、同義語対、一致しないときは同義語対でないと判定するものである。
図2(a)に示す具体例を用いると、「北朝鮮民主主義人民共和国」の品詞は名詞、固有表現カテゴリは場所、「北朝鮮」の品詞は名詞、固有表現カテゴリは場所であるので(双方の複合名詞が固有表現カテゴリを備え、かつ固有表現カテゴリが一致している)、この同語語対候補を同語語対と判定し、同語語対記憶部18に記憶する。尚、図2(c)は、同義語対記憶部18に格納された同義語対の一例である。
また、別の具体例として、“新広島空港(豊田郡本郷町)”を挙げて説明する。この場合、「新広島空港」の品詞は名詞、固有表現カテゴリは一般、「豊田郡本郷町」の品詞は名詞、固有表現カテゴリは場所であるので(双方の複合名詞が固有表現カテゴリを備えているが、固有表現カテゴリは一致していない)、この同語語対候補を除外する。
次に、本実施の形態に係る同義語対抽出装置1の動作を図3を用いて説明する。ここで、図3は、同義語対抽出装置1の動作を示すフローチャートである。
まず、同義語対抽出装置1は、文書データ記憶部11から日本語文書を読み込み、形態素辞書13を用いて、形態素解析をする(ステップS10)。
次いで、同義語対抽出装置1は、形態素解析の結果から固有表現解析を行い、固有表現を有する単語を抽出し、該単語に固有表現カテゴリを付与する(ステップS20)。
次いで、同義語対抽出装置1は、括弧で囲われた複合名詞と、該括弧の直前に位置する複合名詞の対が存在するか否かを判定し、複合名詞の対が存在するときは、この対を同義語対候補として同義語対候補記憶部16に格納する(ステップS30,S40)。
次いで、同義語対抽出装置1は、同義語対候補記憶部16に格納された同義語対候補を取得し、同義語対候補の固有名詞カテゴリが一致するか否かを検証し、一致するときは、同義語対として同義語対記憶部18に出力する(ステップS50,S60,S70)。
従って、本実施の形態によれば、日本語文書中に含まれる括弧内の単語と括弧直前の単語による単語対を同義語対と判定する場合において、同義語対の候補である単語対の品詞属性及び固有表現属性に基づいて同義語対であるか否かを判定するので、同義語対を精度高く抽出することができる。
以上、本発明の実施の形態について説明してきたが、本発明の要旨を逸脱しない範囲において、本発明の実施の形態に対して種々の変形や変更を施すことができる。例えば、上記実施の形態においては、括弧内及び括弧直前に存在する複合名詞を対象に同義語対を抽出したが、固有表現部分を有するのであれば、複合名詞の他、単名詞であってもよいものである。
本発明の実施の形態に係る同語語対抽出装置の概略構成図である。 本発明の実施の形態に係る同語語対抽出装置の処理結果の一例である。 本発明の実施の形態に係る同語語対抽出装置の動作を示すフローチャートである。
符号の説明
1…同語語対抽出装置
11…文書データ記憶部
12…形態素解析部
13…形態素辞書
14…固有表現解析部
15…同語語対候補抽出処理部
16…同語語対候補記憶部
17…同語語判定処理部
18…同語語対記憶部

Claims (10)

  1. 日本語文書を入力する入力ステップと、
    入力された日本語文書を単語単位に分割し、各々の単語に品詞属性を与える形態素解析ステップと、
    前記形態素解析ステップにより与えられた品詞属性に基づいて、各々の単語から固有表現を抽出し、抽出された固有表現を有する単語に固有表現属性を与える固有表現解析ステップと、
    入力された日本語文書中に現れる括弧内の単語と、該括弧直前の単語の対を同語語対候補として抽出する同語語対候補抽出ステップと、
    抽出された同義語対候補に含まれる2つの単語の品詞属性及び固有表現属性に基づいて、2つの単語が同義語対であるか否かを判定する同義語判定ステップと、
    前記同義語判定ステップで判定された同義語対を出力する出力ステップと、
    をコンピュータが実行することを特徴とする同義語対抽出方法。
  2. 前記同義語判定ステップは、
    同義語対候補に含まれる2つの単語の品詞属性及び固有表現属性が一致するときは、同義語対であると判定することを特徴とする請求項1記載の同義語対抽出方法。
  3. 前記同語語対候補抽出ステップで抽出される前記括弧内の単語及び前記括弧直前の単語は、複合名詞であることを特徴とする請求項1又は2記載の同義語対抽出方法。
  4. 日本語文書を入力する入力手段と、
    入力された日本語文書を単語単位に分割し、各々の単語に品詞属性を与える形態素解析手段と、
    形態素解析手段により与えられた品詞属性に基づいて、各々の単語から固有表現を抽出し、抽出された固有表現を有する単語に固有表現属性を与える固有表現解析手段と、
    入力された日本語文書中に現れる括弧内の単語と、該括弧直前の単語を同語語対候補として抽出する同語語対候補抽出手段と、
    抽出された同義語対候補に含まれる2つの単語の品詞属性及び固有表現属性に基づいて、2つの単語が同義語対であるか否かを判定する同義語判定手段と、
    前記同義語判定手段で判定された同義語対を出力する出力手段と、
    を有することを特徴とする同義語対抽出装置。
  5. 前記同義語判定手段は、
    同義語対候補に含まれる2つの単語の品詞属性及び固有表現属性が一致するときは、同義語対であると判定することを特徴とする請求項4記載の同義語対抽出装置。
  6. 前記同語語対候補抽出手段で抽出される前記括弧内の単語及び前記括弧直前の単語は、複合名詞であることを特徴とする請求項4又は5記載の同義語対抽出装置。
  7. コンピュータが読み取り可能な同義語対抽出プログラムであって、
    日本語文書を入力する入力ステップと、
    入力された日本語文書を単語単位に分割し、各々の単語に品詞属性を与える形態素解析ステップと、
    前記形態素解析ステップにより与えられた品詞属性に基づいて、各々の単語から固有表現を抽出し、抽出された固有表現を有する単語に固有表現属性を与える固有表現解析ステップと、
    入力された日本語文書中に現れる括弧内の単語と、該括弧直前の単語の対を同語語対候補として抽出する同語語対候補抽出ステップと、
    抽出された同義語対候補に含まれる2つの単語の品詞属性及び固有表現属性に基づいて、2つの単語が同義語対であるか否かを判定する同義語判定ステップと、
    前記同義語判定ステップで判定された同義語対を出力する出力ステップと、
    を前記コンピュータに実行させることを特徴とする同義語対抽出プログラム。
  8. 前記同義語判定ステップは、
    同義語対候補に含まれる2つの単語の品詞属性及び固有表現属性が一致するときは、同義語対であると判定することを特徴とする請求項7記載の同義語対抽出プログラム。
  9. 前記同語語対候補抽出ステップで抽出される前記括弧内の単語及び前記括弧直前の単語は、複合名詞であることを特徴とする請求項7又は8記載の同義語対抽出プログラム。
  10. 請求項7乃至9のいずれか1項に記載の同義語対抽出プログラムをコンピュータが読み取り可能な記録媒体に記録することを特徴とする同義語対抽出プログラム記録媒体。

JP2004370058A 2004-12-21 2004-12-21 同義語対抽出方法、同義語対抽出装置、同義語対抽出プログラム、及び同義語対抽出プログラム記録媒体 Pending JP2006178671A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004370058A JP2006178671A (ja) 2004-12-21 2004-12-21 同義語対抽出方法、同義語対抽出装置、同義語対抽出プログラム、及び同義語対抽出プログラム記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004370058A JP2006178671A (ja) 2004-12-21 2004-12-21 同義語対抽出方法、同義語対抽出装置、同義語対抽出プログラム、及び同義語対抽出プログラム記録媒体

Publications (1)

Publication Number Publication Date
JP2006178671A true JP2006178671A (ja) 2006-07-06

Family

ID=36732737

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004370058A Pending JP2006178671A (ja) 2004-12-21 2004-12-21 同義語対抽出方法、同義語対抽出装置、同義語対抽出プログラム、及び同義語対抽出プログラム記録媒体

Country Status (1)

Country Link
JP (1) JP2006178671A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008225560A (ja) * 2007-03-08 2008-09-25 Nippon Telegr & Teleph Corp <Ntt> 相互に関係する固有表現の組抽出装置及びその方法
JP2012525645A (ja) * 2009-04-29 2012-10-22 アリババ グループ ホールディング リミテッド 知識ベース構築の方法および装置
US9239880B2 (en) 2009-04-27 2016-01-19 Alibaba Group Holding Limited Method and apparatus for identifying synonyms and using synonyms to search
WO2022239640A1 (ja) * 2021-05-12 2022-11-17 株式会社日立製作所 類義語判定システム、および類義語判定方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008225560A (ja) * 2007-03-08 2008-09-25 Nippon Telegr & Teleph Corp <Ntt> 相互に関係する固有表現の組抽出装置及びその方法
US9239880B2 (en) 2009-04-27 2016-01-19 Alibaba Group Holding Limited Method and apparatus for identifying synonyms and using synonyms to search
JP2012525645A (ja) * 2009-04-29 2012-10-22 アリババ グループ ホールディング リミテッド 知識ベース構築の方法および装置
WO2022239640A1 (ja) * 2021-05-12 2022-11-17 株式会社日立製作所 類義語判定システム、および類義語判定方法

Similar Documents

Publication Publication Date Title
JP2000514218A (ja) コンピュータシステムによる日本語テキストの単語の識別
JP2008276517A (ja) 訳文評価装置、訳文評価方法およびプログラム
JP2008083952A (ja) 辞書作成支援システム、方法及びプログラム
JP3372532B2 (ja) 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
JP5231698B2 (ja) 日本語の表意文字の読み方を予測する方法
EP1471440A2 (en) System and method for word analysis
JP2006065387A (ja) テキスト文検索装置、テキスト文検索方法、及びテキスト文検索プログラム
Ganfure et al. Design and implementation of morphology based spell checker
JP5911931B2 (ja) 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体
JP2006178671A (ja) 同義語対抽出方法、同義語対抽出装置、同義語対抽出プログラム、及び同義語対抽出プログラム記録媒体
JP3363501B2 (ja) テキスト検索装置
JP2013134753A (ja) 誤り文修正装置、誤り文修正方法およびプログラム
Rajalingam A rule based iterative affix stripping stemming algorithm for Tamil
JP4934115B2 (ja) キーワード抽出装置、方法及びプログラム
JP7243818B2 (ja) 読み曖昧性解消装置、読み曖昧性解消方法、及び読み曖昧性解消プログラム
JP2009150988A (ja) 音声認識辞書作成装置
JP6235373B2 (ja) 言語解析方法及びシステム
JP4007504B2 (ja) 単語分割装置、記憶媒体およびプログラム
Evangeline et al. VERB IDENTIFICATION USING MORPHOPHONEMIC RULES IN TAMIL LANGUAGE.
JP4049141B2 (ja) 文書処理装置、文書処理方法、および、文書処理プログラム
JP2010140107A (ja) 未知語登録方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
Trosterud Language technology in russia
JP2744430B2 (ja) 自然言語処理装置
JPH0668070A (ja) 複合語辞書登録装置
JP2005173753A (ja) 自然語辞書更新装置、更新方法、プログラム及び記録媒体