JP2005338970A - 文章処理装置 - Google Patents
文章処理装置 Download PDFInfo
- Publication number
- JP2005338970A JP2005338970A JP2004153948A JP2004153948A JP2005338970A JP 2005338970 A JP2005338970 A JP 2005338970A JP 2004153948 A JP2004153948 A JP 2004153948A JP 2004153948 A JP2004153948 A JP 2004153948A JP 2005338970 A JP2005338970 A JP 2005338970A
- Authority
- JP
- Japan
- Prior art keywords
- word
- words
- sentence
- list
- replacement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】 専門用語を用いて記述された文章から、比較的平易な単語を用いた文章に読み替えたものを生成できる文章処理装置を提供する。
【解決手段】 シソーラスデータベースと、専門用語である単語を含む専門語リストと、専門用語でない単語を含む汎用語リストとを記憶するデータベースに接続され、処理対象となる文章データを取得し、当該取得した文章データを単語ごとに分割し、分割されて得られた単語のうち、専門語リストに含まれる単語を置換対象語として選択し、シソーラスデータベースを参照して、単語前記選択された置換対象語の各々を、当該置換対象語に対応する単語であって汎用語リストに含まれる単語のいずれかに置換し、文章データのうち、置換対象語の各々を、専門用語でない、対応する単語に置換して得た置換文章データを出力する文章処理装置である。
【選択図】 図1
【解決手段】 シソーラスデータベースと、専門用語である単語を含む専門語リストと、専門用語でない単語を含む汎用語リストとを記憶するデータベースに接続され、処理対象となる文章データを取得し、当該取得した文章データを単語ごとに分割し、分割されて得られた単語のうち、専門語リストに含まれる単語を置換対象語として選択し、シソーラスデータベースを参照して、単語前記選択された置換対象語の各々を、当該置換対象語に対応する単語であって汎用語リストに含まれる単語のいずれかに置換し、文章データのうち、置換対象語の各々を、専門用語でない、対応する単語に置換して得た置換文章データを出力する文章処理装置である。
【選択図】 図1
Description
本発明は、専門用語を用いて記述された文章を、一般的な文章に読み替えて出力する文章処理プログラムに関する。
近年、科学技術はますます高度になり、それに伴って専門性も強くなりつつある。一方で、業種・職種・年代も様々な人々が産学官を超えて集結し、互いの専門分野の知識を活かしつつ、より高度な社会を形成しようとする動きも高まりつつある。こうした異業種・異職種・異年代の人物間のコミュニケーションの機会は、今後ますます増大すると考えられる。
特開平6−274347号公報
特開2002−278963号公報
しかしながら、業種等が異なる人物は一般に、互いに異なる専門分野に属しており、かつ各専門の分野は互いに高度に専門化されているため、そのような人物間のコミュニケーションはますます困難になりつつある。また、各専門分野について修得の途上にある児童・生徒・学生に対しては、専門的な文章を読み解くことがますます困難になっており、学習効率が低下しているのも実情である。
そこで、専門用語を用いて記述された文章から、比較的平易な単語を用いた文章に読み替えたものを生成できれば、当該読み替えた文章を参考にすることで、専門外の人物や修得中の人物とのコミュニケーションが活性化されると想定される。
しかし、従来は、例えば特許文献1に開示されているように、コンピュータ処理可能な表現形式(エキスパートシステムのプログラムの形式)に変換する装置や、特許文献2に開示されているように、外国語と自国語との間で、既に正確に翻訳されて登録されている事例文を基本として、効率的かつ正確な翻訳を得ようとする技術は、開発されているものの、専門的な文章を平易な文章に変換するといった技術は考えられていなかった。
本発明は上記実情に鑑みて為されたもので、専門用語を用いて記述された文章から、比較的平易な単語を用いた文章に読み替えたものを生成できる文章処理装置を提供することを、その目的の一つとする。
上記従来例の問題点を解決するための本発明は、文章処理プログラムであって、シソーラスデータベースと、専門用語である単語を含む専門語リストと、専門用語でない単語を含む汎用語リストとを記憶するデータベースに接続されたコンピュータに、処理対象となる文章データを取得し、当該取得した文章データを単語ごとに分割する分割手順と、前記分割されて得られた単語のうち、前記専門語リストに含まれる単語を置換対象語として選択する手順と、前記シソーラスデータベースを参照して、単語前記選択された置換対象語の各々を、当該置換対象語に対応する単語であって前記汎用語リストに含まれる単語のいずれかに置換する置換手順と、を実行させ、前記文章データのうち、前記置換対象語の各々を、専門用語でない、対応する単語に置換して得た置換文章データを出力することを特徴としている。
また、前記データベースは、複数の汎用語リストを保持しており、文章処理プログラムは、前記コンピュータに、さらに利用者からの指示により前記汎用語リストを選択的に読み出し、置換手順の実行の際に、当該読み出した汎用語リストを選択的に利用させることとしてもよい。この場合、前記専門語リストは、前記選択的に読出された汎用語リストに含まれる汎用語を、前記シソーラスデータベースに含まれる単語集合から除いて生成されることを特徴とする。さらに、前記シソーラスデータベースは、単語ごとに、その類義語と、同義語と、上位概念に相当する語と、下位概念に相当する語と、のうち少なくとも一つを関連づけてなることとしてもよい。
さらに、上記従来例の問題点を解決するための本発明は、文章処理方法であって、シソーラスデータベースと、専門用語である単語を含む専門語リストと、専門用語でない単語を含む汎用語リストとを記憶するデータベースに接続されたコンピュータを用い、処理対象となる文章データを取得し、当該取得した文章データを単語ごとに分割する工程と、前記分割されて得られた単語のうち、前記専門語リストに含まれる単語を置換対象語として選択する工程と、前記シソーラスデータベースを参照して、前記選択された置換対象語の各々を、当該置換対象語に対応する単語であって前記汎用語リストに含まれる単語のいずれかに置換する置換工程と、前記文章データのうち、前記置換対象語の各々を、専門用語でない、対応する単語に置換して得た置換文章データを出力する工程と、を実行させることを特徴としている。
さらに、上記従来例の問題点を解決するための本発明は、シソーラスデータベースと、専門用語である単語を含む専門語リストと、専門用語でない単語を含む汎用語リストとを記憶するデータベースに接続された文章処理装置であって、処理対象となる文章データを取得し、当該取得した文章データを単語ごとに分割する分割手段と、前記分割されて得られた単語のうち、前記専門語リストに含まれる単語を置換対象語として選択する選択手段と、前記シソーラスデータベースを参照して、前記選択された置換対象語の各々を、当該置換対象語に対応する単語であって前記汎用語リストに含まれる単語のいずれかに置換する置換手段と、前記文章データのうち、前記置換対象語の各々を、専門用語でない、対応する単語に置換して得た置換文章データを出力する出力手段と、を含むことを特徴としている。
本発明の実施の形態について図面を参照しながら説明する。本発明の実施の形態にかかる文章処理装置1は、図1に示すように、制御部11と、記憶部12と、ストレージ部13と、操作部14と、表示部15と、通信部16とを含んで構成されている。
制御部11は、CPU等を用いて実現でき、記憶部12に格納されているプログラムに従って動作している。本実施の形態の制御部11は、処理対象となる文章データを取得して、当該文章データを単語ごとに分割する分割処理と、分割されて得られた単語のうち、少なくとも一部を置換対象語として選択する選択処理と、置換対象語を他の単語に置換する置換処理と、を実行している。これらの各処理については、後に詳しく説明する。
記憶部12は、RAM(Random Access Memory)や、ROM(Read Only Memory)などを含んで構成され、制御部11によって実行されるプログラムを格納している。また、この記憶部12は、制御部11の処理において必要となるデータを保持するワークメモリとしても動作する。ストレージ部13は、例えばハードディスクなどの記憶媒体を用いて実現される。このストレージ部13は、制御部11によって実行されるプログラムを保持している。プログラムの実行時には、制御部11により、このストレージ部13からプログラムが読出され、記憶部12に格納される。また、このストレージ部13は、類義語や同義語、上位概念語(広義語)、下位概念語(狭義語)等を互いに関連付けた、いわゆるシソーラスデータベースを保持している。
具体的にシソーラスデータベースは、見出語となる単語に対して、その類義乃至同義の語と、上位概念に相当する語と、下位概念に相当する語との少なくとも一つを関連付けてなるものである。また、このシソーラスデータベースにおいては、見出語に関する分類符号(予め定めた語群への分類結果を表す符号)や、関連語(類義、同義など意味上の関係はないが、一緒に使われやすい単語)、反意語などを含んでもよい。この場合、シソーラスデータベースは、例えばJICSTシソーラスなどと同様のデータ構造を有してもよい。
また、ストレージ部13には、専門用語である単語を含む一覧が、専門語リストとして格納されている。さらにストレージ部13には、専門用語でない単語を含む汎用語リストとして格納されている。なお、これら専門語リストや汎用語リストは、まず、一方を作成しておき、シソーラスデータベース内の単語から当該一方を除いた差集合を他方のリストとして生成してもよい。例えば汎用語リストを作成しておき、シソーラスデータベースに含まれる単語集合のうち、汎用語リストに含まれる単語集合を除いて差集合を生成し、この差集合に含まれる単語のリストを、専門語リストとしてストレージ部13に格納してもよい。
操作部14は、マウスやキーボードなどを含んで構成され、利用者の操作の内容を受け入れて、当該受け入れた操作の内容を制御部11に出力する。表示部15は、ディスプレイ等であり、制御部11が出力する指示に従って情報を表示出力する。通信部16は、例えばネットワークインタフェースであり、ネットワークを介して受信されるデータ(電子メールなど)を制御部11に出力する。また、制御部11から入力される指示に従ってデータ(電子メールなど)をネットワークを介して送信する。
ここで制御部11によって実行される分割処理、選択処理、置換処理の各処理の内容について説明する。まず制御部11は、処理対象となる文章データを取得する。ここで処理対象となる文章データは、例えば外部から受信される電子メールのデータであってもよいし、ウエブクライアントなどを用いて取得し、表示しているHTMLドキュメントなどであってもよい。ここでは、これらの文章データは、記憶部12に格納されているものとする。
制御部11は、当該処理対象となった文章データを単語ごとに分割する。この分割の処理は、例えば形態素解析の手法を用いて行うことができる。具体的には、制御部11は、公知の形態素解析システム(例えば日本語の場合「茶筅(chasen)」(URL:http://chasen.aist-nara.ac.jp/hiki/ChaSen/、2004年5月12日検索)などが広く知られている)を用いて文章データを単語の列に分割し、分割後の単語列を記憶部12に格納する。
制御部11は次に、記憶部12に格納された分割後の単語列に含まれる単語のうち、専門語リストに含まれる単語を置換対象語として選択する。そして、置換対象語の各々について、置換処理を行う。
置換処理は、制御部11は、図2に示すように置換対象語の一つ(未選択のもの)を注目語として選択し(S1)、注目語に関連付けられた単語をシソーラスデータベースから検索する(S2)。そして、検索の結果得られた単語のうち、汎用語リストに含まれる単語を置換候補語として選択する(S3)。
ここで置換候補語が複数あるか否かを調べ(S4)、複数ある場合には、置換候補語の選抜処理を行う(S5)。ここで選抜処理は、例えば、予め定められた優先順位付与ルールに従って複数の置換候補語の各々に優先順位を付与し、そのうち最も高い優先順位となったものを選抜することによって行われる。具体的にこの優先順位付与ルールは、注目語との関係(類義・同義・広義・狭義の関係など)に基づいて、類義・同義を優先順位「1」、広義のものを優先順位「2」、狭義のものを優先順位「3」とし、優先順位の高いもの(この場合は数値の小さいもの)を選抜することとしてもよい。また、文字数の多少、平仮名・カタカナ・漢字の別、自国語と外来語・外国語の別などに基づいて優先順位を付与することとしてもよい。
またシソーラスデータベースが、グラフ構造(単語をノードとし、関連付けをリンクとした構造)を有している場合、注目語から置換候補語までのリンクの数を優先順位としてもよい。例えば、「計算機アーキテクチャ」との語の広義語として「計算機方式」が関連づけられており、「計算機方式」の語の狭義語として「計算機アーキテクチャ」と「ベクトル計算機」とが関連づけられているとするとき、「計算機アーキテクチャ」を置換対象語とすると、「計算機方式」が優先順位「1」、「ベクトル計算機」が優先順位「2」となる(図3)。
なお、制御部11は、この選抜処理において、優先順位が同順となる複数の置換候補語が選抜された場合は、そのうちの一つをランダムに絞込んで選抜してもよいし、選抜された複数の置換候補語を「又は」などの語を介して連結して、「計算機方式、又は方式」などという置換候補語を生成してもよい。
制御部11は、注目語と、処理S5の選抜処理により選抜された置換候補語(一つに選抜されたもの、または連結されて一つになっているもの)とを関連付けて記憶部12に格納する(S6)。制御部11は、さらに、注目語として未選択の置換対象語があるか否かを調べ(S7)、未選択のものがあれば(Yesならば)、処理S1に戻って処理を続ける。
また、処理S7において未選択の置換対象語がなければ(Noならば)、つまりすべての置換対象語について処理を行った場合は、記憶部12に格納されている単語列のうちの置換対象語を、当該置換対象語に関連付けて記憶部12に格納された置換候補語に置換えて(S8)、当該置換え後の文章データを出力し、処理を終了する。
なお、処理S4において、置換候補語が複数でなかった場合は、当該単数の置換候補語を注目語に関連付けて記憶部12に格納し(S10)、処理S7に移行して処理を続ける。さらに置換候補語がない場合(置換対象語に関連づけられた単語のうちに汎用語リストに含まれるものがない場合)は、さらに、置換対象語に関連付けられた単語の各々を置換対象語として、さらにシソーラスデータベースを検索する処理を、汎用語リストに含まれる単語が見いだされるまで繰返して行う。
制御部11は、出力された置換処理後の文章データを表示部15に表示出力してもよいし、通信部16を介して他の装置に送信してもよい。
次に、本実施の形態の文章処理装置1の動作例について説明する。具体的に、ここでは「この装置のアーキテクチャは、とても単純です」のような文章データが得られたものとする。制御部11は、この文章データを単語に分割して、「この/装置/の/アーキテクチャ/は/、/とても/単純/です」といった単語群を生成する(ここでスラッシュ(/)が単語の区切り位置に相当する)。
制御部11は、単語群に含まれるこれらの単語のうち、専門語リストに含まれる単語を選択する。ここでは、予め汎用語として「装置」や「単純」といった単語を含む汎用語リストが生成されており、シソーラスデータベースに含まれている単語のうち、これら汎用語リストに含まれる単語を除いて得た単語のリストを専門語リストとして生成するものとする。また、制御部11は、予め、どのような文章にも含まれ得る単語(いわゆるストップワード)のリストを、ストップワードリストとして列挙して記憶部12に保持しておき、このストップワードリストを参照して、生成した単語群からストップワードを除いてから専門語リストに含まれる単語を選択してもよい。
具体的に、「この」などの指示語や、「の」、「は」といった助詞、「です」などの助動詞、「とても」のような副詞・形容詞、「、」や「。」などの句読点、その他感嘆詞などはストップワードとして除いておく。従って、ここでは上記単語群のうち、「装置」、「アーキテクチャ」、「単純」について専門語リストに含まれるか否かを調べることになる。
既に例示したように、本実施の形態では「装置」、「単純」の各語は、いずれも汎用語リストに列挙されているので、専門語リストに含まれる語として選択される語は、「アーキテクチャ」のみとなる。
制御部11は、この選択した語「アーキテクチャ」を置換対象語として、シソーラスデータベースから検索する。ここでJICSTシソーラスを参照すると、「アーキテクチャ」は、「計算機アーキテクチャ」として参照されるべき旨が記述されているので、制御部11は改めて「計算機アーキテクチャ」をシソーラスデータベースから検索する。
すると「計算機アーキテクチャ」には、類語として「アーキテクチャ」が関連づけられ、狭義語(下位概念語)として、「MIMD」、「SIMD」、「システムアーキテクチャ」、「推論マシン」、「ATMS」、「並列推論マシン」が関連づけられ、広義語(上位概念語)として「計算機方式」及び「方式」が関連づけられていることが見いだされる。
制御部11は、こうして見いだした単語の群から、汎用語リストに含まれる語を置換候補語として取り出す。ここでは汎用語として「方式」が関連づけられているものとする。つまり制御部11は、置換候補語として「方式」を得る。
そして、制御部11は、処理対象となった文章データを構成する単語のうち、置換対象語「アーキテクチャ」を置換候補語「方式」に置き換えた置換文章データ「この装置の方式は、とても単純です」を生成して、この置換文章データを表示部15に表示する。
なお、本実施の形態における汎用語リストは、利用者の類型ごとに対応するなどして複数保持されていてもよい。例えば、学生向けの汎用語リストや、特定の分野の専門家向けの汎用語リストなどが考えられる。この場合は、制御部11は、装置の利用者の類型を取得し(操作部14から利用者自らの属する類型を特定する情報を入力してもらうなど)、当該取得した類型に対応する汎用語リストを選択的に読出して、シソーラスデータベース内の単語のうち、この読出した汎用語リストに含まれる語を除いて専門語リストを生成するようにしてもよい。また、利用者の類型ごとではなく、利用者ごとに汎用語リストを生成しておき、ストレージ部13に格納しておき、利用者の指示操作に基づいて選択的に読出してもよい。このようにすれば、利用者ごとの知識の範囲に適した置換文章データが生成されるようになる。
また、ここまでの説明では汎用語リストや専門語リスト、シソーラスデータベース等は、ストレージ部13に格納されているものとして説明したが、これらのリストやデータベースは、ネットワークを介してアクセス可能に接続されたコンピュータ装置などに格納されていてもよい。
1 文章処理装置、11 制御部、12 記憶部、13 ストレージ部、14 操作部、15 表示部、16 通信部。
Claims (6)
- シソーラスデータベースと、専門用語である単語を含む専門語リストと、専門用語でない単語を含む汎用語リストとを記憶するデータベースに接続されたコンピュータに、
処理対象となる文章データを取得し、当該取得した文章データを単語ごとに分割する分割手順と、
前記分割されて得られた単語のうち、前記専門語リストに含まれる単語を置換対象語として選択する手順と、
前記シソーラスデータベースを参照して、単語前記選択された置換対象語の各々を、当該置換対象語に対応する単語であって前記汎用語リストに含まれる単語のいずれかに置換する置換手順と、
を実行させ、
前記文章データのうち、前記置換対象語の各々を、専門用語でない、対応する単語に置換して得た置換文章データを出力することを特徴とする文章処理プログラム。 - 請求項1に記載の文章処理プログラムであって、
前記データベースは、複数の汎用語リストを保持しており、
文章処理プログラムは、前記コンピュータに、さらに利用者からの指示により前記汎用語リストを選択的に読み出し、置換手順の実行の際に、当該読み出した汎用語リストを選択的に利用させることを特徴とする文章処理プログラム。 - 請求項2に記載の文章処理プログラムであって、
前記専門語リストは、前記選択的に読出された汎用語リストに含まれる汎用語を、前記シソーラスデータベースに含まれる単語集合から除いて生成されることを特徴とする文章処理プログラム。 - 請求項1から3のいずれか一項に記載の文章処理プログラムであって、
前記シソーラスデータベースは、単語ごとに、その類義語と、同義語と、上位概念に相当する語と、下位概念に相当する語と、のうち少なくとも一つを関連づけてなることを特徴とする文章処理プログラム。 - シソーラスデータベースと、専門用語である単語を含む専門語リストと、専門用語でない単語を含む汎用語リストとを記憶するデータベースに接続されたコンピュータを用い、
処理対象となる文章データを取得し、当該取得した文章データを単語ごとに分割する工程と、
前記分割されて得られた単語のうち、前記専門語リストに含まれる単語を置換対象語として選択する工程と、
前記シソーラスデータベースを参照して、前記選択された置換対象語の各々を、当該置換対象語に対応する単語であって前記汎用語リストに含まれる単語のいずれかに置換する置換工程と、
前記文章データのうち、前記置換対象語の各々を、専門用語でない、対応する単語に置換して得た置換文章データを出力する工程と、
を実行させることを特徴とする文章処理方法。 - シソーラスデータベースと、専門用語である単語を含む専門語リストと、専門用語でない単語を含む汎用語リストとを記憶するデータベースに接続された文章処理装置であって、
処理対象となる文章データを取得し、当該取得した文章データを単語ごとに分割する分割手段と、
前記分割されて得られた単語のうち、前記専門語リストに含まれる単語を置換対象語として選択する選択手段と、
前記シソーラスデータベースを参照して、前記選択された置換対象語の各々を、当該置換対象語に対応する単語であって前記汎用語リストに含まれる単語のいずれかに置換する置換手段と、
前記文章データのうち、前記置換対象語の各々を、専門用語でない、対応する単語に置換して得た置換文章データを出力する出力手段と、
を含むことを特徴とする文章処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004153948A JP2005338970A (ja) | 2004-05-24 | 2004-05-24 | 文章処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004153948A JP2005338970A (ja) | 2004-05-24 | 2004-05-24 | 文章処理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005338970A true JP2005338970A (ja) | 2005-12-08 |
Family
ID=35492505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004153948A Pending JP2005338970A (ja) | 2004-05-24 | 2004-05-24 | 文章処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005338970A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010061247A (ja) * | 2008-09-02 | 2010-03-18 | Hitachi Ltd | 医薬品情報提供システム |
JP2010152785A (ja) * | 2008-12-26 | 2010-07-08 | Dainippon Printing Co Ltd | 専門用語の置換編集方法、システム、プログラム、記録媒体 |
JP5344778B1 (ja) * | 2013-04-24 | 2013-11-20 | スキルアップジャパン株式会社 | 情報提供装置、および情報提供システム |
-
2004
- 2004-05-24 JP JP2004153948A patent/JP2005338970A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010061247A (ja) * | 2008-09-02 | 2010-03-18 | Hitachi Ltd | 医薬品情報提供システム |
JP2010152785A (ja) * | 2008-12-26 | 2010-07-08 | Dainippon Printing Co Ltd | 専門用語の置換編集方法、システム、プログラム、記録媒体 |
JP5344778B1 (ja) * | 2013-04-24 | 2013-11-20 | スキルアップジャパン株式会社 | 情報提供装置、および情報提供システム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5011751B2 (ja) | 訳語情報出力処理プログラム,処理方法および処理装置 | |
US20040029085A1 (en) | Summarisation representation apparatus | |
JP4347226B2 (ja) | 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法 | |
GB2401972A (en) | Identifying special word usage in a document | |
JP2014120053A (ja) | 質問応答装置、方法、及びプログラム | |
Kawahara et al. | Rapid development of a corpus with discourse annotations using two-stage crowdsourcing | |
Evert | A Lightweight and Efficient Tool for Cleaning Web Pages. | |
Sazzed | Development of sentiment lexicon in bengali utilizing corpus and cross-lingual resources | |
JP2007047974A (ja) | 情報抽出装置および情報抽出方法 | |
Bakari et al. | Logic-based approach for improving Arabic question answering | |
Murauer et al. | DT-grams: Structured dependency grammar stylometry for cross-language authorship attribution | |
KR101057072B1 (ko) | 시맨틱 데이터 추출 시스템 및 이를 이용한 검색 엔진 | |
Oh et al. | Bilingual co-training for monolingual hyponymy-relation acquisition | |
JP2005338970A (ja) | 文章処理装置 | |
JP2008204133A (ja) | 回答検索装置及びコンピュータプログラム | |
Tahayna et al. | Applying English Idiomatic Expressions to Classify Deep Sentiments in COVID-19 Tweets. | |
JP3937741B2 (ja) | 文書の標準化 | |
Hajbi et al. | Natural Language Processing Based Approach to Overcome Arabizi and Code Switching in Social Media Moroccan Dialect | |
JP4435144B2 (ja) | データ検索システム及びプログラム | |
JPH1153396A (ja) | 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法 | |
JP4877930B2 (ja) | 文書処理装置及び文書処理方法 | |
Borin et al. | Language technology for digital linguistics: Turning the linguistic survey of India into a rich source of linguistic information | |
JP2004334699A (ja) | テキスト評価装置、テキスト評価方法、プログラム及び記憶媒体 | |
JP2008171164A (ja) | 分類付与支援装置及び方法及びプログラム | |
JP2007164462A (ja) | 質問応答システム、質問応答方法及び質問応答プログラム |