JPH05250403A - 日本文単語解析方式 - Google Patents

日本文単語解析方式

Info

Publication number
JPH05250403A
JPH05250403A JP4050961A JP5096192A JPH05250403A JP H05250403 A JPH05250403 A JP H05250403A JP 4050961 A JP4050961 A JP 4050961A JP 5096192 A JP5096192 A JP 5096192A JP H05250403 A JPH05250403 A JP H05250403A
Authority
JP
Japan
Prior art keywords
word
boundary
japanese
string
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4050961A
Other languages
English (en)
Inventor
Shinichiro Takagi
伸一郎 高木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP4050961A priority Critical patent/JPH05250403A/ja
Publication of JPH05250403A publication Critical patent/JPH05250403A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 本発明の目的は、単語の認定精度(形態素解
析の精度)を向上させることができる日本文単語解析方
式を提供することである。 【構成】 本発明は、日本文原文文書ファイル10、文
節設定処理部11、単語候補抽出処理部12、単語候補
補充処理部110、単語列接続処理部13、文節境界判
定処理部120、単語列判定処理部130、日本語単語
辞書20、文法接続辞書30、日本語混ぜ書き語辞書1
00及び単語解析結果ファイル40よりなり、日本文原
文文書ファイルより入力された文章に文節境界を付加
し、文節境界を越える混ぜ書き語の認定の可能性を検定
しながら、文法的に可能な単語列候補を抽出して、この
単語列候補に優先度を付与して出力する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、日本文単語解析方式に
係り、特に、入力装置から読み込まれた漢字かな混じり
の日本文文章の文字列を日本文形態素解析する日本文単
語解析方式に関する。
【0002】日本文単語解析は、新聞記事、出版用原
稿、科学技術論文等の多量の日本文文書を電子ファイル
化して、日本文文書データベースを作成し、混入する誤
字などの誤りを検出したり、他の言語に翻訳したり、あ
るいは、漢字かな変換の後に合成音声として出力するシ
ステム等を構築するなど、全ての処理において基礎とな
る形態素解析である。
【0003】
【従来の技術】図5は従来の単語解析方式の機能ブロッ
ク図を示す。磁気装置等に文字コードの形式で記録され
ている日本文原文文書ファイル10は、日本文入力装置
により単語解析処理機能を持つシステムに入力される。
単語解析処理機能は、文節設定処理部11、単語候補抽
出処理部12、単語列接続処理部13、単語列認定処理
部14から構成される。さらに単語解析に必要な辞書と
して日本語単語辞書20、文法接続辞書30がある。日
本語単語辞書20は各単語毎に見出し、読み、文法情
報、単語の属性情報が記憶されている。文法接続辞書3
0は、単語間の文法的な接続条件が記憶されている。ま
た、日本文原文文書ファイル10が単語解析処理システ
ムに入力され、各種辞書を使用して単語解析が行なわ
れ、その出力を単語解析結果ファイル40に出力する。
【0004】次に、日本文原文文書ファイル10が単語
解析システムに入力され、解析の結果を単語解析結果フ
ァイル40に出力する一連の流れについて説明する。
【0005】文節設定処理部11は、日本文原文文書フ
ァイル10から入力された日本文文字列に対し、字種の
変化点に文節境界を設定する。単語候補抽出処理部12
は、文節毎の単語について日本語単語辞書20より単語
候補を網羅的に抽出する。単語列接続処理部13は、単
語の位置的な関係や文法接続辞書30を検索して得る文
法的な接続条件を用いて、文節を形成し得る単語列の候
補を作成する。単語列認定処理部14は、単語列候補か
ら単語の出現頻度等を用いて妥当な単語列を認定して単
語解析結果ファイル40に出力する。
【0006】図6は従来の単語解析方式を説明するため
の図を示す。
【0007】最初に同図(A)の例について説明する。 まず、同図(A)の「その日本人が出席した。」とい
う文が日本文原文文書ファイル10より入力される。 文節設定処理部11はで入力された文章を「その/
日本人が/出席した。」と文節境界を機械的に設定する
(同図の“/”は文節境界を示す)。 の文節毎の単語について抽出する。の文節を各単
語に分けると、「その」(連体詞)、「日本」(固有名
詞)、「人」(接尾辞)、「が」(格助詞)、「出席」
(サ変型名詞)、「し」(サ変動詞)、「た」(助動
詞)、「。」(句点)となる。 この時の読みは「ソノ ニホンジンガ シュッセキ
シタ」となる。
【0008】次に、(B)の例について説明する。 日本文原文文書ファイル10より同図(B)の「そこ
に間に合うことが、」という文が入力される。 文節設定処理部11はで入力された文章を「そこに
/間に/合うことが、/」と文節境界を設定する。 単語候補抽出処理部12は日本語単語辞書20により
の文節毎の単語について抽出する。単語列接続処理部
13は、さらに文法接続辞書30を用いて、の文節を
格単語に分けると、「そこ」(代名詞)、「に」(格助
詞)、「間」(名詞)、「に」(格助詞)「合」(動
詞)、「う」(活用語尾)、「こと」(形式名詞)、
「が」(格助詞)、「、」(読点)となる。 単語列認定処理部14は妥当な単語列を認定して単語
解析結果ファイル40に出力する。この時の読みは、
「ソコ ニ アイダ ニ ア ウ コト ガ」となる。
【0009】
【発明が解決しようとする課題】しかしながら、図6の
(A)の例は、本来「その日/本人が/出席した」とい
う文節境界となるものである。読みは、「ソノヒ ホン
ニンガ シュッセキシタ」となり、図6(A)及び
(B)において、本来の単語解析結果は、のようにな
る。
【0010】このように、従来の方式の場合には、文節
設定処理部11で日本文原文文書ファイル10より入力
された日本文文字列に対して字種変化点で文節境界を機
械的に設定しており、「その」と「日本」あるいは、
「間に」と「合う」との間に文節境界を設定されてしま
う。単語抽出は、この文節境界の間で行われるので、本
来認定されるべき単語列候補として図6のに示す「そ
の日」、「本人」や「間に合」が認定されない。
【0011】このように、従来の形態素解析は、文節境
界を予め機械的に設定するので、文節境界を越える単語
候補を含む単語列候補が抽出されず、単語認定の精度が
低下するという問題がある。
【0012】本発明は、上記の点に鑑みなされたもの
で、単語の認定精度(形態素解析の精度)を向上させる
ことができる日本文単語解析方式を提供することを目的
とする。
【0013】
【課題を解決するための手段】本発明は、各単語毎に、
見出し、読み、文法情報、単語の属性情報を有する日本
語単語辞書と、単語間の文法的な接続条件を有する文法
接続辞書と、入力された日本文文字列の字種の変化点に
本文節境界を設定する文節設定手段と、各文節毎に日本
語単語辞書を用いて取り得る単語と、これに付随する言
語情報を網羅的に抽出する単語候補抽出手段と、抽出さ
れた単語群について単語の位置的な接続関係や、文法接
続辞書から抽出する文法的な接続条件を用いて文節を形
成し得る単語列の候補を作成する単語列接続手段とを含
む日本文原文文書ファイルに対する日本文の形態素解析
処理において、日本文文字列の字種の変化を有する混ぜ
書き語について単語毎に見出し、読み、文法情報、単語
の属性情報と字種変化点の文字列を有する日本語混ぜ書
き語辞書と、日本語混ぜ書き語辞書から字種変化点の文
字列を含む混ぜ書き語が抽出された場合に、文節境界を
仮文節境界として次の文節境界まで単語候補抽出を行い
単語候補を補充する単語候補補充手段と、単語列接続手
段により作成された各々の単語列候補の中で仮文節境界
に跨がる単語がない場合で且つ、直前の単語の品詞が連
体詞でない場合に該仮文節境界を本文節境界に変更し、
仮文節境界に跨がる単語があり且つ、直前の単語の品詞
が時詞や副詞の場合には時詞や該副詞の直後に該本文節
境界を設定し、仮文節境界を全て抹消することにより文
節境界を判定する文節境界判定手段と、共通の本文節境
界の間で単語の出現頻度を用いて単語列候補の優先順位
を決定する単語列判定手段とを有する。
【0014】
【作用】本発明は、字種の変化がある混ぜ書き語につい
て、字種変化点における文字列を持つ日本語混ぜ書き語
辞書を用いて、文節境界の字種変化点の文字列を含む混
ぜ書き語が抽出された場合に、文節境界を[仮文節境
界]として、次の文節境界まで単語候補抽出を行い、作
成された全ての単語列候補の内容によって、[仮文節境
界]を[本文節境界]に変更したり、[本文節境界]を
新規に設定したり、[仮文節境界]を抹消したりして、
文節境界を判定することにより、文節境界を越える混ぜ
書き語の認定を検定しながら、文法的に可能な単語列候
補を全て抽出して、これらの共通の本文節境界間で単語
の出現頻度により単語列候補に優先度を付与して出力す
るので、文章中において、出現頻度が低く当該文章にあ
まり関連のない単語の優先度を低くすることから、有効
な単語列認定を行うことができる。これにより、単語の
認定精度(形態素解析の精度)を向上させることができ
る。
【0015】
【実施例】図1は本発明の単語解析方式の機能ブロック
図を示す。同図中、図5と同一構成部分には同一符号を
付し、その説明を省略する。従来の図5の構成に付加さ
れた辞書として、日本語混ぜ書き語辞書100がある。
日本語混ぜ書き語辞書100は、字種の変化を有する混
ぜ書き語について単語毎に見出し、読み、文法情報、単
語の属性情報と字種変化点の文字列が蓄積されている。
さらに、図5の構成に付加された処理部として、単語候
補補充処理部110、文節境界判定処理部120及び、
単語列判定処理部130がある。
【0016】単語候補補充処理部110は、日本文原文
文書ファイル10から入力された日本文文字列に対し、
文節境界の字種変化点の文字列を含む混ぜ書き語が日本
語混ぜ書き語辞書100から抽出された場合に、文節境
界を[仮文節境界]として、次の文節境界まで単語候補
抽出を行い、単語候補を補充する。
【0017】さらに、文節境界判定処理部120は、作
成された各々の単語列候補について、[仮文節境界]に
跨がる単語を持たない場合で、且つ直前の単語の品詞が
連体詞でない場合に、[仮文節境界]を[本文節境界]
に変更し、一方、[仮文節境界]に跨がる単語を有する
場合で、且つ直前の単語の品詞が時詞や副詞の場合に
は、時詞や副詞の直後に[本文節境界]を設定し、[仮
文節境界]を全て抹消することにより文節境界を判定す
る。
【0018】最後に、単語列判定処理部130は、共通
の[本文節境界]の間で単語の出現頻度等を用いて単語
列候補の優先順位を決定して、単語解析結果ファイル4
0に出力する。
【0019】図2は、本発明の日本語混ぜ書き語辞書1
00の構成例を示す。日本語混ぜ書き語辞書100の項
目は、見出し101、読み、品詞、変化点文字102、
単語情報等が登録されている。
【0020】同図の例では、混ぜ書き語の見出し101
「その日」では、字種の変化点102の文字は「の
日」、混ぜ書き語「間に合」では字種の変化点の文字は
「に合」である。このように混ぜ書き語辞書100よ
り、日本文文字列の字種の変化点の文字と一致し、さら
に見出しが日本文文字列に含まれる場合に混ぜ書き語が
抽出される。
【0021】図3は本発明の第1の実施例の単語解析処
理を示す。 ステップ1; まず、「その日本人が出席した。」とい
う日本文文字列200が日本文原文文書ファイル10よ
り入力されると、文節設定処理部11は入力された日本
文文字列200の字種の変化点に[本文節境界]201
を設定する。この結果、「その」と「日本人」の間に
[本文節境界]201が設定される。
【0022】ステップ2: 単語候補抽出処理部12と
単語候補補充処理部110により「その」と「日本人」
間の[本文節境界]201bを跨いで文字列が一致する
混ぜ書き語「その日」が日本語混ぜ書き語辞書100よ
り抽出される。これにより文節境界を[仮文節境界]2
03に変更した後、次の[本文節境界](「出席」の直
前)までの単語候補抽出処理部12の処理を継続する。
【0023】ステップ3; 単語列接続処理部13によ
り「その」から「が」までで抽出された単語群について
単語の位置的な接続関係を、文法接続辞書30から抽出
し、文法的な接続条件を用いて文節を形成し得る単語列
の候補を作成する。
【0024】この結果、{「その日」「本人」「が」}
と{「その」「日本」「人」}の2個の単語列候補が作
成される。
【0025】ステップ4; 文節境界判定処理部120
は、ステップ3で作成された各々の単語列候補につい
て、[仮文節境界]に跨がる単語を持たない場合で、直
前の単語の品詞が連体詞でない場合に、[仮文節境界]
を[本文節境界]に変更する。また、[仮文節境界]に
跨がる単語を有する場合で直前の単語の品詞が時詞や副
詞の場合には、時詞や副詞の直後に[本文節境界]を設
定し、[仮文節境界]を全て抹消することにより文節境
界を判定する。
【0026】図2の例では、{「その日」「本人」
「が」}の単語列候補では、「その日」が[仮文節境
界]を跨いでおり、その品詞が時詞であるので、時詞の
後方に[本文節境界]204を新規に設定し、[仮文節
境界]を抹消する。
【0027】また、{「その」「日本」「人」「が」}
の単語列候補では、[仮文節境界]を跨いでいる単語が
なく、その直前の単語の品詞が連体詞であるので、[仮
文節境界]を抹消する。
【0028】ステップ5; 単語列判定処理部130に
より、[本文節境界]の設定が終了した各々の単語列候
補について、共通の[本文節境界]の間で単語の出現頻
度205を用いて単語列候補の優先順位を決定し、優先
順位の高い順に文節情報や単語列認定情報を単語解析結
果ファイル40に出力する。
【0029】図2の例の{「その日」「本人」「が」}
単語列毎の出現回数を、「その日」が2回、「本人」が
3回、「が」が5回とする。この各出現回数10回を単
語数3単語で割ることにより出現頻度が得られる。ま
た、{「その」「日本」「人」「が」}の単語列候補で
は、出現回数を「その」が3回、「日本」が4回、
「人」が4回、「が」が5回であるとする。この出現回
数の合計16回を単語数4単語で割ることにより出現頻
度が4.0となり、{「その日」「本人」「が」}の単
語列より高くなり、優先順位1となる。
【0030】この優先順位の高い順に文節情報や単語列
認定情報を単語解析結果ファイル40に出力する。従っ
て、{「その」「日本」「人」「が」}を先に出力し、
続いて{「その日」「本人」「が」}が出力される。
【0031】このように、単語列候補を網羅的に抽出で
き、さらに、その優先度を付与して出力するので、有効
な単語列認定を行うことができ、これにより単語の認定
精度を向上させることができる。
【0032】図4は本発明の第2の実施例の単語解析処
理を示す。 ステップ11; 日本文文字列200が日本文原文文書
ファイル10より入力されると、単語候補抽出処理部1
2により[本文節境界]201を設定する。この結果
「二週間に」と「合計量が」の間に[本文節境界]20
1fが設定される。また、「合計量が」と「間に」の間
に[本文節境界]201gが設定され、「間に」と「合
う」の間に[本文節境界]201hが設定される。
【0033】ステップ12; 「週間に」と「合計量」
の箇所と、「間に」と「合う」の箇所においてこれらの
間の[本文節境界]を跨いで文字列が一致する混ぜ書き
語「間に合」が日本語混ぜ書き語辞書100より抽出さ
れるので、この文節境界201f,201gを[仮文節
境界]203に変更した後、次の[本文節境界]まで単
語候補抽出処理を継続する。
【0034】ステップ13; ステップ12で抽出され
た単語群について単語の位置的な接続関係を文法接続辞
書30から抽出し、文法的な接続条件を用いて文節を形
成し得る単語列の候補を作成する。この結果、「間に
合」(動詞語幹)と「計量」(名詞)とは文法的に接続
ができないので、作成された単語列候補は、「二」「週
間」「に」「合計」「量」「が」のみとなる。同図にx
で示す部分は、文法接続辞書30を参照した結果、文法
的に接続が失敗したところである。
【0035】また、「間に合」(動詞語幹)と「う」
(活用語尾)とは、文法的に接続が可能なので、{「間
に合」「う」「。」}と{「間」「に」「合」
「う」「。」}の2個の単語列候補が作成される。
【0036】ステップ14; ステップ13で作成され
た各々の単語列候補は、[仮文節境界]に跨がる単語を
持たないため、「に」と「合計」の間の文節境界を[本
文節境界]204に変更する。
【0037】ステップ15; [本文節境界]の設定が
終了した各々の単語列候補について、共通の[本文節境
界]の間で単語列の判定を行い、優先順位の高い順に文
節情報や単語列認定情報を単語解析結果ファイル40に
出力する。
【0038】この例の場合は、{「間に合」
「う」「。」}は3+3+5で出現回数は11回である
とすると、これを単語数3単語で除算すると、出現頻度
は3.7となる。{「間に」「合う。」}は、2+5+
3+3+5で出現回数が合計18回であるとすると、こ
れを単語数5単語で除算すると、出現頻度は3.6とな
る。従って、単語列{「間に合」「う」「。」}のほう
が優先順位が高く、先に出力される。
【0039】このように、文節境界を跨ぐ混ぜ書き語
「間に合」が存在する2つの事例において、文法的に接
続不可であり、不要な単語列候補については、それを排
除しているので、文法的に接続が可能な単語列候補を網
羅的に抽出して有効な単語列認定を行うことができ、こ
れにより、単語の認定精度(形態素解析の精度)を向上
させることができる。
【0040】このように、字種の変化を有する混ぜ書き
語について字種変化点の文字列を有する日本語混ぜ書き
語辞書を有し、文節境界の字種変化点の文字列を含む混
ぜ書き語が抽出された場合に、文節境界を[仮文節境
界]として、次の文節境界まで単語候補抽出を行い、作
成された全ての単語列候補の内容によって、[仮文節境
界]を[本文節境界]に変更したり、[本文節境界]を
新規に設定したり、[仮文節境界]を抹消したりして、
文節境界の判定を行うため、単語列候補を網羅的に抽出
できる。
【0041】さらに、単語列候補に優先度を付与して、
単語列候補を出力するため、有効な単語列認定を行うこ
とができる。
【0042】
【発明の効果】上述のように、本発明によれば、文節境
界を越える混ぜ書き語の認定の可能性を検定しながら、
文法的に可能な単語列候補を全て抽出して、単語列候補
に優先度を付与することにより、単語の認定精度を向上
させることができる。
【図面の簡単な説明】
【図1】本発明の単語解析方式の機能ブロック図であ
る。
【図2】本発明の日本語混ぜ書き語辞書の構成を示す図
である。
【図3】本発明の第1の実施例の単語解析処理を説明す
るための図である。
【図4】本発明の第2の実施例の単語解析処理を説明す
るための図である。
【図5】従来の単語解析方式の機能ブロック構成図であ
る。
【図6】従来の単語解析方法を説明するための図であ
る。
【符号の説明】
10 日本文原文文書ファイル 11 文節設定処理部 12 単語候補抽出処理部 13 単語候補補充処理部 20 日本語単語辞書 30 文法接続辞書 40 単語解析結果ファイル 100 日本語混ぜ書き語辞書 101 見出し 102 変化点文字 110 単語候補補充処理部 120 文節境界判定処理部 130 単語列判定処理部 201 本文節境界 202 抽出された混ぜ書き語 203 仮文節境界 204 新規に設定された本文節境界 205 各単語の出現頻度 x 文法的接続が失敗した箇所

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 各単語毎に、見出し、読み、文法情報、
    単語の属性情報を有する日本語単語辞書と、該単語間の
    文法的な接続条件を有する文法接続辞書と、入力された
    日本文文字列の字種の変化点に本文節境界を設定する文
    節設定手段と、各文節毎に該日本語単語辞書を用いて取
    り得る単語とこれに付随する言語情報を網羅的に抽出す
    る単語候補抽出手段と、抽出された単語群について単語
    の位置的な接続関係や、該文法接続辞書から抽出する文
    法的な接続条件を用いて文節を形成し得る単語列の候補
    を作成する単語列接続手段とを含む日本文原文文書ファ
    イルに対する日本文の形態素解析処理において、 前記日本文文字列の字種の変化を有する混ぜ書き語につ
    いて単語毎に見出し、読み、文法情報、単語の属性情報
    と字種変化点の文字列を有する日本語混ぜ書き語辞書
    と、 該日本語混ぜ書き語辞書から該字種変化点の文字列を含
    む混ぜ書き語が抽出された場合に、文節境界を仮文節境
    界として次の文節境界まで単語候補抽出を行い単語候補
    を補充する単語候補補充手段と、 前記単語列接続手段により作成された各々の単語列候補
    の中でを該仮文節境界に跨がる単語がない場合で且つ、
    直前の単語の品詞が連体詞でない場合に該仮文節境界を
    本文節境界に変更し、該仮文節境界に跨がる単語があり
    且つ、該直前の単語の品詞が時詞や副詞の場合には該時
    詞や該副詞の直後に該本文節境界を設定し、仮文節境界
    を全て抹消することにより文節境界を判定する文節境界
    判定手段と、 共通の本文節境界の間で単語の出現頻度を用いて単語列
    候補の優先順位を決定する単語列判定手段とを有するこ
    とを特徴とする日本文単語解析方式。
JP4050961A 1992-03-09 1992-03-09 日本文単語解析方式 Pending JPH05250403A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4050961A JPH05250403A (ja) 1992-03-09 1992-03-09 日本文単語解析方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4050961A JPH05250403A (ja) 1992-03-09 1992-03-09 日本文単語解析方式

Publications (1)

Publication Number Publication Date
JPH05250403A true JPH05250403A (ja) 1993-09-28

Family

ID=12873416

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4050961A Pending JPH05250403A (ja) 1992-03-09 1992-03-09 日本文単語解析方式

Country Status (1)

Country Link
JP (1) JPH05250403A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009048472A (ja) * 2007-08-21 2009-03-05 Nippon Hoso Kyokai <Nhk> 形態素候補生成装置およびコンピュータプログラム
JP2012514271A (ja) * 2008-12-31 2012-06-21 アリババ グループ ホールディング リミテッド 単語境界マーカーのない言語で記述されたテキストに対して単語列を選択するための方法およびシステム
JP2014238690A (ja) * 2013-06-07 2014-12-18 コニカミノルタ株式会社 操作支援プログラム及び操作支援方法並びに情報処理装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009048472A (ja) * 2007-08-21 2009-03-05 Nippon Hoso Kyokai <Nhk> 形態素候補生成装置およびコンピュータプログラム
JP2012514271A (ja) * 2008-12-31 2012-06-21 アリババ グループ ホールディング リミテッド 単語境界マーカーのない言語で記述されたテキストに対して単語列を選択するための方法およびシステム
JP2014238690A (ja) * 2013-06-07 2014-12-18 コニカミノルタ株式会社 操作支援プログラム及び操作支援方法並びに情報処理装置

Similar Documents

Publication Publication Date Title
Prideaux The syntax of Japanese honorifics
EP0971294A2 (en) Method and apparatus for automated search and retrieval processing
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
US7328404B2 (en) Method for predicting the readings of japanese ideographs
Tapanainen et al. Syntactic analysis of natural language using linguistic rules and corpus-based patterns
Alotaiby et al. Processing large Arabic text corpora: Preliminary analysis and results
Johansson et al. English-Norwegian Parallel Corpus: Manual
JPH05250403A (ja) 日本文単語解析方式
JPS5892063A (ja) イデイオム処理方式
Sukhahuta et al. Information extraction strategies for Thai documents
JPH05224687A (ja) 日本文読み上げ単語変換編集処理方式
Bosch et al. Towards Zulu corpus clean-up, lexicon development and corpus annotation by means of computational morphological analysis
Galicia-Haro Using electronic texts for an annotated corpus building
JP2599973B2 (ja) 日本文訂正候補文字抽出装置
Rodrigues et al. Arabic data science toolkit: An api for arabic language feature extraction
Salim Elsheikh et al. TIMELINE OF THE DEVELOPMENT OF ARABIC POS TAGGERS AND MORPHOLOGICALANALYSERS
JPS61208164A (ja) 日本語文章校正装置の表示方式
JP3233283B2 (ja) 日本文文章解析装置
Modi POS Tagging and Structural Annotation of Handwritten Text Image Corpus of Devnagari Script
JPH05233689A (ja) 文書自動要約方法
Qizi DICTIONARY TYPES AND THEIR MAIN PECULIARITIES
JPS6395573A (ja) 日本語文形態素解析における未知語処理方法
JPH03259376A (ja) 日本語長文分割支援装置
JPH0668070A (ja) 複合語辞書登録装置
Lancioni Automatic extraction of prepositions in a corpus of Modern Standard Arabic written texts