JPH0519184B2 - - Google Patents

Info

Publication number
JPH0519184B2
JPH0519184B2 JP63056507A JP5650788A JPH0519184B2 JP H0519184 B2 JPH0519184 B2 JP H0519184B2 JP 63056507 A JP63056507 A JP 63056507A JP 5650788 A JP5650788 A JP 5650788A JP H0519184 B2 JPH0519184 B2 JP H0519184B2
Authority
JP
Japan
Prior art keywords
dictionary
word
division
words
rules
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63056507A
Other languages
English (en)
Other versions
JPH01234975A (ja
Inventor
Masayuki Morohashi
Shigeki Umeda
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP63056507A priority Critical patent/JPH01234975A/ja
Priority to US07/321,812 priority patent/US5029084A/en
Publication of JPH01234975A publication Critical patent/JPH01234975A/ja
Publication of JPH0519184B2 publication Critical patent/JPH0519184B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 A 産業上の利用分野 この発明は電子化されている日本語文書を単語
に分割する日本語文章分割装置に関し、とくに文
章中に辞書に登録されていない単語が含まれる場
合にも難なく分割を行えるようにしたものであ
る。 この発明の日本語文章分割装置はたとえば以下
のアプリケーシヨンに適用される。 (1) 文献検索システムにおける自動キーワード抽
出 (2) 日本語KWIC(キーワード・イン・コンテク
スト)システムや日本語文書校正支援システム
の主要処理部分 (3) 音声合成機による文章の朗読、読み合わせシ
ステムの文章解析部 (4) 文章のカナ点字への変換システムの文章解析
部 (5) 日本語からの機械翻訳システムや日本語によ
るデータベース検索システムなどの日本語解析
プログラムの前処理部 (6) 日本語の言語現象を解析する基礎研究のため
の解決手段(たとえば、かな漢字変換で必要な
辞書の内容を決定するための語彙調査用単語切
り出しツール) B 従来技術 従来の文章語分割技術には、大別して次の4つ
のタイプがある。 (1) 字種による分割 漢字、カタカナ、ひらがな、などの字種の変
わり目を分割の際の判断に使う。この情報だけ
で84%の正しい分割ができる(坂本「文節の認
定」日本語情報処理シンポジウム1978、7、17
〜20報告集pp105−111情報処理学会)。しかし
通常は、以下の技術の前処理として、あるい
は、以下の技術の一部として利用される。すな
わち、この手法でテキストを大まかに区切つた
のち、区切られた断片をさらに細かく解析す
る。この前処理により、以後の解析の単位が短
くて済むから、処理時間の短縮がはかれる。た
だし、間違つた分割のうち、切るべきでない場
所で切つた場合は後の処理に重大な影響を与え
るため、この種の間違いを防ぐ、あるいは、こ
の種の間違いを後で修正することが行われる。
この手法は、この発明のように細かな解析、分
割を行うものではない。 (2) 単語辞書による分割 現在、発表されているほとんどのシステムが
この方式をとる(長尾他「国語辞書の記憶と日
本語分の自動分割」、情報処理、Vol.19、No.6、
1978年6月)。この方式では、分割精度を上げ
るために、解析するテキストに合わせて辞書の
内容を常時整備すること(主に、新しい語の追
加)と、語の適用の仕方に関するアルゴリズム
の改良に合わせて、常にプログラムを変更する
作業とが要求される。 どちらの作業にしても、辞書とアルゴリズム
とが適用する分野に依存すること、辞書とプロ
グラムとの両方についてメインテナンスが永久
に続くことが最大の欠点である。プログラム変
更の負担をなくすために辞書を何種類も持つて
対処することも行われているが、これは辞書同
士の影響が複雑に絡むために却つてシステムの
メインテナンスを難しくする。 (3) 漢字の性質による分割 日本語において使用される全ての語を辞書に
登録することはほとんど不可能であるが、使用
されるほとんどの漢字を登録することは可能で
あろう。このことに着目して、各漢字の単語内
での使われ方読み方を前後に来る文字との関係
で記述した辞書を使つて分割する技術がある
(高野、荒木、金子、日夏、「日本語キーワード
自動抽出システム(JAKAS)」、第181回情報
科学技術研究集会論文集、pp35−44、1981)。
これによれば、確かに辞書のエントリの数は比
較的少なく抑えられる。しかし、各漢字が持つ
性質は、単語における品詞ほどはつきりしてい
ないために、国語辞典のような言語学の過去の
蓄積がそのまま利用できない。したがつて、こ
の文献で試みられた科学技術文献のタイトル以
外のテキストに対して辞書の情報がうまく働く
かは不明である。 (4) 文字連鎖の統計的情報による分割 上記(3)の方法を統計手法(動的計画法)を用
いて行う技術である(藤崎「動的計画法による
漢字仮名語り文の単位切りと仮名ふり」、情報
処理NL研究、自然言語28−5、1981、11、
20)。各漢字が持つべき情報の付与は、大量の
テキストさえあれば自動的に(確率つきで)行
われるために、辞書のメインテナンスには多く
の人手を割く必要はない。しかしながら、現在
のところ十分な精度に達するために必要とする
大量の電子化されたテキストをいかに集めるか
という問題がある。また、ある精度に達成する
にはどんなテキストをどのくらい集めればよい
か、辞書の精度が上るとどういう誤りが改善さ
れるのかの予測が難しいというメインテナンス
上の欠点を持つている。 C 発明が解決しようとする問題点 この発明は上述の従来の手法の問題点を解消し
た日本語文章分割装置を提供することを目的とし
ている。 D 問題点を解決するための手段 この発明では以上の目的を達成するために、単
語辞書を基本とする分割に未登録単語推定規則を
適用して未登録単語が文章中にあらわれた場合に
対処できるようにしている。 すなわち、基本的には単語辞書を用いて分割を
行つていき、未登録単語に遭遇したときには未登
録単語を含む文字列を種々の態様で暫定的に分割
し、分割した部分文字列を単語辞書の単語にマツ
チングさせ、マツチした部分文字列中の文字の数
に基づいてもつともらしい分割を決定するのであ
る。 具体的な例では、まず基本的に自立語辞書と付
属語の接続表とを用いた最長一致法で語分割を行
なう。最長一致の原則は自立語と付属語列とにつ
いて運用される。自立語と付属語との接続検定手
法は、かな漢字変換で用いられているものをその
まま利用する。辞書にない単語があつたときに
は、その前後にわたり未登録単語推定を含む解析
を行う。この推定は、1つの解析単位について、
そのあらゆる場所から始まる任意長の部分文字列
を単語の候補としてあげ、それらのあらゆる組み
合わせの中から最も高い評価値を与える分割を、
解析結果とするものである。ただし、単語の候補
としてあらゆる場所から始まる任意長の部分文字
列をとるのは無駄であるから(「ん」で始まる語
の候補ありえないなど)、単語を構成する文字の
組合せにあらかじめ制約を設けておく。 最長一致解析、未登録単語推定の解析を行うた
めには、その対策となる解析単位はできるだけ短
かい方がよい。そこで前処理として、入力を字種
により、また付属語列との照合により分割するこ
とにより、解析効率を高めている。 字種による分割は、文字列の字種からみた日本
語の語分割に関する規則(ひらがなから漢字へ変
わるときや、句読点の前後等で語分割がおきる)
により、べた書き日本語文を大まかに分割する。
分割すべきでない場所で分割することを避けるた
めに、最長前後4文字までの字種の情報により分
割するか否かを決定する。 付属語列との照合による分割は、字種により分
割された単位(セグメント)を対象にそこに含ま
れる、付属列を目安にしてさらにこまかく分割を
行う。ここで使用する付属語列は、その直後で確
実に分割ができるものだけに限定して登録されて
いる。(人手でえらび、機械的にチエツクする。) 辞書による最長一致や、未登録語推定を含む解
析で得られた単語は複合語の語基(「冷房完備」
など)、接頭辞(「首相」、「火災」など)、接
尾辞(「最終」、「適用」など)、活用語(「作
る」、「返ない」など)、波性辞(「美し」、「作
れる」など)を独立した単語として扱うので、最
後にこれらを前後の語とまとめて通常の語の単位
あるいは複合語の単位とする複合語合成規則が働
いて最終結果を出力する。 E 実施例 以下この発明の一実施例について図面を参照し
ながら説明しよう。 第1図はこの実施例を全体として示す。第1図
において、この実施例の日本語文章分割装置は入
力部1、第1〜第5処理部2〜6、切換7、出力
部8および辞書、表、規則等を記憶する第1〜第
7記憶部9〜15からなつている。入力部1は入
力テキストを受け取つて所定の前処理(たとえば
2バイト・ユニフオーム・コードにする)を行
い、これを後段に供給する。後段の第1〜第5処
理部2〜6はそれぞれ以下の処理を行う。これら
についてはのちに詳述する。 (1) 第1処理部2…字種による分割 (2) 第2処理部3…付属語列による分割 (3) 第3処理部4…自立語辞書、付属語表による
分割 (4) 第4処理部5…未登録単語推定規則を加味し
た再分割 (5) 第5処理部6…複合語合成規則による調整 これら第1〜第5処理部2〜6において第1〜
第7記憶部9〜15が用いられる。第1〜第7記
憶部9〜15のデータの内容は第1図の対応する
ブロツク内に示すとおりである。 第1〜第5処理部2〜6で分割して得た単語は
出力部16を介して出力される。 以下、第1〜第5処理部2〜6における処理を
順に説明していく。 E1 字種による分割(第1処理部2) 第2図は第1処理部2の処理を詳細に示す。
第2図において第1記憶部9には字種定義デー
タおよび分割判定規則がストアされている。字
種定義データは機械可読なすべての文字につい
て字種を定義するものである。字種は表1に示
すとおりであり、以下では記号を用いてそれを
表わすことにする。 なおこの例では解析を厳密にするために通常
用いられる字種に加え、特殊な字種も用意され
ている。 表1 字種コード A:アルフアベツト、西洋文字 例:A、a、α等 N:数字 例:2、四、等 K:カタカナ 例:カ、ヴ、ア等 H:ひらがな 例:あ、ば、あ等 J:漢字 例:感、町、〆等 I:特殊文字1(この文字1つで語になるもの) 例:★、/、÷等 S:特殊文字2(この文字1つ、あるいは同じ
文字が続く限りで1つの語となるもの) 例:=、*等 D:特殊文字3(文脈に依存して処理の変わる
もの。多義文字) 例:(小数点、ピリオド)、−(マイナス、ハイ
フン)等 B:空白文字 L:行末を示す特別な文字 空白:初期状態、あるいはEOD(end−of−
data)を示す特別な文字 分割判定規則は第1〜第4のレジスタREG
1〜REG4からなるシフトレジスタ16(第
3図)を用いて実行される。なお第2図で破線
は入力テキストの流れおよび入力テキストへの
処理を示す。分割判定規則は継続する2つの文
字の文字種に基づいて所定のアクシヨンを実行
するものである。これを直感的に示せば、<前
の文字の文字種><後の文字の文字種>→<ア
クシヨン>ということになる。この規則は表2
のとおりである。表2においてたとえばひらが
なのつぎにカタカナがくると、<H><K>→
<X>となる。すなわちレジスタREG2の分割
クラブをオンにして、そこに分割点を挿入す
る。 第2図の処理ではまず入力されてくる1つの
文字とその文字種とをレジスタREG1に転送
する(ステツプS11)。この際字種定義データ
を参照する。こののちレジスタREG1,REG
2の文字種パターンに基づいて分割判定規則を
探索し(ステツプS12)、対応するアクシヨン
を決定し、そして決定したアクシヨンを実行し
てレジスタREG1〜REG4の内容を修正する
(ステツプS13)。こののちレジスタREG1〜
REG4が空かどうかを判別し(ステツプS14)、
空であれば処理を終了させ、空でなければ再実
行する。以上のようにして分割フラグ、廃棄フ
ラグが付与され、分割実行部17で分割が実行
される。この分割結果の単位をセグメントと呼
ぶ。 第4図に一例として「ソ連のミサイル攻撃の
0.5秒前…」の分割の様子を示す。 【表】 ただし U:レジスタREG1の内容を廃棄(廃棄フラ
グをオン) V:レジスタREG2とレジスタREG1の分割
フラグオン W:レジスタREG1の廃棄、分割フラグオン X:レジスタREG2の分割フラグオン Z:なにもしない 1:レジスタREG2の文字=レジスタREG1
の文字ならばZ、そうでなければXを行う。 2:レジスタREG3の字種≠レジスタREG2
の字種ならばZ、そうでなければXを行う 3:レジスタREG3とレジスタREG2の文字
=「まつ」ならばZ、そうでなければXを行
う 4:レジスタREG3〜レジスタREG1の字種
が「NDN」ならばZ、そうでなければX 5:レジスタREG3〜レジスタREG1の字種
が「ADA」ならばZ、そうでなければX E2 付属語列による分割(第2処理部3) 第2処理部3は第1処理部2において字種
に基づいて入力テキストを分割して得たセグ
メントを表3の付属語列表に基づいてさらに
分割するものである。ここでの分割結果はク
ローズと呼ばれる。表3の付属語列表は第2
記憶部10(第1図)に記憶されている。こ
の分割では入力文字列に対し表3の付属語列
の文字パターン照合を行い、一致した部分の
直後の分割を行う。 たとえば、セグメント:「文献検索におい
て索引後等の二次情報を自動付与することは
情報提供の迅速化を図ることになろうが」は
下線の部分で付属語列と一致し、この結果、
「文献検索において」、「索引語等の二次情報」
を、「自動付与することは情報提供の迅速化
を」、「図ることになろう」および「が」のク
ローズが生成される。表3 付属語列表 を および からすれば かどうか なつた なつて なかつた なければならない なければ にあつて において にとつて によつて にわたつて にわたり ることになろう るだろう であつた であろう 表3の付属語列は以下のようにして作成でき
る。(第5図)。 分割に利用する付属語列は、経済性(しばし
ばテキスト中に現れること)と正確性(間違つ
た切り方を誘発しないこと)の両方を兼ね備え
ていなければならない。経済性の条件を満たす
ために、付属語列頻度表等の語彙調査結果や、
実際の新聞記事等の生データから繁出する付属
語列をその候補として選ぶ(ステツプS21)。
次に、これらが正確性の条件を満足するか否か
の判断(ステツプS22)に以下の手順を用い
る。 (1) 各候補について付属語の接続解析を行い
(この解析は、第3処理部4で用いる接続検
定ルーチンをそのまま利用する)、文節の切
目となりうる場所を見つける。この場所は、
自立語の始まりとも見做せる。 例:が・でき・て す・る・こと・に・なろう (2) 分割された断片のうち、右端の文字列が文
字以下ならば、付属語列表に採用しない
(「つ」で始まる文字列や「を」を除く)。2
文字以内のひらがな文字列は、ひらがな書き
の自立語となる可能性が非常に高いことが採
用しない理由である。 例:上記例の「が・でき・て」の右端文字列
「て」はこの条件に当てはまるから、採用
されない。 (3) 3文字以上の場合は、原則として採用す
る。ただし、それがひらがな書きされうる自
立語の書出しと一致しないようにチエツクす
る必要がある。 例:(1)の例「す・る・こと・に・なろう」の
右端文字列「なろう」は「なろう…」とい
う自立語が存在しないから付属語列表に採
用できる。 (4) 付属語列全体が自立語の書出しと一致しな
いようチエツクする。 例:「(な)かつた」は「か・つた」と解析で
き上記(1)〜(3)を満足するが、自立語「かつ
たるい」の書出しと一致するので表に採用
できない。 (1)〜(4)で集めた付属語列に対し、最後に効
率上の観点から次のチエツクを行う。 (5) 集められた付属語列中の任意の2つの付属
語列a、b(aの長さl(a)≦bの長さl(b)に
おいて、bの右側l(a)文字分がaと同じなら
ば、bを表から削る(a=「なろう」、b=
「になろう」がこの場合にあたる)。 この操作が必要な理由は、bがテキストを分
割するのに使われるならば、必ずaも使うこと
ができ、かつ、同じ場所でテキストを分割する
ため、bは不必要であることによる。 この操作を効率よく行うために、付属語列は
まず左右逆に並べる(「なろう」→「ろうな」)。
これらをコードの昇順にソートし、上から順に
一致をチエツクすれば、すべての2つの付属語
列を調べる必要はなくなる。 E3 自立語辞書と付属語表とを用いた最長一致
法による分割 第2処理部3における付属語列表との照合に
よる分割を経た処理単位(クローズ)をここで
はさらに分割する。クローズは文節の連続する
ものと考える。文節には3つの型がある。 型1:自立語と付属語列とからなるもの 型2:自立語だけからなるもの(動詞の語幹だ
けからなるものは除く) 型3:付属語列だけからなるもの 自立語とは、解析辞書にある語が基本である
が、この他に漢字、ひらがな以外の字種による
同一字種な並びも自立語と考える(「bigな配
当」における「big」。 付属語表としては、たとえば大河内の分類に
よる96種の自立語付属語の品詞について接続し
うる関係を定義した表(情報処理学会論文誌、
Vol.24、No.4、pp389−396)を用いることが
できる。 最長一致による分割は周知であり、詳細な説
明は省略する。要するに最長一致法は文節が最
長となるように自立語に付属語を接続させてい
くものである。 最長一致法による分割の例を第6図に示す。 例にあげたクローズの左端の文字で始まる文
節「手」、「手紙」、「手紙と」、「手紙とは」がま
ず、見つかる。最長一致の原則により、「手紙
とは」を第一文節として分割が進む(a)。つぎ
に、「が」から始まる文字列に対し文節を探す。
接続詞「が」が文節として見つかる(b)。続いて
「き」から始まる文字列に対して文節を探すが、
見つからない(c)。バツクトラツクにより左端文
節にまで戻つた後、「手紙と」が新たに文節と
して選ばれ分割を再開する(b)。以後は見つけた
文節のうち最長のものを選ぶことで処理は右端
へ到達する(d、e、f)。その結果、望まし
い分割「手紙と|はがきを」が得られる。 E4 未登録単語推定機能を加味した分割 辞書にない単語(未登録単語)が含まれるた
めに第3処理部4で分割に失敗したクローズに
対してのみここでは処理を行う。第3処理部4
は第7図に示すように大きく分けて、全分割候
補引きあて部18と分割候補評価部19の2つ
からなる。全分割候補引きあて部18では、自
立語辞書、接辞接続規則を含む接辞表、付属語
表、登録単語推定規則により全ての分割候補を
みつける。 接辞表は、接頭語、接尾語について隣接する
自立語との接続条件、品詞コードをもたせたも
ので自立語辞書と同一の構造をもつものであ
る。接辞には、一般語用、数字用、固有名詞用
の3種類があり、それぞれ該当する名詞に接続
する。クローズ中の全部分文字列を未登録単語
とみなしても次の評価部19は正しく働くが、
効率上の点から未登録単語の数を減らすために
未登録単語推定規則を導入する。未登録単語推
定規則は、「漢字やひらがなから成る自立語」
の文字パターンを記述したもので、英語を想定
した規則とひらがなから成る自立語(和語)を
想定した規則とがある。これを表4に示す。 【表】

Claims (1)

  1. 【特許請求の範囲】 1 定義、複数の規則、複数の表及び単語の情報
    を記憶する辞書と、入力された日本語文章を、前
    記辞書の定義及び第1の規則を参照して文字列に
    分割し、さらにこの文字列を前記辞書の第1の表
    を参照して句に分割し、さらにこの句を前記辞書
    の前記単語及び第2の表を参照して文節に分割す
    る第1の文章分割手段と、 この第1の文章分割手段が前記辞書に登録され
    ていない単語に遭遇したときに、これを検出する
    手段と、 前記入力された日本語文章が前記辞書に登録さ
    れていない単語を少なくとも1個含むときに、前
    記検出手段の検出に応じて、前記辞書に記憶され
    ている未登録単語推定規則のもと前記入力された
    日本語文章を1または複数の態様で部分文字列に
    分割する暫定分割手段と、 前記分割の態様の各々について、前記部分文字
    列の各々を前記辞書の所定の単語、表及び規則と
    マツチングさせる手段と、 前記分割の態様の各々について、前記辞書の前
    記所定の単語、表及び規則と正しくマツチングし
    た前記部分文字列に含まれる文字の総数を求め、
    この総数が多いほど当該分割の態様に対する評価
    点数が大きくなるように評価する評価手段と、 この評価手段が最も高く評価した態様で、前記
    日本語文章を分割する第2の分割手段とを備えて
    いることを特徴とする日本語文章分割装置。 2 前記評価手段は、前記分割の態様の各々につ
    いて、前記部分文字列の価数を求め、この個数が
    少ないほど当該分割の態様に対する評価点数が大
    きくなるように評価する特許請求の範囲第1項記
    載の日本語文章分割装置。
JP63056507A 1988-03-11 1988-03-11 日本語文章分割装置 Granted JPH01234975A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP63056507A JPH01234975A (ja) 1988-03-11 1988-03-11 日本語文章分割装置
US07/321,812 US5029084A (en) 1988-03-11 1989-03-10 Japanese language sentence dividing method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63056507A JPH01234975A (ja) 1988-03-11 1988-03-11 日本語文章分割装置

Publications (2)

Publication Number Publication Date
JPH01234975A JPH01234975A (ja) 1989-09-20
JPH0519184B2 true JPH0519184B2 (ja) 1993-03-16

Family

ID=13029039

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63056507A Granted JPH01234975A (ja) 1988-03-11 1988-03-11 日本語文章分割装置

Country Status (2)

Country Link
US (1) US5029084A (ja)
JP (1) JPH01234975A (ja)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5111465A (en) * 1989-06-30 1992-05-05 Digital Equipment Corporation Data integrity features for a sort accelerator
DE4135261C1 (ja) * 1991-10-25 1993-03-18 International Business Machines Corp., Armonk, N.Y., Us
JPH05216389A (ja) * 1992-02-03 1993-08-27 Matsushita Electric Ind Co Ltd 学習装置
US5867812A (en) * 1992-08-14 1999-02-02 Fujitsu Limited Registration apparatus for compound-word dictionary
JP2965455B2 (ja) * 1994-02-15 1999-10-18 富士ゼロックス株式会社 言語情報提供装置
JPH08329105A (ja) * 1995-05-31 1996-12-13 Canon Inc 文書処理方法及びその装置
US5806021A (en) * 1995-10-30 1998-09-08 International Business Machines Corporation Automatic segmentation of continuous text using statistical approaches
JP2973944B2 (ja) * 1996-06-26 1999-11-08 富士ゼロックス株式会社 文書処理装置および文書処理方法
WO1998008169A1 (en) * 1996-08-22 1998-02-26 Lernout & Hauspie Speech Products N.V. Method and apparatus for breaking words in a stream of text
US6351726B1 (en) * 1996-12-02 2002-02-26 Microsoft Corporation Method and system for unambiguously inputting multi-byte characters into a computer from a braille input device
JPH1153384A (ja) 1997-08-05 1999-02-26 Mitsubishi Electric Corp キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体
JP3272288B2 (ja) * 1997-12-24 2002-04-08 日本アイ・ビー・エム株式会社 機械翻訳装置および機械翻訳方法
US6694055B2 (en) 1998-07-15 2004-02-17 Microsoft Corporation Proper name identification in chinese
US6185524B1 (en) 1998-12-31 2001-02-06 Lernout & Hauspie Speech Products N.V. Method and apparatus for automatic identification of word boundaries in continuous text and computation of word boundary scores
JP3539479B2 (ja) * 1999-03-11 2004-07-07 シャープ株式会社 翻訳装置及び翻訳方法並びに翻訳プログラムを記録した記録媒体
US6968308B1 (en) * 1999-11-17 2005-11-22 Microsoft Corporation Method for segmenting non-segmented text using syntactic parse
US6678409B1 (en) * 2000-01-14 2004-01-13 Microsoft Corporation Parameterized word segmentation of unsegmented text
SE519636C2 (sv) * 2000-07-06 2003-03-25 Hapax Information Systems Ab Förfarande och anordning för analys av sammansatta ord
US7158930B2 (en) * 2002-08-15 2007-01-02 Microsoft Corporation Method and apparatus for expanding dictionaries during parsing
US8818793B1 (en) 2002-12-24 2014-08-26 At&T Intellectual Property Ii, L.P. System and method of extracting clauses for spoken language understanding
US8849648B1 (en) 2002-12-24 2014-09-30 At&T Intellectual Property Ii, L.P. System and method of extracting clauses for spoken language understanding
US7941311B2 (en) * 2003-10-22 2011-05-10 Microsoft Corporation System and method for linguistic collation
US7424421B2 (en) * 2004-03-03 2008-09-09 Microsoft Corporation Word collection method and system for use in word-breaking
US7783476B2 (en) * 2004-05-05 2010-08-24 Microsoft Corporation Word extraction method and system for use in word-breaking using statistical information
JP4018668B2 (ja) * 2004-05-28 2007-12-05 株式会社東芝 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム
US8041557B2 (en) * 2005-02-24 2011-10-18 Fuji Xerox Co., Ltd. Word translation device, translation method, and computer readable medium
JP4769031B2 (ja) * 2005-06-24 2011-09-07 マイクロソフト コーポレーション 言語モデルを作成する方法、かな漢字変換方法、その装置、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体
JP4236057B2 (ja) * 2006-03-24 2009-03-11 インターナショナル・ビジネス・マシーンズ・コーポレーション 新たな複合語を抽出するシステム
US9575953B2 (en) * 2006-09-07 2017-02-21 Nec Corporation Natural-language processing system and dictionary registration system
JP4446313B2 (ja) * 2006-12-15 2010-04-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理用の辞書に登録するべき新規語句を検索する技術
CN102369524B (zh) * 2009-03-30 2014-08-13 日本电气株式会社 语言分析装置和语言分析方法
CN102479191B (zh) 2010-11-22 2014-03-26 阿里巴巴集团控股有限公司 提供多粒度分词结果的方法及其装置
CN103425691B (zh) 2012-05-22 2016-12-14 阿里巴巴集团控股有限公司 一种搜索方法和系统
CN109791572A (zh) * 2017-02-07 2019-05-21 松下知识产权经营株式会社 翻译装置以及翻译方法
CN111310452A (zh) * 2018-12-12 2020-06-19 北京京东尚科信息技术有限公司 一种分词方法和装置
CN114386407B (zh) * 2021-12-23 2023-04-11 北京金堤科技有限公司 文本的分词方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5840684A (ja) * 1981-09-04 1983-03-09 Hitachi Ltd 自然言語間の自動翻訳方式
JPS58201175A (ja) * 1982-05-20 1983-11-22 Kokusai Denshin Denwa Co Ltd <Kdd> 機械翻訳方式
JPS62163173A (ja) * 1986-01-14 1987-07-18 Toshiba Corp 機械翻訳方法
US4864502A (en) * 1987-10-07 1989-09-05 Houghton Mifflin Company Sentence analyzer

Also Published As

Publication number Publication date
US5029084A (en) 1991-07-02
JPH01234975A (ja) 1989-09-20

Similar Documents

Publication Publication Date Title
JPH0519184B2 (ja)
Nie et al. On the use of words and n-grams for Chinese information retrieval
US4868750A (en) Collocational grammar system
US5752051A (en) Language-independent method of generating index terms
US7818165B2 (en) Method and system for language identification
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
JPH10326275A (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
Tufiş et al. DIAC+: A professional diacritics recovering system
Loftsson et al. Tagging a morphologically complex language using an averaged perceptron tagger: The case of Icelandic
Murawaki et al. Online acquisition of Japanese unknown morphemes using morphological constraints
Tambouratzis Automatic corpora-based stemming in Greek
Croft et al. Applications of multilingual text retrieval
Vasiu et al. Enhancing tokenization by embedding romanian language specific morphology
Kranig Evaluation of language identification methods
Saito et al. Multi-language named-entity recognition system based on HMM
Šantić et al. Automatic diacritics restoration in Croatian texts
Yeshambel et al. Evaluation of corpora, resources and tools for Amharic information retrieval
Ahmed et al. Gold dataset for the evaluation of bangla stemmer
Al-Taani et al. Searching concepts and keywords in the Holy Quran
JP4088171B2 (ja) テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体
Nejja et al. Context's impact on the automatic spelling correction
Zitouni et al. Corpus-based Arabic stemming using N-grams
Suriyachay et al. Enhancement of character-level representation in bi-LSTM model for Thai NER
JP2004206659A (ja) 読み情報決定方法及び装置及びプログラム
JPS62249269A (ja) 文書処理装置