JPH01234975A - 日本語文章分割装置 - Google Patents

日本語文章分割装置

Info

Publication number
JPH01234975A
JPH01234975A JP63056507A JP5650788A JPH01234975A JP H01234975 A JPH01234975 A JP H01234975A JP 63056507 A JP63056507 A JP 63056507A JP 5650788 A JP5650788 A JP 5650788A JP H01234975 A JPH01234975 A JP H01234975A
Authority
JP
Japan
Prior art keywords
word
division
dictionary
words
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63056507A
Other languages
English (en)
Other versions
JPH0519184B2 (ja
Inventor
Masayuki Morohashi
諸橋 正幸
Shigeki Umeda
梅田 茂樹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP63056507A priority Critical patent/JPH01234975A/ja
Priority to US07/321,812 priority patent/US5029084A/en
Publication of JPH01234975A publication Critical patent/JPH01234975A/ja
Publication of JPH0519184B2 publication Critical patent/JPH0519184B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 A、産業上の利用分野 この発明は電子化されている日本語文書を単語に分割す
る日本語文章分割装置に関し、とくに文章中に辞書に登
録されていない単語が含まれる場合にも難なく分割を行
えるようにしたものである。
この発明の日本語文章分割装置はたとえば以下のアプリ
ケーションに適用される。
(1)文献検索システムにおける自動キーワード抽出 (2)日本語KWIC(キーワード・イン・コンチクス
ト)システムや日本語文書校正支援システムの主要処理
部分 (3)音声合成機による文章の朗読、読み合わせシステ
ムの文章解析部 (4)文章のカナ点字への変換システムの文章解析部 (5)日本語からの機械翻訳システムや日本語によるデ
ータベース検索システムなどの日本語解析プログラムの
前処理部 (6)日本語の言語現象を解析する基礎研究のための解
析手段(たとえば、かな漢字変換で必要な辞書の内容を
決定するための語當調査用単語切り出しツール) B、従来技術 従来の文章語分割技術には、大別して次の4つのタイプ
がある。
(1)字種による分割 漢字、カタカナ、ひらがな、などの字種の変わり目を分
割の際の判断に使う。この情報だけで84%の正しい分
割ができる(版本「文節の認定」日本語情報処理シンポ
ジウム1978.7.17〜20報告集pρ105−1
11情報処理学会)。
しかし通常は、以下の技術の前処理として、あるいは、
以下の技術の一部として利用される。すなわち、この手
法でテキストを大まかに区切ったのち、区切られた断片
をさらに細かく解析する。この前処理により、以後の解
析の単位が短くて済むから、処理時間の短縮がはかれる
。ただし、間違った分割のうち、切るべきでない場所で
切った場合は後の処理に重大な影響を与えるため、この
種の間違いを防ぐ、あるいは、この種の間違いを後で修
正することが行われる。この手法は、この発明のように
細かな解析、分割を行うものではない。
(2)単語辞書による分割 現在、発表されているほとんどのシステムがこの方式を
とる(長尾他「国語辞書の記憶と日本語文の自動分割」
、情報処理、Vol、19、Nα6.1978年6月)
。この方式では、分割精度を上げるために、解析するテ
キストに合わせて辞書の内容を常時整備すること(主に
、新しい語の追加)と、語の適用の仕方に関するアルゴ
リズムの改良に合わせて、常にプログラムを変更する作
業とが要求される。
どちらの作業にしても、辞書とアルゴリズムとが適用す
る分野に依存すること、辞書とプログラムとの両方につ
いてメインテナンスが永久に続くことが最大の欠点であ
る。プログラム変更の負担をなくすために辞書を何種類
も持って対処することも行われているが、これは辞書同
士の影響が複雑に絡むために却ってシステムのメインテ
ナンスを難しくする。
(3)漢字の性質による分割 日本語において使用される全ての語を辞書に登録するこ
とはほとんど不可能であるが、使用されるほとんどの漢
字を登録することは可能であろう。
このことに着目して、各漢字の単語内での使われ方読み
方を前後に来る文字との関係で記述した辞書を使って分
割する技術がある(高野、見本、金子、口重、「日本語
キーワード自動抽出システム(JAKAS)J 、第1
81回情報料学技術研究集会論文集、pp35−44.
1981)。これによれば、確かに辞書のエントリの数
は比較的少なく抑えられる。しかし、各漢字が持つ性質
は、単語における品詞はどはつきりしていないために。
国語辞典のような言語学の過去の蓄積がそのまま利用で
きない。したがって、この文献で試みられた科学技術文
献のタイトル以外のテキストに対して辞書の情報がうま
く働くかは不明である。
(4)文字連鎖の統計的情報による分割上記(3)の方
法を統計手法(動的計画法)を用いて行う技術である(
藤崎「動的計画法による漢字仮名語り文の単位切りと仮
名ふり」、情報処理NL研究、自然言語28−5.19
81.11.20)。各漢字が持つべき情報の付与は、
大量のテキストさえあれば自動的に(確率つきで)行わ
れるために、辞書のメインテナンスには多くの人手を割
く必要はない。しかしながら、現在のところ十分な精度
に達するために必要とする大量の電子化されたテキスト
をいかに集めるかという問題がある。また、ある精度に
達成するにはどんなテキストをどのくらい集めればよい
か、辞書の精度が上るとどういう誤りが改善されるのか
の予測が難しいというメインテナンス上の欠点を持って
いる。
C0発明が解決しようとする問題点 この発明は上述の従来の手法の問題点を解消した日本語
文章分割装置を提供することを目的としている。
D0問題点を解決するための手段 この発明では以上の目的を達成するために、単語辞書を
基本とする分割に未登録単語推定規則を適用して未登録
単語が文章中にあられれた場合に対処できるようにして
いる。
すなわち、基本的には単語辞書を用いて分割を行ってい
き、未登録単語に遭遇したときには未登録単語を含む文
字列を種々の態様で暫定的に分割し、分割した部分文字
列を単語辞書の単語にマツチングさせ、マツチした部分
文字列中の文字の数に基づいてもつともらしい分割を決
定するのである。
具体的な例では、まず基本的に自立語辞書と付属語の接
続表とを用いた最長一致法で語分割を行なう。最長一致
の原則は自立語と付属語列とについて運用される。自立
語と付属語との接続検定手法は、かな漢字変換で用いら
れているものをそのまま利用する。辞書にない単語があ
ったときには。
その前後にわたり未登録単語推定を含む解析を行う。こ
の推定は、1つの解析単位について、そのあらゆる場所
から始まる任意長の部分文字列を単語の候補としてあげ
、それらのあらゆる組み合わせの中から最も高い評価値
を与える分割を、解析結果とするものである。ただし、
単語の候補としてあらゆる場所から始まる任意長の部分
文字列をとるのは無駄であるから(「ん」で始まる語の
候補ありえないなど)、単語を構成する文字の組合せに
あらかじめ制約を設けておく。
最長一致解析、未登録単語推定の解析を行うためには、
その対策となる解析単位はできるだけ短かい方がよい。
そこで前処理として、入力文を字種により、また付属語
列との照合により分割することにより、解析効率を高め
ている。
字種による分割は、文字列の字種からみた日本語の語分
割に関する規則(ひらがなから漢字へ変わるときや、句
読点の前後等で語分割がおきる)により、べた書き日本
語文を大まかに分割する。
分割すべきでない場所で分割することを避けるために、
最長前後4文字までの字種の情報により分割するか否か
を決定する。
付属語列との照合による分割は、字種により分割された
単位(セグメント)を対象にそこに含まれる、付属列を
目安にしてさらにこまかく分割を行う。ここで使用する
付属語列は、その直後で確実に分割ができるものだけに
限定して登録されている。(人手でえらび、機械的にチ
エツクする。)辞書による最長一致や、未登録語推定を
含む解析で得られた単語は複合語の語基(「冷房完備」
など)、接頭辞(「剪−首相」、「大災害」など)、接
尾辞(「最終孜」、「適用ガ」など)、活用語尾(r伴
奏」、「返襄ない」など)、派生辞(r美し襄」、 「
作ムる」など)を独立した単語として扱うので、最後に
これらを前後の語とまとめて通常の語の単位あるいは複
合語の単位とする複合語合成規則が働いて最終結果を出
力する。
E、実施例 以下この発明の一実施例について図面を参照しながら説
明しよう。
第1図はこの実施例を全体として示す。第1図において
、この実施例の日本語文章分割装置は入力部1、第1〜
第5処理部2〜6、切換部7.出力部8および辞書、表
、規則等を記憶する第1〜第7記憶部9〜15からなっ
ている。入力部1は入力テキストを受は取って所定の前
処理(たとえば2バイト・ユニフォーム・コードにする
)を行い、これを後段に供給する。後段の第1〜第5処
理部2〜6はそれぞれ以下の処理を行う。これらについ
てはのちに詳述する。
(1)第1処理部2・・・・字種による分割(2)第2
処理部3・・・・付属語列による分割(3)第3処理部
4・・・・自立語辞書、付属語表による分割 (4)第4処理部5・・・・未登録単語推定規則を加味
した再分割 (5)第5処理部6・・・・複合語合成規則による調整 これら第1〜第5処理部2〜6において第1〜第7記憶
部9〜15が用いられる。第1〜第7記憶部9〜15の
データの内容は第1図の対応するブロック内に示すとお
りである。
第1〜第5処理部2〜6で分割して得た単語は出力部1
6を介して出力される。
以下、第1〜第5処理部2〜6における処理を順に説明
していく。
El−字種による分割(第1処理部2)第2図は第1処
理部2の処理を詳細に示す。第2図において第1記憶部
9には字種定義データおよび分割判定規則がストアされ
ている。字種定義データは機械可読なすべての文字につ
いて字種を定義するものである。字種は表1に示すとお
りであり、以下では記号を用いてそれを表わすことにす
る。
なおこの例では解析を厳密にするために通常用いられる
字種に加え、特殊な字種も用意されている。
表18字種コード A:アルファベット、西洋文字 例:A、a、α等 N:数字 例=2、四、神等 に:カタカナ 例:力、ヴ、ア等 H:ひらがな 例:あ、ば、あ等 J:漢字 例:感、町、〆等 I:特殊文字】−(この文字1つで語になるもの)例:
★、/、÷等 S:特殊文字2(この文字1つ、あるいは同じ文字が続
く限りで1つの語となるもの)例:=、傘等 D:特殊文字3(文脈に依存して処理の変わるもの。多
義文字) 例: (小数点、ピリオド)、−(マ イナス、ハイフン)等 B:空白文字 L:行末を示す特別な文字 空白:初期状態、あるいはEOD (end−of−data)を示す特別な文字分割判定
規則は第1〜第4のレジスタRE G 1〜REG4か
らなるシフトレジスタ】−6(第3図)を用いて実行さ
れる。なお第2図で破線は入力テキストの流れお、よび
入力テキストへの処理を示す。
分割判定規則は継続する2つの文字の文字種に基づいて
所定のアクションを実行するものである。
これを直感的に示1+′ば、〈前の文字の文字種〉〈後
の文字の文字種〉→〈アクション〉ということになるに
の規則は表2のとおりである。表2においてたとえばひ
らがなのつぎにカタカtがくると、(H><K>→< 
X >となる。ずなわらレジスタRE G 2の分割ク
ラブをオンにして、そ二に分割点を挿入する3 第2図の処理ではまず人力されてくる1つの文字とその
文字種とを]/ジスタREG ]に転送する(ステップ
511)。この際字種定義データを参照する。こののち
レジスタRE G 1、RhO2の文字種パターンに基
づいて分割判定規則を探索しくステップ5L2)、対応
するアクションを決定し、そして決定したアクシ玉ンを
実行してレジスタREGI〜REG4の内容を修正する
(ステップ513)、こののちレジスタREGI〜RE
 G4が空かどうかを判別しくステップ514)、空で
あれば処理を終了させ、空でなければ再実行する。 以
上のようにして分割フラグ、廃棄フラグが付与きれ、分
割実行部]−7で分割が実行される。
この分割結県の単位をセグメントと呼ぶ。
第4図に一例として「ソ連のミサイル攻撃の0゜5秒前
・・・・・」の分割の様子を示す。
表2、字種により決定されるアクション後 前   ANKHJ  I SDB丁7空白N   Z
ZZZZXXXWUV K   XZZX2XXXWUV ただし U:レジスタREGIの内容を廃棄(廃棄フラグをオン
) V:レジスタREG2とレジスタREGIの分割フラグ
オン W:レジスタREGIの廃棄、分割フラグオンX:レジ
スタREG2の分割フラグオンZ:なにもしない 1:レジスタREG2の文字=レジスタREG1の文字
ならばZ、そうでなければXを行う。
2:レジスタREG3の字種≠レジスタREG2の字種
ならば2、そうでなければXを行う 3:レジスタREG3とレジスタREG2の文字=「ま
っ」ならば2、そうでなければXを行う 4:レジスタREG3〜レジスタREGIの字種がrN
DN」ならば2、そうでなければ5:レジスタREG3
〜レジスタREGIの字種がrADAJならばZ、そう
でなければE2 付属語列による分割(第2処理部3)
第2処理部3は第1処理部2において字種に基づいて入
力テキストを分割して得たセグメントを表3の付属語列
表に基づいてさらに分割するものである。ここでの分割
結果はクローズと呼ばれる。
表3の付属語列表は第2記憶部10(第1図)に記憶さ
れている。この分割では入力文字列に対し表3の付属語
列の文字パターン照合を行い、一致した部分の直後の分
割を行う。
たとえば、セグメント: 「文献検索において索引語等
の二次情報(自動付与することは情報提供の迅速化(図
ることになろうが」は下線の部分で付属語列と一致し、
この結果、「文献検索において」、[索引語等の二次情
報を」、「自動付与することは情報提供の迅速化を」、
「図ることになろう」および「が」のクローズが生成さ
れる。
表3.付属語J表 を および からすれば かどうか なった なって なかった なければならない なければ にあって において にとって によって にわたって にわたり ることになろう るだろう であった であろう 表3の付属語列は以下のようにして作成できる。
(第5図)。
分割に利用する付属語列は、経済性(しばしばテキスト
中に現れること)と正確性(間違った切り方を誘発しな
いこと)の両方を兼ね備えていなければならない。経済
性の条件を満たすために、付属語列頻度表等の語當調査
結果や、実際の新聞記事等の生データから繁昌する付属
語列をその候補として選ぶ(ステップ521)。次に、
これらが正確性の条件を満足するか否かの判断(ステッ
プ522)に以下の手順を用いる。
(1)各候補について付属語の接続解析を行い(この解
析は、第3処理部4で用いる接続検定ルーチンをそのま
ま利用する)、文節の切目となりうる場所を見つける。
この場所は、自立語の始まりとも見做せる。
例二 が・でき・て す・る・こと・に・なろう (2)分割された断片のうち、右端の文字列が2文字以
下ならば、付属語列表に採用しない(「つ」で始まる文
字列や「を」を除く)。2文字以内のひらがな文字列は
、ひらがな書きの自立語となる可能性が非常に高いこと
が採用しない理由である。
例: 上記例の「が・でき・て」の右端文字列「て」は
この条件に当てはまるから、採用されない。
(3)3文字以上の場合は、原則として採用する。
ただし、それがひらがな書きされうる自立語の書出しと
一致しないようにチエツクする必要がある。
例= (1)の例「す・る・こと・に・なろう」の右端
文字列「なろう」は「なろう・・・・」という自立語が
存在しないから付属語列表に採用できる。
(4)付属語列全体が自立語の書出しと一致しないよう
チエツクする。
例:「(な)かった」は「か・った」と解析でき上記(
1)〜(3)を満足するが、自立語「かったるい」の書
出しと一致するので表に採用できない。
(1)〜(4)で集めた付属語列に対し、最後に効率上
の観点から次のチエツクを行う。
(5)集められた付属語列中の任意の2つの付属語列a
、b (aの長さ1 (a)≦bの長さ1 (b)にお
いて、bの右側1 (a)文字分がaと同じならば、b
を表から削る(a=「なろう」、b=「になろう」がこ
の場合にあたる)。
この操作が必要な理由は、bがテキストを分割するのに
使われるならば、必ずaも使うことができ、かつ、同じ
場所でテキストを分割するため、bは不必要であること
による。
この操作を効率よく行うために、付属語列はまず左右逆
に並べる(「なろう」→「うろな」)。
これらをコードの昇順にソートし、上から順に一致をチ
エツクすれば、すべての2つの付属語列を調べる必要は
なくなる。
E3 自立語辞書と付属語表とを用いた最長一致法によ
る分割 第2処理部3における付属語列表との照合による分割を
経た処理単位(クローズ)をここではさらに分割する。
クローズは文節の連続するものと考える。文節には3つ
の型がある。
型1:自立語と付属語列とからなるもの型2:自立語だ
けからなるもの(動詞の語幹だけからなるものは除く) 型3:付属語列だけからなるもの 自立語とは、解析辞書にある語が基本であるが。
この他に漢字、ひらがな以外の字種による同一字種な並
びも自立語と考える( rbigな配当Jにおけるrb
igJつ 付属語表としては、たとえば大河内の分類による96種
の自立語付属語の品詞について接続しつる関係を定義し
た表(情報処理学会論文誌、■01゜24、No、4、
pp389−396)を用いることができる。
最長一致による分割は周知であり、詳細な説明は省略す
る。要するに最長一致法は文節が最長となるように自立
語に付属語を接続させていくものである。
最長一致法による分割の例を第6図に示す。
例にあげたクローズの左端の文字で始まる文節1手」、
「手紙」、「手紙と」、「手紙とは」がまず、見つかる
。最長一致の原則により、「手紙とは」を第一文節とし
て分割が進む(a)。つぎに、「が」から始まる文字列
に対し文節を探す。
接続詞「が」が文節として見つかる(b)。続いて「き
」から始まる文字列に対して文節を探すが、見つからな
い(C)、バックトラックにより左端文節にまで戻った
後、「手紙と」が新たに文節として選ばれ分割を再開す
る(b)。以後は見つけた文節のうち最長のものを選ぶ
ことで処理は右端へ到達する(d、e、f)。その結果
、望ましい分割「手紙と1はがきを」が得られる。
E4 未登録単語推定機能を加味した分割辞書にない単
語(未登録単語)が含まれるために第3処理部4で分割
に失敗したクローズに対してのみここでは処理を行う。
第3処理部4は第7図に示すように大きく分けて、全分
割候補引きあて部18と分割候補評価部19の2つから
なる。
全分割候補引きあて部18では、自立語辞書、接辞接続
規則を含む接辞表、付属語表、登録単語推定規則により
全ての分割候補をみつける。
接辞表は、接頭語、接尾語について隣接する自立語との
接続条件、品詞コードをもたせたもので自立語辞書と同
一の構造をもつものである。接辞には、一般語用、数字
用、固有名詞用の3種類があり、それぞれ該当する名詞
に接続する。クローズ中の全部分文字列を未登録単語と
みなしても次の評価部19は正しく働くが、効率上の点
から未登録単語の数を減らすために未登録単語推定規則
を導入する。未登録単語推定規則は、「漢字やひらがな
から成る自立語」の文字パターンを記述したもので、英
語を想定した規則とひらがなから成る自立語(和語)を
想定した規則とがある。これを表4に示す。
分割候補評価部19では、全分割候補引きあて部18で
みつけた分割の中から以下の評価式で値が最大のものを
最もよい分割と判断する。
V= (最大文節数−当該分割における文節数)×(句
の全文字数−未登録単語の文字数の合計)この式におい
て、「最大文節数」と「句の全文字数」は定数になるか
ら、評価式の値を最大にすることは、文節数を最小に抑
え(式の第1項)未登録単語長を最小にする分割を見つ
けるこことである。ただし、評価に入る前に最大文節数
を知ることは大変なので、簡便な手段として以下の例で
述べるビット列を利用し、文節を見つけながら文節数の
近似値を求め、評価式に利用する。
評価式の値が同点の場合には、分割を左から右へ見てい
ったときに文節の長いものが先に現れた分割を採用する
分割の評価値は基本的にはすべての可能な文割に対して
計算されるが、計算途中で過去の最大値に達しないと分
った(当該文節数が「最大文節数−V m a X÷句
の全文字数」を超えた)場合には。
当然、そこで計算は中止される。
何− クローズ[誤差の伝搬についても」の解析を第8図に例
示する(この例では伝搬が未登録とする)。
自立語「伝搬」が辞書にないため第3処理部4は「誤」
と「の」から始まる文字列について文節を見つけただけ
で解析に失敗し、第4処理部5に制御がわたる。
まず、クローズの各文字から始まる部分文字列に対して
文節を見つける処理が行われるが、無駄な処理を省くた
めにクローズと同じ長さのビット列を用意し、それ以前
の文節候補から到達しうる場所で、かつ、文節が存在す
る場合に「1」をセットする。
第8図では、左端のビットは文節候補が2つ(誤差、誤
差の)存在するから文字「誤」に対応する第1ビツトは
「1」となる。2つの候補の到達点から3番目と4番目
のビットをとりあえず「1」とする。次にビット列を走
査し、「1」の立っている3番目の文字「の」から始ま
る文字列に対して文節候補を見つける。ここでは、未登
録単語推定規則から「の伝」がえられるので「伝」の次
の文字「搬」の位置のビットに「1」を立てる。4番目
のビット位置もオンとなっているので次の文節候補はこ
こから始まる文字列について行われる。
こうしてクローズの右端まで処理が進むと、図にあるよ
うな文節候補が各先頭文字から記録されると同時にビッ
ト列rlo11111110Jがセットされる。このビ
ット列中の「1」の数8が最大文節数の近似値として採
用される。
文節候補を左から順に走査し、なおかつ、同一場所より
始まる候補のうち右にあるものから処理を進めると、最
初の分割として「誤差の1伝搬についても」が得られる
。これに評価式をあてはめることで評価値48を得る(
(8−2) X (10−2)=48)。この値を超え
る評価値を得るためには文節数は3以下でなければなら
ない(8−48/10=3.2>3)から、これ以後の
分割は最大値が変わらない限り3文節以下のものについ
てのみ評価を行えばよい。
前の段落で述べた基準にしたがって得られる次の分割は
「誤差の1伝搬に1ついても」であり、この評価値は4
0で前の値より小さいから、この分割は採用されない。
(8−3)X (10−2)=40 続いて分割「誤差の1伝搬1についても」の評価がなさ
れるが、値40は今までの最大値より低いのでこの分割
も不可となる。
(8−3)X (10−2)=40 分割「誤差の1伝搬1につい1ても」は文節数が3を超
えるので評価の必要もなく採用されない。
以後どの分割も3を超えるから、正しい分割は最初の「
誤差の1伝搬についても」であると判断する。このとき
、未登録単語「伝搬」の品詞は最初に付与されたものと
後に続く付属後の関係から「名詞」となる。
なお、第8図で()で囲んだ部分は付属語、〔〕で囲ん
だ部分は未登録語である。
E5 複合語合成規則による調整 ここで調整を行なわなければならない理由はっぎの3点
である。
(1)最長一致による分割(E3)の際、解析の都合上
、文節の型を次の3つに設定した。
型1.自立語と付属語列からなる。
型2.自立語だけからなる。
型3.付属語例だけからなる。
本来、文節とは型1で考えるものであり、型2、型3は
(El)〜(E4)の処理の都合上拡張したものである
。たとえば型2は、隣接する前後の文節中の自立語と併
わせで複合語とすべきであり、また型3は、前の文・節
の付属語と継ぎ合わせて考えるか、前の文節が自立語だ
けからなるものであれば、これを継ぎ合わせて新たに文
節を形成すると考えるのが正しい解釈である。このよう
に再調整することにより整合性のとれた分割結果を提供
できる。
(2)情報検索等の応用技術を考えるとき、複合語情報
は有益なキーを与える。例にみる様に「付属語解析」は
「付属」、「語」、「解釈」という3つの語からなる複
合語であることが知られる。したがって、ここからキー
ワード(検引語)を抽出し付与する際、「付属」、「付
属語」、「語解析」、「付属語解析」等の語をキーワー
ドとして選択することができ、検索効率を高めることが
できる。
また機械翻訳を考えたとき、「付属語解析」という語が
日英辞書になくても、「付属」、1語」、「解析」とい
う基本語が辞書にあれば、処理が可能となる。
(3)付属語の一つ一つについてその品詞カテゴリと明
確にすることにより機械翻訳の前処理の際、有益な情報
を与える。たとえば「行なうことができない」という文
節を1行」 (自立語動詞語幹)+「うことかできない
」 (付属語列)ではこれに対応する正しい英語を生成
することが不可能であるが、「行」 (自立動詞語幹)
+「う」 (付属語、活用語尾)+「こと」(付属語、
形式名詞)+「が」(付属語、格助詞)+「「でき」 
(付属語、可能を表わす助動詞)+「な」 (付属語、
否定を表わす形容詞)+「い」 (付属語、活用語尾)
と分割されていればここではじめてこれに対応する英語
としてrcan not doJ等の出力が可能となる
第9図に示したように調整は短単位語(語基、接辞、付
属語等)への分割を行う短単位語分割部20と合成規則
による再構成を行う再構成部21で実行される。
短単位語分割のうち自立語の複合語の分割は、その複合
語に関して辞書に登録された分割情報にしたがって行わ
れる。辞書中の分割情報は、自立語の短単位の切目と読
みの切目および各短単位の属性(語基、接頭辞、接尾辞
の区別)から成る。
複合語の再構成のために使われる合成規則には以下のも
のがある。
■ 派生語を作る接辞を直前の自立語に組込む。
例)開(開くの語幹)+け(他動詞に する派生辞)→ 開け(開けるの語幹) ■ 自立語と付属語の組合せにより自立語の品詞を決定
する。
■ 名詞十名詞→複合名詞 ■ −段動詞語幹+自立詞→複合語 例) 見(見るの語幹)十定め→見学め■ 他の動詞語
幹+連用形活用語尾+自立語→複合語 例) 遊+び十場所→遊び場所 檻 第10図において、入力文「付属語解析はバックトラッ
クを行わない」について第5処理部6で行なわれる処理
を例示する。
この入力文字列は、各処理部2〜5(ただし第4 処理
部5はこの例では通らない)により4つの文節に分割さ
れる。自立語分割は、辞書に書かれた情報を利用して「
付属語」を「付属」と「語」とに分ける。3つの付属語
(列)、「は」、「を」、「わない」は、付属語分割部
によって分割および品詞の割り付けがなされる(入力文
は10の語に分けられる)。その後1合成規則により「
付属」、「語」、「解析」が複合として認定され(合3
)、また、「バックトラック」の品詞が名詞のみに絞ら
れる(合2)。
F6発明の詳細 な説明したように、この発明によれば、解析する文書の
分野に応じてそこで使われる用語を特別に登録すること
なく、汎用の辞書を用いるだけで日本語文章を単語にわ
け、かつ、品詞をふることが可能になり、辞書の管理、
更新という大量の人手と費用を要する処理を省くことが
できる。
【図面の簡単な説明】
第1図はこの発明の一実施例の概要を示すブロック図、
第2図は第1図実施例の第1処理部2の字種による分割
処理を示す模式図、第3図は第2図のシフト・レジスタ
16の構成を示す図、第4図は第2図の分割処理の一例
を示す図、第5図は第1図の第2処理部3の付属語列に
よる分割で用いる付属語列表の作成を示す図、第6図は
第1図の第3処理部4で実行される最長一致法の一分割
例を示す図、第7図は第1図の第4処理部5の未登録単
語推定規則を用いた再分割の詳細を示す図、第8図は第
7図例の実行例を示す図、第9図は第1図の第5処理部
6の詳細を示す図、第10図は第9図例の実行例を示す
図である。 5・・・・未登録単語推定規則を加味した再分割を実行
する第4処理部、18・・・・全分節候補引き当て部、
19・・・・分割評価部 出願人  インターナショナル・ビジネス・マシーンズ
・コーポレーション 復゛代理人 弁理士  澤  1) 俊  夫人力テキ
スト 第2図 シフト レジスタ fREGt+1 (REG3) (REG2) [RE
Gl 1竿6図 分割実行部出力   ンフト レジスタ 規則   入
力テキストクロース′ 第7図 りO−ズ 文節 「−m=ゝ−m  /”−−一ゝ−一)−ゝコメイ 第10m m−へ−0クロース゛の坐位 う(わない) 2   1寸 7   属 i   ;吾 1列 1わtい 〒わない

Claims (2)

    【特許請求の範囲】
  1. (1)辞書と、 この辞書を参照して入力日本語文章を分割する第1の文
    章分割手段と、 この第1の文章分割手段が上記辞書に登録されていない
    単語に遭遇したときに、これを検出する検出手段と、 上記検出手段の検出に応じて上記辞書に登録されていな
    い単語を含む文字列を1または複数の実現可能な態様に
    分割する暫定分割手段と、 上記実現可能な態様の各々について隣接する分割点で挟
    まれる部分文字列の各々を上記辞書中の単語とマッチン
    グさせる手段と、 上記実現可能な態様の各々について、上記辞書中の単語
    と正しくマッチングした上記部分文字列に含まれる文字
    の数を求め、この文字の数に応じて当該実現可能な態様
    を評価する評価手段と、この評価手段が最も高く評価し
    た態様で、上記辞書に登録されていない単語を含む上記
    入力日本語文章を分割する第2の文章分割手段とを有す
    ることを特徴とする日本語文章分割装置。
  2. (2)上記評価手段は上記実現可能な態様を、その態様
    で分割される部分文字列の数も加味して評価する特許請
    求の範囲第1項記載の日本語文章分割装置。
JP63056507A 1988-03-11 1988-03-11 日本語文章分割装置 Granted JPH01234975A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP63056507A JPH01234975A (ja) 1988-03-11 1988-03-11 日本語文章分割装置
US07/321,812 US5029084A (en) 1988-03-11 1989-03-10 Japanese language sentence dividing method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63056507A JPH01234975A (ja) 1988-03-11 1988-03-11 日本語文章分割装置

Publications (2)

Publication Number Publication Date
JPH01234975A true JPH01234975A (ja) 1989-09-20
JPH0519184B2 JPH0519184B2 (ja) 1993-03-16

Family

ID=13029039

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63056507A Granted JPH01234975A (ja) 1988-03-11 1988-03-11 日本語文章分割装置

Country Status (2)

Country Link
US (1) US5029084A (ja)
JP (1) JPH01234975A (ja)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5111465A (en) * 1989-06-30 1992-05-05 Digital Equipment Corporation Data integrity features for a sort accelerator
DE4135261C1 (ja) * 1991-10-25 1993-03-18 International Business Machines Corp., Armonk, N.Y., Us
JPH05216389A (ja) * 1992-02-03 1993-08-27 Matsushita Electric Ind Co Ltd 学習装置
US5867812A (en) * 1992-08-14 1999-02-02 Fujitsu Limited Registration apparatus for compound-word dictionary
JP2965455B2 (ja) * 1994-02-15 1999-10-18 富士ゼロックス株式会社 言語情報提供装置
JPH08329105A (ja) * 1995-05-31 1996-12-13 Canon Inc 文書処理方法及びその装置
US5806021A (en) * 1995-10-30 1998-09-08 International Business Machines Corporation Automatic segmentation of continuous text using statistical approaches
JP2973944B2 (ja) * 1996-06-26 1999-11-08 富士ゼロックス株式会社 文書処理装置および文書処理方法
WO1998008169A1 (en) * 1996-08-22 1998-02-26 Lernout & Hauspie Speech Products N.V. Method and apparatus for breaking words in a stream of text
US6351726B1 (en) * 1996-12-02 2002-02-26 Microsoft Corporation Method and system for unambiguously inputting multi-byte characters into a computer from a braille input device
JPH1153384A (ja) 1997-08-05 1999-02-26 Mitsubishi Electric Corp キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体
JP3272288B2 (ja) * 1997-12-24 2002-04-08 日本アイ・ビー・エム株式会社 機械翻訳装置および機械翻訳方法
US6694055B2 (en) 1998-07-15 2004-02-17 Microsoft Corporation Proper name identification in chinese
US6185524B1 (en) 1998-12-31 2001-02-06 Lernout & Hauspie Speech Products N.V. Method and apparatus for automatic identification of word boundaries in continuous text and computation of word boundary scores
JP3539479B2 (ja) * 1999-03-11 2004-07-07 シャープ株式会社 翻訳装置及び翻訳方法並びに翻訳プログラムを記録した記録媒体
US6968308B1 (en) * 1999-11-17 2005-11-22 Microsoft Corporation Method for segmenting non-segmented text using syntactic parse
US6678409B1 (en) * 2000-01-14 2004-01-13 Microsoft Corporation Parameterized word segmentation of unsegmented text
SE519636C2 (sv) * 2000-07-06 2003-03-25 Hapax Information Systems Ab Förfarande och anordning för analys av sammansatta ord
US7158930B2 (en) * 2002-08-15 2007-01-02 Microsoft Corporation Method and apparatus for expanding dictionaries during parsing
US8849648B1 (en) 2002-12-24 2014-09-30 At&T Intellectual Property Ii, L.P. System and method of extracting clauses for spoken language understanding
US8818793B1 (en) 2002-12-24 2014-08-26 At&T Intellectual Property Ii, L.P. System and method of extracting clauses for spoken language understanding
US7941311B2 (en) * 2003-10-22 2011-05-10 Microsoft Corporation System and method for linguistic collation
US7424421B2 (en) * 2004-03-03 2008-09-09 Microsoft Corporation Word collection method and system for use in word-breaking
US7783476B2 (en) * 2004-05-05 2010-08-24 Microsoft Corporation Word extraction method and system for use in word-breaking using statistical information
JP4018668B2 (ja) * 2004-05-28 2007-12-05 株式会社東芝 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム
US8041557B2 (en) * 2005-02-24 2011-10-18 Fuji Xerox Co., Ltd. Word translation device, translation method, and computer readable medium
JP4769031B2 (ja) * 2005-06-24 2011-09-07 マイクロソフト コーポレーション 言語モデルを作成する方法、かな漢字変換方法、その装置、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体
JP4236057B2 (ja) * 2006-03-24 2009-03-11 インターナショナル・ビジネス・マシーンズ・コーポレーション 新たな複合語を抽出するシステム
WO2008029881A1 (fr) * 2006-09-07 2008-03-13 Nec Corporation Système de traitement du langage naturel et système d'enregistrement de dictionnaire
JP4446313B2 (ja) * 2006-12-15 2010-04-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理用の辞書に登録するべき新規語句を検索する技術
EP2416256A4 (en) * 2009-03-30 2017-09-20 Nec Corporation Language analysis device, method, and program
CN102479191B (zh) * 2010-11-22 2014-03-26 阿里巴巴集团控股有限公司 提供多粒度分词结果的方法及其装置
CN103425691B (zh) 2012-05-22 2016-12-14 阿里巴巴集团控股有限公司 一种搜索方法和系统
KR20190111009A (ko) * 2017-02-07 2019-10-01 파나소닉 아이피 매니지먼트 가부시키가이샤 번역 장치 및 번역 방법
CN111310452B (zh) * 2018-12-12 2024-06-18 北京汇钧科技有限公司 一种分词方法和装置
CN114386407B (zh) * 2021-12-23 2023-04-11 北京金堤科技有限公司 文本的分词方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5840684A (ja) * 1981-09-04 1983-03-09 Hitachi Ltd 自然言語間の自動翻訳方式
JPS58201175A (ja) * 1982-05-20 1983-11-22 Kokusai Denshin Denwa Co Ltd <Kdd> 機械翻訳方式
JPS62163173A (ja) * 1986-01-14 1987-07-18 Toshiba Corp 機械翻訳方法
US4864502A (en) * 1987-10-07 1989-09-05 Houghton Mifflin Company Sentence analyzer

Also Published As

Publication number Publication date
JPH0519184B2 (ja) 1993-03-16
US5029084A (en) 1991-07-02

Similar Documents

Publication Publication Date Title
JPH01234975A (ja) 日本語文章分割装置
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US7818165B2 (en) Method and system for language identification
US8510097B2 (en) Region-matching transducers for text-characterization
US20100161639A1 (en) Complex Queries for Corpus Indexing and Search
JPH1153384A (ja) キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体
Sarabi et al. ParsiPardaz: Persian language processing toolkit
Pla et al. Improving part-of-speech tagging using lexicalized HMMs
Tufiş et al. DIAC+: A professional diacritics recovering system
Nandathilaka et al. A rule-based lemmatizing approach for sinhala language
CN107229611B (zh) 一种基于词对齐的历史典籍分词方法
Kann et al. Implementation aspects and applications of a spelling correction algorithm
Yusof et al. Qur'anic words stemming
Aldarmaki et al. Robust part-of-speech tagging of Arabic text
Goweder et al. Identifying broken plurals in unvowelised arabic tex
Kranig Evaluation of language identification methods
Bosch et al. Memory-based morphological analysis and part-of-speech tagging of Arabic
JP4088171B2 (ja) テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体
Nejja et al. Context's impact on the automatic spelling correction
Van Delden et al. Supervised and unsupervised automatic spelling correction algorithms
Talmon et al. Morphological Tagging of the Qur’an
EP0992008A1 (en) FSTs APPROXIMATING HIDDEN MARKOV MODELS AND TEXT TAGGING USING SAME
CN114861649B (zh) 一种面向专业领域的拼音与文字匹配方法
Suriyachay et al. Enhancement of character-level representation in bi-LSTM model for Thai NER
Abdukerim et al. Uyghur morphological analysis using joint conditional random fields: Based on small scaled corpus