JP3471381B2

JP3471381B2 - 文字列処理方法

Info

Publication number: JP3471381B2
Application number: JP02973793A
Authority: JP
Inventors: 公一江尻
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1993-01-26
Filing date: 1993-01-26
Publication date: 2003-12-02
Anticipated expiration: 2018-12-02
Also published as: JPH06223114A

Description

【発明の詳細な説明】

【０００１】

【技術分野】本発明は、文字列処理方式に関し、より詳
細には、入力される文字コード情報が、ＡＳＣII（Amer
ican Standard Code for Information Interchange：ア
メリカの情報交換用標準コード）コード列であるか、ま
たはＪＩＳ（Japanese Industrial Standard：日本工業
規格）コード列，ＥＵＣ（Extended UNIX Code；拡張ユ
ニックスコード）コード列であるかにかかわりなく、各
々に応じて特定の文字列を切り出すことを可能にした文
字列処理方法に関する。

【０００２】

【従来技術】人間が使用するいわゆる「自然言語」を機
械的に処理し、これを自動的に理解させようという試み
は古くから行なわれてきた。自然言語の翻訳が機械的に
可能になったと主張するシステムもあるが、これも対象
とする分野が限定される場合のみに可能である。他方、
文章の著者が不明の場合、これを推測するためのソフト
ウェアが市販されたことがある（Tankard，J;“The lit
erary detective"，Byte 1986，February，pp231）。こ
のソフトは英語用で単にｎ個の文字列（ｎ−gramと呼ば
れている）の頻度の類似性を比べるだけであるが、著者
の傾向を強く反映すると言われている。また一方、文字
列をより汎用性の高い法則で記述しようという試みも古
くからなされている。Ｚｉｐｆによって提案された、い
わゆるＺｉｐｆの法則は言語の種類に寄らず成り立つと
言われており（Zipf，G.K.“The psycho-biology of la
nguage"，The MIT Press(1965)，Originally printed b
y Houghton MifflinCo.1935）、次の関係式で表され
る。ｆ×ｒ＝一定 …（１）ここで、ｆはある単語の頻度（一定数の単語中に特定の
単語がどれくらいあるか＝例えば普通英語の the は100
0単語中５０くらい存在する）で、ｒは対象とする単語
の頻度の順位（上の例 the ではｒ＝１）である。

【０００３】Ｚｉｐｆはまた別の関係式である、いわゆ
る第２Ｚｉｐｆの法則を提案している。ｋ×ｆ²＝一定・・・（２）ただし、ｋは同一の発生頻度値ｆを持つ単語の数（例え
ば、英語の the と aが同じ頻度値５０があればｋ＝
２）である。更により一般化された表現は Mandelbrot
（Mandelbrot，B.B."Fractal Geometry of Nature"，W.
H.Freeman and Co.，New York，1982）や Booth（Boot
h，A.D."A law of Occurrences for Words of Low Freq
uency"，Information and Control，10(4);386-393(196
7)）が導いている。しかし、いずれの公式、あるいは法
則を使ったとしても、図１０に示すように、その近似精
度は良くない。すなわち、図１０において、帯状黒線は
Ｃ Language（Ｃ言語）、帯状点線は non-native Engli
sh（英語を母国語としない人が書いた英語）であり、横
軸が Numerical Order（頻度順位）、縦軸がＺｉｐｆの
第２法則（２）式を表わしている。横軸の頻度順位は、
右側に行くに従って頻度が低いことになる。帯状黒線及
び帯状点線ともに右下りの特性を示し、頻度の高いもの
については両者の識別ができたとしても、頻度が低くな
るにつれ混在した状態となり、その識別がはっきりしな
いことがわかる。なお、図中の対象文章は、英語を母国
語としない人が書いた英語の技術文章と、コンピュータ
言語の１つであるＣ言語についてプロットしたものであ
る。その他の各種文章も試みたが、近似度はいずれも良
くない。

【０００４】

【目的】本発明は、上述のごとき実情に鑑みてなされた
もので、入力される文字コード情報がＡＳＣIIコード列
であっても、ＪＩＳコード列，ＥＵＣコード列であって
も、各々に応じて特定の文字列を切り出すことのできる
ようにした文字列処理方法を提供することを目的として
なされたものである。

【０００５】

【構成】本発明は、上記目的を達成するために、（１）
文章を入力して第１メモリに記憶し、該第１メモリから
読み出された文章の文字列から単語を切り出して、第２
メモリに記憶された綴りの異なる単語と比較して、綴り
の異なる単語の場合には、該第２メモリへ累積して記憶
させるとともに、切り出した単語の総数と綴りの異なる
単語の総数とを計数して、それぞれメモリＮとメモリＬ
へ記憶することを、前記第１メモリに記憶された文章の
文字列から切り出されたすべての単語に対して行った
後、前記メモリＬとメモリＮとを読み出して計算したパ
ラメータＧ＝ｌｏｇ（Ｎ／Ｌ）／｛ｌｏｇ（Ｎ）−１｝の値と予め記憶した所定値との大小判定を行って、入力
された文章の種類を判定すること、或いは、（２）文章
を入力して第１メモリに記憶し、該第１メモリから読み
出された文章の文字列から単語を切り出して、第２メモ
リに記憶された綴りの異なる単語と比較して、綴りの異
なる単語の場合には、該単語と累積頻度１を対応させ
て、それぞれ第２メモリと第３メモリへ累積するととも
に綴りの異なる単語の数を計数してメモリＬへ記憶し、
綴りが同じ単語である場合には、該単語に対応する前記
第３メモリに記憶された累積頻度に１を加算して更新す
ることを、前記第１メモリに記憶された文章の文字列か
ら切り出されたすべての単語に対して行った後、前記第
３メモリに記憶した異なる綴りの単語の累積頻度の総和
を計算してメモリＮへ記憶し、前記メモリＬとメモリＮ
とを読み出して計算したパラメータＧ＝ｌｏｇ（Ｎ／Ｌ）／｛ｌｏｇ（Ｎ）−１｝の値と予め記憶した所定値との大小判定を行って、入力
された文章の種類を判定すること、或いは、（３）文章
を入力して第１メモリに記憶し、該第１メモリから読み
出された文章の文字列から単語を切り出して、第２メモ
リに記憶された綴りの異なる単語と比較して、綴りの異
なる単語の場合には、該単語と累積頻度１を対応させ
て、それぞれ第２メモリと第３メモリへ累積するととも
に綴りの異なる単語の数を計数してメモリＬへ記憶し、
綴りの同じ単語がある場合には、該単語に対応する前記
第３メモリに記憶された累積頻度に１を加算して更新す
ることを、前記第１メモリに記憶された文章の文字列か
ら切り出されたすべての単語に対して行った後、前記第
３メモリに記憶した異なる綴りの単語の累積頻度の総和
を計算してメモリＮへ記憶し、前記メモリＬとメモリＮ
とを読み出して計算したパラメータＧ＝ｌｏｇ（Ｎ／Ｌ）／｛ｌｏｇ（Ｎ）−１｝の値が予め記憶した所定値以下の場合に、入力された文
章の種類を日本語文章であると判定することを特徴とし
たものである。以下、本発明の実施例に基いて説明する。

【０００６】まず、本発明による文字列処理方法を説明
するために、次の（３）式を定義する。Ｇ＝log(Ｎ／Ｌ)／｛log(Ｎ)−１｝・・・（３）なお、この式において、Ｎは対象文章中の単語の総数、
Ｌは語彙数（異なる綴りを持つ単語の数）である。ここ
で、異なる綴りはすべて異なる単語と定義しているから
通常の意味での語彙数とは異なる。単語の定義として
は、以下に示す表１の単語の区切り記号で仕切られる”
ブランク以外の文字列”をすべて単語とした。

【０００７】

【表１】

【０００８】これをＡＳＣIIコード列（英文など）に適
用すると、図１に示すように、１つの文章では式（３）
の値がほぼ一定と言う関係が成り立つ。図１において、
横軸は総単語数 log(N)、縦軸は総単語数を語彙数で割
ったもの log(N/L)を示し、対象文章として、msreadm
e，doc はマニュアル、shogun は小説、maildoc は手紙
文、nlpexl,cはＣ言語、newswk1,txt は雑誌記事、japa
tx.6-1 は小学生６年の国語教科書のローマ字表記のも
のである。いずれの対象文章においても右上りの一定の
関係が成り立っていることがわかる。

【０００９】更にここでもう１つのパラメータを導入す
る。今、横軸に単語の頻度順位（rank order）を対数単
位で、縦軸に単語の文字数（word length）をそれぞれ
とると図２の様になる。図中、fanty１と書いてあるの
は対象とする文章の名称である。図２において、縦軸は
文字数、横軸は頻度順位 log(n）を示しており、右側に
行くほど頻度順位は低くなる。図２から分かるとおり、
頻度の高い単語はその文字数が短い。これは一般的に知
られていることであり、良く使われる単語ほど省略され
たり、短く言い換えられたりすることによる。このグラ
フの凹凸の様子を次の相関係数Ｒで表す。

【００１０】

【数１】

【００１１】Σはサンプル点の数だけ加算することを示
す演算子である。また、Ｘ、Ｙは観測値ｘまたはｙがそ
の平均値ｍから、どれほどずれているかを示すもので、Ｘ＝ｘ−ｍで定義される。そしてｘ、ｙはそれぞれ図２の頻度順位
log（ｎ）とWord_length（単語文字数）を表してい
る。

【００１２】図３は、ＡＳＣIIコードからなる各種文書
に対して行なった測定結果を示す図である。図３におい
て、縦軸は前記（３）式で定義されるＧ、横軸は前記
（４）式で表わされる相関係数Ｒである。図中、□：En
glish text は一般の英文テキスト、ｘ：restricted-En
glish Text は技術文献、マニュアル、専門家知識等、
Ｏ：Computer Language はコンピュータ言語である。図
から明らかなように、Ｘ印及びＯ印は混在しながらもＧ
値の上方に位置し、□印はＧ値の下方に位置している。
このことから、図中の破線によって通常の英文文章と、
制限された環境で使われる文章（例えば、カタログ、文
献リスト、故障診断の知識およびコンピュータ言語）と
を分類することができる。

【００１３】このことは、英語の文章の中身を知らなく
ても、荒い分類が迅速に出来ることを示している。なぜ
なら、英語の単語や文法の知識を一切必要としないし、
しかも、最初の５００単語程度の情報があれば、文字列
の頻度だけて大雑把な分類が出来るわけである。したが
って、将来、電子図書館が出来た暁には、自分の欲しい
図書の分野を、本発明の方法によって容易に絞り込むこ
とが出来る。もし、いくつかの代表的な英語単語、例え
ば、the，is，are，it，thatなどの頻度と組み合わせれ
ば、更に精度の良い分類が可能であることは言うまでも
ない。

【００１４】以上は英語の文章について明らかになった
性質であるが、日本語に適用する場合の問題点は単語の
切り出しである。幸い、日本語は通常４種類の字種を使
うことが多い。すなわち、漢字、ひらがな、片仮名、そ
して、アルファベットである。ひらがなを除く文字列
は、文章中に独立して現われることが多く、英語におけ
る単語的な役割を演じていると考えられる。日本語の文
書中の対象単語は、以下の定義によって切り出す。（１）１バイト目の最初のビットが０であれば、これを
ＡＳＣII文字列と見なし、２ビット目以下のコードによ
って文字を同程する。このとき、数字またはアルファベ
ットが連続する限り、これを１つの単語文字列と見な
す。また、大文字と小文字の区別はしない。最大２０文
字までを抽出する。（２）１バイト目の最初のビットが１であれば、これを
ＪＩＳ文字列と見なし、２バイトを１セットとして文字
種類の区別を以下のように行う。第１バイトがＪＩＳコ
ードで "ａ５" 以上 "ａ６" 未満か、または第１バイト
が "ａ１" で第２バイトが "ｂｃ" か、あるいは第１バ
イトが "ａ１" で第２バイトが "ｃ３" ならば、最大５
文字までを抽出する。（３）１バイト目の最初のビットが１であれば、これを
ＪＩＳ文字列と見なし、２バイトを１セットとして文字
種類の区別を以下のように行う。第１バイトがＪＩＳコ
ードで "ｂ４" 以上 "ｆ５" 未満を漢字文字列として最
大２文字まで抽出する。（４）１バイト目の最初のビットが１であれば、これを
ＪＩＳ文字列と見なし、２バイトを１セットとして文字
種類の区別を以下のように行う。第１バイトがＪＩＳコ
ードで "ａ３" ならば、全角英数文字列として最大２０
文字まで抽出する。このように、コードを見るだけでア
ルファベット（ＡＳＣII）とＪＩＳは異なるから、異な
った切り出し方法を適用することも可能である。

【００１５】図４は、ある日本語文章（マニュアル）の
中から、「ＪＩＳコードの漢字文字列の最初の２文
字」、「片仮名文字列の最初の５文字」を頻度順に取り
出した図である。ただし、片仮名中の長音は、ＥＵＣコ
ード“a1bc”「ー」（横書き片仮名の長音を表わす記
号）を当てるものとする（縦書きの場合は“a1c
３”）。時々、この長音にアルファベットのマイナス、
“−”を誤って当てる場合があるが、この場合、片仮名
列は正しく抽出されない。図４の例では「パ」と「ト」
の間に当てられた記号がこれに相当する。すなわち、
「パ」マイナス「ト」となっている場合には「パート」
として抽出されない。

【００１６】図５は、解析結果を示す図で、図中、「Ｎ
に丸」が通常の日本語文章（Natural Japanese）、「Ｃ
に丸」がカタログ（Catalog）、「Ｍに丸」がマニュア
ル（Manual）、「Ｔに丸」が技術文章（Technical）、
「Ａに丸」が広告文章（Advertizement）を各々表して
いる。縦軸が前述した（３）式のＧ、横軸が相関係数Ｒ
である。なお、図中に示された対象文章は表２のとおり
である。

【００１７】

【表２】

【００１８】図５からわかるように、「文章の種類の違
い」は「相関係数」の値にそれほど依存してないが、Ｇ
の値が０.１８より上では、それより下の文章と異なっ
ていることがわかる。すなわち、広告文章「Ａに丸」、
技術文章「Ｔに丸」、マニュアル「Ｍに丸」、カタログ
「Ｃに丸」は、Ｇの上方（０.１８以上）に位置し、通
常の日本語文章「Ｎに丸」はＧの０.１８以下に位置し
ていることがわかる。すなわち、Ｇ＝０.１８を閾値と
して、これ以上を抽出すれば、表３に示されるような通
常日本語文章と分類することができる。

【００１９】

【表３】

【００２０】日本語と英文の違いは各８ビット単位の処
理において、最上位ビットが０であるか否かで区別出来
るから、入ってきた文章がどちらの言語で書かれている
か不明の場合でも、もし最上位ビットが０ならアルファ
ベットで、そうでなければＪＩＳコードと見做すことが
出来る。

【００２１】図６は、本発明による文字列処理方法を説
明するためのフローチャートである。以下、各ステップ
に従って順に説明する。step１：まず、８ビット単位で文字コードを入力する。step２：次に、入力された文字列の入力が終わったかど
うか、又は予定単語数を越えたかどうかを判断する。step３：前記step２において、文字列の入力が終わって
いなければ、又は予定単語数を越えていなければ、最初
のビットが１か０かを判断する。step４：前記step３において、最初のビットが１であれ
ば、日本語と見做して次の８ビットを最初の８ビットに
連結させて、１つの文字として処理する。

【００２２】step５：前記step３において、最初のビッ
トが０であれば、８ビットを１文字として、以下の処理
を続ける。step６：次に、対象とする文字列かどうかを判断し、英
文は記号以外すべてを対象とする文字列とし、日本語の
場合は、漢字文字列と片仮名文字列（ＥＵＣコードa1b
c，a1c３含む）を対象とする文字列とする。step７：次に、区切り記号かどうかを判断し、英文とコ
ンピュータ言語の場合は区切り記号を用いて文字列を切
り出す。日本語の場合は、漢字文字列と片仮名文字列
（ＥＵＣコードa1bc，a1c３含む）から他の文字列に変
化したかどうかを判断する。step８：切り出した「単語」候補をメモリに一時記憶す
る。

【００２３】step９：以前登録した「単語」リストに一
時記憶された「単語」候補と同じものかあるかどうかを
判断し、同じものがあれば、その単語の累積頻度値に１
を加算し、同じものがなければ、新たに単語候補を「単
語」としてリストに追加登録する。この時累積頻度値を
１とする。前記 step１に戻る。step10 ：前記step２において、文字列の入力が終わり、
または予定単語数を越えていれば、前記（３）式で定義
されるＧと、前記（４）式で定義される相関係数Ｒを算
出する。step11 ：前記step１０で算出されたＲとＧによる文章の
分類を行う。

【００２４】その他の応用例として、図４の抽出例で分
かるように、この文書が何に関するものであるのか検討
がつく。前述の実施例には含めなかったが、アルファベ
ットの文字列を含めて、同一文字列の頻度を抽出し、そ
のなかの一定頻度範囲の文字列を「その文書を代表させ
るキーワード」として登録することにより、目的文書の
検索に利用できる。このとき、キーワードとして適当な
頻度の範囲とは、1000単語当たりの出現頻度が３から２
０の範囲であることが分かっている。

【００２５】図７は、本発明による文字列処理方法の他
の実施例に基づいた解析結果を示す図で、縦軸にＧ、横
軸にエントロピーを示している。この図からも分かるよ
うに、Ｇ＝０.１８で「Ｎに丸」の通常日本語文章とそ
れ以外の文章とをはっきりと分類することができる。今
までは、抽出された文字列（単語）の種類（語い）と全
体の数から求められるパラメータＧを論じたが、ここで
新たに高頻度単語間の接続エントロピーについて述べ
る。特に、日本語においては、高い頻度の”単語”が熟
語や成句を作ることがある。たとえば、コンピュータサ
イエンスの分野では、”ディジタル画像”という言葉が
しばしば出現する。すなわち、”ディジタル”と”画
像”が組になって現われやすい。図８のように、頻度順
に並べた語彙の上位５％の”単語”がお互いにどの単語
と隣り合って存在するか（対象となる文字列のみについ
て計測する）を図９に示してある。なお、図８におい
て、左端の数字は頻度順位、３列目は頻度、４列目は文
字列の総数を1000としたときの相対頻度、５列目はコー
ドのバイト数である。図９において、７番目のディジタ
ルに隣接する文字列は、１番の画像が圧倒的に多いこと
が分かる。

【００２６】エントロピーは、接続頻度をＣｉ、語彙数
をＷとするとき、−(Ｃｉ／Ｗ) log(Ｃｉ／Ｗ)を図９の
文字列ｉについて加算したもので定義される。この場合
は、1.228431となる。ただし、対数の底は２とする。こ
のようにして求めたエントロピーは、きまり文句や熟
語、そして画一的な文体を表現しやすく、事実、技術文
献や宣伝文などに高いスコアが与えられている。したが
って、前出のパラメータＧによって分類された文章の文
体を推測することができる。

【００２７】以上のように、本発明による文字列処理方
法を適用することにより、図書館等の蔵書の電子化によ
り大まかな文章の種類の分類・検索が可能である。すな
わち、図書館に収納する前に電子化された文献のＧ値を
記憶させておくことにより、利用効率は格段に向上し、
また、未電子化の文章も該文献の一頁程度の情報により
Ｇ値を求めることができ、文章の種類を識別することが
できる。また、ＥＵＣコードについて説明したが、ＥＵ
Ｃコードだけでなく、ＪＩＳコードでもよい。

【００２８】

【効果】以上の説明から明らかなように、本発明による
と、以下のような効果がある。すなわち、入力される文
字コード情報がＡＳＣIIコード列であっても、該ＡＳＣ
IIコード以外のコード列であっても、各々に応じて特定
の文字列を切り出すことができ、該文字列の頻度に着目
して、電子図書館等における文章の種類の識別や検索が
可能となる。

【図面の簡単な説明】

【図１】本発明による文字列処理方法の一実施例を説
明するための図である。

【図２】本発明による文字列処理方法における文字数
と頻度順位との関係を示す図である。

【図３】本発明による文字列処理方法における測定結
果を示す図である。

【図４】本発明による文字列処理方法における日本語
文章の中から頻度順に取り入れた図である。

【図５】本発明による文字列処理方法における解析結
果を示す図である。

【図６】本発明による文字列処理方法を説明するため
のフローチャートである。

【図７】本発明による文字列処理方法の他の実施例に
よる解析結果を示す図である。

【図８】本発明による文字列処理方法における日本語
文章の語彙を頻度順に並べた図である。

【図９】図８において、隣接する単語の存在を示す図
である。

【図１０】従来の文字列処理方法を説明するための図
である。

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/30 210 G06F 17/30 170 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】文章を入力して第１メモリに記憶し、該
第１メモリから読み出された文章の文字列から単語を切
り出して、第２メモリに記憶された綴りの異なる単語と
比較して、綴りの異なる単語の場合には、該第２メモリ
へ累積して記憶させるとともに、切り出した単語の総数
と綴りの異なる単語の総数とを計数して、それぞれメモ
リＮとメモリＬへ記憶することを、前記第１メモリに記
憶された文章の文字列から切り出されたすべての単語に
対して行った後、前記メモリＬとメモリＮとを読み出し
て計算したパラメータＧ＝ｌｏｇ（Ｎ／Ｌ）／｛ｌｏｇ（Ｎ）−１｝の値と予め記憶した所定値との大小判定を行って、入力
された文章の種類を判定することを特徴とする文字列処
理方法。
【請求項２】文章を入力して第１メモリに記憶し、該
第１メモリから読み出された文章の文字列から単語を切
り出して、第２メモリに記憶された綴りの異なる単語と
比較して、綴りの異なる単語の場合には、該単語と累積
頻度１を対応させて、それぞれ第２メモリと第３メモリ
へ累積するとともに綴りの異なる単語の数を計数してメ
モリＬへ記憶し、綴りが同じ単語である場合には、該単
語に対応する前記第３メモリに記憶された累積頻度に１
を加算して更新することを、前記第１メモリに記憶され
た文章の文字列から切り出されたすべての単語に対して
行った後、前記第３メモリに記憶した異なる綴りの単語
の累積頻度の総和を計算してメモリＮへ記憶し、前記メ
モリＬとメモリＮとを読み出して計算したパラメータＧ＝ｌｏｇ（Ｎ／Ｌ）／｛ｌｏｇ（Ｎ）−１｝の値と予め記憶した所定値との大小判定を行って、入力
された文章の種類を判定することを特徴とする文字列処
理方法。
【請求項３】文章を入力して第１メモリに記憶し、該
第１メモリから読み出された文章の文字列から単語を切
り出して、第２メモリに記憶された綴りの異なる単語と
比較して、綴りの異なる単語の場合には、該単語と累積
頻度１を対応させて、それぞれ第２メモリと第３メモリ
へ累積するとともに綴りの異なる単語の数を計数してメ
モリＬへ記憶し、綴りの同じ単語がある場合には、該単
語に対応する前記第３メモリに記憶された累積頻度に１
を加算して更新することを、前記第１メモリに記憶され
た文章の文字列から切り出されたすべての単語に対して
行った後、前記第３メモリに記憶した異なる綴りの単語
の累積頻度の総和を計算してメモリＮへ記憶し、前記メ
モリＬとメモリＮとを読み出して計算したパラメータＧ＝ｌｏｇ（Ｎ／Ｌ）／｛ｌｏｇ（Ｎ）−１｝の値が予め記憶した所定値以下の場合に、入力された文
章の種類を日本語文章であると判定することを特徴とす
る文字列処理方法。