JP2000231559A - 情報処理装置 - Google Patents

情報処理装置

Info

Publication number
JP2000231559A
JP2000231559A JP11034053A JP3405399A JP2000231559A JP 2000231559 A JP2000231559 A JP 2000231559A JP 11034053 A JP11034053 A JP 11034053A JP 3405399 A JP3405399 A JP 3405399A JP 2000231559 A JP2000231559 A JP 2000231559A
Authority
JP
Japan
Prior art keywords
character
pattern
chain
character string
delimiter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11034053A
Other languages
English (en)
Inventor
Osamu Katayama
修 片山
Takamasa Koyama
隆正 小山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP11034053A priority Critical patent/JP2000231559A/ja
Priority to SG200000429A priority patent/SG92668A1/en
Priority to CNB001019341A priority patent/CN1193306C/zh
Priority to TW089102179A priority patent/TW497048B/zh
Priority to KR1020000006634A priority patent/KR20010006632A/ko
Publication of JP2000231559A publication Critical patent/JP2000231559A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 本発明は言語識別の方法に関し、言語の記述
の特徴を利用し、その言語で頻繁に出現する特定文字に
注目し、識別対象の文字列の特定文字の出現率を求める
ことにより、入力文字列の言語を識別するものである。 【解決手段】 入力文字列の特定文字の出現回数から特
定文字の出現率を検出する特定文字計数器102と、検
出目標言語の特定文字基準出現率を格納する標準出現率
メモリ105と、入力文字列の特定文字の出現率と検出
目標言語の特定文字基準出現率と比較する比較器106
を設けることにより、上記目的を達成するものである。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書の言語を識別
する言語識別と、入力文字列を検索登録する全文検索の
キーワード検索に利用されるものであり、入力する文書
中に含まれる全ての文字列を対象とする情報処理装置に
関するものである。
【0002】
【従来の技術】(1)情報検索処理分野における文書中
に記述された文字列の言語を識別するため、従来行われ
ている方法としては、特開平8−137886号公報の
ように言語の単語の辞書を備えてその単語の識別から行
う方法と、特開平8−160929号公報のように言語
の文字コードの特定ビット(ここでは2ビット)により
識別を行う方法と、特開平10−171810号公報の
ようにその言語に対応する特別な情報(たとえばドメイ
ン名など)から識別する方法がある。 (2)また、情報検索処理分野における文書中に記述さ
れた文字列の登録検索におけるキーワード検索において
従来行われている方法として、特開平8−16617号
公報のようにキーワードの先頭と末尾に区切り文字を付
加した単語テーブルを用いる方法がある。 (3)また、上記の他に、従来の技術としては、特開平
5-282360には、入力文字列に対して、各々の辞書を参照
して表示文字列への変換を行い、表示文字列を確定し、
未知語の数が最小となる言語を入力言語と判定し、未知
語の数が最小になる言語が一つに決まらなければ、直前
に利用した言語を優先する多国語入力装置で多国語が混
在した文章の入力を効率よく行えるようにした装置が開
示されている。
【0003】特開平7-262188には、格納又は送信文書の
言語又はジヤンルの識別用処理が可能な言語識別処理方
法で、対象言語/ジヤンルの単語出現頻度テ−ブルに対
象言語の一般的な単語が含まれ、その各単語コ−ドは、
関連の正規化出現頻度値を有し、正規化出現頻度値の使
用で言語/ジヤンル検出させるものである。また、言語
/ジヤンル識別処理は、入力文書から一連の単語を受け
取り、単語出現頻度テーブル内のすべての単語と比較
し、その単語の関連正規化出現頻度値を関連アキユムレ
−タ内の現行合計に加算し、文書の単語を読み取つた後
で、すべてのアキユムレ−タの合計が蓄積して言語識別
値として識別する方式が開示されている。
【0004】特開平10-124513には、文書が書かれてい
る言語を複数の候補言語の各々におけるもつとも頻繁に
使用される語のセツトを使用することによつて特定する
言語を特定する方法およびシステムで、もつとも頻繁に
使用される語の各セツトは、もつとも頻繁に使用される
語の各セツトにおける文字対にしたがつて、それぞれの
候補言語に対するワ−ド・テ−ブルのそれぞれのセツト
に記憶し、ワードテーブルは、各ワ−ド・テ−ブルはN
×Nビツトのテ−ブルであり、各ビツトは候補言語の1
つにおけるもつとも頻繁に使用される語の1つの特定の
場所での所与の文字対を表している。文書からの語をワ
−ド・テ−ブルに記憶されているもつとも頻繁に使用さ
れている語と比較する。文書からの語と、ワ−ド・テ−
ブルの各個別のセツトに記憶されている語との間のマッ
チの数のカウントが、各個別の言語に対して維持され
る。文書の言語はマッチ数がもつとも大きいそれぞれの
候補言語とするシステムが開示されている。
【0005】
【発明が解決しようとする課題】しかし、上記(1)で
説明した従来技術の方法では、たとえば特開平8−13
7886号は文書毎の自動識別が可能であるが、識別す
る言語の辞書を備える必要があり、特開平8−1609
29号ではユニコードなどのJCK統合漢字など同一文
字コードで異なる言語への対応が困難であり、特開平1
0−171810号では識別がクライアント単位で行わ
れているという問題がある。
【0006】また、上記(2)で説明した従来技術の方
法では、本来の文書検索で使用するインデックスとは別
の単語テーブルファイルを作成する必要がある。
【0007】また、上記(3)で説明した従来技術の構
成では、文字列の中に同一文字コードが出現する場合
に、どの言語に属するのかを判定することが困難である
という課題を有していた。また、言語を判別するための
辞書を事前に作成しておく必要があるため、未知の用語
に対して言語を判定することができないという課題を有
していた。また、辞書データには既知の単語、たとえば
日本語の場合は「認識」などは辞書に含まれるので単語
として認識できるが、「とかや」など辞書には載ってい
ないが日常の文章に現れる場合には、従来の構成では辞
書に載っていないために判定することができない、とい
う課題を有していた。また、単語に切り出すためのルー
ルが判別する言語毎にすべて用意しなければならないた
め特定の言語に対するルールが存在した場合処理をする
ことができないという課題を有していた。
【0008】本発明は従来技術の以上のような問題を解
決するもので、第1に、ある言語で記述されている文字
列に対して、その国の言語の記述の特徴を利用し、その
言語で頻繁に出現する特定文字(たとえば韓国語におけ
る空白文字)または特定の範囲の文字(たとえば、日本
語における「ひらかな」、「漢字」)に注目し、識別対
象の文字列の特定文字の出現率を求めるか、または特定
文字間の文字列長の平均を求めるか、または特定範囲文
字の出現率を求めることにより、入力文字列の言語を識
別しようとすることを目的とする。
【0009】また、第2に、文書検索で作成されるイン
デックスとして2文字連鎖による検索方式を利用してお
り、キーワードの先頭と末尾に区切り文字を挿入した入
力文字列に対して、登録時に作成されるインデックスに
これらの区切り文字の情報をそのまま付加して、キーワ
ード検索を可能とすることを目的とするものである。
【0010】また、第3に、与えられた文字列からどの
言語に属するかを自動的に判別することができる情報処
理装置を提供することを目的とし、また、文字列の特徴
がコードとして決められており、特に、文字パターンの
形状、たとえばフォントなど、で分類されている場合の
言語またはグループ種別を自動的に判別することができ
る情報処理装置を提供することを目的とする。
【0011】
【課題を解決するための手段】本発明は、上記課題を解
決するために本発明に係る情報処理装置に、第1に、入
力文字列の特定文字の出現回数から特定文字の出現率を
検出する手段と、検出目標言語の特定文字基準出現率を
格納する手段と、入力文字列の特定文字の出現率と検出
目標言語の特定文字基準出現率と比較する手段を設ける
こと、第2に、、入力文字列の特定文字間の平均非特定
文字文字列長を検出する手段と、検出目標言語の基準非
特定文字文字列長を格納する手段と、入力文字列の平均
非特定文字文字列長と検出目標言語の基準非特定文字文
字列長を比較する手段を設けること、第3に、入力文字
列の特定範囲文字の出現回数から特定範囲文字の出現率
を検出する手段と、検出目標言語の特定範囲文字基準出
現率を格納する手段と、入力文字列の特定範囲文字の出
現率と検出目標言語の特定範囲文字基準出現率を比較す
る手段を設けることにより、入力文字列の特定文字出現
率と、標準出現率とを比較し、入力文字列が目標の言語
に該当する性質の文字列であるかどうか判断するして、
入力文字列の目標言語の識別を行うことができるという
作用を有する。
【0012】また、本発明は、第4に、キーワード検索
に対し、登録文字列に区切り文字を挿入する手段と、区
切り文字が挿入された文字列に対し区切り文字がある場
合は、区切り文字を間に挟む3文字の連鎖として抽出す
る検出手段と、その区切り文字の前後の文字による文字
連鎖と、その区切り文字とその区切り文字の前の文字に
よる文字連鎖と、その区切り文字とその区切り文字の後
の文字による文字連鎖を生成し、検索時に入力文字列の
先頭または、末尾または、先頭および末尾に区切り文字
を挿入する手段を設けることにより、キーワード以外の
文字列による検索を排除することができるという作用を
有する。
【0013】また、第5に、文字列データが予め決めら
れた数種類の言語のどの言語に含まれるかをパターン識
別する情報処理装置において、パターン識別に用いるコ
ード化された文字が同一次元の複数の文字群にコードテ
ーブルとして分類された文字コードに対して、文字群の
組み合わせによりパターン群を構成する記憶媒体で、
1.2文字の組み合わせで、組み合わせを構成するコー
ドが前記複数の文字群にいずれかに含まれた文字群と文
字群が組み合わせされた第1のデータと上記第1のデー
タの組み合わせのパターンに対応させた数値とする第2
のデータと第1のデータと第2のデータの組み合わせか
ら、予め決められたパターン分類に割り振られた堕第3
のデータと上記第1のデータと第2のデータと第3のデ
ータを記憶するパターン記憶手段を持つことを特徴とす
る記憶媒体を備え、文字列から2文字の連鎖を検出し2
文字の連鎖を構成する文字が含まれる文字群を決定する
文字連鎖抽出手段と、前記文字連鎖抽出手段で決定した
文字群の組み合わせが、前記パターン記憶手段のパター
ンと一致するするかどうかを比較し、一致するパターン
の数値を取得するパターン算出手段と、前記パターン算
出手段で算出した全ての文字の連鎖に対する値とその組
み合わせのパターンが、前記パターン記憶手段が格納し
ている第1、2、3のデータと一致するものの個数が最
大のものをパターン記憶手段のパターンの組み合わせと
判断するパターン判断手段とを備え、また、上記の情報
処理装置で、前記パターン判断手段が全ての文字の連鎖
に対してパターン算出手段で算出した数値の平均値を算
出し、パターン記憶手段の第2のデータと最も近い値を
パターン記憶手段のパターンの組み合わせと判断するパ
ターン判断手段、または、前記パターン判断手段が全て
の文字の連鎖に対してパターン算出手段で算出した数値
の最頻値を算出し、パターン記憶手段の第2のデータと
最も近い値をパターン記憶手段のパターンの組み合わせ
と判断するパターン判断手段とを備えることにより、文
字種別などのパターンに対して全て同一次元の番号付け
がされており、かつパターンが数種類の意味付けれたパ
ターン群に分類され、かつパターン群の組み合わせによ
り複数の意味群をあらわすパターンの集合に対して、デ
ータがどのパターンに入るかを自動的に判定することが
できるという作用を有する。
【0014】また、本発明は、第6に、パターン識別に
用いる文字群の組み合わせによりパターン群を構成する
記憶媒体で、予めパターン種別が知られているパターン
データに対して、2文字の組み合わせパターンである第
1のデータと、上記第1のデータを示すパターン種別で
ある2のデータと、第1のデータと第2のデータの組み
合わせの出現回数を示す第3のデータと、上記第1のデ
ータと第2のデータと第3のデータを記憶するパターン
記憶手段を持つことを特徴とする記憶媒体と、前記記憶
媒体に対して、予めパターン種別が与えられているパタ
ーンデータの全ての2文字連鎖を抽出する文字連鎖抽出
手段と、各文字連鎖の出現回数を算出し、前記記憶媒体
に文字連鎖パターンと出現回数を、パターン種別毎に格
納する文字連鎖頻度計数手段と、与えられたパターンに
対して2文字連鎖を抽出する前記文字連鎖抽出手段と、
抽出した文字連鎖に該当する文字連鎖パターンの出現回
数をパターン種別毎に前記記憶媒体から抽出する頻度計
数手段と、前記頻度計数手段から得られた出現回数をす
べての抽出された文字連鎖と照合し、出現回数の合計が
もっとも高くなるパターン種別を与えられたパターンが
含まれるパターン種別と判定する照合手段とを備えるこ
と、また、前記照合手段が、出現回数の合計がある閾値
を越えるようなパターン種別が、与えられたパターンが
含まれるパターン種別と判定すること、または前記照合
手段が、各文字連鎖についての出現回数がある閾値を越
える文字連鎖パターンの出現頻度の合計がもっとも高く
なるパターン種別を、与えられたパターンが含まれるパ
ターン種別と判定することを備えることにより、テスト
データがどのパターンに入るかを自動的に判定すること
ができ、また、文字の種類、フォントなどがコード付け
されていない場合でも分類できるという作用がある。
【0015】また、本発明は、第7に、パターン識別に
用いる文字群の組み合わせによりパターン群を構成する
記憶媒体に対して、予めパターン種別が与えられている
パターンデータの全ての文字連鎖を抽出する際に、文字
種ごとまたは少なくても1つの言語を単語区切りができ
る区切り手段と、前記区切り手段をもとに文字連鎖を抽
出する文字連鎖抽出手段と、文字連鎖が1文字の場合に
は同じ文字を重ねて文字連鎖とする連鎖変換手段と第6
の文字連鎖頻度計数手段、頻度計数手段、頻度判定手段
を備えることにより、テストデータがどのパターンに入
るかを自動的に判定する方式ことができる。また文字の
種類、フォントなどがコード付けされていない場合でも
分類できるという作用がある。また言語毎のすべてのル
ールを準備する必要がなくパターンを分類できるという
作用を有する。
【0016】また、第8に、パターン識別に用いる文字
群の組み合わせによりパターン群を構成する記憶媒体に
対して、テキストデータに対して、パターン分類毎また
は言語毎に、2文字の組み合わせ文字連鎖パターン、文
字連鎖パターンの文書番号を文字連鎖パターン毎に格納
されているパターン記憶手段を持たせ、テキストデータ
の全ての2文字連鎖を抽出する文字連鎖抽出手段と、各
文字連鎖の出現回数を算出し、前記記憶媒体に文字連鎖
パターンと出現回数と文書番号を、パターン種別毎に算
出する文字連鎖頻度計数手段と、前記文字連鎖頻度計数
手段で取得した文字連鎖パターンと前記記憶媒体の文字
連鎖パターンの頻度をパターン分類毎に取り出し、各パ
ターン分類の文字連鎖パターンの頻度の合計値を比較
し、パターン分類の大きいほうの前記パターン記憶手段
のパターン分類に文字連鎖パターンと出現回数と文書番
号を格納する文字頻度比較手段とを備え、さらに、前記
文字頻度比較手段が、出現回数の合計がある閾値を越え
るようなパターン種別が、与えられたパターンが含まれ
るパターン種別と判定すること、または、各文字連鎖に
ついての出現回数がある閾値を越える文字連鎖パターン
の出現頻度の合計がもっとも高くなるパターン種別を、
与えられたパターンが含まれるパターン種別と判定させ
る方法を備えることにより、テストデータがどのパター
ンに入るかを自動的に判定することができ、また、文字
の種類、フォントなどがコード付けされていない場合で
も分類できるという作用がある。
【0017】また、本発明は、第9に、文字列データ
で、文字コードが文字フォント毎にが決められている予
め決められた数種類の言語種別に対してどの言語に含ま
れるかを一意にパターン識別する情報処理装置におい
て、パターン識別に用いる文字群の組み合わせによりパ
ターン群を構成する記憶媒体で、言語毎に文字を構成す
る漢字、ひらがな・片仮名、記号。ハングル、その他の
文字種別別に出現割合を格納することを特徴とする言語
別分布テーブルを格納されているパターン記憶手段を持
つことを特徴とする記憶媒体と、使用する文字コードの
体系が統一コードまたはローカルコードを読み取るコー
ド種別指定手段と、入力文字列データの全ての2文字連
鎖を抽出する文字連鎖抽出手段と、指定されたコード体
系に従って、言語毎に漢字、平かな・片仮名、記号、ハ
ングル、その他の2文字連鎖を分類し、それぞれ出現割
合を算出する出現回数計数手段と、指定されたコード体
系で、各言語毎で、漢字、平かな・片仮名、記号、ハン
グルの出現割合と記憶手段が管理している言語毎で漢
字、平かな・片仮名、記号、ハングルの出現分布との距
離の合計を算出する言語別分布距離算出手段と、前記言
語別分布算出手段からもっとも距離の値が小さいものを
算出して、最小のものを含む言語種別を、入力された文
字列の言語と判定する比較手段を備えることにより、漢
字、平かな、記号等の出現分布の距離を算出することが
できるので、言語種別を容易に判断することができると
いう作用がある。
【0018】
【発明の実施の形態】以下、本発明の実施例について図
面を参照しながら説明する。
【0019】(実施の形態1)図1は本発明の第1の方
法の一実施例における文字コード言語識別装置の構成を
示したものである。
【0020】図1において、101は入力文字列に対し
て文字が検出目標言語の特定文字かどうか識別する特定
文字識別器、102は特定文字識別器で識別した特定文
字の出現回数を計数する特定文字計数器、103は入力
文字列のすべての文字の出現を計数する入力文字計数
器、104は特定文字計数器102で計数した特定文字
出現回数と入力文字計数器103で計数した入力文字列
の文字数から特定文字の出現率を算出する出現率算出
器、105は検出目標の言語の特定文字出現の標準の出
現率を格納する標準出現率メモリ、106は出現算出器
104で得られた出現率が標準出現率メモリ105に格
納された標準出現率と比較する比較器、107は入力文
字列の終了を検出する文字列終了検出器である。
【0021】図2は本発明の文字コード言語識別の第1
の方法の概念を示している。
【0022】図2において、201は言語識別を行おう
とする入力文字列、202は入力文字列に出現する特定
文字である。本発明の第1の方法では入力する文字列に
おける特定文字の出現率を求めることにより目標言語の
識別を行う。入力文字列201の全文字数がmで、特定
文字202の出現回数がnとすると、この入力文字列2
01における特定文字の出現率kはn/mで求める。目
標言語における特定文字の出現率が最小でa、最大でb
とすると、このとき本発明の第1の方法による識別方法
では、入力文字列201の特定文字出現率kがa≦k≦
bである場合、入力文字列は目標言語であると判断す
る。以上により、文字列の言語識別がなされる。
【0023】本方法は、特に韓国語のように特定文字2
02として「空白」を指定することにより入力文字列の
韓国語の識別を行う場合に有効である。このとき、韓国
語の新聞記事データ12万文字の統計データからa、b
は、a=0.14、b=0.23で適用できる。この方
法により、韓国語のハングルで記述された文書を、他の
言語たとえば日本語で記述された文書と区別することが
できる。
【0024】以上により、文字列終了検出器107で文
字列の終了を検出したとき、出現率算出器104から得
られる入力文字列の特定文字出現率と、標準出現率格納
メモリ105から得られる標準出現率とを比較し、入力
文字列が目標の言語に該当する性質の文字列であるかど
うか判断することにより、入力文字列の目標言語の識別
を行うことができる。
【0025】(実施の形態2)図3は本発明の第2の方
法の一実施例における文字コード言語識別装置の構成を
示したものである。
【0026】図3において、301は入力文字列に対し
て文字が検出目標言語の特定文字かどうか識別する特定
文字識別器、302は特定文字識別器301で識別され
ない非特定文字の連続した出現数を計数する文字列長カ
ウンタ、303は文字列長カウンタ302から得られれ
る文字列長の総和を求める加算器、304は特定文字識
別器301で識別をした特定文字の出現回数を計数する
特定文字計数器、305は加算器303で求めた文字列
長の総和を特定文字計数器304で得られた特定文字数
で割って平均文字列長を求める平均文字列長算出器、3
06はは検出目標の言語の平均文字列長を格納する標準
文字列長メモリ、307は平均文字列長算出器305で
得られた平均文字列長が標準文字列長メモリ306に格
納された標準の平均文字列長と比較する比較器、308
は入力文字列の終了を検出する文字列終了検出器であ
る。
【0027】図4は本発明の文字コード言語識別の第2
の方法の概念を示している。
【0028】図4において、 401は言語識別を行お
うとする入力文字列、402は入力文字列に出現する特
定文字、411、412、41nは特定文字により区切
られた非特定文字による文字列(非特定文字列)であ
る。本発明の第2の方法では入力文字列401が特定文
字402により区切られた非特定文字列411、41
2、41nの平均長を求めることにより目標言語の識別
を行う。入力文字列401の非特定文字が特定文字n−
1個で区切られ、n個の非特定文字列で構成されている
と、この時の非特定文字列長が、a1、a2、a3、…anとす
ると、この入力文字列401の非特定文字列の平均文字
列長kは(a1+a2+a3+…+an)/nである。目標言語
における特定文字で区切られた非特定文字の文字列の平
均が最小でa、最大でbとすると、このとき本発明の第
2の方法による識別方法では、入力文字列401の非特
定文字の平均文字列長kがa≦k≦bである場合、入力
文字列は目標言語であると判断する。以上により、文字
列の言語識別がなされる。
【0029】本方法によれば、たとえば韓国語のように
特定文字202として「空白」を指定することにより入
力文字列の韓国語識別が可能となる。このとき、韓国語
の新聞記事データ12万文字にから得られる統計データ
からa、bは、a=3、b=5で適用できる。
【0030】また、たとえば日本語と中国語の識別にお
いても、特定文字202として「、」(中国語の場合は
「,」)、「的」および「。」を指定することにより入
力文字列の言語識別が可能となる。このとき、日本語の
新聞記事5.4万文字データから得られる統計データか
らa、bは、a=10、b=22、中国語法令文書84
万文字データから得られる統計データからa、bは、a
=4、b=9で適用できる。この方法により、上記平均
文字列長の比較により入力文字列の言語が日本語で記述
されたものか、中国語で記述されたものか容易に識別可
能となる。
【0031】以上より、文字列終了検出器308で文字
列の終了を検出したときに、平均文字列長算出器205
から得られる入力文字列の平均文字列長と、標準文字列
長格納メモリ306から得られる標準文字列長とを比較
し、入力文字列が目標の言語に該当する性質の文字列で
あるかどうか判断することにより、入力文字列の目標言
語の識別を行うことが可能となる。
【0032】(実施の形態3)図5は本発明の第3の方
法の一実施例における文字コード言語識別装置の構成を
示したものである。
【0033】図5において、501は入力文字列に対し
て文字が検出目標言語の特定範囲文字かどうか識別する
特定範囲文字識別器、502は特定範囲文字識別器50
1で識別した特定範囲文字の出現回数を計数する特定範
囲文字計数器、503は入力文字列のすべての文字コー
ドの出現を計数する入力文字計数器、504は特定範囲
文字計数器502で計数した特定範囲文字出現回数と入
力文字計数器503で計数した入力文字列の文字数から
特定範囲文字の出現率を算出する出現率算出器、505
は検出目標の言語の特定範囲文字出現の標準の出現率を
格納する標準出現率メモリ、506は出現率算出器50
4で得られた出現率が標準出現率メモリ505に格納さ
れた標準出現率と比較する比較器、507は入力文字列
の終了を検出する文字列終了検出器である。
【0034】図6は本発明の文字コード言語識別の第3
の方法の概念を示している。図6において、601は言
語識別を行おうとする入力文字列、602は入力文字列
に出現する特定範囲文字の文字コードの範囲、611、
612、613は範囲602に含まれる特定範囲文字で
ある。本発明の第3の方法では入力する文字列における
文字の特定範囲の文字の出現率を求めることにより目標
言語の識別を行う。入力文字列601の全文字数がm
で、特定範囲に含まれる文字の出現回数がnとすると、
この入力文字列601の特定範囲文字の出現率kはn/
mである。目標言語における特定範囲文字の出現率が最
小でa、最大でbとすると、このとき本発明の第3の方
法による識別方法では、入力文字列601の特定範囲文
字出現率kがa≦k≦bである場合、入力文字列は目標
言語であると判断する。以上により、文字列の言語識別
がなされる。
【0035】本方法によれば、たとえば日本語のように
特定範囲文字の範囲602として「ひらかな」または、
「漢字」を指定することにより入力文字列の日本語識別
が可能となる。このとき、日本語の新聞記事5.4万文
字データから得られる統計データから「ひらかな」の
a、bは、a=0.1、b=0.5、「漢字」のa、b
は、a=0.2、b=0.6で適用できる。この方法に
より、入力文字列の言語が日本語で記述されているもの
かどうか容易に識別することが可能となる。
【0036】以上より、文字列終了検出器507で文字
列の終了を検出したとき、出現率算出器504から得ら
れる入力文字列の特定範囲文字出現率と、標準出現率格
納メモリ505から得られる標準出現率とを比較し、入
力文字列が目標の言語に該当する性質の文字列であるか
どうか判断することにより、入力文字列の目標言語の識
別を行うことが可能となる。
【0037】(実施の形態4)図8は本発明の第4の方
法の概念を示している。図8において、801は登録時
に入力される文字列「いろはに」、811、812、8
13はキーワード、802は入力文字列801のキーワ
ード811、812、813の境界に区切り文字「a」
が挿入された区切り文字挿入文字列、803は区切り文
字挿入文字列802の最初に登録される2文字連鎖「a
い」、804は803に続く2文字連鎖「いろ」、80
5は区切り文字「a」をはさむ3文字列「ろaは」から
生成される区切り文字を含む2文字連鎖「ろa」、80
6は3文字列「ろaは」で区切り文字を含む2文字連鎖
「aは」、807は3文字列「ろaは」で区切り文字を
含まない区切り文字をまたいだ2文字連鎖「ろは」、8
08は807の次の2文字連鎖「はに」、809は80
8の次の2文字連鎖「にa」である。
【0038】また、図8において、2文字連鎖803は
「a」および「い」の出現回数n、n1を、2文字連鎖8
04は「い」および「ろ」の出現回数n1、n2を、2文字
連鎖805は「ろ」および「a」の出現回数n3、nを、
2文字連鎖806は「a」および「は」の出現回数n、n
3を、2文字連鎖807は「ろ」および「は」の出現回
数n2、n3を、2文字連鎖808は「は」および「に」の
出現回数n3、n4を、2文字連鎖809は「に」および
「a」の出現回数n4、nを記憶する。
【0039】また、図8において、821は検索時の検
索文字列「いろはに」、822は検索文字列821をキ
ーワード検索として完全一致検索を行うために821の
先頭と末尾に区切り文字「a」を挿入した検索文字列、
823は検索文字列822で最初に検索される2文字連
鎖「aい」、824は823に続く2文字連鎖「い
ろ」、825は823に続く2文字連鎖「ろは」、82
6は825に続く2文字連鎖「はに」、827は826
の次の2文字連鎖「にa」である。
【0040】図7は本発明の第4の文字列検索方法の一
実施例における情報処理装置の構成を示したものであ
る。
【0041】図7、8において、701は登録する文字
列801に対して特定の区切り文字「a」をキーワード
の境界に挿入する文字列変換器、702は文字列変換器
701から出力される区切り文字の挿入された登録文字
列802から区切り文字を検出する区切り文字検出器、
703は文字列802から区切り文字がない場合に生成
する登録する2文字連鎖804、808を検出する2文
字連鎖検出器、704は文字列802から区切り文字
「a」をはさむ3文字列「ろaは」から生成する2文字
連鎖805、806、807および、文字列の先頭およ
び末尾が区切り文字で2文字連鎖となる803、809
を検出する区切り文字連鎖検出器、705は2文字連鎖
検出器703および区切り文字連鎖検出器704で検出
された2文字連鎖803、804、805、806、8
07、808、809およびそれぞれの連鎖文字で区切
り文字は一定値をまたそのほかの文字はその出現回数を
格納する2文字連鎖メモリ、706は検索する文字列8
21に対して先頭および末尾に特定の区切り文字「a」
を挿入する文字列変換器、707は文字列変換器706
で生成される検索文字列822に対して2文字連鎖82
3、824、825、826、827を検出する2文字
連鎖検出器、708は2文字連鎖検出器707より検出
された2文字連鎖823、824、825、826、8
27を2文字連鎖メモリ705で検出し、検出した2文
字連鎖の前の文字の出現回数が直前に検出した2文字連
鎖の後の文字の出現回数に一致するか否か判断する比較
器、709は2文字連鎖検出器707から検出される全
ての2文字連鎖について比較器708で判断し、文字列
の一致を判断する制御部である。このとき本発明の第4
の方法では、2文字連鎖823の「aい」に該当する2
文字連鎖803を検出し、このときの「ろ」の出現回数
n1と、823の次の2文字連鎖824の「いろ」に該当
する2文字連鎖804を検出し、このときの「い」およ
び「ろ」の出現回数n1、n2を検出する。2文字連鎖80
3および804の「い」の出現回数がn1で一致するか否
か判断する。一致したら、次に2文字連鎖825の「ろ
は」に該当する2文字連鎖807を検出し、このときの
「ろ」および「は」の出現回数n2、n3を検出する。2文
字連鎖804および807の「ろ」の出現回数がn2で一
致するか判断する。一致したら、次に、2文字連鎖82
6の「はに」に該当する2文字連鎖808を検出し、こ
のときの「は」および「に」の出現回数n3、n4を検出す
る。2文字連鎖807および808の「は」の出現回数
がn3で一致するか判断する。一致したら、次に2文字連
鎖827の「にa」に該当する2文字連鎖809を検出
し、このときの「に」の出現回数n4が808の「に」の
出現回数に一致するか否か判断する。一致したら、文字
列821は文字列801にキーワードの完全一致で一致
したと判断する。以上により、文字列の照合がなされ
る。
【0042】本方式では、キーワード以外の文字列によ
る検索を排除することができる。たとえば図8の文字列
831のようなキーワードでない文字列「いろは」で検
索を行う場合は、その先頭と末尾に区切り文字を挿入し
た832のような検索文字列で検索を行うことなる。こ
の場合、文字列831はキーワード811、812、8
13ではないので、その検索文字列832から検出でき
ない2文字連鎖836の「はa」が生成され、検索され
ない。
【0043】なお、本方式においては、各2文字連鎖の
文字の出現回数の代わりに文字の位置情報を用いた場合
も同様である。
【0044】(実施の形態5)本発明の実施例として文
字パターンの判別方法の例を示す。
【0045】図9は文字パターンをコード化して格納す
るコードテーブルの構造を示している。この場合、パタ
ーンのコードは1次元で構成されていること、文字列コ
ードの例としてユニコード(unicode)などが対
象となる。A群901は文字「あ」…、「カ」、…、な
どいわゆる平かなとカタカナで構成された群である。A
群901の「あ」には1番、「い」には2番、のように
コード番号が付けられている。以下同様にB群902は
漢字で構成された群で、C群903は×、○、△などで
構成された群であり、それぞれ100番、200番から
始まる番号が付けられている。なお、番号は便宜上与え
た番号でありコードテーブルの中でユニークであればよ
い。
【0046】次に図10は文字から構成されるパターン
分類の種類とそのデータを格納するパターン記憶手段の
構造を示している。この時、文字種で組み合わされた文
字列データは判別するパターンのいずれか1つの文字列
から構成されているものとする。2組の文字の組み合わ
せに対して、1文字目のパターンと2文字目のパターン
がコードテーブルのどの組に含まれるかで該当するパタ
ーンとその値が格納されている。(1文字目、2文字
目)が(A群の文字、A群の文字)(以下、(A群、A
群)と記す)または(B群、B群)の場合は組み合わせ
D1に該当し、パターン1に含まれるように定義されて
いる。このパターン1に対しては数値1が割り当てられ
る。また、(A群、B群)または(B群、A群)の組み
合わせに対してもパターン1で数値1を割り当てる。以
下、パターン2、パターン3に対しても第10図のパタ
ーン2、3にように割り当てる。例えば、日本語の場合
は、ひらかな、カタカナ、漢字を含むので、パターン1
は日本語と定義することができる。以下同様にC群をハ
ングルとした場合、パターン2は朝鮮語、パターン3は
中国語として定義することが可能である。
【0047】次に、文字列に対してどのパターンに含ま
れるかを判定する方法を説明する。図11の1101は
文字列データである。文字列データ1101から2文字
の組み合わせを抽出する。抽出された2文字の連鎖
(日、本)、(あ、い)(漢、カ)を抽出する。抽出し
た文字連鎖が含まれる群を求めると、それぞれ(群B,
群B)、(群A、群A)、(群B、群A)となる。これ
により、図12に示すように(日、本)はパターン1ま
たは2、(あ、い)はパターン1、(漢、カ)はパター
ン1となる。
【0048】また、これらパターンに対応する得点(数
値)は1または2、1、1となる。これらの数値の個数
を比較し、最頻となる数値を求めると1となり、数値1
に対応するパターンはパターン1となる。これにより文
字列データはパターン1に含まれると判別する。ここ
で、本実施例では、最も頻度の高い数値を算出したが、
数値の平均を求め平均値とパターンが持つ数値との差が
最も少ないパターンが文字列データが含まれるパターン
と判別してもよい。また平均値の代わりに数値の最頻値
を算出してもよい。
【0049】なお、本手法によれば、実際のデータを分
析してみた場合、日本語の場合(新聞記事を対象)は記
号の出現の割合は全文字種に対して約10%、漢字・記
号を除く平かな・片仮名など41%、漢字約49%であ
り、中国語の場合(法令集を対象)は記号の出現の割合
が全文字種に対して3%、漢字・記号を除く平かな・片
仮名22%、漢字74%であり、ハングル語の場合(新
聞記事を対象)は記号の出現の割合は全文字種に対して
約15%、漢字・記号を除く平かな・片仮名など3%、
ハングル文字73%、漢字4%、その他7%となってい
る。このことから記号、平かな・片仮名、漢字、ハング
ルの文字の形のみで文字コードが管理されている場合、
記号を除く平かな・片仮名文字と漢字の割合が41:4
9の場合は日本語、22:74の場合は中国語、3:7
3の場合はハングルであり、この3つの比率にもっとも
近いものが判別される言語として分類できる。
【0050】図13は本発明の第5の方法の一実施例に
おける情報処理装置の構成を示したものである。130
1は文字列データから2文字連鎖を切り出す文字列連鎖
抽出器、1303はパターンのコードが格納されたコー
ドテーブル、1305はパターンの組と数値が格納され
ているパターン記憶器、1302は1301で抽出され
た2文字連鎖を構成する文字コードの群の組を1305
から照合し、さらに対応するパターンの数値を全ての抽
出された2文字連鎖に対して算出するパターン算出器、
1304は1302で算出した数値から、数値毎の出現
頻度または平均値または最頻値を算出し、1305が格
納しているパターンの数値と出現頻度がもっとも一致し
たパターン、または平均値との差または最頻値の差を算
出し最も小さい値であるパターンを判定するパターン判
定器である。
【0051】よって、この方法により、文字種別などの
パターンに対して全て同一次元の番号付けがされてお
り、かつパターンが数種類の意味付けれたパターン群に
分類され、かつパターン群の組み合わせにより複数の意
味群をあらわすパターンの集合に対して、データがどの
パターンに入るかを自動的に判定することができる。
【0052】特に、ここでパターンとして文字の種類、
フォントに対して複数のパターンに分類されている場合
に分類に効果がある。またコード化されている例として
unicodeがあり、パターン1を「ひらなか・カタカ
ナ」、パターン2が「漢字(CJK漢字)」、パターン
3が「ハングル」の場合に、例えば、パターン群1とパ
ターン群2を組み合わせた意味群を「日本語」、パター
ン群2とパターン3を合わせてた意味群を「朝鮮語」、
パターン群2のみの意味群を「中国語」と定義して分類
することが可能となる。
【0053】なお、本実施例ではコード化されたパター
ンであれば文字に限定されず、◎◇などの記号や図形な
どコード化された対象であれば特に限定しなくてもよ
い。また、2文字づつのきり出しを行ったが、文字の切
り出し単位は2文字であれば制限を与えない。 (実施の形態6)本発明の実施例として文字パターンの
判別方法の例をしめす。始めにパターンを判別するため
の情報を作成する方法を示す。
【0054】図14は、情報を作成するためのサンプル
データである。図14において1401は中国語のサン
プルデータであり、このサンプルデータから2文字の連
鎖を取り出す。1402は文字連鎖「那些」、1403
は文字連鎖「些都」であり、隣会うようにして文字連鎖
を取り出す。なお、1401のデータをレコード番号1
とする。以下、サンプルデータから全ての文字連鎖を取
り出す。図14では、後述する説明のために1402〜
1405の4つの文字連鎖を示すこととする。図14に
おいて1406、1412は日本語のサンプルデータで
あり、前記と同様にサンプルデータすべての2文字連鎖
を抽出する。中国語のサンプルデータの抽出の説明と同
様に、本実施例では2文字連鎖として1407〜141
1、1413〜1416を文字連鎖として示す。なお、
1406、1412のデータをレコード番号2、3とす
る。
【0055】次に、抽出した文字連鎖のパターンに対し
て、組み合わせパターン、レコード番号、出現回数を中
国語、日本語のようにパターン種別により別々に記憶媒
体に格納する。
【0056】図15の1501〜1504は、パターン
種別が中国語の場合のパターンとレコード番号が格納さ
れている。以下同様に図15の1505〜1509にお
いてはパターン種別が日本語の場合のパターンとそのレ
コード番号が格納されている。出現パターン1501か
ら1504はサンプルデータ1401を含むのでレコー
ド番号1が格納される。また出現パターン1505から
1509はサンプルデータ1406または1412を含
み、1レコードのみの場合は2、2レコードを含む場合
は「2、3」が格納されている。文字連鎖の出現数は図
15から格納されているレコード番号の数で示され、図
16に示す2次元のテーブルとして示される。
【0057】図16の1601においては中国語の出現
数、1602においては日本語の出現数を示す。テーブ
ルはパターン(1文字目、2文字目)の組み合わせに対
して、縦列が1文字目、横行が2文字目を示している。
パターン識別の記憶媒体は図15および図16のデータ
が格納されている。以下任意の数のレコード数のパター
ンを本実施例の記憶媒体に格納し、結果としてパターン
種別毎の出現回数がテーブルに格納される。
【0058】なお、本実施例では中国語と日本語の2つ
のパターン種別で説明したが、複数のパターン種別の場
合も同様の方法でパターン種別毎にテーブルに格納され
る。つぎにテストパターンを使用して判別する方法を説
明する。図17においてテストパターン1701に対し
て隣接する2文字連鎖を抽出する。2文字連鎖1702
は「同事」、1703「事件」、1704「件と」、1
705「と我」、1706「我々」のように抽出する。
次に図16の記憶媒体のテーブルから1702、170
3、1704、1705、1706に該当する出現回数
を求める。中国語のテーブル(図16の1601)にお
いては、パターン(同、事)の出現回数が1でありそれ
以外はない。一方日本語のテーブル(第16図の160
2)においてはパターン(我、々)の出現回数が2、
(同、時)の出現回数が1、(事、件)の出現回数が2
である。これら出現回数の合計をパターン種別毎に算出
すると中国語では1、日本語では5となる。この2つの
結果を比較し数値の大きくなるパターン種別を算出し、
結果としてテストパターンは日本語であると判別する。
【0059】なお、本実施例では、出現回数の合計を算
出したが、出現回数の合計がn以上となるパターン種別
を算出する、または各文字連鎖の出現回数がn以上の文
字連鎖の出現回数の合計を算出する方法をとってもよ
い。
【0060】また、本手法によれば、実施例5で引用し
た実際のデータに対して適用した例から、日本語・中国
語・ハングルで同一の文字コードを使用するローカルコ
ードでの出現割合の多いものについて出現文字種の数に
注目すると、使用された中国語のデータに対し漢字(約
74%)3469種、ハングルのデータに対しハングル
(約73%)218種、日本語のデータに対し漢字(約
49%)4006種、平かな・片仮名(23%)130
種類(記号を含めると41%、510種)である。この
ことから出現率と文字種の組み合わせから中国語の漢字
コードで出現頻度が74%出現文字種3469種、ハン
グルのハングル文字コードで出現頻度が73%出現文字
種218種、日本語の平仮名・片仮名のコードで23%
出現文字種130種、日本語漢字のコードで出現頻度が
49%出現文字種4006種のそれぞれを比較し、中国
語のコードで漢字の出現頻度と出現文字種が多い場合は
中国語、以下日本語、ハングルを同様に上記各言語のコ
ードで出現頻度と出現文字種から言語を判定することが
できる。
【0061】図18は本発明の第6の方法の一実施例に
おける情報処理装置の構成を示したものである。180
1は文字列データから隣接する2文字連鎖を取り出す文
字列連鎖抽出器、1802は文字連鎖の出現回数とレコ
ード番号を読み取り、パターン(言語)種別毎に頻度メ
モリ1803に格納する文字連鎖頻度計数器、1804
は文字連鎖抽出器で取得した文字連鎖に対してパターン
種別毎に文字連鎖の出現回数を頻度メモリから取り出す
頻度計数器、1805は1804から得られた出現回数
をパターン種別毎に出現回数の合計またはある閾値の出
現回数の合計を算出し、パターン種別毎にある閾値を越
えるパターンを算出または大小を比較してテストパター
ンが含まれるパターン種別を判定する照合器である。
【0062】よって、この方法により、テストデータが
どのパターンに入るかを自動的に判定する方式ことがで
きる。また文字の種類、フォントなどがコード付けされ
ていない場合でも分類できるという効果がある。また言
語毎の辞書を用意する必要がなくパターンを分類するこ
とができる。
【0063】(実施の形態7)本発明の実施例として文
字パターンの判別方法の例をしめす。始めにパターンを
判別するための情報を作成する方法を示す。
【0064】図19は、情報を作成するためのサンプル
データである。図19において1901は中国語のサン
プルデータであり、このサンプルデータから2文字の連
鎖を取り出す。2文字連鎖を取り出すとき、文字種(例
えば漢字、カタカナなどの文字コード)が同じ場合に2
文字連鎖を作成する。但し、2文字を取り出すとき予め
指定された言語の切り出し、例えば辞書が存在する場合
は切り出した2文字目と次の文字との連鎖は作成しない
ものとする。本実施例では日本語の切り出しを用いるた
め1901に対しては隣接する文字連鎖を作成する。以
下、1902から1905までは実施の形態6と同様で
ある。次に図19において1906は日本語のサンプル
データである。文字種毎に連鎖作成を調べ、「は」
「な」などの平かなに対しては文字連鎖を作成しない。
また「事件」など日本語の辞書が存在する場合には1つ
前の文字「同」と「事件」を分ける。この結果、文字連
鎖は2文字連鎖1907、1911と、1文字190
8、1909、1910などに別れる。続けて1文字1
908、1909、1910に対しては同じ文字を重ね
て2文字連鎖を作成する。図20は1文字と判定された
ものは2文字連鎖に変換して作成された文字連鎖であ
る。
【0065】次に、実施の形態6にしたがって、全ての
文字連鎖パターンに対して、組み合わせパターン、レコ
ード番号、出現回数を中国語、日本語のようにパターン
種別により別々に記憶媒体に格納する。図21には2次
元のテーブルとして格納されたデータの例を示されてい
る。図21の2101においては中国語の出現数、21
02においては日本語の出現数を示し、テーブル構造は
実施の形態6と同様である。以下任意の数のレコード数
のパターンを本実施例の記憶媒体に格納し、結果として
パターン種別毎の出現回数がテーブルに格納れる。な
お、複数のパターン(言語)種別の場合も同様の方法で
パターン種別毎にテーブルに格納されることも実施の形
態6と同様である。
【0066】つぎにテストパターンを使用して判別する
方法を説明する。図17のテストパターン1701を使
用する。この場合も文字の区切りルールに従い、抽出さ
れるデータは、2文字連鎖1703「事件」、1706
「我々」のように抽出される。 次に図21の記憶媒体
のテーブルから1703、1706に該当する出現回数
を求める。中国語のテーブル(図21の2101)にお
いては、パターン(同、事)の出現回数が1でありそれ
以外はない。
【0067】一方日本語のテーブル(図21の210
2)においてはパターン(我、々)の出現回数が2、
(事、件)の出現回数が2である。これら出現回数の合
計をパターン種別毎に算出すると中国語では1、日本語
では4となる。この2つの結果を比較し数値の大きくな
るパターン種別を算出し、結果としてテストパターンは
日本語であると判別する。
【0068】なお、本実施例では、出現回数の合計を算
出したが、出現回数の合計がn以上となるパターン種別
を算出する、または各文字連鎖の出現回数がn以上の文
字連鎖の出現回数の合計を算出する方法をとってもよ
い。また、テストパターンに対する文字連鎖抽出の方法
として区切りルールを適用したが、実施の形態6と同様
に区切りルールを適用せずに隣接する2文字の全ての文
字連鎖を取り出してもよい。
【0069】なお、本手法によれば、実施例5または実
施例6で引用した実際のデータに対して適用した例か
ら、出現回数の基準として出現頻度の%に合わせた文字
数をnとすることで判定できる。例えば、中国語の場
合、中国語の漢字コードで出現頻度が74%出現文字種
3469種から100文字の場合、漢字コードに該当す
る出現数の総和nを74することができる。
【0070】図22は本発明の第7の方法の一実施例に
おける情報処理装置の構成を示したものである。220
2は文字列データから区切りルールによりサンプルデー
タを切り出す区切り判定器、2201は区切り判定器か
ら結果が得られた場合は、2文字連鎖または1文字連鎖
を取得し、さらに出現回数とレコード番号を読み取り、
区切り判定器2201の結果がなければ全ての隣接する
文字連鎖を袖手つする文字連鎖抽出器、2203は文字
連鎖抽出器が1文字の場合は文字を重ねて2文字連鎖を
作成する連鎖変換器、2204は2文字連鎖とレコード
番号、出現回数をパターン(言語)種別毎に頻度メモリ
2205に格納する文字連鎖頻度計数器、2206は2
201文字連鎖抽出器または2203連鎖変換器で取得
した文字連鎖に対してパターン種別毎に文字連鎖の出現
回数を2205頻度メモリから取り出す頻度計数器、2
207は2206から得られた出現回数をパターン種別
毎に出現回数の合計またはある閾値の出現回数の合計を
算出し、パターン種別毎にある閾値を越えるパターンを
算出または大小を比較してテストパターンが含まれるパ
ターン種別を判定する照合器である。
【0071】よって、この方法により、テストデータが
どのパターンに入るかを自動的に判定することができ
る。また文字の種類、フォントなどがコード付けされて
いない場合でも分類できるという効果がある。また言語
毎の全てのルールを用意する必要がなくパターンを分類
することができる。
【0072】(実施の形態8)本発明の実施例として文
字パターンの判別方法の例をしめす。始めにパターンを
判別するための情報を作成する方法を示す。また、分類
するパターンはここでは2とする(日本語と中国語な
ど)。図23は文字パターンをコード化して格納するコ
ードテーブルの構造を示している。A群2301は文字
「と」…、などいわゆる平かなとカタカナで構成された
群である。A群2301の「と」には10番、のように
コード番号が付けられている。以下同様にB群2302
は漢字で構成された群で、「我」は100番、「同」は
101番、…、のように番号が付けられている。なお、
番号は便宜上与えた番号でありコードテーブルの中でユ
ニークであればよい。
【0073】パターン識別するための情報を作成するた
めのサンプルデータとして、図14の1401、140
6、1412で示すものと同じデータを例として本実施
例の説明をする。但し、本実施例では図14の140
1、1406、1412がどのパターン分類(言語)に
属するかは不明のものとする。図24は、図14のサン
プルデータから抽出した文字連鎖パターンの例である。
図14の文字連鎖として例えば1404「我同」、14
05「同事」に対して、「我同」の文字連鎖パターン2
401は文書番号1、第1文字の文字コード101、第
2文字の文字コード102、出現回数が1が格納されて
いる。同様に2402は文字連鎖「同事」の文字連鎖パ
ターンである。次に図14の1406の文字連鎖パター
ンは第図24の2403、2404、2405などがあ
る。同様にして図14の1412文字連鎖パターンは図
24の2406、2407などがある。
【0074】次に文字連鎖パターンを文字連鎖パターン
毎に集める。ここで文書番号を基準として、同一の文字
連鎖パターンが含まれるものを集め、その個数を算出す
る。図25では文字連鎖パターン毎に集めた例を示す。
図25の2501において示すように、文書番号1につ
いては、他の文書と共通するものは「同事」であり、関
連する文書番号は1、共通する文字連鎖パターンの個数
は2である(個数1は共通文字連鎖パターンがないこと
を示す)。
【0075】一方、図25の2502において示すよう
に、文書番号2については、他の文書と共通するのは、
「我々」「事件」であり共通する文字連鎖パターンの個
数は4である。同様に、文書番号3についても共通する
文字連鎖パターンの個数は4である。このことから、文
書番号2と3は文書番号1とは異なると判断し、文書番
号1をパターン2に、文書番号2、3はパターン1に振
り分け、文字連鎖パターンを格納する。図26はパター
ン1、パターン2に振り分けられて記憶媒体に格納され
た例を示す。以下、サンプルデータに対しては2文字連
鎖を作成し、記憶媒体に格納された2つのパターン(パ
ターン1、パターン2)から文字連鎖パターンを取り出
し、サンプルデータの文字連鎖と記憶媒体に格納された
文字連鎖パターンをパターン種別ごとに比較し、数が大
きいパターン種別に対してサンプルデータの文字連鎖パ
ターンを格納する。
【0076】なお、本実施例では個数の大きいほうのパ
ターン種別に対して文字連鎖パターンを記憶媒体に格納
したが、文字連鎖パターンがある閾値より大きい場合の
文字連鎖パターンを取り出す、または取り出した文字連
鎖パターンの種類がある閾値より大きい場合の個数の比
較でパターン種別を決定してもよい。
【0077】なお、本手法によれば、実際のデータを分
析してみた場合、実施例5、6、7で引用した例と同様
に、中国語・ハングル・日本語では出現回数、文字コー
ドおよびその組み合わせで構成された分布は異なってい
る。特に実施例6で説明した通りハングルは少ないハン
グル文字に頻度が集中しているのに対して、日本語は平
かな・片仮名の組み合わせに頻度が集中しており、中国
語は多種の漢字文字の組み合わせに一様に分布してい
る。この分布のどれに近いかを3つの言語コードで示さ
れた出現頻度と出現文字種の差がもっとも小さいもので
判別することができる。
【0078】つぎに、テストパターンを使用してテスト
パターンをどちらのパターン種別に含まれるかを判別す
る方法であるが、判別方法は第4の実施例から第7の実
施例までと同様の方法で実現する。
【0079】図27は本発明の第8の方法の一実施例に
おける情報処理装置の構成を示したものである。270
1は文字列データから隣接する2文字連鎖を取り出す文
字列連鎖抽出器、2702は文字連鎖の出現回数とレコ
ード番号を読み取る文字連鎖頻度計数器、2703は文
字連鎖抽出器で取得した文字連鎖に対してパターン種別
毎に文字連鎖の出現回数を頻度メモリから取り出し、な
ければ2702で取得した文字連鎖の頻度を計算する頻
度計数器、2704は2703から得られた文字連鎖ま
たは文字連鎖パターンに対して文書番号毎にどのパター
ン種別に含まれるかを文字連鎖パターンの出現回数の合
計またはある閾値の出現回数の合計を算出し、パターン
種別毎の大小を比較して合計の大きいほうの頻度メモリ
2705のパターン種別に文字連鎖パターンを格納し、
テストパターンに対してはパターン種別を判別結果とし
て通知するパターン分類器である。
【0080】よって、この方法により、テストデータが
どのパターンに入るかを自動的に判定することができ
る。また文字の種類、フォントなどがコード付けされて
いない場合でも分類できるという効果がある。また言語
毎の辞書を用意する必要がなくパターンを分類すること
ができる。またルールを参照しながら言語毎のファイル
を作成し、かつ言語毎またはパターンの分類をその出現
の関係から再構築して作成しつつ、入力された文字列か
らどの言語またはパターンに属するかを判別することが
できる。
【0081】(実施の形態9)文字列の言語判別の例と
して、統一コード(ユニコード)またはローカルコード
(EUCなど)で使用された文字列データ共通で使用す
る場合を考える。図32に示すブロック構成図の流れに
従って実施例を示す。
【0082】はじめに、入力文字列が統一コードまたは
ローカルコードで管理されているときの文字コードの例
を図28に示す文字種別コードテーブルメモリに格納さ
れている(第32図3203)。図28の2801〜2
804は統一コードのテーブルであり、2801はひら
かな・片仮名のコードテーブル、2802は漢字のテー
ブル、2803は記号のテーブル、2804はハングル
のテーブルで、それぞれコード番号がユニークにつけら
れている。一方、図28の2805〜2809ではロー
カルコードのテーブルであり、2805は日本語コード
でのひらかな・片仮名、2806は中国語コードでのひ
らかな・片仮名、2807はハングルコードでのひらか
な・片仮名が格納されており、文字種別によってコード
番号が異なっている。 以下2808は漢字、2809
は記号のローカルコードである。入力データは図30の
ような文字列とする。
【0083】本実施例では統一コードを使った例で説明
し、ローカルコードを使用した場合との相違点を適宜実
施例の中で説明する。
【0084】図30の「日本にあう漢字」の各文字のコ
ード番号が対応づけされている。このとき、コード識別
指定器3201が指定された文字コード体系(統一コー
ドまたはローカルコード)を読み取り、2文字連鎖抽出
器3202が入力データから2文字連鎖「日本」「本
に」「にあ」「あう」「う漢」「漢字」を切り出す。続
けて、言語別出現頻度計数器3204で、ユニコードの
場合の文字列を文字種別コードテーブルメモリ3203
からコード番号対応をおこない、2文字連鎖の第1文字
目のコード番号を調べ、漢字、ひらかな、…の文字種毎
に出現の個数を算出する。たとえば、図30の入力文字
列の場合は2文字連鎖の個数が6個で、第1文字目が漢
字の連鎖は3、ひらかな・片仮名の連鎖は3であり、そ
の他は0である。従って漢字の出現度50%、ひらかな
・片仮名も50%である。続いて言語別分布間距離算出
器3206に2文字連鎖の出現度を送る。
【0085】次に言語別分布テーブルメモリ3205か
ら文字出現%を読み取る。言語別分布テーブルメモリ3
205は、各言語で書かれたデータから2文字連鎖の出
現パターンの割合を算出された学習テーブルであり、日
本語、中国語、ハングルのそれぞれの言語に対して漢
字、ひらかな・片仮名、記号、ハングル、その他の文字
種毎の出現%がテーブルとして格納されている。言語別
分布間距離算出器3206は、図31の距離算出のルー
ルに従って、既に抽出したデータと上記学習テーブルと
の分布間の距離を測定する。たとえば、日本語の基準の
場合は、(50%(漢字出現%)−49%)の2乗+
(50%(ひらかな)−41%)の2乗+(0%(記
号)−10%)の2乗+(0%(ハングル)−0)の2
乗=182となる。同様にして、中国語の基準の場合に
は1376、ハングルの場合は9895となる。この結
果を比較器3207に送り、比較器では日本語、中国
語、ハングルを基準とした値の最小となる基準を調べる
と日本語の1376が該当する。以上の結果から、入力
された文字列は日本語と判定する。
【0086】なお、図31の距離は各文字種の出現%と
学習テーブルの出現%との2乗としたが、距離として絶
対値など三角不等式(すなわち、d(x,z) ≦ d(x,y)+d
(y,z)(dは距離関数、x、yは任意の値)を満たす関係
であればどのような距離でもよい。また、本実施例では
コード化されたパターンであれば文字に限定されず、◎
◇などの記号や図形などコード化された対象であれば特
に限定しなくてもよい。
【0087】
【発明の効果】以上説明したように本発明は、ある言語
で記述されている文字列に対して、その国の言語の記述
の特徴を利用し、その言語で頻繁に出現する特定文字ま
たは特定の範囲の文字に着目し、識別対象の文字列の特
定文字の出現率を求めるか、または特定文字間の文字列
長の平均を求めるか、または特定範囲文字の出現率を求
めることにより、入力文字列の言語を識別することがで
きるという効果を有する。
【0088】また、第2に、文書検索で作成されるイン
デックスとして2文字連鎖による検索方式を利用してお
り、キーワードの先頭と末尾に区切り文字を挿入した入
力文字列に対して、登録時に作成されるインデックスに
これらの区切り文字の情報をそのまま付加して、キーワ
ード検索できるという効果を有する。
【0089】また、第3に、与えられた文字列からどの
言語に属するかを自動的に判別することができる効果を
有し、また、文字列の特徴がコードとして決められてお
り、特に、文字パターンの形状、たとえばフォントな
ど、で分類されている場合の言語またはグループ種別を
自動的に判別することができる効果がある。
【図面の簡単な説明】
【図1】本発明の第1の方法の実施例における情報処理
装置のブロック構成図
【図2】本発明の第1の文字コード言語識別の方法を示
す概念図
【図3】本発明の第2の方法の実施例における情報処理
装置のブロック構成図
【図4】本発明の第2の文字コード言語識別の方法を示
す概念図
【図5】本発明の第3の方法の実施例における情報処理
装置のブロック構成図
【図6】本発明の第3の文字コード言語識別の方法を示
す概念図
【図7】本発明の第4の方法の実施例における情報処理
装置のブロック構成図
【図8】本発明の第4のキーワード検索の方法を示す概
念図
【図9】本発明の第5の方法の実施例におけるコードテ
ーブルを示す図
【図10】本発明の第5の方法の実施例におけるパター
ン記憶装置の構造図
【図11】本発明の第5の方法の実施例における判別対
象の文字列の概念図
【図12】本発明の第5の方法の実施例におけるパター
ン判別過程のデータ構造を説明する説明図
【図13】本発明の第5の方法の実施例における情報処
理装置のプロック構成図
【図14】本発明の第6の方法の実施例におけるサンプ
ルデータの概念図
【図15】本発明の第6の方法の実施例における文字連
鎖出現率を示す説明図
【図16】本発明の第6の方法の実施例における頻度メ
モリのデータ構造とデータの概念図
【図17】本発明の第6の方法の実施例におけるテスト
文字列の概念図
【図18】本発明の第6の方法の実施例における情報処
理装置のプロック構成図
【図19】本発明の第7の方法の実施例におけるサンプ
ルデータの概念図
【図20】本発明の第7の方法の実施例における連鎖変
換されたデータの概念図
【図21】本発明の第7の方法の実施例における頻度メ
モリのデータ構造とデータを説明する説明図
【図22】本発明の第7の方法の実施例における情報処
理装置のプロック構成図
【図23】本発明の第8の方法の実施例におけるコード
テーブルの概念図
【図24】本発明の第8の方法の実施例における文字連
鎖データの概念図
【図25】本発明の第8の方法の実施例における文字連
鎖照合時の文字連鎖データの概念図
【図26】本発明の第8の方法の実施例における頻度メ
モリのデータ構造とデータを説明する説明図
【図27】本発明の第8の方法の実施例における情報処
理装置のブロック構成図
【図28】本発明の第9の方法の実施例における文字種
別コードテーブルメモリの構成図
【図29】本発明の第9の方法の実施例における言語別
分布テーブルメモリの構成図
【図30】本発明の第9の方法の実施例における入力文
字列データの概念図
【図31】本発明の第9の方法の実施例における距離判
定算出の方法を説明する説明図
【図32】本発明の第9の方法の実施例におけるブロッ
ク構成図
【符号の説明】
101 特定文字識別器 102 特定文字計数器 103 力文字計数器 104 出現率算出器 105 標準出現率メモリ 106 比較器 107 文字列終了検出器 301 特定文字識別器 302 文字列長計数器 303 加算器 304 特定文字計数器 305 平均文字列算出器 306 標準文字列長メモリ 307 比較器 308 文字列終了検出器 501 特定範囲文字識別器 502 特定範囲文字計数器 503 入力文字計数器 504 出現率算出器 505 標準出現率メモリ 506 比較器 507 文字列終了検出器 701 文字列変換器 702 区切り文字検出器 703 2文字連鎖検出器 704 区切り文字連鎖検出器 705 2文字連鎖メモリ 706 文字列変換器 707 2文字連鎖検出器 708 比較器 709 制御部 901 A群のパターンコード 902 B群のパターンコード 903 C群のパターンコード 1101 判別対象の文字列 1301 文字連鎖抽出器 1302 パターン算出器 1303 コードテーブル 1304 パターン判定器 1305 パターン記憶器 1401 サンプルパターン(中国語) 1402 2文字連鎖 1403 2文字連鎖 1404 2文字連鎖 1405 2文字連鎖 1406 サンプルパターン(日本語) 1407 2文字連鎖 1408 2文字連鎖 1409 2文字連鎖 1410 2文字連鎖 1411 2文字連鎖 1412 サンプルパターン(日本語) 1501 出現パターン 1502 出現パターン 1503 出現パターン 1504 出現パターン 1505 出現パターン 1506 出現パターン 1507 出現パターン 1508 出現パターン 1509 出現パターン 1701 テストパターン 1702 2文字連鎖 1703 2文字連鎖 1704 2文字連鎖 1705 2文字連鎖 1706 2文字連鎖 1901 サンプルパターン(中国語) 1902 2文字連鎖 1903 2文字連鎖 1904 2文字連鎖 1905 2文字連鎖 1906 サンプルパターン(日本語) 1907 2文字連鎖 1908 1文字 1909 1文字 1910 1文字 1911 2文字連鎖 2301 A群のパターンコード 2302 B群のパターンコード 2401 文字連鎖パターン 2402 文字連鎖パターン 2403 文字連鎖パターン 2404 文字連鎖パターン 2405 文字連鎖パターン 2406 文字連鎖パターン 2407 文字連鎖パターン 2801 ひからな・片仮名用コード(統一コード) 2802 漢字コード(統一コード) 2803 記号コード(統一コード) 2804 ハングルコード(統一コード) 2805 ひらかな・片仮名日本語ローカルコード 2806 ひらかな・片仮名中国語ローカルコード 2807 ひらかな・片仮名ハングルローカルコード 2808 漢字ローカルコード 2809 記号ローカルコード

Claims (26)

    【特許請求の範囲】
  1. 【請求項1】 文字列の全ての文字に対して、検出目標
    言語の特定文字コードの文字である特定文字を検出しカ
    ウントする特定文字計数手段と、前記計数手段により得
    られた特定文字数と入力文字列の文字数から特定文字の
    出現率を求める出現率算出手段と、目標言語の特定文字
    の標準出現率をあらかじめ記憶する標準出現率格納手段
    と、前記出現率算出手段から得られる入力文字列の特定
    文字出現率と前記標準出現率格納手段から得られる標準
    出現率を比較する比較手段とを備え、 文字列が目標の言語に該当する性質の文字列であるかど
    うか判断することを特徴とする情報処理装置装置。
  2. 【請求項2】 文字列の全ての文字に対して、検出目標
    言語の文字コードの中で1つまたは複数の特定文字を検
    出しカウントする特定文字検出手段と、前記検出手段に
    より得られた特定文字の間の非特定文字からなる文字列
    を抽出しその文字数を検出する非特定文字列検出手段
    と、前記非特定文字列検出手段から得られる非特定文字
    列の文字列長の平均を求める平均文字列長算出手段と、
    目標言語の非特定文字の標準平均文字列長をあらかじめ
    記憶する標準文字列長格納手段と、前記平均文字列長算
    出手段から得られる入力文字列の非特定文字長と前記標
    準文字列長格納手段から得られる標準平均文字列長を比
    較する比較手段とを備え、 文字列が目標の言語に該当する性質の文字列であるかど
    うか判断することを特徴とする情報処理装置。
  3. 【請求項3】 文字列の全ての文字に対して、検出目標
    言語の特定の範囲の文字コードの文字である特定範囲文
    字を検出しカウントする特定範囲文字計数手段と、前記
    計数手段により得られた特定範囲文字数と入力文字列の
    文字数から特定範囲文字の出現率を求める出現率算出手
    段と、目標言語の特定範囲文字の標準出現率をあらかじ
    め記憶する標準出現率格納手段と、前記出現率算出手段
    から得られる入力文字列の特定範囲文字出現率と前記標
    準出現率格納手段から得られる標準出現率を比較する比
    較手段とを備え、 文字列が目標の言語に該当する性質の文字列であるかど
    うか判断することを特徴とする情報処理装置。
  4. 【請求項4】 請求項3に記載の比較手段は、特定範囲
    文字を規定する範囲を2つ以上持つことにより2つ以上
    の特定範囲文字の出現率を比較することを特徴とする請
    求項3記載の情報処理装置。
  5. 【請求項5】 文字列を登録する際に、入力する文字列
    で意味が区切られる文字列であるキーワードの境界に入
    力文字列に存在しない特別な制御文字コードである区切
    り文字を挿入する第1の区切り文字挿入手段と、前記区
    切り文字が挿入された文字列に対し区切り文字がある場
    合は、区切り文字を間に挟む3文字の連鎖として抽出す
    る検出手段と、その区切り文字の前後の文字による文字
    連鎖と、その区切り文字とその区切り文字の前の文字に
    よる文字連鎖と、その区切り文字とその区切り文字の後
    の文字による文字連鎖を生成する文字連鎖生成手段と、
    検索時に入力文字列の先頭または、末尾または、先頭お
    よび末尾に区切り文字を挿入する第2の手段を設ける区
    切り文字挿入手段とを有した情報処理装置。
  6. 【請求項6】 文字列を登録する際に、前記キーワード
    の境界に区切り文字を挿入する区切り文字挿入手段と、
    前記区切り文字挿入手段により生成された入力文字列の
    文字が特定の区切り文字の場合、その区切り文字の前の
    文字とその区切り文字の2文字による連鎖と、その区切
    り文字とその区切り文字の後の文字の2文字による連鎖
    と、その区切り文字の前の文字と後の文字の2文字によ
    る2文字連鎖を生成する第1の文字連鎖生成手段と、入
    力する文字が区切り文字でない場合は、最初の文字とそ
    れに続く文字の2文字を2文字連鎖として生成する第2
    の文字連鎖生成手段と、2文字連鎖とその連鎖の各文字
    の出現回数を格納する文字連鎖記憶手段と、照合する文
    字列の先頭と末尾に特定の区切り文字を挿入する検索文
    字列生成手段と、前記検索文字列生成手段により生成さ
    れた検索文字列の文字の最初の文字とそれに続く文字の
    2文字を2文字連鎖として生成する第3の文字連鎖生成
    手段と、前記第3の文字連鎖生成手段で生成した文字連
    鎖と同じ文字連鎖を文字連鎖記憶手段より検出しその出
    現回数を検出する検出手段と、前の連鎖の後の文字が次
    の連鎖の前の文字である連続する2つの連鎖の前の連鎖
    の後の文字の出現回数と次の連鎖の初めの文字の出現回
    数が等しいか否かを判断する比較手段を備え、 照合時に前記第3の文字連鎖生成手段で抽出された全て
    の連鎖に対して前記比較手段で前の連鎖の後の文字の出
    現回数と次の連鎖の初めの文字の出現回数が等しいかど
    うか判断することにより検索文字列の検出と区切り文字
    挿入による検索文字列の境界を検出することによりキー
    ワード検索を行うことを特徴とする情報処理装置。
  7. 【請求項7】 文字列を登録する際に、前記キーワード
    の境界に区切り文字を挿入する区切り文字挿入手段と、
    前記区切り文字挿入手段により生成された入力文字列の
    文字が特定の区切り文字の場合、その区切り文字の前の
    文字とその区切り文字の2文字による連鎖と、その区切
    り文字とその区切り文字の後の文字の2文字による連鎖
    と、その区切り文字の前の文字と後の文字の2文字によ
    る2文字連鎖を生成する第1の文字連鎖生成手段と、入
    力する文字が区切り文字でない場合は、最初の文字とそ
    れに続く文字の2文字を2文字連鎖として生成する第2
    の文字連鎖生成手段と、2文字連鎖とその連鎖の各文字
    の出現位置を格納する文字連鎖記憶手段と、照合する文
    字列の先頭と末尾に特定の区切り文字を挿入する検索文
    字列生成手段と、前記検索文字列生成手段により生成さ
    れた検索文字列の文字の最初の文字とそれに続く文字の
    2文字を2文字連鎖として生成する第3の文字連鎖生成
    手段と、前記第3の文字連鎖生成手段で生成した文字連
    鎖と同じ文字連鎖を文字連鎖記憶手段より検出しその出
    現位置を検出する検出手段と、前の連鎖の後の文字が次
    の連鎖の前の文字である連続する2つの連鎖の前の連鎖
    の後の文字の出現位置と次の連鎖の初めの文字の出現位
    置が等しいか否かを判断する比較手段を備え、 照合時に前記第3の文字連鎖生成手段で抽出された全て
    の連鎖に対して前記比較手段で前の連鎖の後の文字の出
    現位置と次の連鎖の初めの文字の出現位置が等しいかど
    うか判断することにより検索文字列の検出と区切り文字
    挿入による検索文字列の境界を検出することによりキー
    ワード検索を行うことを特徴とする情報処理装置。
  8. 【請求項8】 請求項6または請求項7に記載の検索文
    字列生成手段に代わり、照合する文字列の先頭に特定の
    区切り文字を挿入する検索文字列生成手段を備えること
    により、検索文字列の先頭文字の境界を検出することに
    より検索文字列の前方一致検索を行うことを特徴とする
    請求項6または請求項7記載の情報処理装置。
  9. 【請求項9】 請求項6または請求項7に記載の検索文
    字列生成手段に代わり、照合する文字列の末尾に特定の
    区切り文字を挿入する第3の検索文字列生成手段を有す
    ることにより、検索文字列の終端文字の境界を検出する
    ことにより検索文字列の後方一致検索を行うことを特徴
    とする請求項6または請求項7記載の情報処理装置。
  10. 【請求項10】 文字列データが予め決められた数種類
    の言語種別に対してどの言語に含まれるかを一意にパタ
    ーン識別する情報処理装置において、パターン識別に用
    いるコード化された文字が同一次元の複数のコード群に
    コードテーブルとして分類された文字コードに対して、
    文字コード群の組み合わせによりパターン群を構成する
    プログラムを記録したコンピュータ読み取り可能な記憶
    媒体であって、 n文字の組み合わせで、組み合わせを構成するコードが
    前記複数の文字群にいずれかに含まれた文字群と文字群
    が組み合わせされた第1のデータと、 前記第1のデータの組み合わせのパターンに対応させた
    数値とする第2のデータと、 第1のデータと第2のデータの組み合わせから、予め決
    められたパターン分類に割り振られた第3のデータと、 をパターン記憶するステップを有したプログラムを記録
    したコンピュータ読み取り可能な記憶媒体。
  11. 【請求項11】 前記第1データが、2文字の組み合わ
    せで、組み合わせを構成するコードが前記複数の文字群
    にいずれかに含まれた文字群と文字群が組み合わせされ
    たことを特徴とする請求項10記載の記録媒体。
  12. 【請求項12】 請求項10または請求項11に記載の
    記憶媒体と、文字列から2文字の連鎖を検出し2文字の
    連鎖を構成する文字が含まれる文字群を決定する文字連
    鎖抽出手段と、前記文字連鎖抽出手段で決定した文字群
    の組み合わせが、前記パターン記憶手段のパターンと一
    致するするかどうかを比較し、一致するパターンの数値
    を取得するパターン算出手段と、前記パターン算出手段
    で算出した全ての文字の連鎖に対する値とその組み合わ
    せのパターンが、前記パターン記憶手段が格納している
    第1のデータ、第2のデータ、または第3のデータと一
    致するものの個数が最大のものをパターン記憶手段のパ
    ターンの組み合わせと判断するパターン判断手段とを備
    えたことを特徴とする請求項10または請求項11に記
    載の情報処理装置。
  13. 【請求項13】 前記パターン判断手段が、全ての文字
    の連鎖に対してパターン算出手段で算出した数値の平均
    値を算出し、パターン記憶手段の第2のデータと最も近
    い値をパターン記憶手段のパターンの組み合わせと判断
    することを特徴とする請求項12記載の情報処理装置。
  14. 【請求項14】 前記パターン判断手段が、全ての文字
    の連鎖に対してパターン算出手段で算出した数値の最頻
    値を算出し、パターン記憶手段の第2のデータと最も近
    い値をパターン記憶手段のパターンの組み合わせと判断
    することを特徴とする請求項12記載の情報処理装置。
  15. 【請求項15】 文字列データが予め決められた数種類
    の言語種別に対してどの言語に含まれるかを一意にパタ
    ーン識別する情報処理装置で、文字コードの組み合わせ
    でパターンをあらわすパターン群に対し、文字コードが
    パターン群それぞれで重複している場合において、パタ
    ーン識別に用いる文字群の組み合わせによりパターン群
    を構成するプログラムを記録したコンピュータ読み取り
    可能な記憶媒体であって、 予めパターン種別が知られているパターン群に対して2
    文字の組み合わせパターンである第1のデータと、前記
    第1のデータを示すパターン種別である2のデータと、
    第1のデータと第2のデータの組み合わせの出現回数を
    示す第3のデータと、をパターン記憶するステップを有
    したプログラムを記録したコンピュータ読み取り可能な
    記憶媒体。
  16. 【請求項16】 請求項15に記載のパターンデータの
    全ての2文字連鎖を抽出する文字連鎖抽出手段と、各文
    字連鎖の出現回数を算出し、前記記憶媒体に文字連鎖パ
    ターンと出現回数を、パターン種別毎に格納する文字連
    鎖頻度計数手段と、与えられたパターンに対して2文字
    連鎖を抽出する前記文字連鎖抽出手段と、抽出した文字
    連鎖に該当する文字連鎖パターンの出現回数をパターン
    種別毎に前記記憶媒体から抽出する頻度計数手段と、前
    記頻度計数手段から得られた出現回数をすべての抽出さ
    れた文字連鎖と照合し、出現回数の合計がもっとも高く
    なるパターン種別を与えられたパターンが含まれるパタ
    ーン種別と判定する照合手段とを備えたことを特徴とす
    る請求項15記載の情報処理装置。
  17. 【請求項17】 前記照合手段が、出現回数の合計があ
    る閾値を越えるようなパターン種別が、与えられたパタ
    ーンが含まれるパターン種別と判定することを特徴とす
    る請求項16記載の情報処理装置。
  18. 【請求項18】 前記照合手段が、各文字連鎖について
    の出現回数がある閾値を越える文字連鎖パターンの出現
    頻度の合計がもっとも高くなるパターン種別を、与えら
    れたパターンが含まれるパターン種別と判定することを
    特徴とする請求項17記載の情報処理装置。
  19. 【請求項19】 前記パターンデータの全ての文字連鎖
    を抽出する際に、文字種ごとまたは少なくても1つの言
    語を単語区切りができる区切り手段と、前記区切り手段
    をもとに文字連鎖を抽出する文字連鎖抽出手段と、文字
    連鎖が1文字の場合には同じ文字を重ねて文字連鎖とす
    る連鎖変換手段と、各文字連鎖の出現回数を算出し、前
    記記憶媒体に文字連鎖パターンと出現回数を、パターン
    種別毎に格納する文字連鎖頻度計数手段と、与えられた
    パターンに対して2文字連鎖を抽出する前記文字連鎖抽
    出手段と、抽出した文字連鎖に該当する文字連鎖パター
    ンの出現回数をパターン種別毎に前記記憶媒体から抽出
    する頻度計数手段と、前記頻度計数手段から得られた出
    現回数をすべての抽出された文字連鎖と照合し、出現回
    数の合計がもっとも高くなるパターン種別を与えられた
    パターンが含まれるパターン種別と判定する照合手段と
    を備えたことを特徴とする請求項10、請求項11また
    は請求項15記載の情報処理装置。
  20. 【請求項20】 文字列データが予め決められた数種類
    の言語種別に対してどの言語に含まれるかを一意にパタ
    ーン識別する情報処理装置において、パターン識別に用
    いる文字群の組み合わせによりパターン群を構成するプ
    ログラムを記録したコンピュータ読み取り可能な記憶媒
    体であって、 テキストデータに対して、パターン分類毎または言語毎
    に、2文字の組み合わせ文字連鎖パターン、文字連鎖パ
    ターンの文書番号を文字連鎖パターン毎にパターン記憶
    するステップを有するプログラムを記録したコンピュー
    タ読み取り可能な記憶媒体。
  21. 【請求項21】 請求項20に記載のテキストデータの
    全ての2文字連鎖を抽出する文字連鎖抽出手段と、各文
    字連鎖の出現回数を算出し、前記に文字連鎖パターンと
    出現回数と文書番号を、パターン種別毎に算出する文字
    連鎖頻度計数手段と、前記文字連鎖頻度計数手段で取得
    した文字連鎖パターンと前記記憶媒体の文字連鎖パター
    ンの頻度をパターン分類毎に取り出し、各パターン分類
    の文字連鎖パターンの頻度の合計値を比較し、パターン
    分類の大きいほうの前記パターン記憶手段のパターン分
    類に文字連鎖パターンと出現回数と文書番号を格納する
    文字頻度比較手段と、与えられたパターンに対して2文
    字連鎖を抽出する前記文字連鎖抽出手段と、抽出した文
    字連鎖に該当する文字連鎖パターンの出現回数をパター
    ン種別毎に前記記憶媒体から抽出する頻度計数手段と、
    前記頻度計数手段から得られた出現回数をすべての抽出
    された文字連鎖と照合し、出現回数の合計がもっとも高
    くなるパターン種別を与えられたパターンが含まれるパ
    ターン種別と判定する照合手段とを備えたことを特徴と
    する情報処理装置。
  22. 【請求項22】 請求項21に記載の文字頻度比較手段
    が、出現回数の合計がある閾値を越えるようなパターン
    種別が、与えられたパターンが含まれるパターン種別と
    判定することを特徴とする請求項21記載の情報処理装
    置。
  23. 【請求項23】 請求項22に記載の文字頻度比較手段
    が、各文字連鎖についての出現回数がある閾値を越える
    文字連鎖パターンの出現頻度の合計がもっとも高くなる
    パターン種別を、与えられたパターンが含まれるパター
    ン種別と判定することを特徴とする請求項22記載の情
    報処理装置。
  24. 【請求項24】 文字列データで、文字コードが文字フ
    ォント毎にが決められている予め決められた数種類の言
    語種別に対してどの言語に含まれるかを一意にパターン
    識別する情報処理装置において、パターン識別に用いる
    文字群の組み合わせによりパターン群をを構成するプロ
    グラムを記録したコンピュータ読み取り可能な記憶媒体
    であって、 言語毎に文字を構成する2文字の組み合わせで、1文字
    目が漢字、ひらがな・片仮名、記号、ハングル、その他
    の文字の各文字種別ごとに出現割合を格納することを特
    徴とする言語別分布テーブルにパターン記憶するステッ
    プを有するプログラムを記録したコンピュータ読み取り
    可能な記憶媒体。
  25. 【請求項25】 使用する文字コードの体系が統一コー
    ドまたはローカルコードを読み取るコード種別指定手段
    と、入力文字列データの全ての2文字連鎖を抽出する文
    字連鎖抽出手段と、指定されたコード体系に従って、言
    語毎に漢字、平かな・片仮名、記号、ハングル、その他
    の2文字連鎖を分類し、それぞれ出現割合を算出する出
    現回数計数手段と、指定されたコード体系で、各言語毎
    で、漢字、平かな・片仮名、記号、ハングルの出現割合
    と記憶手段が管理している言語毎で漢字、平かな・片仮
    名、記号、ハングルの出現分布との距離の合計を算出す
    る言語別分布距離算出手段と、前記言語別分布算出手段
    からもっとも距離の値が小さいものを算出して、最小の
    ものを含む言語種別を、入力された文字列の言語と判定
    する比較手段とを備えたことを特徴とする情報処理装
    置。
  26. 【請求項26】 請求項12、16、19、21、25
    に記載のパターン判定手段は、請求項1、2、3、6の
    いずれかに記載の情報処理装置の判定結果の結果と、請
    求項12、16、19、21、25記載のいずれかのパ
    ターン判定で得られた結果とを比較して一致していると
    きに入力文字列の言語を判定することを特徴とする請求
    項12、16、19、21、25のいずれかに記載の情
    報処理装置。
JP11034053A 1999-02-12 1999-02-12 情報処理装置 Pending JP2000231559A (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP11034053A JP2000231559A (ja) 1999-02-12 1999-02-12 情報処理装置
SG200000429A SG92668A1 (en) 1999-02-12 2000-01-25 Information processing system
CNB001019341A CN1193306C (zh) 1999-02-12 2000-02-01 信息处理系统
TW089102179A TW497048B (en) 1999-02-12 2000-02-10 Information processing system
KR1020000006634A KR20010006632A (ko) 1999-02-12 2000-02-12 정보 처리 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11034053A JP2000231559A (ja) 1999-02-12 1999-02-12 情報処理装置

Publications (1)

Publication Number Publication Date
JP2000231559A true JP2000231559A (ja) 2000-08-22

Family

ID=12403556

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11034053A Pending JP2000231559A (ja) 1999-02-12 1999-02-12 情報処理装置

Country Status (5)

Country Link
JP (1) JP2000231559A (ja)
KR (1) KR20010006632A (ja)
CN (1) CN1193306C (ja)
SG (1) SG92668A1 (ja)
TW (1) TW497048B (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7240278B2 (en) 2002-12-27 2007-07-03 Casio Computer Co., Ltd. Information display control apparatus and recording medium having recorded information display control program
WO2009023582A1 (en) * 2007-08-10 2009-02-19 Microsoft Corporation Domain name geometrical classification using character-based n-grams
JP2009087162A (ja) * 2007-10-01 2009-04-23 Toshiba Corp 構造化文書検索システム及びプログラム
JP2010134922A (ja) * 2008-12-08 2010-06-17 Nhn Corp 類似語決定方法およびシステム
US8005782B2 (en) 2007-08-10 2011-08-23 Microsoft Corporation Domain name statistical classification using character-based N-grams
US20170177560A1 (en) * 2015-12-18 2017-06-22 Intel Corporation Automatic Text Language Selection Mechanism
JP2020057214A (ja) * 2018-10-02 2020-04-09 カシオ計算機株式会社 電子機器、電子機器の制御方法及びプログラム
CN116275587A (zh) * 2023-04-17 2023-06-23 霖鼎光学(江苏)有限公司 一种激光切割工件的控制系统

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101946836B1 (ko) * 2017-03-28 2019-04-29 주식회사 와이즈넛 언어 판별 장치 및 방법
CN111160015B (zh) * 2019-12-24 2024-03-05 北京明略软件系统有限公司 一种实现文本分析的方法、装置、计算机存储介质及终端

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5715446A (en) * 1995-05-22 1998-02-03 Matsushita Electric Industrial Co., Ltd. Information searching apparatus for searching text to retrieve character streams agreeing with a key word
US6009382A (en) * 1996-08-19 1999-12-28 International Business Machines Corporation Word storage table for natural language determination
JP3467160B2 (ja) * 1996-12-13 2003-11-17 ブラザー工業株式会社 多言語対応通信システム、サーバー装置及びサーバー装置の文書送信方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7240278B2 (en) 2002-12-27 2007-07-03 Casio Computer Co., Ltd. Information display control apparatus and recording medium having recorded information display control program
US8041662B2 (en) 2007-08-10 2011-10-18 Microsoft Corporation Domain name geometrical classification using character-based n-grams
WO2009023582A1 (en) * 2007-08-10 2009-02-19 Microsoft Corporation Domain name geometrical classification using character-based n-grams
US8005782B2 (en) 2007-08-10 2011-08-23 Microsoft Corporation Domain name statistical classification using character-based N-grams
JP2009087162A (ja) * 2007-10-01 2009-04-23 Toshiba Corp 構造化文書検索システム及びプログラム
JP4550876B2 (ja) * 2007-10-01 2010-09-22 株式会社東芝 構造化文書検索システム及びプログラム
JP2010134922A (ja) * 2008-12-08 2010-06-17 Nhn Corp 類似語決定方法およびシステム
US20170177560A1 (en) * 2015-12-18 2017-06-22 Intel Corporation Automatic Text Language Selection Mechanism
US10198429B2 (en) * 2015-12-18 2019-02-05 Intel Corporation Automatic text language selection mechanism
JP2020057214A (ja) * 2018-10-02 2020-04-09 カシオ計算機株式会社 電子機器、電子機器の制御方法及びプログラム
JP7243109B2 (ja) 2018-10-02 2023-03-22 カシオ計算機株式会社 電子機器、電子機器の制御方法及びプログラム
CN116275587A (zh) * 2023-04-17 2023-06-23 霖鼎光学(江苏)有限公司 一种激光切割工件的控制系统
CN116275587B (zh) * 2023-04-17 2023-10-27 霖鼎光学(江苏)有限公司 一种激光切割工件的控制系统

Also Published As

Publication number Publication date
CN1193306C (zh) 2005-03-16
TW497048B (en) 2002-08-01
CN1263316A (zh) 2000-08-16
SG92668A1 (en) 2002-11-19
KR20010006632A (ko) 2001-01-26

Similar Documents

Publication Publication Date Title
Downey et al. Locating complex named entities in web text.
NL194809C (nl) Werkwijze voor het identificeren, terugvinden en sorteren van documenten.
CN112395881B (zh) 物料标签的构建方法、装置、可读存储介质及电子设备
KR101379128B1 (ko) 사전 생성 장치, 사전 생성 방법 및 사전 생성 프로그램을 기억하는 컴퓨터 판독 가능 기록 매체
JPH09288676A (ja) 全文インデックス作成装置および全文データベース検索装置
JP2000231559A (ja) 情報処理装置
Yunus et al. A context free spell correction method using supervised machine learning algorithms
JPH0782504B2 (ja) 情報検索処理方式および検索ファイル作成装置
CN113642327A (zh) 一种标准知识库的构建方法及装置
CN110580301A (zh) 一种高效商标检索方法、系统及平台
JPH06282587A (ja) 文書の自動分類方法及び装置並びに分類用の辞書作成方法及び装置
CN113128231A (zh) 一种数据质检方法、装置、存储介质和电子设备
KR100300741B1 (ko) 전체 문장의 문자 데이터의 기록매체 및 문자열 대조장치
EP1076305A1 (en) A phonetic method of retrieving and presenting electronic information from large information sources, an apparatus for performing the method, a computer-readable medium, and a computer program element
JP2014235584A (ja) 文書分析システム、文書分析方法およびプログラム
JP2848430B2 (ja) 情報抽出方法
JP2655087B2 (ja) 文字認識後処理方式
JP2002183667A (ja) 文字認識装置及び記録媒体
CN115934921B (zh) 一种任务式回答的确定方法、装置、电子设备及存储介质
JP3924899B2 (ja) テキスト検索装置およびテキスト検索方法
KR101663521B1 (ko) 띄어쓰기 교정 방법 및 프로그램
KR101629726B1 (ko) 띄어쓰기 교정 방법 및 프로그램
JPH0736926A (ja) 不完全文字列と文字列の照合方法および装置
JPH01266670A (ja) 日本語対象文固有用語抽出処理装置
Kozareva et al. Using language resource independent detection for spanish named entity recognition

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040309