JP2000250905A

JP2000250905A - 言語処理装置及びそのプログラム記憶媒体

Info

Publication number: JP2000250905A
Application number: JP11048092A
Authority: JP
Inventors: Isao Nanba; 功難波
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1999-02-25
Filing date: 1999-02-25
Publication date: 2000-09-14

Abstract

(57)【要約】【課題】本発明は、言語処理装置及びそのプログラム記
憶媒体に関し、言語を高い正解率で自動的に認識するこ
とを目的とする。【解決手段】特徴素抽出部１１は、学習対象テキスト
１４から言語に応じた特徴素を抽出し、その出現頻度を
算出する。情報量計算部１２は出現頻度を情報量に変換
する。テーブル出力部１３は特徴素とその情報量とから
なるテーブル１７を作成する。特徴素抽出部２１は、認
識対象テキスト２４から特徴素を抽出し、その出現頻度
を算出する。情報量計算部２２は、この出現頻度を用い
てテーブル１７を参照して出現頻度を情報量に変換し、
これを用いて平均情報量を算出する。判定部２３は、平
均情報量が閾値以下であってかつ閾値に最も近い言語
で、認識対象テキスト２４が記述されていると判定す
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、言語処理装置及び
そのプログラム記憶媒体に関し、特に、言語を高い正解
率で自動的に認識することが可能な言語処理装置及びそ
のプログラム記憶媒体に関する。

【０００２】

【従来の技術】近年、インターネット等において大量の
文書が公開されており、これらの文書についての検索サ
ービスも広く行われている。インターネット等で公開さ
れる文書は、世界各国で各種の言語で記述され、その利
用にも地域的な制限がない。従って、このインターネッ
ト上での検索サービスにおいては、大量の文書を収集
し、その文書の言語を判別し、言語毎に当該言語に応じ
て文書を適切に処理することが、検索サービスを可能と
する上で必須である。

【０００３】このような検索サービスを充実するために
は、できるだけ大量の文書を収集する必要がある。従っ
て、収集した大量の文書についての処理は、できるだけ
コンピュータにより自動的に処理する必要がある。その
ため、文書の言語の種別の判別もコンピュータにより自
動的に処理される。

【０００４】従来のコンピュータによる言語の自動認識
の方法は、およそ２つの方法に大別される。即ち、単語
ベースの認識技術と統計ベースの認識技術である。前者
は該当言語に頻出する単語、例えば「a 」や「the 」等
を言語認識の手掛かりとするものである。後者は学習テ
キスト中から単語よりも細かい単位、即ち、文字Ｎ−ｇ
ｒａｍ（Ｎ文字の連続、Ｎは正の整数）を機械的に抽出
することにより学習し、その統計的情報に基づいてテキ
ストの言語認識を行うものである。

【０００５】

【発明が解決しようとする課題】単語ベースの認識技術
と統計ベースの認識技術の内、有効性が高いのは統計ベ
ースの認識技術である。統計ベースの認識技術は、比較
的単純な方法で抽出した文字Ｎ−ｇｒａｍに基づいて学
習すると言う簡単な方法を採用でき、従って、拡張性等
にも優れている。

【０００６】しかし、統計ベースの認識技術を、英語等
のインド−ヨーロッパ系統の言語についての言語認識に
適用した場合、これらは表音文字なので、単語の先頭の
４文字のようなＮ−ｇｒａｍが機械的に抽出される。こ
のため、同一語族とは言っても言語毎に音節構造等が異
なるにもかかわらず、音節構造等が言語認識において考
慮されていない。

【０００７】また、統計ベースの認識技術を、日本語や
中国語等の言語についての言語認識に適用した場合、こ
れらは表意文字なので、１ｇｒａｍ（１文字）単位で機
械的に特徴量が抽出される。このため、言語認識に誤り
を生じ易い。例えば、日本語においては、学習テキスト
においては頻出しない（特殊な）漢字１文字から構成さ
れる地名を含む地名一覧文書が、対象テキスト中に存在
する場合がある。このような文書の言語認識には誤りが
生じ易い。即ち、中国語と認識されてしまったり、又
は、日本語ではないと認識されてしまう。これは、学習
テキストには存在しなかった文字が抽出される言語は日
本語ではないとされるためである。特に、学習コーパス
（学習テキスト）が日本語しかない場合、大きな問題と
なる。即ち、他に対比すべきテキスト（例えば、中国
語）があれば、当該珍しい文字が他のテキスト中に存在
することもあるが、他にテキストがなければこのような
比較もできずに簡単に認識を誤る原因になる。

【０００８】本発明は、言語を高い正解率で自動的に認
識することが可能な言語処理装置を提供することを目的
とする。

【０００９】また、本発明は、言語を高い正解率で自動
的に認識するためのデータを自動的に学習することが可
能な識別情報学習装置を提供することを目的とする。

【００１０】また、本発明は、言語を高い正解率で自動
的に認識することが可能な言語識別装置を提供すること
を目的とする。

【００１１】また、本発明は、言語を高い正解率で自動
的に認識することが可能な言語処理装置を実現するプロ
グラムを記憶するプログラム記憶媒体を提供することを
目的とする。

【００１２】

【課題を解決するための手段】図１は本発明の原理構成
図であり、本発明による言語処理装置である言語種別判
定装置１００の構成を示す。言語種別判定装置１００
は、識別情報学習装置１と言語識別装置２とからなる。

【００１３】言語処理装置である識別情報学習装置１
は、（第１）特徴素抽出部１１、（第１）情報量計算部
１２及びテーブル出力部１３を備える。特徴素抽出部１
１は、学習テキストから言語毎に当該言語に応じた特徴
素を抽出し、抽出した全ての特徴素についての出現頻度
及び特徴素毎の出現頻度を算出する。情報量計算部１２
は、特徴素抽出部の算出した全ての特徴素についての出
現頻度及び特徴素毎の出現頻度を、各々、情報量に変換
する。テーブル出力部１３は、特徴素抽出部の抽出した
全ての特徴素と、特徴素の各々に対応する前記情報量計
算部の算出した情報量とからなるテーブルを作成して出
力する。

【００１４】言語処理装置である言語識別装置２は、
（第２）特徴素抽出部２１、（第２）情報量計算部２２
及び判定部２３を備える。特徴素抽出部２１は、対象テ
キストから特徴素を抽出し、抽出した特徴素毎の出現頻
度を算出する。情報量計算部２２は、特徴素抽出部の算
出した特徴素毎の出現頻度を用いて、特徴素と特徴素の
各々に対応する情報量とからなるテーブル出力部の出力
したテーブルを参照し、前記特徴素毎の出現頻度を当該
対象テキストにおける情報量に変換し、当該算出した情
報量を用いて当該対象テキストについての平均情報量を
算出する。判定部２３は、情報量計算部が算出した当該
対象テキストにおける情報量が予め定められた閾値以下
であって、かつ、情報量の平均値が最も小さい言語によ
って、当該対象テキストが記述されていると判定する。

【００１５】本発明の識別情報学習装置１によれば、学
習テキストから特徴素を自動的に抽出すると共にこれに
基づいて得た情報量からなるテーブルを作成することが
できる。また、本発明の言語識別装置２によれば、この
ようにして学習したテーブルを用いて対象テキストから
抽出した特徴素に基づく情報量を算出し、これに基づい
た言語認識を行うことができる。このように、本発明に
よる言語処理装置１００によれば、言語の特徴に応じて
定めた特徴素を用いて学習データを自動的に作成し、こ
の学習データを用いて言語認識を行うことができる。従
って、特徴素を適切に定義することにより、各言語毎に
その特徴に応じた特徴素をその言語認識の基礎とするこ
とができる。例えば、表音文字である英語等のインド−
ヨーロッパ系統の言語についての言語認識においては、
音節を特徴素とすることにより、音節構造を考慮して正
確な言語認識を行うことができる。また、表意文字であ
る日本語等の言語についての言語認識においては、教育
漢字等の特定の文字クラスを特徴素とすることにより、
特殊な漢字１文字から構成される地名等までも考慮して
正確な言語認識を行うことができる。これにより、抽出
した特徴素に基づいて学習すると言う比較的簡単な方法
を採用でき、従って、拡張性等にも優れた言語処理装置
をうることができる。

【００１６】

【発明の実施の形態】図２は言語種別判定装置構成図で
あり、本発明の言語処理装置である言語種別判定装置１
００の構成の一例を示す。言語種別判定装置１００は、
識別情報学習装置１と言語識別装置２とからなる。

【００１７】識別情報学習装置１は、（第１）特徴素抽
出部１１、（第１）情報量計算部１２及びテーブル出力
部１３を備える。識別情報学習装置１は、予め与えられ
た特徴素定義３を用いて、学習テキスト（学習コーパ
ス）１４から言語毎にその特徴となる特徴素を抽出し、
その数を計数して特徴素毎の情報量に変換し、テーブル
１７を作成する。

【００１８】特徴素抽出部１１は、予め与えられた特徴
素定義３を用いて、学習テキスト１４から特徴素を抽出
し、抽出した全ての特徴素についての現れた回数即ち出
現頻度（全特徴素出現頻度）、及び、特徴素毎の出現頻
度（各特徴素出現頻度）を算出して、特徴素／頻度記憶
部１５に記憶する。学習テキスト１４は、言語識別装置
２において自動的に言語認識を行いたい言語の各々につ
いて、その学習データ作成のために予め１又は複数入力
される。学習に用いるべき特徴素定義３は、学習テキス
ト１４の入力時にオペレータにより指定される。作成さ
れた学習データはテーブル１７の形で言語識別装置２に
与えられる。

【００１９】ここで、本発明において新たに用いられる
概念である特徴素について説明する。特徴素は、単語と
文字の中間に位置する概念であって、各言語毎にその特
徴を反映するように予め定められる。従って、特徴素定
義３は各言語毎に用意され、複数個とされる。特徴素
は、本発明による特徴素ベースの言語認識処理の基本を
なすものであり、オペレータにより特徴素定義３として
予め与えられる。特徴素定義３において、特徴素は各言
語の特徴を考慮して以下のように定められる。

【００２０】第１に、いわゆるアルファベット（又はそ
の類似の文字）で記述される閉音節（子音で終わる音
節）をシラブルの核とする言語（例えば、インド−ヨー
ロッパ語族）においては、音節を特徴素とする。従っ
て、学習単位が音節となる。これにより、本発明による
特徴素ベースの言語認識技術を、表音文字である英語等
のインド−ヨーロッパ系統の言語についての言語認識に
適用した場合、単語の先頭のＮ−ｇｒａｍが機械的に抽
出されることがなく、言語毎に異なる音節構造を考慮し
た言語認識を行うことができる。なお、特徴素は各言語
毎に定められるので、同一の言語グループ内においても
例えば英語と仏語とでは異なる特徴素が定められる（以
下においても同様である）。

【００２１】第２に、漢字を用いる言語（例えば、日本
語や中国語）においては、各言語において国等により予
め定められている特定の文字クラスを、特徴素とする。
例えば、日本語においては、常用漢字、教育漢字等の基
準である。従って、学習単位が特定の文字クラスとな
る。これにより、本発明による特徴素ベースの言語認識
技術を、表意文字である日本語等の言語についての言語
認識に適用した場合、言語毎に特徴のある言葉を予め特
徴素とすることにより、学習テキスト１４において頻出
しない（特殊な）漢字１文字から構成される地名からで
も正確な言語認識を行うことができる。

【００２２】第３に、開音節（母音で終わる音節）から
なり表音文字で表される言語（例えば、タイ語やベトナ
ム語）においては、２文字の連続部分を特徴素とする。
従って、学習単位が２文字（連続部分）となる。これに
より、本発明による特徴素ベースの言語認識技術を、こ
のような言語についての言語認識に適用した場合、言語
毎に特徴のある言葉を予め特徴素とすることにより、各
言語毎に正確な言語認識を行うことができる。

【００２３】第４に、単語の核構造が子音からなる言語
（例えば、セム語）においては、２乃至３の子音の連続
部分を特徴素とする。従って、学習単位が２乃至３の子
音連続となる。これにより、本発明による特徴素ベース
の言語認識技術を、このような言語についての言語認識
に適用した場合、言語毎に特徴のある言葉を予め特徴素
とすることにより、各言語毎に正確な言語認識を行うこ
とができる。

【００２４】従って、特徴素ベースの言語認識処理は、
基本的には、統計ベースの認識技術である。即ち、学習
テキスト１４中から機械的に文字Ｎ−ｇｒａｍを抽出す
ることにより学習し、その統計的情報（テーブル１７）
に基づいて対象テキスト２４の言語認識を行うものであ
り、この点では統計ベースの認識技術と同一である。但
し、文字Ｎ−ｇｒａｍの抽出が、言語の特徴を考慮して
定められた特徴素定義３を用いて行われる点が異なる。
従って、特徴素ベースの認識技術は、特徴素定義３を用
いて抽出したＮ−ｇｒａｍの文字（これが特徴素であ
る）に基づいて学習すると言う簡単な方法を採用でき、
拡張性等にも優れている。

【００２５】情報量計算部１２は、特徴素／頻度記憶部
１５を参照して特徴素抽出部１１の算出した全特徴素出
現頻度及び各特徴素出現頻度を読み出し、これらを各々
の情報量（全特徴素情報量、各特徴素情報量）に変換し
て、情報量記憶部１６に記憶する。

【００２６】ここで、本発明において新たに用いられる
概念である情報量（特徴素情報量）について説明する。
特徴素出現頻度と情報量との関係は、本発明に従って、
以下のように定められる。即ち、（情報量）＝−ｌｏｇ
₂（ある特徴素の出現頻度／全特徴素の出現頻度の累
計）、又は、（情報量）＝（ある特徴素の出現頻度／全
特徴素の出現頻度の累計）である。対数を取ることによ
り、出現頻度が少ない領域での情報量を強調し多い領域
での情報量を抑えて言語の特徴を強調することができ
る。なお、特徴素出現頻度と情報量との関係は、（ある
特徴素の出現頻度／全特徴素の出現頻度の累計）の関数
であれば種々変形可能である。従って、基本的には、情
報量は頻度の逆数に比例する。即ち、出現頻度が少なく
希少なもの程、情報量が大きくなるようにされ言語認識
において重要性が高いとされる。

【００２７】情報量記憶部１６の構成を図３に示す。情
報量記憶部１６は、図３に示すように、各特徴素毎に、
対応する出現頻度及び情報量を格納する。特徴素、出現
頻度及び情報量は、各々、特徴素格納フィールド１６
１、出現頻度格納フィールド１６２及び情報量格納フィ
ールド１６３に格納される。格納フィールド１６１乃至
１６３の最下行に全特徴素についての格納行が設けられ
る。

【００２８】情報量記憶部１６は、実際は、特徴素／頻
度記憶部１５と同一の記憶領域（装置）からなる。即
ち、特徴素／頻度記憶部１５は図３における特徴素格納
フィールド１６１及び出現頻度格納フィールド１６２
（のみ）の部分を指す。従って、特徴素／頻度記憶部１
５は情報量記憶部１６の一部である。また、後述するテ
ーブル１７は、図３に示す情報量記憶部１６から特徴素
格納フィールド１６１及び情報量格納フィールド１６３
（のみ）の部分を取り出したものである。従って、テー
ブル１７の図示は省略される。

【００２９】なお、情報量記憶部１６が図３における特
徴素格納フィールド１６１及び情報量格納フィールド１
６３（のみ）の部分からなると考えても良い。この場
合、特徴素／頻度記憶部１５と情報量記憶部１６とは別
に設けられることになり、情報量記憶部１６の内容がそ
のままテーブル１７として出力されることになる。

【００３０】テーブル出力部１３は、特徴素／頻度記憶
部１５及び情報量記憶部１６（実際には情報量記憶部１
６）を参照して、特徴素抽出部１１の抽出した全ての特
徴素と、全ての特徴素の各々に対応する情報量計算部１
２の算出した情報量とを読み出し、これらからなるテー
ブル（特徴素／情報量テーブル）１７を作成して出力す
る。全特徴素とその情報量（全特徴素情報量）もテーブ
ル１７に含まれる。

【００３１】言語識別装置２は、（第２）特徴素抽出部
２１、（第２）情報量計算部２２及び判定部２３を備え
る。言語識別装置２は、予め与えられた特徴素定義３、
及び、識別情報学習装置１から出力された特徴素及びそ
の情報量を含むテーブル１７を用いて、対象テキスト２
４から特徴素を抽出して当該テキストについての平均情
報量（スコア）を算出し、言語認識を行う。

【００３２】特徴素抽出部２１は、予め与えられた特徴
素定義３を用いて、対象テキスト２４からこれに含まれ
る特徴素を抽出し、抽出した特徴素毎の出現頻度（各特
徴素出現頻度、全特徴素出現頻度）を算出して、両者を
頻度記憶部２５に記憶する。この場合、言語が不明なの
であるから、どの特徴素定義３を用いるかは不明であ
る。従って、１個の対象テキスト２４について、予め用
意された複数の特徴素定義３が順に適用され、その都度
それに基づいて特徴素の抽出が行われる。特徴素抽出部
２１は、特徴素抽出部１１と同様の構成を有し、略同様
の処理を行う。頻度記憶部２５は、特徴素／頻度記憶部
１５と同様に、特徴素格納フィールドと出現頻度格納フ
ィールドとからなる構成を有し、実際には情報量記憶部
２６の一部である。

【００３３】情報量計算部２２は、頻度記憶部２５を参
照して特徴素抽出部２１の算出した各特徴素出現頻度を
読み出し、これを用いてテーブル出力部１３の出力した
テーブル１７を参照し、各特徴素出現頻度を当該対象テ
キスト２４における情報量に変換し、情報量記憶部２６
に記憶する。情報量記憶部２６は、基本的には図３に示
す情報量記憶部１６と同様に特徴素格納フィールド、出
現頻度格納フィールド及び情報量格納フィールドからな
る構成を有する。

【００３４】情報量計算部２２は、情報量計算部１２の
ように出現頻度から直接計算により（認識用）情報量を
求めずに、テーブル１７を用いて（認識用）情報量を求
める。即ち、テーブル１７において、ある特徴素の出現
頻度がｉ回で、（学習時）情報量がｎ点であるとする。
一方、頻度記憶部２５において、当該特徴素についての
出現頻度が２ｉ回であるとする。この場合、情報量計算
部２２は、（認識用）情報量を２ｎ点と算出する。即
ち、（認識用）情報量＝（ある特徴素の出現頻度の度合
い）×（その特徴素に対する学習テキスト１４中での情
報量）である。（ある特徴素の出現頻度の度合い）＝
（当該特徴素の対象テキスト２４中での出現頻度）／
（当該特徴素の学習テキスト１４中での出現頻度）であ
る。（認識用）情報量が対象テキスト２４における当該
特徴素の持つ情報量である。

【００３５】このようにして全対象テキスト２４につい
ての（認識用）情報量を算出した後、更に、情報量計算
部２２は、情報量記憶部２６を参照して当該算出した格
納特徴素毎の情報量を読み出し、これを用いて当該対象
テキスト２４についての当該特徴素の平均情報量を算出
し、情報量記憶部２６に記憶する。従って、情報量計算
部２２は、情報量計算部１２と同様の構成を有するが、
この分でもやや異なる処理を行う。また、情報量記憶部
２６も、実際には図３に示す情報量記憶部１６の構成に
加えて、情報量格納フィールド１６３に（図中右隣に）
隣接して各々の特徴素についての平均情報量を格納する
ための平均情報量格納フィールドが設けられる。

【００３６】ここで、平均情報量は、本発明に従って、
以下のように定められる。即ち、（平均情報量）＝
（（ある特徴素の出現頻度の度合い）×（その特徴素に
対する学習データ中での情報量））／（当該対象テキス
ト２４中での全特徴素の出現頻度の累計）＝（認識用）
情報量／（当該対象テキスト２４中での全特徴素の出現
頻度の累計）である。分母は、当該対象テキスト２４中
の特徴素の延べ数であり、当該対象テキスト２４の文書
サイズに依存する。

【００３７】判定部２３は、情報量記憶部２６を参照し
て情報量計算部２２が算出した当該対象テキスト２４に
おける平均情報量を読み出し、これを用いて当該対象テ
キスト２４の言語を判定する。即ち、当該平均情報量が
予め定められた閾値以下であって、かつ、平均情報量が
閾値に最も近い言語によって、当該対象テキスト２４が
記述されていると判定する。閾値は経験的に定められ
る。判定部２３は、認識対象である各種の言語について
の認識処理を行う。即ち、当該平均情報量が閾値より大
きい場合、言語要素が少なく、認識対象言語としては十
分な情報がないと判定して、認識処理を行わない。

【００３８】図４は識別情報学習装置１の実行する学習
コーパス（学習テキスト１４）についての識別情報の学
習処理フローである。

【００３９】オペレータが、特徴素定義３を識別情報学
習装置１に入力した後、学習対象となるデータ（学習コ
ーパス又は学習テキスト１４）を識別情報学習装置１に
入力する（ステップＳ１）。

【００４０】特徴素抽出部１１が、情報量記憶部１６の
全ての格納フィールドの内容をクリアし、全特徴素の数
もクリアして０とする（ステップＳ２）。

【００４１】特徴素抽出部１１がポインタを学習テキス
ト１４の先頭（文字が最初に現れる位置）にセットする
（ステップＳ３）。

【００４２】特徴素抽出部１１がポインタが学習テキス
ト１４の終端（文字がない位置）にまで移動したか否か
を判定する（ステップＳ４）。終端にまで移動した場合
には、ステップＳ９を実行する。

【００４３】終端にまで移動していない場合、特徴素抽
出部１１が、特徴素定義３に基づいて、学習テキスト１
４から予め定められた対象言語に応じた１個の特徴素を
抽出する（ステップＳ５）。

【００４４】特徴素抽出部１１がポインタを学習テキス
ト１４において抽出した１個の特徴素の分だけ進める
（ステップＳ６）。

【００４５】特徴素抽出部１１が抽出された特徴素に対
応する情報量記憶部１６の出現頻度格納フィールド１６
２の現在の値に＋１だけ加算する（ステップＳ７）。

【００４６】特徴素抽出部１１が情報量記憶部１６の全
特徴素数の出現頻度の現在の値の累計に＋１だけ加算す
る（ステップＳ８）。

【００４７】ステップＳ４においてポインタが学習テキ
スト１４の終端にまで移動した場合、情報量計算部１２
が、情報量記憶部１６内に存在する抽出した各々の特徴
素の頻度を前述した変換式に従って情報量に変換し、各
々に対応する情報量格納フィールド１６３に格納する
（ステップＳ９）。

【００４８】テーブル出力部１３が情報量記憶部１６か
ら特徴素及び情報量からなるテーブル１７を作成して出
力する（ステップＳ１０）。

【００４９】図５は言語識別装置２の実行する対象テキ
スト２４についての言語識別処理フローである。

【００５０】オペレータが、判定（認識）対象となるデ
ータ（対象テキスト２４）を言語識別装置２に入力する
（ステップＳ１１）。特徴素定義３は先に識別情報学習
装置１において学習のために用いられたものをそのまま
用いる。

【００５１】特徴素抽出部２１及び情報量計算部２２
が、特徴素定義３を用いて、識別情報学習装置１におい
て学習した言語の各々について、ステップＳ１１におい
て入力した対象テキスト２４について、各対象テキスト
２４毎にその平均情報量（スコア）を求める（ステップ
Ｓ１２）。この処理は、各言語毎（即ち、各特徴素定義
3毎）に行われ、その詳細については、図６を参照して
後述する。

【００５２】判定部２３が全ての言語においてスコアが
閾値以上か否かを調べる（ステップＳ１３）。

【００５３】閾値以上である場合、判定部２３が最小の
スコアを得た言語を識別したことを出力する（ステップ
Ｓ１４）。即ち、対象テキスト２４は当該言語で記述さ
れていると認識されたことになる。

【００５４】閾値以上でない場合、判定部２３が言語を
識別できないことを出力する（ステップＳ１５）。即
ち、当該対象テキスト２４は識別不可能な言語（識別情
報学習装置１で学習していない言語）で記述されている
と認識されたことになる。

【００５５】図６は言語識別装置２の実行する対象テキ
スト２４についてのスコア算出処理フローであり、主と
して、図５のステップＳ１２に相当する処理である。

【００５６】図５のステップＳ１１に相当し、対象テキ
スト２４を入力する（ステップＳ１６）。

【００５７】特徴素抽出部２１が、特徴素とこれに対応
する頻度からなる情報量記憶部２６の内容をクリアし、
全特徴素の数もクリアして０とする（ステップＳ１
７）。

【００５８】特徴素抽出部２１が、ポインタを対象テキ
スト２４の先頭にセットする（ステップＳ１８）。

【００５９】特徴素抽出部２１が、ポインタが対象テキ
スト２４の終端にまで移動したか否かを判定する（ステ
ップＳ１９）。終端にまで移動した場合には、ステップ
Ｓ２４を実行する。

【００６０】終端にまで移動していない場合、特徴素抽
出部２１が、学に使用した特徴素定義３に基づいて、対
象テキスト２４から処理しようとしている対象言語に応
じた１個の特徴素を抽出する（ステップＳ２０）。従っ
て、学習した特徴素と同一のものが、対象テキスト２４
に存在すれば、抽出される。

【００６１】特徴素抽出部２１が対象テキスト２４にお
いてポインタを抽出した１個の特徴素の分だけ進める
（ステップＳ２１）。

【００６２】特徴素抽出部２１が抽出された特徴素に対
応する情報量記憶部２６における出現頻度格納フィール
ドの現在の値に＋１だけ加算する（ステップＳ２２）。

【００６３】特徴素抽出部２１が情報量記憶部２６にお
ける全特徴素数の出現頻度の現在の値累計に＋１だけ加
算する（ステップＳ２３）。

【００６４】ステップＳ１９においてポインタが対象テ
キスト２４の終端にまで移動した場合、情報量計算部２
２が、抽出した各々の特徴素についての（認識）情報量
を求め、更に、これらの値を用いて前述した計算式に従
って当該対象テキスト２４についての平均情報量を算出
する（ステップＳ２４）。

【００６５】判定部２３が、算出した平均情報量が予め
定められた閾値以下である場合には当該平均情報量を出
力し、そうでない場合には判定不能である旨を出力する
（ステップＳ２５）。

【００６６】ここで、本発明の言語種別判定装置１００
による言語の種別の自動判定について、実際の例を参照
して説明する。

【００６７】学習及び言語認識に先立って、最初に、特
徴素が定義される。即ち、オペレータが、自動的な認識
対象としたい言語についての特徴素定義３を定め、言語
種別判定装置１００に予め与える。前述のように、特徴
素は各言語毎に予め定められる特徴素定義３に従って自
動的に定まる。特徴素定義３の内容の概略については前
述した通りである。

【００６８】図７は英語の特徴素説明図であり、英語に
対する音節（シラブル）の定義例を示す。前述のよう
に、英語等のいわゆるアルファベットで記述される閉音
節をシラブルの核とする言語においては、音節を特徴素
とする。従って、英語の特徴素は、図７に示すように、
音節を定義することにより定まる。英語の特徴素は特徴
素定義３Ａとして与えられる。

【００６９】図７において、記号Ｖは、ａ、ｉ・・等か
らなる母音となる文字のグループである。記号Ｃは、
ｂ、ｃ・・等からなる子音となる文字のグループであ
る。記号Ｈは、ｗ及びｙからなる半母音となる文字のグ
ループである。記号Ｎは、ｍ及びｎからなる鼻音となる
文字のグループである。記号Ｒは、ｌ及びｒからなる流
音となる文字のグループである。

【００７０】このように各文字を区別すると、特徴素即
ち音節ｓｙｌｌａｂｌｅは、種々の文書について、図７
に示す式により自動的に定めることができる。例えば、
ｓｙｌｌａｂｌｅ＝（Ｃ）＊Ｖ＊Ｎである。ここ
で、（）は当該文字が必ずしも存在しなくても良いこと
を示し、＊は直前の文字が任意の個数あっても良いこと
を示す。従って、上記の式は、グループＣの文字が存在
するが必ずしも存在しなくても良くまたその個数は任意
で良く、次の位置にグループＶの文字が必ず存在しその
個数は任意で良く、次の位置にグループＮの文字が必ず
存在することを示す。従って、例えば子音があり、母音
があり、鼻音があれば特徴素として抽出される。他の式
の意味も同様に定まる。これらの定義を単語の先頭から
順に適用して、何れかの定義に該当すれば、当該該当す
る部分は音節即ち特徴素であるとして抽出される。文書
において、特徴素として抽出された次の部分から、同様
にして特徴素の抽出を繰り返す。

【００７１】図８は日本語の特徴素説明図であり、日本
語に対する文字クラスの定義例を示す。前述のように、
日本語等の漢字を用いる言語においては、各言語におい
て国等により予め定められている特定の文字クラスを、
特徴素とする。従って、日本語の特徴素は、図８に示す
ように、平仮名、常用漢字等の文字クラスを定義するこ
とにより定まる。平仮名等の文字クラスの内容（定義）
は別に与えられる。例えば、「あ」「い」等の平仮名
は、まとめて１個の「平仮名」なる特徴素として処理さ
れる。日本語の特徴素は特徴素定義３Ｂとして与えられ
る。

【００７２】図８において、文字クラスは、平仮名、カ
タカナ、教育漢字（小学校）１学年、・・・等である。
なお、「日本語ＥＵＣ範囲外」とは日本語ではないもの
の意味であり、例えば韓国語等に多く取り込まれている
平仮名や漢字等がこれに属する。また、図８に示す文字
以外の文字、例えば数字や記号（○、×、♯、♭・・）
等は特徴素の抽出の対象から除かれる。このように文字
クラスにより特徴素を定めることができる。これらの定
義を単語の先頭から順に適用して、何れかの文字クラス
に該当すれば、当該該当する部分は特徴素であるとして
抽出される。特徴素として抽出された次の部分から、同
様にして特徴素の抽出を繰り返す。

【００７３】なお、前述のように、開音節からなり表音
文字で表される言語においては、２文字の連続部分を特
徴素とし、単語の核構造が子音からなる言語において
は、２乃至３の子音の連続部分を特徴素とし、これらは
図７の英語に対する場合と略同様に定められるが、その
具体例は省略する。

【００７４】次に、学習が行われる。即ち、オペレータ
により各種の言語についての特徴素が定められた言語種
別判定装置１００に、学習テキスト１４が入力され、識
別情報学習装置１に言語を認識するための学習を行わせ
る。学習テキスト１４としては、一般に流通している各
種の言語で記述された種々の文書を用いれば良い。

【００７５】図９は英語に対する学習結果例を示す。英
語に対する学習結果例はテーブル１７Ａとして与えられ
る。なお、情報量は、前述の変換式により求めた値ｋを
用いて、２^kの形で示している（図１０においても同様
である）。図９に示すように、例えば、３個の文字「Ａ
ＣＴ」からなる特徴素即ち音節は２^10.71の情報量を持
つ。このように、学習テキスト１４からの学習を行うこ
とにより、当該学習テキスト１４に含まれていた英語に
おける特徴素即ち音節が残らず抽出され、かつ、その特
徴素即ち音節の各々についての情報量が算出される。

【００７６】図１０は日本語に対する学習結果例を示
す。日本語に対する学習結果例はテーブル１７Ａとして
与えられる。図１０に示すように、例えば、平仮名（１
文字）からなる特徴素即ち音節は２¹⁶の情報量を持つ。
なお、「日本語ＥＵＣの範囲外」の情報量は「最大Ｐｅ
ｎａｌｔｙ」即ち許容最大値を越えるとされ、言語認識
において意味を持たないようにされる。また、「その
他」とは数字や記号等であり、抽出されても認識情報と
しての意味を持たないので、その情報量は「０」とされ
る。このように、学習テキスト１４からの学習を行うこ
とにより、当該学習テキスト１４に含まれていた日本語
における特徴素が残らず抽出され、かつ、その特徴素の
各々についての情報量が算出される。

【００７７】なお、対象テキスト２４において抽出され
たある特徴素が学習テキスト１４中に存在しなかった場
合には、テーブル１７に基づいては情報量を算出できな
いので、スコアに所定の値をペナルティとして加算す
る。所定の値は、例えばα×（当該ある特徴素の情報
量）＝−ｌｏｇ₂（１／（全特徴素の出現頻度の累
計））により定義される。即ち、当該特徴素が学習テキ
スト１４中に１回だけ出現した場合と同様の値に係数α
を乗じた値を加算する。従って、この特徴素は希少なも
のなので、この値は大きな値になる。係数αの値は経験
的に定まる。

【００７８】次に、言語の自動認識が行われる。即ち、
識別情報学習装置１が言語を認識するための学習を行っ
た言語種別判定装置１００に、対象テキスト２４が入力
され、言語識別装置２に当該テキストの言語を認識を行
わせる。

【００７９】図１１は言語判定例を示す。対象テキスト
２４として、図１１に示すような文書例を含む英、独、
日、韓、中、仏、蘭の７ヵ国語の文書を入力して、これ
らの言語について自動認識を行わせるとする。英語スコ
ア及び日本語スコアは、各々、英語及び日本語を学習テ
キスト１４とした場合に当該対象テキスト２４について
の言語を認識を行わせた結果を示す。また、言語認識の
ための閾値として、英語及び日本語について、各々、１
６０００以下及び２０００００以下と言う値が与えられ
る。

【００８０】図１１において、英語スコアが英語の閾値
１６０００以下であるものは、文書Ａのみであるので、
この対象テキスト２４が英語で記述された文書であると
認識される。文書Ａの言語が英語であるから、正しく言
語認識されていることが判る。日本語スコアが日本語の
閾値２０００００以下であるものは、文書Ｃのみである
ので、この対象テキスト２４が日本語で記述された文書
であると認識される。文書Ｃの言語が日本語であるか
ら、正しく言語認識されていることが判る。

【００８１】なお、当該閾値以下である文書が複数存在
する場合には、前述のように、最も閾値に近いスコア
（平均情報量）の対象テキスト２４が当該言語で記述さ
れた文書であると認識される。もっとも、図１１に示す
結果によれば、当該言語の閾値より小さいスコアを有す
る文書は、当該言語で記述された文書以外に抽出され
ず、かつ、他の文書とはスコアの値の桁が異なる。この
点からも、本発明による言語認識処理が優れていること
が判る。

【００８２】

【発明の効果】以上説明したように、本発明によれば、
言語処理装置において、学習テキストから特徴素を自動
的に抽出すると共にこれに基づいて得た情報量からなる
テーブルを作成すると共にこれを用いて対象テキストか
ら抽出した特徴素に基づく情報量を用いて言語認識を行
うことにより、言語の特徴に応じて特徴素を定めておけ
ば学習データを自動的に作成しこの学習データを用いて
言語認識を行うことができるので、特徴素を適切に定義
することにより、各言語毎にその特徴に応じた特徴素を
その言語認識の基礎とすることができ、言語毎にその特
徴を考慮した正確な言語認識を行うことができ、結果と
して、抽出した特徴素に基づいて学習すると言う比較的
簡単な方法を採用でき、従って、拡張性等にも優れた言
語処理を行うことができる。

【図面の簡単な説明】

【図１】本発明の原理構成図である。

【図２】言語種別判定装置構成図である。

【図３】情報量記憶部構成図である。

【図４】識別情報の学習処理フローである。

【図５】言語識別処理フローである。

【図６】スコア算出処理フローである。

【図７】英語の特徴素説明図である。

【図８】日本語の特徴素説明図である。

【図９】英語に対する学習結果例を示す図である。

【図１０】日本語に対する学習結果例を示す図である。

【図１１】言語判定例を示す図である。

【符号の説明】

１識別情報学習装置２言語識別装置３特徴素定義１１特徴素抽出部１２情報量計算部１３テーブル出力部１４学習テキスト１５特徴素／頻度記憶部１６情報量記憶部１７テーブル２１特徴素抽出部２２情報量計算部２３判定部２４対象テキスト２５頻度記憶部２６情報量記憶部

Claims

【特許請求の範囲】

【請求項１】学習テキストから言語毎に当該言語に応
じた特徴素を抽出し、抽出した全ての特徴素についての
出現頻度及び特徴素毎の出現頻度を算出する特徴素抽出
部と、前記特徴素抽出部の算出した全ての特徴素についての出
現頻度及び特徴素毎の出現頻度を、各々、情報量に変換
する情報量計算部と、前記特徴素抽出部の抽出した全ての特徴素と、特徴素の
各々に対応する前記情報量計算部の算出した情報量とか
らなるテーブルを作成して出力するテーブル出力部とを
備えることを特徴とする言語処理装置。
【請求項２】前記情報量は、（ある特徴素の出現頻度
／全特徴素の出現頻度の累計）の関数であることを特徴
とする請求項１に記載の言語処理装置。
【請求項３】対象テキストから特徴素を抽出し、抽出
した特徴素毎の出現頻度を算出する特徴素抽出部と、前記特徴素抽出部の算出した特徴素毎の出現頻度を用い
て、特徴素と特徴素の各々に対応する情報量とからなる
予め与えられたテーブルを参照し、前記特徴素毎の出現
頻度を当該対象テキストにおける情報量に変換し、当該
算出した情報量を用いて当該対象テキストについての平
均情報量を算出する情報量計算部と、前記情報量計算部が算出した当該対象テキストにおける
平均情報量が予め定められた閾値以下であって、かつ、
平均情報量が閾値に最も近い言語によって、当該対象テ
キストが記述されていると判定する判定部とを備えるこ
とを特徴とする言語処理装置。
【請求項４】前記平均情報量は、（平均情報量）＝
（（ある特徴素の出現頻度の度合い）×（その特徴素に
対する学習データ中での情報量））／（当該対象テキス
ト中での全特徴素の出現頻度の累計）により定まること
を特徴とする請求項３に記載の言語処理装置。
【請求項５】識別情報学習装置と言語識別装置とから
なる言語処理装置であって、前記識別情報学習装置が、学習テキストから言語毎に当該言語に応じた特徴素を抽
出し、抽出した全ての特徴素についての出現頻度及び特
徴素毎の出現頻度を算出する特徴素抽出部と、前記特徴素抽出部の算出した全ての特徴素についての出
現頻度及び特徴素毎の出現頻度を、各々、情報量に変換
する情報量計算部と、前記特徴素抽出部の抽出した全ての特徴素と、特徴素の
各々に対応する前記情報量計算部の算出した情報量とか
らなるテーブルを作成して出力するテーブル出力部とを
備え、前記言語識別装置が、対象テキストから特徴素を抽出し、抽出した特徴素毎の
出現頻度を算出する特徴素抽出部と、前記特徴素抽出部の算出した特徴素毎の出現頻度を用い
て、前記テーブル出力部の出力した前記テーブルを参照
し、前記特徴素毎の出現頻度を当該対象テキストにおけ
る情報量に変換し、当該算出した情報量を用いて当該対
象テキストについての平均情報量を算出する情報量計算
部と、前記情報量計算部が算出した当該対象テキストにおける
情報量が予め定められた閾値以下であって、かつ、情報
量の平均値が最も小さい言語によって、当該対象テキス
トが記述されていると判定する判定部とを備えることを
特徴とする言語処理装置。
【請求項６】前記特徴素は、閉音節をシラブルの核と
する言語においては音節であり、漢字を用いる言語にお
いては各言語において予め定められている特定の文字ク
ラスであり、開音節からなり表音文字で表される言語に
おいては２文字の連続部分であり、単語の核構造が子音
からなる言語においては２乃至３の子音の連続部分であ
ることを特徴とする請求項１乃至請求項５のいずれかに
記載の言語処理装置。
【請求項７】学習テキストから言語毎に当該言語に応
じた特徴素を抽出し、抽出した全ての特徴素についての
出現頻度及び特徴素毎の出現頻度を算出する第１特徴抽
出処理と、前記第１特徴抽出処理において算出した全ての特徴素に
ついての出現頻度及び特徴素毎の出現頻度を、各々、情
報量に変換する第１情報量計算処理と、前記第１特徴抽出処理において抽出した全ての特徴素
と、特徴素の各々に対応する前記第１情報量計算処理の
算出した情報量とからなるテーブルを作成して出力する
テーブル出力処理と、対象テキストから特徴素を抽出し、抽出した特徴素毎の
出現頻度を算出する第２特徴抽出処理と、前記第２特徴抽出処理において算出した特徴素毎の出現
頻度を用いて、特徴素の各々に対応する情報量とからな
る前記テーブル出力処理において出力した前記テーブル
を参照し、前記特徴素毎の出現頻度を当該対象テキスト
における情報量に変換し、当該算出した情報量を用いて
当該対象テキストについての平均情報量を算出する第２
情報量計算処理と、前記第２情報量計算処理が算出した当該対象テキストに
おける情報量が予め定められた閾値以下であって、か
つ、情報量の平均値が最も小さい言語によって、当該対
象テキストが記述されていると判定する判定処理とを、コンピュータである言語処理装置に実行させるプログラ
ムを記憶することを特徴とするプログラム記憶媒体。