JP2000250905A - 言語処理装置及びそのプログラム記憶媒体 - Google Patents

言語処理装置及びそのプログラム記憶媒体

Info

Publication number
JP2000250905A
JP2000250905A JP11048092A JP4809299A JP2000250905A JP 2000250905 A JP2000250905 A JP 2000250905A JP 11048092 A JP11048092 A JP 11048092A JP 4809299 A JP4809299 A JP 4809299A JP 2000250905 A JP2000250905 A JP 2000250905A
Authority
JP
Japan
Prior art keywords
feature
language
feature element
information amount
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP11048092A
Other languages
English (en)
Inventor
Isao Nanba
功 難波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP11048092A priority Critical patent/JP2000250905A/ja
Publication of JP2000250905A publication Critical patent/JP2000250905A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】本発明は、言語処理装置及びそのプログラム記
憶媒体に関し、言語を高い正解率で自動的に認識するこ
とを目的とする。 【解決手段】 特徴素抽出部11は、学習対象テキスト
14から言語に応じた特徴素を抽出し、その出現頻度を
算出する。情報量計算部12は出現頻度を情報量に変換
する。テーブル出力部13は特徴素とその情報量とから
なるテーブル17を作成する。特徴素抽出部21は、認
識対象テキスト24から特徴素を抽出し、その出現頻度
を算出する。情報量計算部22は、この出現頻度を用い
てテーブル17を参照して出現頻度を情報量に変換し、
これを用いて平均情報量を算出する。判定部23は、平
均情報量が閾値以下であってかつ閾値に最も近い言語
で、認識対象テキスト24が記述されていると判定す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、言語処理装置及び
そのプログラム記憶媒体に関し、特に、言語を高い正解
率で自動的に認識することが可能な言語処理装置及びそ
のプログラム記憶媒体に関する。
【0002】
【従来の技術】近年、インターネット等において大量の
文書が公開されており、これらの文書についての検索サ
ービスも広く行われている。インターネット等で公開さ
れる文書は、世界各国で各種の言語で記述され、その利
用にも地域的な制限がない。従って、このインターネッ
ト上での検索サービスにおいては、大量の文書を収集
し、その文書の言語を判別し、言語毎に当該言語に応じ
て文書を適切に処理することが、検索サービスを可能と
する上で必須である。
【0003】このような検索サービスを充実するために
は、できるだけ大量の文書を収集する必要がある。従っ
て、収集した大量の文書についての処理は、できるだけ
コンピュータにより自動的に処理する必要がある。その
ため、文書の言語の種別の判別もコンピュータにより自
動的に処理される。
【0004】従来のコンピュータによる言語の自動認識
の方法は、およそ2つの方法に大別される。即ち、単語
ベースの認識技術と統計ベースの認識技術である。前者
は該当言語に頻出する単語、例えば「a 」や「the 」等
を言語認識の手掛かりとするものである。後者は学習テ
キスト中から単語よりも細かい単位、即ち、文字N−g
ram(N文字の連続、Nは正の整数)を機械的に抽出
することにより学習し、その統計的情報に基づいてテキ
ストの言語認識を行うものである。
【0005】
【発明が解決しようとする課題】単語ベースの認識技術
と統計ベースの認識技術の内、有効性が高いのは統計ベ
ースの認識技術である。統計ベースの認識技術は、比較
的単純な方法で抽出した文字N−gramに基づいて学
習すると言う簡単な方法を採用でき、従って、拡張性等
にも優れている。
【0006】しかし、統計ベースの認識技術を、英語等
のインド−ヨーロッパ系統の言語についての言語認識に
適用した場合、これらは表音文字なので、単語の先頭の
4文字のようなN−gramが機械的に抽出される。こ
のため、同一語族とは言っても言語毎に音節構造等が異
なるにもかかわらず、音節構造等が言語認識において考
慮されていない。
【0007】また、統計ベースの認識技術を、日本語や
中国語等の言語についての言語認識に適用した場合、こ
れらは表意文字なので、1gram(1文字)単位で機
械的に特徴量が抽出される。このため、言語認識に誤り
を生じ易い。例えば、日本語においては、学習テキスト
においては頻出しない(特殊な)漢字1文字から構成さ
れる地名を含む地名一覧文書が、対象テキスト中に存在
する場合がある。このような文書の言語認識には誤りが
生じ易い。即ち、中国語と認識されてしまったり、又
は、日本語ではないと認識されてしまう。これは、学習
テキストには存在しなかった文字が抽出される言語は日
本語ではないとされるためである。特に、学習コーパス
(学習テキスト)が日本語しかない場合、大きな問題と
なる。即ち、他に対比すべきテキスト(例えば、中国
語)があれば、当該珍しい文字が他のテキスト中に存在
することもあるが、他にテキストがなければこのような
比較もできずに簡単に認識を誤る原因になる。
【0008】本発明は、言語を高い正解率で自動的に認
識することが可能な言語処理装置を提供することを目的
とする。
【0009】また、本発明は、言語を高い正解率で自動
的に認識するためのデータを自動的に学習することが可
能な識別情報学習装置を提供することを目的とする。
【0010】また、本発明は、言語を高い正解率で自動
的に認識することが可能な言語識別装置を提供すること
を目的とする。
【0011】また、本発明は、言語を高い正解率で自動
的に認識することが可能な言語処理装置を実現するプロ
グラムを記憶するプログラム記憶媒体を提供することを
目的とする。
【0012】
【課題を解決するための手段】図1は本発明の原理構成
図であり、本発明による言語処理装置である言語種別判
定装置100の構成を示す。言語種別判定装置100
は、識別情報学習装置1と言語識別装置2とからなる。
【0013】言語処理装置である識別情報学習装置1
は、(第1)特徴素抽出部11、(第1)情報量計算部
12及びテーブル出力部13を備える。特徴素抽出部1
1は、学習テキストから言語毎に当該言語に応じた特徴
素を抽出し、抽出した全ての特徴素についての出現頻度
及び特徴素毎の出現頻度を算出する。情報量計算部12
は、特徴素抽出部の算出した全ての特徴素についての出
現頻度及び特徴素毎の出現頻度を、各々、情報量に変換
する。テーブル出力部13は、特徴素抽出部の抽出した
全ての特徴素と、特徴素の各々に対応する前記情報量計
算部の算出した情報量とからなるテーブルを作成して出
力する。
【0014】言語処理装置である言語識別装置2は、
(第2)特徴素抽出部21、(第2)情報量計算部22
及び判定部23を備える。特徴素抽出部21は、対象テ
キストから特徴素を抽出し、抽出した特徴素毎の出現頻
度を算出する。情報量計算部22は、特徴素抽出部の算
出した特徴素毎の出現頻度を用いて、特徴素と特徴素の
各々に対応する情報量とからなるテーブル出力部の出力
したテーブルを参照し、前記特徴素毎の出現頻度を当該
対象テキストにおける情報量に変換し、当該算出した情
報量を用いて当該対象テキストについての平均情報量を
算出する。判定部23は、情報量計算部が算出した当該
対象テキストにおける情報量が予め定められた閾値以下
であって、かつ、情報量の平均値が最も小さい言語によ
って、当該対象テキストが記述されていると判定する。
【0015】本発明の識別情報学習装置1によれば、学
習テキストから特徴素を自動的に抽出すると共にこれに
基づいて得た情報量からなるテーブルを作成することが
できる。また、本発明の言語識別装置2によれば、この
ようにして学習したテーブルを用いて対象テキストから
抽出した特徴素に基づく情報量を算出し、これに基づい
た言語認識を行うことができる。このように、本発明に
よる言語処理装置100によれば、言語の特徴に応じて
定めた特徴素を用いて学習データを自動的に作成し、こ
の学習データを用いて言語認識を行うことができる。従
って、特徴素を適切に定義することにより、各言語毎に
その特徴に応じた特徴素をその言語認識の基礎とするこ
とができる。例えば、表音文字である英語等のインド−
ヨーロッパ系統の言語についての言語認識においては、
音節を特徴素とすることにより、音節構造を考慮して正
確な言語認識を行うことができる。また、表意文字であ
る日本語等の言語についての言語認識においては、教育
漢字等の特定の文字クラスを特徴素とすることにより、
特殊な漢字1文字から構成される地名等までも考慮して
正確な言語認識を行うことができる。これにより、抽出
した特徴素に基づいて学習すると言う比較的簡単な方法
を採用でき、従って、拡張性等にも優れた言語処理装置
をうることができる。
【0016】
【発明の実施の形態】図2は言語種別判定装置構成図で
あり、本発明の言語処理装置である言語種別判定装置1
00の構成の一例を示す。言語種別判定装置100は、
識別情報学習装置1と言語識別装置2とからなる。
【0017】識別情報学習装置1は、(第1)特徴素抽
出部11、(第1)情報量計算部12及びテーブル出力
部13を備える。識別情報学習装置1は、予め与えられ
た特徴素定義3を用いて、学習テキスト(学習コーパ
ス)14から言語毎にその特徴となる特徴素を抽出し、
その数を計数して特徴素毎の情報量に変換し、テーブル
17を作成する。
【0018】特徴素抽出部11は、予め与えられた特徴
素定義3を用いて、学習テキスト14から特徴素を抽出
し、抽出した全ての特徴素についての現れた回数即ち出
現頻度(全特徴素出現頻度)、及び、特徴素毎の出現頻
度(各特徴素出現頻度)を算出して、特徴素/頻度記憶
部15に記憶する。学習テキスト14は、言語識別装置
2において自動的に言語認識を行いたい言語の各々につ
いて、その学習データ作成のために予め1又は複数入力
される。学習に用いるべき特徴素定義3は、学習テキス
ト14の入力時にオペレータにより指定される。作成さ
れた学習データはテーブル17の形で言語識別装置2に
与えられる。
【0019】ここで、本発明において新たに用いられる
概念である特徴素について説明する。特徴素は、単語と
文字の中間に位置する概念であって、各言語毎にその特
徴を反映するように予め定められる。従って、特徴素定
義3は各言語毎に用意され、複数個とされる。特徴素
は、本発明による特徴素ベースの言語認識処理の基本を
なすものであり、オペレータにより特徴素定義3として
予め与えられる。特徴素定義3において、特徴素は各言
語の特徴を考慮して以下のように定められる。
【0020】第1に、いわゆるアルファベット(又はそ
の類似の文字)で記述される閉音節(子音で終わる音
節)をシラブルの核とする言語(例えば、インド−ヨー
ロッパ語族)においては、音節を特徴素とする。従っ
て、学習単位が音節となる。これにより、本発明による
特徴素ベースの言語認識技術を、表音文字である英語等
のインド−ヨーロッパ系統の言語についての言語認識に
適用した場合、単語の先頭のN−gramが機械的に抽
出されることがなく、言語毎に異なる音節構造を考慮し
た言語認識を行うことができる。なお、特徴素は各言語
毎に定められるので、同一の言語グループ内においても
例えば英語と仏語とでは異なる特徴素が定められる(以
下においても同様である)。
【0021】第2に、漢字を用いる言語(例えば、日本
語や中国語)においては、各言語において国等により予
め定められている特定の文字クラスを、特徴素とする。
例えば、日本語においては、常用漢字、教育漢字等の基
準である。従って、学習単位が特定の文字クラスとな
る。これにより、本発明による特徴素ベースの言語認識
技術を、表意文字である日本語等の言語についての言語
認識に適用した場合、言語毎に特徴のある言葉を予め特
徴素とすることにより、学習テキスト14において頻出
しない(特殊な)漢字1文字から構成される地名からで
も正確な言語認識を行うことができる。
【0022】第3に、開音節(母音で終わる音節)から
なり表音文字で表される言語(例えば、タイ語やベトナ
ム語)においては、2文字の連続部分を特徴素とする。
従って、学習単位が2文字(連続部分)となる。これに
より、本発明による特徴素ベースの言語認識技術を、こ
のような言語についての言語認識に適用した場合、言語
毎に特徴のある言葉を予め特徴素とすることにより、各
言語毎に正確な言語認識を行うことができる。
【0023】第4に、単語の核構造が子音からなる言語
(例えば、セム語)においては、2乃至3の子音の連続
部分を特徴素とする。従って、学習単位が2乃至3の子
音連続となる。これにより、本発明による特徴素ベース
の言語認識技術を、このような言語についての言語認識
に適用した場合、言語毎に特徴のある言葉を予め特徴素
とすることにより、各言語毎に正確な言語認識を行うこ
とができる。
【0024】従って、特徴素ベースの言語認識処理は、
基本的には、統計ベースの認識技術である。即ち、学習
テキスト14中から機械的に文字N−gramを抽出す
ることにより学習し、その統計的情報(テーブル17)
に基づいて対象テキスト24の言語認識を行うものであ
り、この点では統計ベースの認識技術と同一である。但
し、文字N−gramの抽出が、言語の特徴を考慮して
定められた特徴素定義3を用いて行われる点が異なる。
従って、特徴素ベースの認識技術は、特徴素定義3を用
いて抽出したN−gramの文字(これが特徴素であ
る)に基づいて学習すると言う簡単な方法を採用でき、
拡張性等にも優れている。
【0025】情報量計算部12は、特徴素/頻度記憶部
15を参照して特徴素抽出部11の算出した全特徴素出
現頻度及び各特徴素出現頻度を読み出し、これらを各々
の情報量(全特徴素情報量、各特徴素情報量)に変換し
て、情報量記憶部16に記憶する。
【0026】ここで、本発明において新たに用いられる
概念である情報量(特徴素情報量)について説明する。
特徴素出現頻度と情報量との関係は、本発明に従って、
以下のように定められる。即ち、(情報量)=−log
2 (ある特徴素の出現頻度/全特徴素の出現頻度の累
計)、又は、(情報量)=(ある特徴素の出現頻度/全
特徴素の出現頻度の累計)である。対数を取ることによ
り、出現頻度が少ない領域での情報量を強調し多い領域
での情報量を抑えて言語の特徴を強調することができ
る。なお、特徴素出現頻度と情報量との関係は、(ある
特徴素の出現頻度/全特徴素の出現頻度の累計)の関数
であれば種々変形可能である。従って、基本的には、情
報量は頻度の逆数に比例する。即ち、出現頻度が少なく
希少なもの程、情報量が大きくなるようにされ言語認識
において重要性が高いとされる。
【0027】情報量記憶部16の構成を図3に示す。情
報量記憶部16は、図3に示すように、各特徴素毎に、
対応する出現頻度及び情報量を格納する。特徴素、出現
頻度及び情報量は、各々、特徴素格納フィールド16
1、出現頻度格納フィールド162及び情報量格納フィ
ールド163に格納される。格納フィールド161乃至
163の最下行に全特徴素についての格納行が設けられ
る。
【0028】情報量記憶部16は、実際は、特徴素/頻
度記憶部15と同一の記憶領域(装置)からなる。即
ち、特徴素/頻度記憶部15は図3における特徴素格納
フィールド161及び出現頻度格納フィールド162
(のみ)の部分を指す。従って、特徴素/頻度記憶部1
5は情報量記憶部16の一部である。また、後述するテ
ーブル17は、図3に示す情報量記憶部16から特徴素
格納フィールド161及び情報量格納フィールド163
(のみ)の部分を取り出したものである。従って、テー
ブル17の図示は省略される。
【0029】なお、情報量記憶部16が図3における特
徴素格納フィールド161及び情報量格納フィールド1
63(のみ)の部分からなると考えても良い。この場
合、特徴素/頻度記憶部15と情報量記憶部16とは別
に設けられることになり、情報量記憶部16の内容がそ
のままテーブル17として出力されることになる。
【0030】テーブル出力部13は、特徴素/頻度記憶
部15及び情報量記憶部16(実際には情報量記憶部1
6)を参照して、特徴素抽出部11の抽出した全ての特
徴素と、全ての特徴素の各々に対応する情報量計算部1
2の算出した情報量とを読み出し、これらからなるテー
ブル(特徴素/情報量テーブル)17を作成して出力す
る。全特徴素とその情報量(全特徴素情報量)もテーブ
ル17に含まれる。
【0031】言語識別装置2は、(第2)特徴素抽出部
21、(第2)情報量計算部22及び判定部23を備え
る。言語識別装置2は、予め与えられた特徴素定義3、
及び、識別情報学習装置1から出力された特徴素及びそ
の情報量を含むテーブル17を用いて、対象テキスト2
4から特徴素を抽出して当該テキストについての平均情
報量(スコア)を算出し、言語認識を行う。
【0032】特徴素抽出部21は、予め与えられた特徴
素定義3を用いて、対象テキスト24からこれに含まれ
る特徴素を抽出し、抽出した特徴素毎の出現頻度(各特
徴素出現頻度、全特徴素出現頻度)を算出して、両者を
頻度記憶部25に記憶する。この場合、言語が不明なの
であるから、どの特徴素定義3を用いるかは不明であ
る。従って、1個の対象テキスト24について、予め用
意された複数の特徴素定義3が順に適用され、その都度
それに基づいて特徴素の抽出が行われる。特徴素抽出部
21は、特徴素抽出部11と同様の構成を有し、略同様
の処理を行う。頻度記憶部25は、特徴素/頻度記憶部
15と同様に、特徴素格納フィールドと出現頻度格納フ
ィールドとからなる構成を有し、実際には情報量記憶部
26の一部である。
【0033】情報量計算部22は、頻度記憶部25を参
照して特徴素抽出部21の算出した各特徴素出現頻度を
読み出し、これを用いてテーブル出力部13の出力した
テーブル17を参照し、各特徴素出現頻度を当該対象テ
キスト24における情報量に変換し、情報量記憶部26
に記憶する。情報量記憶部26は、基本的には図3に示
す情報量記憶部16と同様に特徴素格納フィールド、出
現頻度格納フィールド及び情報量格納フィールドからな
る構成を有する。
【0034】情報量計算部22は、情報量計算部12の
ように出現頻度から直接計算により(認識用)情報量を
求めずに、テーブル17を用いて(認識用)情報量を求
める。即ち、テーブル17において、ある特徴素の出現
頻度がi回で、(学習時)情報量がn点であるとする。
一方、頻度記憶部25において、当該特徴素についての
出現頻度が2i回であるとする。この場合、情報量計算
部22は、(認識用)情報量を2n点と算出する。即
ち、(認識用)情報量=(ある特徴素の出現頻度の度合
い)×(その特徴素に対する学習テキスト14中での情
報量)である。(ある特徴素の出現頻度の度合い)=
(当該特徴素の対象テキスト24中での出現頻度)/
(当該特徴素の学習テキスト14中での出現頻度)であ
る。(認識用)情報量が対象テキスト24における当該
特徴素の持つ情報量である。
【0035】このようにして全対象テキスト24につい
ての(認識用)情報量を算出した後、更に、情報量計算
部22は、情報量記憶部26を参照して当該算出した格
納特徴素毎の情報量を読み出し、これを用いて当該対象
テキスト24についての当該特徴素の平均情報量を算出
し、情報量記憶部26に記憶する。従って、情報量計算
部22は、情報量計算部12と同様の構成を有するが、
この分でもやや異なる処理を行う。また、情報量記憶部
26も、実際には図3に示す情報量記憶部16の構成に
加えて、情報量格納フィールド163に(図中右隣に)
隣接して各々の特徴素についての平均情報量を格納する
ための平均情報量格納フィールドが設けられる。
【0036】ここで、平均情報量は、本発明に従って、
以下のように定められる。即ち、(平均情報量)=
((ある特徴素の出現頻度の度合い)×(その特徴素に
対する学習データ中での情報量))/(当該対象テキス
ト24中での全特徴素の出現頻度の累計)=(認識用)
情報量/(当該対象テキスト24中での全特徴素の出現
頻度の累計)である。分母は、当該対象テキスト24中
の特徴素の延べ数であり、当該対象テキスト24の文書
サイズに依存する。
【0037】判定部23は、情報量記憶部26を参照し
て情報量計算部22が算出した当該対象テキスト24に
おける平均情報量を読み出し、これを用いて当該対象テ
キスト24の言語を判定する。即ち、当該平均情報量が
予め定められた閾値以下であって、かつ、平均情報量が
閾値に最も近い言語によって、当該対象テキスト24が
記述されていると判定する。閾値は経験的に定められ
る。判定部23は、認識対象である各種の言語について
の認識処理を行う。即ち、当該平均情報量が閾値より大
きい場合、言語要素が少なく、認識対象言語としては十
分な情報がないと判定して、認識処理を行わない。
【0038】図4は識別情報学習装置1の実行する学習
コーパス(学習テキスト14)についての識別情報の学
習処理フローである。
【0039】オペレータが、特徴素定義3を識別情報学
習装置1に入力した後、学習対象となるデータ(学習コ
ーパス又は学習テキスト14)を識別情報学習装置1に
入力する(ステップS1)。
【0040】特徴素抽出部11が、情報量記憶部16の
全ての格納フィールドの内容をクリアし、全特徴素の数
もクリアして0とする(ステップS2)。
【0041】特徴素抽出部11がポインタを学習テキス
ト14の先頭(文字が最初に現れる位置)にセットする
(ステップS3)。
【0042】特徴素抽出部11がポインタが学習テキス
ト14の終端(文字がない位置)にまで移動したか否か
を判定する(ステップS4)。終端にまで移動した場合
には、ステップS9を実行する。
【0043】終端にまで移動していない場合、特徴素抽
出部11が、特徴素定義3に基づいて、学習テキスト1
4から予め定められた対象言語に応じた1個の特徴素を
抽出する(ステップS5)。
【0044】特徴素抽出部11がポインタを学習テキス
ト14において抽出した1個の特徴素の分だけ進める
(ステップS6)。
【0045】特徴素抽出部11が抽出された特徴素に対
応する情報量記憶部16の出現頻度格納フィールド16
2の現在の値に+1だけ加算する(ステップS7)。
【0046】特徴素抽出部11が情報量記憶部16の全
特徴素数の出現頻度の現在の値の累計に+1だけ加算す
る(ステップS8)。
【0047】ステップS4においてポインタが学習テキ
スト14の終端にまで移動した場合、情報量計算部12
が、情報量記憶部16内に存在する抽出した各々の特徴
素の頻度を前述した変換式に従って情報量に変換し、各
々に対応する情報量格納フィールド163に格納する
(ステップS9)。
【0048】テーブル出力部13が情報量記憶部16か
ら特徴素及び情報量からなるテーブル17を作成して出
力する(ステップS10)。
【0049】図5は言語識別装置2の実行する対象テキ
スト24についての言語識別処理フローである。
【0050】オペレータが、判定(認識)対象となるデ
ータ(対象テキスト24)を言語識別装置2に入力する
(ステップS11)。特徴素定義3は先に識別情報学習
装置1において学習のために用いられたものをそのまま
用いる。
【0051】特徴素抽出部21及び情報量計算部22
が、特徴素定義3を用いて、識別情報学習装置1におい
て学習した言語の各々について、ステップS11におい
て入力した対象テキスト24について、各対象テキスト
24毎にその平均情報量(スコア)を求める(ステップ
S12)。この処理は、各言語毎(即ち、各特徴素定義
3毎)に行われ、その詳細については、図6を参照して
後述する。
【0052】判定部23が全ての言語においてスコアが
閾値以上か否かを調べる(ステップS13)。
【0053】閾値以上である場合、判定部23が最小の
スコアを得た言語を識別したことを出力する(ステップ
S14)。即ち、対象テキスト24は当該言語で記述さ
れていると認識されたことになる。
【0054】閾値以上でない場合、判定部23が言語を
識別できないことを出力する(ステップS15)。即
ち、当該対象テキスト24は識別不可能な言語(識別情
報学習装置1で学習していない言語)で記述されている
と認識されたことになる。
【0055】図6は言語識別装置2の実行する対象テキ
スト24についてのスコア算出処理フローであり、主と
して、図5のステップS12に相当する処理である。
【0056】図5のステップS11に相当し、対象テキ
スト24を入力する(ステップS16)。
【0057】特徴素抽出部21が、特徴素とこれに対応
する頻度からなる情報量記憶部26の内容をクリアし、
全特徴素の数もクリアして0とする(ステップS1
7)。
【0058】特徴素抽出部21が、ポインタを対象テキ
スト24の先頭にセットする(ステップS18)。
【0059】特徴素抽出部21が、ポインタが対象テキ
スト24の終端にまで移動したか否かを判定する(ステ
ップS19)。終端にまで移動した場合には、ステップ
S24を実行する。
【0060】終端にまで移動していない場合、特徴素抽
出部21が、学に使用した特徴素定義3に基づいて、対
象テキスト24から処理しようとしている対象言語に応
じた1個の特徴素を抽出する(ステップS20)。従っ
て、学習した特徴素と同一のものが、対象テキスト24
に存在すれば、抽出される。
【0061】特徴素抽出部21が対象テキスト24にお
いてポインタを抽出した1個の特徴素の分だけ進める
(ステップS21)。
【0062】特徴素抽出部21が抽出された特徴素に対
応する情報量記憶部26における出現頻度格納フィール
ドの現在の値に+1だけ加算する(ステップS22)。
【0063】特徴素抽出部21が情報量記憶部26にお
ける全特徴素数の出現頻度の現在の値累計に+1だけ加
算する(ステップS23)。
【0064】ステップS19においてポインタが対象テ
キスト24の終端にまで移動した場合、情報量計算部2
2が、抽出した各々の特徴素についての(認識)情報量
を求め、更に、これらの値を用いて前述した計算式に従
って当該対象テキスト24についての平均情報量を算出
する(ステップS24)。
【0065】判定部23が、算出した平均情報量が予め
定められた閾値以下である場合には当該平均情報量を出
力し、そうでない場合には判定不能である旨を出力する
(ステップS25)。
【0066】ここで、本発明の言語種別判定装置100
による言語の種別の自動判定について、実際の例を参照
して説明する。
【0067】学習及び言語認識に先立って、最初に、特
徴素が定義される。即ち、オペレータが、自動的な認識
対象としたい言語についての特徴素定義3を定め、言語
種別判定装置100に予め与える。前述のように、特徴
素は各言語毎に予め定められる特徴素定義3に従って自
動的に定まる。特徴素定義3の内容の概略については前
述した通りである。
【0068】図7は英語の特徴素説明図であり、英語に
対する音節(シラブル)の定義例を示す。前述のよう
に、英語等のいわゆるアルファベットで記述される閉音
節をシラブルの核とする言語においては、音節を特徴素
とする。従って、英語の特徴素は、図7に示すように、
音節を定義することにより定まる。英語の特徴素は特徴
素定義3Aとして与えられる。
【0069】図7において、記号Vは、a、i・・等か
らなる母音となる文字のグループである。記号Cは、
b、c・・等からなる子音となる文字のグループであ
る。記号Hは、w及びyからなる半母音となる文字のグ
ループである。記号Nは、m及びnからなる鼻音となる
文字のグループである。記号Rは、l及びrからなる流
音となる文字のグループである。
【0070】このように各文字を区別すると、特徴素即
ち音節syllableは、種々の文書について、図7
に示す式により自動的に定めることができる。例えば、
syllable=(C)*V*Nである。ここ
で、()は当該文字が必ずしも存在しなくても良いこと
を示し、*は直前の文字が任意の個数あっても良いこと
を示す。従って、上記の式は、グループCの文字が存在
するが必ずしも存在しなくても良くまたその個数は任意
で良く、次の位置にグループVの文字が必ず存在しその
個数は任意で良く、次の位置にグループNの文字が必ず
存在することを示す。従って、例えば子音があり、母音
があり、鼻音があれば特徴素として抽出される。他の式
の意味も同様に定まる。これらの定義を単語の先頭から
順に適用して、何れかの定義に該当すれば、当該該当す
る部分は音節即ち特徴素であるとして抽出される。文書
において、特徴素として抽出された次の部分から、同様
にして特徴素の抽出を繰り返す。
【0071】図8は日本語の特徴素説明図であり、日本
語に対する文字クラスの定義例を示す。前述のように、
日本語等の漢字を用いる言語においては、各言語におい
て国等により予め定められている特定の文字クラスを、
特徴素とする。従って、日本語の特徴素は、図8に示す
ように、平仮名、常用漢字等の文字クラスを定義するこ
とにより定まる。平仮名等の文字クラスの内容(定義)
は別に与えられる。例えば、「あ」「い」等の平仮名
は、まとめて1個の「平仮名」なる特徴素として処理さ
れる。日本語の特徴素は特徴素定義3Bとして与えられ
る。
【0072】図8において、文字クラスは、平仮名、カ
タカナ、教育漢字(小学校)1学年、・・・等である。
なお、「日本語EUC範囲外」とは日本語ではないもの
の意味であり、例えば韓国語等に多く取り込まれている
平仮名や漢字等がこれに属する。また、図8に示す文字
以外の文字、例えば数字や記号(○、×、♯、♭・・)
等は特徴素の抽出の対象から除かれる。このように文字
クラスにより特徴素を定めることができる。これらの定
義を単語の先頭から順に適用して、何れかの文字クラス
に該当すれば、当該該当する部分は特徴素であるとして
抽出される。特徴素として抽出された次の部分から、同
様にして特徴素の抽出を繰り返す。
【0073】なお、前述のように、開音節からなり表音
文字で表される言語においては、2文字の連続部分を特
徴素とし、単語の核構造が子音からなる言語において
は、2乃至3の子音の連続部分を特徴素とし、これらは
図7の英語に対する場合と略同様に定められるが、その
具体例は省略する。
【0074】次に、学習が行われる。即ち、オペレータ
により各種の言語についての特徴素が定められた言語種
別判定装置100に、学習テキスト14が入力され、識
別情報学習装置1に言語を認識するための学習を行わせ
る。学習テキスト14としては、一般に流通している各
種の言語で記述された種々の文書を用いれば良い。
【0075】図9は英語に対する学習結果例を示す。英
語に対する学習結果例はテーブル17Aとして与えられ
る。なお、情報量は、前述の変換式により求めた値kを
用いて、2k の形で示している(図10においても同様
である)。図9に示すように、例えば、3個の文字「A
CT」からなる特徴素即ち音節は210.71 の情報量を持
つ。このように、学習テキスト14からの学習を行うこ
とにより、当該学習テキスト14に含まれていた英語に
おける特徴素即ち音節が残らず抽出され、かつ、その特
徴素即ち音節の各々についての情報量が算出される。
【0076】図10は日本語に対する学習結果例を示
す。日本語に対する学習結果例はテーブル17Aとして
与えられる。図10に示すように、例えば、平仮名(1
文字)からなる特徴素即ち音節は216の情報量を持つ。
なお、「日本語EUCの範囲外」の情報量は「最大Pe
nalty」即ち許容最大値を越えるとされ、言語認識
において意味を持たないようにされる。また、「その
他」とは数字や記号等であり、抽出されても認識情報と
しての意味を持たないので、その情報量は「0」とされ
る。このように、学習テキスト14からの学習を行うこ
とにより、当該学習テキスト14に含まれていた日本語
における特徴素が残らず抽出され、かつ、その特徴素の
各々についての情報量が算出される。
【0077】なお、対象テキスト24において抽出され
たある特徴素が学習テキスト14中に存在しなかった場
合には、テーブル17に基づいては情報量を算出できな
いので、スコアに所定の値をペナルティとして加算す
る。所定の値は、例えばα×(当該ある特徴素の情報
量)=−log2 (1/(全特徴素の出現頻度の累
計))により定義される。即ち、当該特徴素が学習テキ
スト14中に1回だけ出現した場合と同様の値に係数α
を乗じた値を加算する。従って、この特徴素は希少なも
のなので、この値は大きな値になる。係数αの値は経験
的に定まる。
【0078】次に、言語の自動認識が行われる。即ち、
識別情報学習装置1が言語を認識するための学習を行っ
た言語種別判定装置100に、対象テキスト24が入力
され、言語識別装置2に当該テキストの言語を認識を行
わせる。
【0079】図11は言語判定例を示す。対象テキスト
24として、図11に示すような文書例を含む英、独、
日、韓、中、仏、蘭の7ヵ国語の文書を入力して、これ
らの言語について自動認識を行わせるとする。英語スコ
ア及び日本語スコアは、各々、英語及び日本語を学習テ
キスト14とした場合に当該対象テキスト24について
の言語を認識を行わせた結果を示す。また、言語認識の
ための閾値として、英語及び日本語について、各々、1
6000以下及び200000以下と言う値が与えられ
る。
【0080】図11において、英語スコアが英語の閾値
16000以下であるものは、文書Aのみであるので、
この対象テキスト24が英語で記述された文書であると
認識される。文書Aの言語が英語であるから、正しく言
語認識されていることが判る。日本語スコアが日本語の
閾値200000以下であるものは、文書Cのみである
ので、この対象テキスト24が日本語で記述された文書
であると認識される。文書Cの言語が日本語であるか
ら、正しく言語認識されていることが判る。
【0081】なお、当該閾値以下である文書が複数存在
する場合には、前述のように、最も閾値に近いスコア
(平均情報量)の対象テキスト24が当該言語で記述さ
れた文書であると認識される。もっとも、図11に示す
結果によれば、当該言語の閾値より小さいスコアを有す
る文書は、当該言語で記述された文書以外に抽出され
ず、かつ、他の文書とはスコアの値の桁が異なる。この
点からも、本発明による言語認識処理が優れていること
が判る。
【0082】
【発明の効果】以上説明したように、本発明によれば、
言語処理装置において、学習テキストから特徴素を自動
的に抽出すると共にこれに基づいて得た情報量からなる
テーブルを作成すると共にこれを用いて対象テキストか
ら抽出した特徴素に基づく情報量を用いて言語認識を行
うことにより、言語の特徴に応じて特徴素を定めておけ
ば学習データを自動的に作成しこの学習データを用いて
言語認識を行うことができるので、特徴素を適切に定義
することにより、各言語毎にその特徴に応じた特徴素を
その言語認識の基礎とすることができ、言語毎にその特
徴を考慮した正確な言語認識を行うことができ、結果と
して、抽出した特徴素に基づいて学習すると言う比較的
簡単な方法を採用でき、従って、拡張性等にも優れた言
語処理を行うことができる。
【図面の簡単な説明】
【図1】本発明の原理構成図である。
【図2】言語種別判定装置構成図である。
【図3】情報量記憶部構成図である。
【図4】識別情報の学習処理フローである。
【図5】言語識別処理フローである。
【図6】スコア算出処理フローである。
【図7】英語の特徴素説明図である。
【図8】日本語の特徴素説明図である。
【図9】英語に対する学習結果例を示す図である。
【図10】日本語に対する学習結果例を示す図である。
【図11】言語判定例を示す図である。
【符号の説明】
1 識別情報学習装置 2 言語識別装置 3 特徴素定義 11 特徴素抽出部 12 情報量計算部 13 テーブル出力部 14 学習テキスト 15 特徴素/頻度記憶部 16 情報量記憶部 17 テーブル 21 特徴素抽出部 22 情報量計算部 23 判定部 24 対象テキスト 25 頻度記憶部 26 情報量記憶部

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 学習テキストから言語毎に当該言語に応
    じた特徴素を抽出し、抽出した全ての特徴素についての
    出現頻度及び特徴素毎の出現頻度を算出する特徴素抽出
    部と、 前記特徴素抽出部の算出した全ての特徴素についての出
    現頻度及び特徴素毎の出現頻度を、各々、情報量に変換
    する情報量計算部と、 前記特徴素抽出部の抽出した全ての特徴素と、特徴素の
    各々に対応する前記情報量計算部の算出した情報量とか
    らなるテーブルを作成して出力するテーブル出力部とを
    備えることを特徴とする言語処理装置。
  2. 【請求項2】 前記情報量は、(ある特徴素の出現頻度
    /全特徴素の出現頻度の累計)の関数であることを特徴
    とする請求項1に記載の言語処理装置。
  3. 【請求項3】 対象テキストから特徴素を抽出し、抽出
    した特徴素毎の出現頻度を算出する特徴素抽出部と、 前記特徴素抽出部の算出した特徴素毎の出現頻度を用い
    て、特徴素と特徴素の各々に対応する情報量とからなる
    予め与えられたテーブルを参照し、前記特徴素毎の出現
    頻度を当該対象テキストにおける情報量に変換し、当該
    算出した情報量を用いて当該対象テキストについての平
    均情報量を算出する情報量計算部と、 前記情報量計算部が算出した当該対象テキストにおける
    平均情報量が予め定められた閾値以下であって、かつ、
    平均情報量が閾値に最も近い言語によって、当該対象テ
    キストが記述されていると判定する判定部とを備えるこ
    とを特徴とする言語処理装置。
  4. 【請求項4】 前記平均情報量は、(平均情報量)=
    ((ある特徴素の出現頻度の度合い)×(その特徴素に
    対する学習データ中での情報量))/(当該対象テキス
    ト中での全特徴素の出現頻度の累計)により定まること
    を特徴とする請求項3に記載の言語処理装置。
  5. 【請求項5】 識別情報学習装置と言語識別装置とから
    なる言語処理装置であって、 前記識別情報学習装置が、 学習テキストから言語毎に当該言語に応じた特徴素を抽
    出し、抽出した全ての特徴素についての出現頻度及び特
    徴素毎の出現頻度を算出する特徴素抽出部と、 前記特徴素抽出部の算出した全ての特徴素についての出
    現頻度及び特徴素毎の出現頻度を、各々、情報量に変換
    する情報量計算部と、 前記特徴素抽出部の抽出した全ての特徴素と、特徴素の
    各々に対応する前記情報量計算部の算出した情報量とか
    らなるテーブルを作成して出力するテーブル出力部とを
    備え、 前記言語識別装置が、 対象テキストから特徴素を抽出し、抽出した特徴素毎の
    出現頻度を算出する特徴素抽出部と、 前記特徴素抽出部の算出した特徴素毎の出現頻度を用い
    て、前記テーブル出力部の出力した前記テーブルを参照
    し、前記特徴素毎の出現頻度を当該対象テキストにおけ
    る情報量に変換し、当該算出した情報量を用いて当該対
    象テキストについての平均情報量を算出する情報量計算
    部と、 前記情報量計算部が算出した当該対象テキストにおける
    情報量が予め定められた閾値以下であって、かつ、情報
    量の平均値が最も小さい言語によって、当該対象テキス
    トが記述されていると判定する判定部とを備えることを
    特徴とする言語処理装置。
  6. 【請求項6】 前記特徴素は、閉音節をシラブルの核と
    する言語においては音節であり、漢字を用いる言語にお
    いては各言語において予め定められている特定の文字ク
    ラスであり、開音節からなり表音文字で表される言語に
    おいては2文字の連続部分であり、単語の核構造が子音
    からなる言語においては2乃至3の子音の連続部分であ
    ることを特徴とする請求項1乃至請求項5のいずれかに
    記載の言語処理装置。
  7. 【請求項7】 学習テキストから言語毎に当該言語に応
    じた特徴素を抽出し、抽出した全ての特徴素についての
    出現頻度及び特徴素毎の出現頻度を算出する第1特徴抽
    出処理と、 前記第1特徴抽出処理において算出した全ての特徴素に
    ついての出現頻度及び特徴素毎の出現頻度を、各々、情
    報量に変換する第1情報量計算処理と、 前記第1特徴抽出処理において抽出した全ての特徴素
    と、特徴素の各々に対応する前記第1情報量計算処理の
    算出した情報量とからなるテーブルを作成して出力する
    テーブル出力処理と、 対象テキストから特徴素を抽出し、抽出した特徴素毎の
    出現頻度を算出する第2特徴抽出処理と、 前記第2特徴抽出処理において算出した特徴素毎の出現
    頻度を用いて、特徴素の各々に対応する情報量とからな
    る前記テーブル出力処理において出力した前記テーブル
    を参照し、前記特徴素毎の出現頻度を当該対象テキスト
    における情報量に変換し、当該算出した情報量を用いて
    当該対象テキストについての平均情報量を算出する第2
    情報量計算処理と、 前記第2情報量計算処理が算出した当該対象テキストに
    おける情報量が予め定められた閾値以下であって、か
    つ、情報量の平均値が最も小さい言語によって、当該対
    象テキストが記述されていると判定する判定処理とを、 コンピュータである言語処理装置に実行させるプログラ
    ムを記憶することを特徴とするプログラム記憶媒体。
JP11048092A 1999-02-25 1999-02-25 言語処理装置及びそのプログラム記憶媒体 Withdrawn JP2000250905A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11048092A JP2000250905A (ja) 1999-02-25 1999-02-25 言語処理装置及びそのプログラム記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11048092A JP2000250905A (ja) 1999-02-25 1999-02-25 言語処理装置及びそのプログラム記憶媒体

Publications (1)

Publication Number Publication Date
JP2000250905A true JP2000250905A (ja) 2000-09-14

Family

ID=12793686

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11048092A Withdrawn JP2000250905A (ja) 1999-02-25 1999-02-25 言語処理装置及びそのプログラム記憶媒体

Country Status (1)

Country Link
JP (1) JP2000250905A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006504173A (ja) * 2002-10-22 2006-02-02 ノキア コーポレイション 規模調整可能なニューラルネットワーク・ベースの、文書テキストからの言語同定
US11989215B2 (en) 2020-04-24 2024-05-21 Roblox Corporation Language detection of user input text for online gaming

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006504173A (ja) * 2002-10-22 2006-02-02 ノキア コーポレイション 規模調整可能なニューラルネットワーク・ベースの、文書テキストからの言語同定
JP2009037633A (ja) * 2002-10-22 2009-02-19 Nokia Corp 規模調整可能なニューラルネットワーク・ベースの、文書テキストからの言語同定
US11989215B2 (en) 2020-04-24 2024-05-21 Roblox Corporation Language detection of user input text for online gaming

Similar Documents

Publication Publication Date Title
US7302640B2 (en) Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
US7165019B1 (en) Language input architecture for converting one text form to another text form with modeless entry
JPH03224055A (ja) 同時通訳向き音声認識システムおよびその音声認識方法
JP2001505330A (ja) テキストストリーム中の単語の切れ目を与える方法及び装置
Alghamdi et al. Automatic restoration of arabic diacritics: a simple, purely statistical approach
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
CN113268576B (zh) 一种基于深度学习的部门语义信息抽取的方法及装置
JP5231698B2 (ja) 日本語の表意文字の読み方を予測する方法
JP5097802B2 (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
CN111460809A (zh) 阿拉伯语地名专名音译方法、装置、翻译设备和存储介质
JP2009157888A (ja) 音訳モデル作成装置、音訳装置、及びそれらのためのコンピュータプログラム
KR20230011220A (ko) 언어 이해 및 생성이 가능한 딥러닝 언어모델을 위한 사전학습 장치 및 이를 이용한 방법
JP2000250905A (ja) 言語処理装置及びそのプログラム記憶媒体
KR100910275B1 (ko) 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및장치
JPS61248160A (ja) 文書情報登録方式
Hogan OCR for minority languages
KR20090042201A (ko) 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및 장치
JPH11250063A (ja) 検索装置及び検索方法
CN107729318B (zh) 一种自动更正部分文字的方法-由中文词性判断
KR20170088169A (ko) 기계학습 기반의 중국어 단어 분리 장치
JP2997151B2 (ja) 漢字変換装置
JP3084864B2 (ja) 文章入力装置
JP2575947B2 (ja) 文節切出し装置
JPS61272873A (ja) テキストの補整表記方式
JPS61184682A (ja) 仮名漢字変換装置

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060509