JP2943791B2

JP2943791B2 - 言語識別装置，言語識別方法および言語識別のプログラムを記録した記録媒体

Info

Publication number: JP2943791B2
Application number: JP10076479A
Authority: JP
Inventors: 稔弘藤並; 秀信金岡; 多田　　智之
Original assignee: Omron Corp
Current assignee: Omron Corp
Priority date: 1997-03-14
Filing date: 1998-03-11
Publication date: 1999-08-30
Anticipated expiration: 2018-03-11
Also published as: JPH10320399A

Description

【発明の詳細な説明】

【０００１】

【技術分野】この発明は，文字コード列によって表わさ
れる文字列の言語およびその文字コードの種類（文字コ
ード系）を判別する言語識別装置および方法，与えられ
たテキスト・データまたはキーワード（いずれもエンコ
ードされている）によって表わされるテキスト（文章）
または単語の言語を識別して種々の処理を切り替える各
種装置，ならびに上記装置を制御する，または上記方法
を実現するコンピュータ・プログラムを記憶した記録媒
体に関する。

【０００２】

【発明の背景】現在，日本，中国（中華人民共和国），
韓国および台湾（中華民国）で使われている漢字（また
はハングル）用文字コードは，２バイトで１文字を表現
している。これらの文字コード（系）は，言語（日本
語，中国語，韓国語など）ごとに独立して定義されてい
る。エンコード方法（文字コード系，コードの種類また
はエンコードのルール）が異なれば同じ言語の文字でも
異なる文字コードで表される。言語を表わす情報は通常
文字コード・データに付加されていない。このため，一
連の文字コードが与えられたときに，その文字コードが
どのような言語をエンコードして得られたものかは簡単
には分からない。

【０００３】データベースの検索システム，翻訳システ
ム，音声合成システムなどのような言語情報処理システ
ムは，特定の言語および文字コード系を前提としてつく
られている。複数種類の言語で利用可能な言語情報処理
システムを考えた場合にも，言語の種類ごとに言語情報
処理が異なるから，与えられるキーワードおよびテキス
ト・データの言語が分かっていることが必要である。与
えられるキーワード，テキスト・データの言語および文
字コード系が不明であると適切な処理は期待できない。

【０００４】

【発明の開示】この発明は，与えられる文字コード列の
言語およびその文字コード系を識別できるようにするこ
とを目的とする。

【０００５】また，この発明は，入力されるキーワード
またはテキスト・データの言語および文字コード系が分
からない場合であっても，それぞれの言語に適した各種
言語情報処理が可能になるようにすることを目的とす
る。

【０００６】第１の発明による文字コードの判別装置
は，エンコードされたテキスト・データの言語と文字コ
ード系との組合せを識別する装置であって，言語と文字
コード系との組合せごとに，その組合せにおいて文字コ
ードが出現する確率をそれぞれ記述した複数の出現確率
テーブルを格納した記憶手段，与えられたテキスト・デ
ータに含まれる１または複数の文字コードについて上記
複数の出現確率テーブルからそれぞれ出現確率を読み出
し，言語と文字コード系との組合せごとに，評価データ
を得る手段，および得られた評価データにもとづいて，
与えられたテキスト・データの言語と文字コード系との
組合せを判別する手段を備えていることを特徴とする。

【０００７】第１の発明は，上記装置に適した方法も提
供している。すなわち，この方法はエンコードされたテ
キスト・データの言語と文字コード系との組合せを識別
する方法であって，言語と文字コード系との組合せごと
に，その組合せにおいて文字コードが出現する確率をそ
れぞれ記述した出現確率テーブルをあらかじめ作成して
おき，与えられたテキスト・データに含まれる１または
複数の文字コードについて上記複数の出現確率テーブル
からそれぞれ出現確率を読み出し，言語と文字コード系
との組合せごとに，評価データを得，得られた評価デー
タにもとづいて，与えられたテキスト・データの言語と
文字コード系との組合せを判別することを特徴とする。

【０００８】さらに，上記方法を実施するためのプログ
ラムを格納した記録媒体も提供している。すなわち，こ
の記録媒体は言語と文字コード系との組合せごとに，そ
の組合せにおいて文字コードが出現する確率を記述した
出現確率テーブルを用いて，エンコードされたテキスト
・データの言語と文字コード系の組合せを識別するため
のプログラムを格納した記録媒体であって，与えられた
テキスト・データに含まれる１または複数の文字コード
について上記複数の出現確率テーブルからそれぞれ出現
確率を読み出し，言語と文字コード系との組合せごと
に，評価データを得，得られた評価データに基づいて，
与えられたテキスト・データの言語と文字コード系との
組合せを判別するようにコンピュータを制御するプログ
ラムを格納した記録媒体である。記録媒体とは磁気ディ
スク記憶装置，光磁気ディスク記憶装置，光ディスク記
憶装置，磁気テープ，半導体メモリ等をいう。

【０００９】文字コードの出現確率は，その文字コード
によって表わされる文字の言語と文字コード系との組合
せに依存する。同一の文字コードであっても，その文字
コードの出現確率は，言語ごとに異なる。また，同じ言
語でも文字コード系が異なれば同一文字コードの出現確
率が異なる。第１の発明は，言語と文字コード系との組
合せに特有な文字コードの出現確率に着目して文字コー
ドによって表わされる言語およびその文字コード系の種
類を判別するものである。

【００１０】第１の発明によると，入力された文字コー
ド列の一文字コードごとに上記出現確率テーブルから上
記出現確率が読出され，評価データが言語と文字コード
系との組合せごとに作成される。出現確率に関係する評
価データが低ければ入力された文字コード列はその言語
と文字コード系との組合せに関するものではない可能性
が高いと判断され，評価データが高ければ入力された文
字コード列はその言語と文字コード系との組合せに関す
るものである可能性が高いと考えられる。このようにし
て評価データにもとづいて，与えられたテキスト・デー
タ（文字コード列）の言語と文字コード系との組合せが
判別される。

【００１１】出現確率テーブルから読み出された出現確
率の積を算出し，算出された値にもとづいてテキスト・
データの言語およびエンコーディング方法を判別するこ
とが精度の観点から好ましい。いずれか一つの文字コー
ドの出現確率が０または０に非常に近い数値であれば，
積も非常に小さい値となり，そのような言語と文字コー
ド系との組合せが明確に除外される。

【００１２】第２の発明によるマルチリンガル形態素解
析システムは，与えられるテキスト・データの言語を識
別する言語識別手段，複数の言語について設けられた複
数の形態素解析手段，および上記言語識別手段によって
識別された言語に適した上記形態素解析手段に，与えら
れた上記テキスト・データを供給する制御手段を備えた
ことを特徴とする。

【００１３】第２の発明は，上記装置に適した方法も提
供している。すなわち，この方法は複数の言語について
複数の形態素解析手段を設けておき，与えられたテキス
ト・データの言語を識別し，識別された言語に適した上
記形態素解析手段に，与えられた上記テキスト・データ
を供給することを特徴とする。

【００１４】第２の発明は，上記方法を実施するための
プログラムを格納した記録媒体も提供している。すなわ
ちこの記録媒体は，複数の言語について設けられた複数
の形態素解析手段へのテキスト・データの供給を切り替
えるためのプログラムを格納した記録媒体であって，与
えられたテキスト・データの言語を識別し，識別された
言語に適した上記形態素解析手段に，与えられた上記テ
キスト・データを供給するようにコンピュータを制御す
るためのプログラムを格納したコンピュータが読取り可
能な記録媒体である。

【００１５】第２の発明によると，上記形態素解析手段
は複数の言語に対応して設けられている。与えられるテ
キスト・データの言語が識別される。識別された言語に
応じてその言語に適した形態素解析手段にテキスト・デ
ータが供給される。入力するテキスト・データがどのよ
うな言語に関するものかがわからなくても最適な形態素
解析が実施される。

【００１６】第３の発明によるマルチリンガル検索シス
テムは，与えられるキーワードの言語を識別する言語識
別手段，複数の言語について設けられ，入力するキーワ
ードにもとづいてそのキーワードに関連する情報を出力
する複数の検索手段，および上記言語識別手段によって
識別された言語に適した上記検索手段に，与えられたキ
ーワードを供給する制御手段を備えたことを特徴とす
る。

【００１７】第３の発明は，上記システムに適した方法
も提供している。すなわち，この方法は，入力するキー
ワードにもとづいてそのキーワードに関連する情報を出
力する複数の検索手段を複数の言語について設けてお
き，与えられたキーワードの言語を識別し，識別された
言語に適した上記検索手段に，与えられたキーワードを
供給することを特徴とする。

【００１８】さらに第３の発明は，上記方法を実施する
ためのプログラムを格納した記録媒体も提供している。
すなわち，この記録媒体は，複数の言語について設けら
れ，入力するキーワードにもとづいてそのキーワードに
関連する情報を出力する複数の検索手段へのキーワード
の供給を切り替えるためのプログラムを格納した記録媒
体であって，与えられるキーワードの言語を識別し，識
別された言語に適した上記検索手段に，与えられたキー
ワードを供給するようにコンピュータを制御するための
プログラムを格納したコンピュータが読取り可能な記録
媒体である。

【００１９】第３の発明によると，上記検索手段は，複
数の言語に対応して設けられている。

【００２０】与えられるキーワードは，その言語が識別
される。識別された言語に応じて，その言語に適した検
索手段にキーワードが供給される。

【００２１】入力するキーワードがどのような言語に関
するものかがわからなくても最適な検索処理を実現でき
る。

【００２２】第４の発明によるマルチリンガル出力装置
は，与えられるテキスト・データの言語を識別する言語
識別手段，上記テキスト・データによって表わされるテ
キストを出力する出力装置，および上記言語識別手段に
よって識別された言語にもとづいて，上記出力装置にお
ける上記テキストの出力形態を制御する出力形態制御手
段を備えていることを特徴とする。

【００２３】第４の発明は，上記装置に適した方法も提
供している。すなわち，この方法は，与えられるテキス
ト・データの言語を識別し，識別された言語にもとづい
て，上記テキスト・データによって表わされるテキスト
を出力する出力装置における上記テキストの出力形態を
制御することを特徴とする。

【００２４】第４の発明は，上記方法を実現するための
記録媒体も提供している。すなわち，この記録媒体は，
与えられるテキスト・データの言語を識別し，識別され
た言語にもとづいて，上記テキスト・データによって表
わされるテキストを出力する出力装置における上記テキ
ストの出力形態を制御するようにコンピュータを制御す
るためのプログラムを格納したコンピュータが読取り可
能な記録媒体である。

【００２５】第４の発明によると，与えられるテキスト
・データの言語が識別される。識別された言語にもとづ
いて上記テキストの出力形態（例えば，フォントの種類
の選択，縦書きか横書きか，左から右に向かって読むよ
うに出力するか右から左に向かって読むような出力する
かなど）が制御される。言語に応じた最適な出力が可能
となる。

【００２６】上記出力装置は，例えばプリンタであり，
その場合には，プリンタにおけるテキストの印刷形態を
制御する。

【００２７】また，上記出力装置が表示装置である場合
には，表示装置における表示形態を制御する。

【００２８】第５の発明によるマルチリンガル翻訳シス
テムは，与えられるテキスト・データの言語を識別する
言語識別手段，２つの言語の複数の組合せについて設け
られ，一の言語を他の言語に翻訳して出力する複数の翻
訳手段，および上記言語識別手段によって識別された言
語に適した上記翻訳手段に，与えられたテキスト・デー
タを供給する制御手段を備えることを特徴とする。

【００２９】第５の発明は，上記システムに適した方法
も提供している。すなわち，この方法は，一の言語を他
の言語に翻訳して出力する複数の翻訳手段が２つの言語
の複数の組合せについて設けられ，与えられたテキスト
・データの言語を識別し，識別された言語に適した上記
翻訳手段に，与えられたテキスト・データを供給するこ
とを特徴とする。

【００３０】第５の発明は，上記方法を実施するための
記録媒体も提供している。すなわち，この記録媒体は，
２つの言語の複数の組合せについて設けられ，一の言語
を他の言語に翻訳して出力する複数の翻訳手段へのテキ
スト・データの入力を切り替えるためのプログラムを格
納した記録媒体であって，与えられるテキスト・データ
の言語を識別し，識別された言語に適した上記翻訳手段
に，与えられたテキスト・データを供給するようにコン
ピュータを制御するためのプログラムを格納したコンピ
ュータが読取り可能な記録媒体である。

【００３１】第５の発明によると，上記翻訳手段は，２
つの言語の複数の組合せについて設けられている。

【００３２】与えられるテキスト・データは，その言語
が識別される。識別された言語に応じてその言語に適し
た翻訳手段にテキスト・データが与えられる。

【００３３】入力するテキスト・データの言語が分から
なくても，所定の言語に翻訳することができる。

【００３４】翻訳された言語を音声に変換して出力する
こともできる。

【００３５】第６の発明によるマルチリンガル・ワード
・プロセッサは，複数の言語についてのテキスト・デー
タを記憶するテキスト・データ記憶手段，上記テキスト
・データ記憶手段に記憶されているテキスト・データお
よび入力されるテキスト・データの言語を識別する言語
識別手段，言語の種類ごとに設けられ，入力されたテキ
スト・データをそのテキスト・データによって表わされ
るテキストの言語体系に適した言語のテキスト・データ
に変換する言語入力手段，および上記言語識別手段にお
ける識別結果にもとづいて，入力されたテキスト・デー
タをそれに適した言語の上記言語入力手段に与えるよう
に制御する制御手段を備えていることを特徴とする。

【００３６】第６の発明は，上記装置に適した方法も提
供している。すなわち，この方法は，複数の言語につい
てのテキスト・データが記憶されており，入力するテキ
ストの言語ごとに，入力されたテキスト・データをその
テキスト・データによって表わされるテキストの言語体
系に適した言語に変換する言語入力手段が設けられ，記
憶されているテキスト・データおよび入力されるテキス
ト・データの言語を識別し，言語識別結果にもとづい
て，入力されたテキスト・データをそれに適した言語の
上記言語入力手段に与えるように制御する方法である。

【００３７】第６の発明は，上記方法を実施するための
記録媒体も提供している。すなわち，この記録媒体は，
複数の言語についてのテキスト・データが記録されてお
り，入力するテキストの言語ごとに，入力されたテキス
ト・データをそのテキスト・データによって表されるテ
キストの言語体系に適した言語に変換する言語入力手段
が設けられている場合に，入力されたテキスト・データ
をそれに適した上記言語入力手段に供給するためのプロ
グラムを格納した記録媒体であって，記憶されているテ
キスト・データおよび入力されるテキスト・データの言
語を識別し，上記識別結果にもとづいて，入力されたテ
キスト・データをそれに適した言語の上記言語入力手段
に与えるようにコンピュータを制御するためのプログラ
ムを格納したコンピュータが読取り可能な記録媒体であ
る。

【００３８】第６の発明によると，複数の言語について
のテキスト・データが記憶されている。記憶されている
テキスト・データおよび入力されるテキスト・データの
言語が識別され，この識別結果に応じて入力されたテキ
スト・データがそれに適した言語の上記言語入力手段に
与えられる。

【００３９】第７の発明によるマルチリンガル音声合成
システムは，与えられるテキスト・データの言語を識別
する言語識別手段，複数の言語について設けられ，入力
するテキスト・データによって表わされるテキストを音
声に変換して出力する複数の音声合成装置，および上記
言語識別手段によって識別された言語に適した上記音声
合成装置に，与えられたテキスト・データを供給する制
御手段を備えていることを特徴とする。

【００４０】第７の発明は，上記システムに適した方法
も提供している。すなわち，この方法は，入力するテキ
スト・データによって表わされるテキストを音声に変換
して出力する複数の音声合成装置が複数の言語について
設けられ，与えられたテキスト・データの言語を識別
し，識別された言語に適した上記音声合成装置に，与え
られたテキスト・データを供給する方法である。

【００４１】第７の発明は，上記方法を実施するための
記録媒体も提供している。すなわち，この記録媒体は，
複数の言語について設けられ，入力するテキスト・デー
タによって表わされるテキストを音声に変換して出力す
る複数の音声合成装置へのテキスト・データの入力を切
り替えるためのプログラムを格納した記録媒体であっ
て，与えられるテキスト・データがどのような言語に関
するものかを識別し，識別された言語に適した上記音声
合成装置に，与えられたテキスト・データを供給するよ
うにコンピュータを制御するためのプログラムを格納し
たコンピュータが読取り可能な記録媒体である。

【００４２】第７の発明によると，上記音声合成装置
は，複数の言語に対応して設けられている。

【００４３】与えられたテキスト・データは，そのテキ
スト・データがどのような言語のものかが識別される。
識別された言語に応じてその言語に適した音声合成装置
にテキスト・データが供給される。

【００４４】入力するテキスト・データがどのような言
語のものかがわからなくてもそのテキスト・データによ
って表わされるテキストが所定の言語での音声によって
出力される。

【００４５】第８の発明によるマルチリンガル処理シス
テムは，与えられるテキスト・データの言語を識別する
言語識別手段，複数の言語について設けられた複数の処
理手段，および上記言語識別手段によって識別された言
語に適した上記処理手段に，与えられた上記テキスト・
データを供給する制御手段を備えたことを特徴とする。

【００４６】第８の発明は，上記システムに適した方法
も提供している。すなわち，この方法は，複数の処理手
段を複数の言語について設けておき，与えられるテキス
ト・データの言語を識別し，識別された言語に適した上
記処理手段に，与えられた上記テキスト・データを供給
することを特徴とする。

【００４７】第８の発明は，上記方法を実施するための
プログラムを格納した記録媒体も提供している。すなわ
ち，この記録媒体は，複数の言語について設けられた複
数の処理手段へのテキスト・データの入力を切り替える
ためのプログラムを格納した記録媒体であって，与えら
れるテキスト・データの言語を識別し，識別された言語
に適した上記処理手段に，与えられた上記テキスト・デ
ータを供給するようにコンピュータを制御するためのプ
ログラムを格納したコンピュータが読取り可能な記録媒
体である。

【００４８】第８の発明によると，上記処理手段は複数
の言語に対応して設けられている。

【００４９】与えられるテキスト・データの言語が識別
される。識別された言語に応じてその言語に適した処理
手段にテキスト・データが供給される。

【００５０】入力するテキスト・データがどのような言
語に関するものかがわからなくても最適な処理が実施さ
れる。

【００５１】

【実施例の説明】

第１実施例この実施例は，文字コードまたは文字コード列の言語識
別装置に関するものである。

【００５２】図１は，文字コードの言語識別装置の外観
を，図２は，その電気的構成の概要をそれぞれ示してい
る。

【００５３】文字コードの言語識別装置は，コンピュー
タ１０を含む。コンピュータ１０にはＣＲＴ表示装置
（または液晶ディスプレイ・パネル）１１，プリンタ１
２および入力装置（キーボード１３Ａやマウス１３Ｂ）
が接続されている。コンピュータ１０の内部にはＦＤド
ライブ１４，ＣＤ−ＲＯＭドライブ１５およびＨＤユニ
ット１６が設けられている。ＦＤドライブ１４は，ＦＤ
（フロッピー・ディスク）１９へのデータの書込みおよ
びＦＤ１９からのデータの読出しを行なう。ＣＤ−ＲＯ
Ｍドライブ１５は，ＣＤ−ＲＯＭ（コンパクト・ディス
ク−リード・オンリ・メモリ）１８からのデータの読出
しを行なう。ＨＤユニット１６は，ＨＤ（ハードディス
ク）（図示略）へのデータの書込みおよびＨＤからのデ
ータの読出しを行なう。コンピュータ１０はさらに内部
メモリ（半導体メモリなど）１７を含む。

【００５４】ＣＤ−ＲＯＭ１８には文字コードの言語識
別のための言語識別プログラムおよびこの言語識別に用
いられる出現確率データが格納されている。その内容が
図３に示されている。出現確率データは，文字コード
（すなわち文字）が出現する確率を表わすものである。
文字ごとの出現確率は過去の様々な文書に現れている文
字を統計処理することにより予め求められる。代表的な
文字についてのみ出現確率データを求めておいてもよい
し，すべての文字について求めておいてもよい。出現確
率データは，言語と文字コード系（文字コードの種類ま
たはエンコーディング方法）との組合せごとにテーブル
の形態で格納されている。この実施例においては，中国
語用（大陸用および台湾用）テーブル（出現確率表），
日本語用テーブル（ＥＵＣ（Extended UNIX Code）コー
ドおよびShift-JIS （Japanese Industrial Standards
）コード），ならびに韓国語用テーブルがある。日本
語は一般的にＥＵＣコードまたはShift−JISコードによ
ってエンコードされる。このＥＵＣコードやShift−JIS
コードが文字コード系またはエンコーディング方法であ
る。したがって，言語の種類のみならず，文字コード系
の識別も行える。日本語以外の他の言語についても同様
である。もっとも，日本語Shift−JISコードは日本語Ｅ
ＵＣコードにコード変換が可能であるから，後述する言
語識別処理の例のように日本語についてはＥＵＣコード
・テーブルのみを設けておいてもよい。

【００５５】ＣＤ−ＲＯＭ１８に格納されているプログ
ラムおよびデータは，文字コードの言語識別装置の立ち
上げ時に，ＣＤ−ＲＯＭ１８から読み出され，ＨＤに格
納される。文字コードの言語識別処理においては，これ
らのプログラムおよびデータの一部は，必要に応じて，
内部メモリ１７に一時的に記憶され，または展開され
る。

【００５６】図４は，処理対象の入力データ，言語識別
プログラムおよび出現確率データの相互の関係を概念的
に示している。

【００５７】ブラウザ，通信ソフトウェアなどのテキス
ト入力処理ソフトウェアによって（またはキーボード１
３Ａを介して）入力されたテキスト・データは，言語識
別プログラムによって，一文字ごとに切出され，切出さ
れた各文字について言語（日本語，中国語，韓国語）と
文字コード系との組合せごとに出現確率データが求めら
れる。求められた出現確率が評価値用ワークエリア（内
部メモリ１７の一部）において統計処理（後述する掛算
処理）され，最終的に入力テキスト・データの言語の種
類と文字コード系との組合せが識別される。

【００５８】図５は，文字コード識別装置における文字
コード識別の処理手順を示すフローチャートである。こ
の処理においては「梅花に鶯」という句を表す文字コー
ド列（この文字コード列は，たとえば日本語ＥＵＣコー
ドでは０ｘＣ７ＤＦ，０ｘＢ２Ｄ６，０ｘＡ４ＣＢ，０
ｘＢ２Ａ９と表わされる，日本語Shift−JISコードでは
０ｘ９４７Ｅ，０ｘ８９Ｄ４，０ｘ８２Ｃ９，０ｘ８９
Ａ７と表される。ここで，０ｘは１６進数を示す。）が
キーボードから入力された場合にその文字コード列がど
の言語と文字コード系との組合せのものかを識別する例
について説明する。図６はこの句「梅花に鴬」を構成す
る文字コードの出現確率を言語と文字コード系との組合
せごとに示すものであり，各出現確率テーブルにおいて
最大の出現確率を 100％として正規化された値が示され
ている。

【００５９】入力されたテキスト・データから２バイト
分（一文字分）のデータが取り出される（ステップ２
１）。

【００６０】取り出された２バイト分のデータ（文字コ
ード）に対応する出現確率が言語と文字コード系との組
合せごとに出現確率テーブルから読み出される（ステッ
プ２３，２５，２９，３１）。取り出された２バイト分
のデータは，他方では，Shift-JIS コードからＥＵＣコ
ードに変換され（ステップ２２），変換後のＥＵＣコー
ドによる文字コードの出現確率が日本語用出現確率テー
ブル（ＥＵＣコード）から読み出される（ステップ２
７）。

【００６１】「梅花に鶯」の一文字目「梅」の文字コー
ドは，日本語のＥＵＣコード系では，0.0948％，日本語
のShift-JIS コード系では０％，中国語（大陸）のＥＵ
Ｃコード系では0.0129％，中国語（台湾）のＢｉｇ５コ
ード系では0.0022％，韓国語のＥＵＣコード系では10.9
41％の出現確率を持つ。

【００６２】読出された出現確率と既に算出されている
評価値との積が算出され，この積が新たな評価値とされ
る（評価値の更新）（ステップ２４，２６，２８，３
０，３２）。この算出も言語と文字コード系との組合せ
ごと（すなわち，出現確率テーブルごと）に行われる。
評価値の初期値として１が設定されており，一文字目の
文字コードの場合には，読出された出現確率と１とが乗
算される。

【００６３】このようにして更新された評価値の中の最
大値をもつ評価値を１００として他の評価値が正規化さ
れる（ステップ３３）。これは，後述するステップ３５
でしきい値との比較処理を行うためである。

【００６４】入力されたテキスト・データを構成するす
べての文字コードについて上記の処理が終了していなけ
れば（ステップ３４），最大値を持つ評価値を除く他の
すべての評価値の合計が算出される。この算出合計値が
所定のしきい値以下であれば（ステップ３５でＹＥ
Ｓ），入力したテキスト・データは最大値を持つ評価値
を与える言語と文字コード系との組合せであると判別さ
れる。この算出合計値が所定のしきい値を超えていれば
（ステップ３５でＮＯ），再びステップ２１からステッ
プ３４の処理が繰り返される。

【００６５】「梅花に鶯」の２文字目「花」の文字コー
ドに関して，日本語のＥＵＣコードにおける出現確率は
3.2740％，日本語のShift-JIS コードの出現確率は０
％，中国語（大陸）のＥＵＣコードにおける出現確率は
0.1118％，中国語（台湾）のＢｉｇ５コードにおける出
現確率は0.2874％，韓国語のＥＵＣコードにおける出現
確率は０％である。

【００６６】「梅花に鶯」の３文字目「に」の文字コー
ドの出現確率は，日本語のＥＵＣコードでは59.155％，
日本語のShift-JIS コードでは０％，中国語（大陸）の
ＥＵＣコードでは0.0001％，中国語（台湾）のＢｉｇ５
コードでは０％，韓国語のＥＵＣコードでは0.0001％で
ある。

【００６７】「梅花に鶯」の４文字目「鴬」の文字コー
ドの出現確率は，日本語のＥＵＣコードでは0.0001％，
日本語のShift-JIS コードでは０％，中国語（大陸）の
ＥＵＣコードでは0.3717％，中国語（台湾）のＢｉｇ５
コードでは0.0048％，韓国語のＥＵＣコードでは0.0299
％である。

【００６８】「梅花に鶯」を構成する４文字分の文字コ
ードの出現確率の積が最終的な評価値として得られる。
入力されたテキスト・データを構成するすべての文字コ
ードについて上記の処理が終了したことになる（ステッ
プ３４でＹＥＳ）。最終的な評価値は日本語のＥＵＣコ
ードでは0.000000001836％，日本語のShift-JIS コード
では０％，中国語（大陸）のＥＵＣコードでは0.000000
000005366 ％，中国（台湾）のＢｉｇ５コードでは０
％，韓国のＥＵＣコードでは０％となる。これらの値を
比べると日本語のＥＵＣコードにおける評価値が一番大
きいから「梅花に鶯」は日本語でしかもＥＵＣコードで
表現されたものであると判断される。このようにして文
字コードによって表わされる文字の言語およびその文字
コードの種類（文字コード系，またはエンコーディング
方法）が識別される。入力テキスト・データが多数の文
字コードを含む場合には，通常は，３〜４文字について
の処理が終了したときに，ステップ３５でＹＥＳとな
り，入力テキスト・データの言語と文字コード系の組合
せの判別が終えるであろう。

【００６９】第２実施例この実施例は，マルチリンガル形態素解析システムに関
するものである。

【００７０】図７はマルチリンガル形態素解析システム
の電気的構成の概要を示すブロック図，図８はその処理
手順の概要を示している。

【００７１】このマルチリンガル形態素解析システムは
複数種類の言語用の複数の形態素解析装置を含み，入力
するテキスト・データをそのテキスト・データによって
表わされるテキストの言語の種類に適した形態素解析装
置に与え，形態素解析を行わせるものである。

【００７２】図８に示す処理手順を実現するプログラム
はＣＤ−ＲＯＭ４３に格納されている。このＣＤ−ＲＯ
Ｍ４３が言語識別装置４６に装填されることにより，Ｃ
Ｄ−ＲＯＭ４３に格納されているプログラムおよびデー
タが読取られる。

【００７３】テキスト・データは，ＷＷＷサーバ４１か
らマルチリンガル形態素システム４２に入力する。テキ
スト・データは，言語識別装置４６および切替装置４７
に入力する。入力したテキスト・データによって表わさ
れるテキストの言語（必要ならば言語と文字コード系と
の組合せ；以下同じ）が言語識別装置４６において識別
される（ステップ５５）。この識別処理は上述した第１
実施例の方法により行ってもよいし，言語に特有な文字
が含まれているかどうかにより行うこともできるし，い
わゆる文字のＮ−ｇｒａｍによる方法または文字列に関
するルールにより行うこともできる。

【００７４】いずれにしても言語が識別されると，入力
したテキスト・データが，識別された言語に対応する形
態素解析装置（４８，４９および５０のいずれか）に入
力するように，切替装置４７が言語識別装置４６によっ
て切替制御される（ステップ５６）。これにより，入力
テキスト・データに適した形態素解析装置４８，４９ま
たは５０に，テキスト・データが与えられ，適切な形態
素解析が行われる。

【００７５】形態素解析の解析結果は，インデックス生
成装置５１に与えられ，入力テキスト・データについて
のインデックスが生成される。生成されたインデックス
は検索用インデックス・データ・ベース５４に記憶され
る。検索エンジン５３を用いて検索用インデックス・デ
ータ・ベース５４をアクセスすることにより，ユーザは
自分のコンピュータ５２を用いて所望の検索処理を行な
うことができる。

【００７６】上記において，日本語の形態素解析装置に
は，Inso CorporationのIntelliScope Search Enhance
r, 富士通株式会社のBreakfast , 言語工学研究所の俊
司，京都大学工学部電気系長尾研究室のＪＵＭＡＮ，奈
良先端科学技術大学院大学情報科学研究科自然言語処理
講座（松本研究室）の茶筌(ChaSen)があり，韓国語の形
態解析素装置には，奈良先端科学技術大学院大学情報科
学研究科自然言語処理講座（松本研究室）の茶筌(KoCh
a) があり，中国語（大陸）の形態素解析装置には，ニ
ューメキシコ大学ＣＲＬのChinese Segmenter , 北京大
学の現代漢語文本切分と品詞標記規範があり，英語の形
態素解析装置には，Inso CorporationのIntelliScope S
earch Enhancerがある。

【００７７】上記マルチリンガル形態素解析システムは
その機能の観点から言語識別装置４６，切替装置４７，
形態素解析装置４８，４９，５０およびインデックス生
成装置５１に分けて示されているが，これらの装置を１
台または複数台のコンピュータにより実現することがで
きる。このことは以下に示す他の実施例においてもあて
はまる。パーソナル・コンピュータ５２，検索エンジン
５３および検索用インデックス・データ・ベース５４を
マルチリンガル形態素解析システムに含ませてもよい。

【００７８】第３実施例この実施例は，マルチリンガル検索システムに関するも
のである。

【００７９】図９はマルチリンガル検索システムの電気
的構成の概要を示すブロック図，図１０はその処理手順
を示している。

【００８０】このマルチリンガル検索システムは複数の
異なる言語の検索装置を有しており，入力するテキスト
・データによって表わされるテキストの言語の種類に適
した検索装置にテキスト・データを与え，検索処理を行
なうものである。

【００８１】図１０に示す処理を実現するプログラム
は，ＣＤ−ＲＯＭ６２に格納されている。このＣＤ−Ｒ
ＯＭ６２は言語識別装置６５に装填されることにより，
ＣＤ−ＲＯＭ６２に格納されているプログラムおよびデ
ータが読取られる。

【００８２】テキスト・データは，入力装置６１を用い
て，例えば，オペレータが入力する。入力装置６１から
入力されたキーワードは，言語識別装置６５および切替
装置６６に入力する。言語識別装置６５において，入力
したキーワードの言語の種類が識別される（ステップ７
１）。

【００８３】キーワードの言語の種類が識別されると，
入力したキーワードが，識別された種類の言語用の検索
装置６７，６８または６９に入力するように言語識別装
置６５によって切替装置６６が切替制御される（ステッ
プ７２）。これにより，入力したキーワードの言語に適
した検索装置６７，６８または６９にキーワードが与え
られ，そのキーワードにもとづいた検索処理が行われ
る。検索結果は言語検索装置６７，６８または６９から
出力される。

【００８４】以上のようにしてキーワードの言語の種類
にかかわらず，かつその言語が事前に分からなくとも検
索処理が実行される。マルチリンガル検索システムもま
た１台または複数台のコンピュータにより実現できる。

【００８５】第４実施例この実施例は，マルチリンガル出力装置に関するもので
ある。

【００８６】図１１はマルチリンガル出力装置の電気的
構成の概要を示すブロック図，図１２はその処理手順の
概要を示している。

【００８７】このマルチリンガル出力装置は，入力する
テキスト・データによって表わされるテキストの言語の
種類に応じてテキストの出力形態を制御するものであ
る。

【００８８】図１２に示す処理手順を実現するプログラ
ムは，ＣＤ−ＲＯＭ８２に格納されている。このＣＤ−
ＲＯＭ８２は，言語識別装置８５に装填されることによ
り，ＣＤ−ＲＯＭ８２に格納されているプログラムおよ
びデータが読取られる。

【００８９】入力装置８１を用いてテキスト・データが
入力される。入力されたテキスト・データは，言語識別
装置８５，表示制御装置８６およびプリンタ制御装置８
８に与えられる。表示制御装置８６は，表示装置８７に
おけるテキストの表示を制御するものである。プリンタ
制御装置８８は，プリンタ８９におけるテキストの印刷
を制御するものである。

【００９０】言語識別装置８５において，入力したテキ
スト・データによって表わされるテキストの言語が識別
される（ステップ９１）。

【００９１】言語が識別されると，その入力したテキス
ト・データによって表わされるテキストの言語の種類に
応じた表示，印刷が行われるように言語識別装置８５に
よって表示制御装置８６およびプリンタ制御装置８８が
制御される（ステップ９２，９３）。例えば，識別され
た言語に応じて，表示または印刷されるフォントの種類
（言語が日本語であればＭＳＰゴシック，中国語（大
陸）であればＭＳSoug，中国語（台湾）であればMing L
iU，韓国語であればＭＳ Hei），横書きか縦書きか，左
から右にむかって書くか右から左にむかって書くか，文
字間隔，行間，などが制御される。

【００９２】このようにしてテキスト・データによって
表わされる言語の種類に応じて表示装置８７における表
示およびプリンタ８９における印刷の形態が制御され
る。

【００９３】第５実施例この実施例は，マルチリンガル翻訳システムに関するも
のである。

【００９４】図１３はマルチリンガル翻訳システムの電
気的構成の概要を示すブロック図，図１４はその処理手
順の概要を示している。

【００９５】このマルチリンガル翻訳システムは，中国
語，日本語および韓国語から英語にそれぞれ翻訳する複
数の翻訳エンジンを有しており，入力するテキスト・デ
ータによって表わされる言語の種類に応じた翻訳エンジ
ンに入力テキスト・データを与え，翻訳処理を行なうも
のである。

【００９６】図１４に示す処理手順を実現するプログラ
ムは，ＣＤ−ＲＯＭ１０２に格納されている。このＣＤ
−ＲＯＭ１０２は，言語識別装置１０５に装填されるこ
とにより，ＣＤ−ＲＯＭ１０２に格納されているプログ
ラムおよびデータが読取られる。

【００９７】入力装置１０１から翻訳すべきテキストを
表わすテキスト・データが与えられ，言語識別装置１０
５および切替装置１０６に入力する。言語識別装置１０
５において，入力するテキスト・データによって表わさ
れるテキストの言語が識別される（ステップ１１１）。

【００９８】言語が識別されると，入力したテキスト・
データが，そのテキスト・データによって表わされる言
語に適した翻訳エンジン，すなわち中国語から英語への
翻訳を行なう翻訳エンジン１０７，日本語から英語への
翻訳を行なう翻訳エンジン１０８または韓国語から英語
への翻訳を行なう翻訳エンジン１０９のいずれかに入力
するように，言語識別装置１０５によって切替装置１０
６の切替が制御される（ステップ１１２）。

【００９９】これにより，入力したテキスト・データに
よって表わされるテキストの言語の種類が日本語，中国
語，韓国語のいずれであっても英語に翻訳されて出力さ
れる。言語識別装置１０５，切替装置１０６および翻訳
エンジン１０７，１０８，１０９は１台または複数台の
コンピュータにより実現できる。

【０１００】第６実施例この実施例は，マルチリンガル・ワード・プロセッサに
関するものである。

【０１０１】図１５はマルチリンガル・ワード・プロセ
ッサの電気的構成の概要を示すブロック図，図１６はそ
の処理手順の概要を（複数の処理形態をまとめて）示し
ている。

【０１０２】図１６に示す処理手順を実現するプログラ
ムは，ＣＤ−ＲＯＭ１３４に格納されている。このＣＤ
−ＲＯＭ１３４は，言語識別装置１２７に装填されるこ
とにより，ＣＤ−ＲＯＭ１３４に格納されているプログ
ラムおよびデータが読取られる。

【０１０３】マルチリンガル・ワード・プロセッサに
は，日本語用の言語入力装置１２２，中国語用の言語入
力装置１２３，韓国語用の言語入力装置１２４および英
語用の言語入力装置１２５が含まれている。日本語用の
言語入力装置１２２は，ローマ字またはかな入力された
テキスト・データをかな漢字混じり文のテキスト・デー
タに変換するものである。中国語用の言語入力装置１２
３は，アルファベット入力されたテキスト・データを中
国語のテキスト・データに変換するものである。韓国語
用の言語入力装置１２４は，ハングル文字を構成する字
母（アルファベット入力であってもよい）を入力した場
合にハングル文字を構成するテキスト・データに変換す
るものである。英語用の言語入力装置１２５は，アルフ
ァベット入力されたテキスト・データよって表わされる
テキストのスペルチェックを行なうものである。

【０１０４】日本語のテキスト・データを入力する場
合，中国語のテキスト・データを入力する場合，韓国語
のテキスト・データを入力する場合および英語のテキス
ト・データを入力する場合のいずれであっても共通のキ
ーボード１２１が用いられる（もちろん，言語に応じて
異なるキーボードを用いてもよい）。

【０１０５】テキスト・データ・メモリ１２８には種々
の言語のテキスト・データ（ファイル）が，一般的には
混在して，格納されている。図１５に示す例では，中国
語のテキスト・データを記憶しているメモリ領域１２
９，日本語のテキスト・データを記憶しているメモリ領
域１３０，および韓国語のテキスト・データを記憶して
いるメモリ領域１３１が図示されている。ユーザが所望
のテキスト・ファイルを指定すると，そのファイルが読
み出され，言語識別装置１２７に与えられる。言語識別
装置１２７は読み出されたファイルのテキスト・データ
の言語（日本語，中国語，韓国語または英語）を識別し
（ステップ１４１），識別結果に応じて表示のためのフ
ォントを選択する。これにより，テキスト・データによ
って表される言語の文字が表示される（ステップ１４
２）。

【０１０６】ユーザが特定の言語でテキスト・データを
入力したときには，キーボード１２１から入力されたテ
キスト・データは言語識別装置１２７に与えられ，入力
されたテキスト・データが日本語，中国語，韓国語およ
び英語のいずれの言語のものかが識別される（ステップ
１４１）。言語が識別されると，キーボード１２１から
入力されたテキスト・データが対応する入力装置１２
２，１２３，１２４または１２５に入力するように，言
語識別装置１２７によって切替装置１３３が切替えられ
る（ステップ１４２）。入力装置（１２２，１２３，１
２４，１２５のいずれか）から得られるテキスト・デー
タは，最終的には，その言語に応じた該当するファイル
（メモリ領域）に格納されるように切替装置１２６の切
替制御が行われる（ステップ１４２）。該当するファイ
ルがない場合，該当する言語のメモリ領域がない場合に
は，新たなファイルまたはメモリ領域が形成される。

【０１０７】第７実施例この実施例は，マルチリンガル音声合成システムに関す
るものである。

【０１０８】図１７はマルチリンガル音声合成システム
の電気的構成を示すブロック図，図１８はその処理手順
の概要を示している。

【０１０９】このマルチリンガル音声合成システムは，
入力するテキスト・データによって表わされるテキスト
をそのテキストの言語の音声で出力するものである。

【０１１０】図１８に示す処理手順を実現するプログラ
ムは，ＣＤ−ＲＯＭ１５２に格納されている。このＣＤ
−ＲＯＭ１５２は，言語識別装置１５５に装着されるこ
とにより，ＣＤ−ＲＯＭ１５２に格納されているプログ
ラム，データが読取られる。

【０１１１】マルチリンガル音声合成システムには，中
国語（大陸）のテキスト・データを，中国大陸で一般的
に用いられている中国語（大陸）音声に変換して出力す
る音声合成装置１５７，日本語のテキスト・データを，
日本語の音声で出力する音声合成装置１５８，入力する
テキスト・データが韓国語の場合に，韓国語の音声で出
力する音声合成装置１５９，および中国語（大陸）のテ
キスト・データを台湾で一般的に用いられている中国語
の音声で出力する音声合成装置１６０を有している。

【０１１２】入力装置１５１から入力されるテキスト・
データは，言語識別装置１５５および切替装置１５６に
与えられる。言語識別装置１５５において，入力したテ
キスト・データによって表わされるテキストの言語が識
別される（ステップ１６１）。

【０１１３】言語が識別されると，入力したテキスト・
データが，そのテキスト・データによって表わされるテ
キストの言語の適した音声合成装置１５７，１５８，１
５９または１６０に入力するように切替装置１５６が制
御される（ステップ１６２）。これにより，入力したテ
キスト・データによって表わされるテキストの言語に適
した音声合成装置１５７，１５８，１５９または１６０
にテキスト・データが入力するようになる。それぞれの
言語での音声出力が得られる。言語識別装置１５５，切
替装置１５６および音声合成装置１５７〜１６０は１台
または複数台のコンピュータにより実現可能である。

【０１１４】応用例この応用例もマルチリンガル音声合成システムに関する
ものである。

【０１１５】このマルチリンガル音声合成システムは，
入力するテキスト・データによって表わされるテキスト
の言語が日本語以外の言語であっても日本語の音声で出
力するものである。

【０１１６】図１９は，マルチリンガル音声合成システ
ムの電気的構成の概要を示すブロック図である。

【０１１７】このマルチリンガル音声合成システムに
は，中国語を日本語に翻訳して出力する翻訳エンジン１
７７および韓国語を日本語に翻訳して出力する翻訳エン
ジン１７８が含まれている。

【０１１８】ＣＤ−ＲＯＭ１７２には言語識別装置１７
５における言語識別処理およびその識別結果による切替
装置１７６の切替処理のプログラムが格納されている。

【０１１９】ＣＤ−ＲＯＭ１７２が言語識別装置１７５
に装着されると，ＣＤ−ＲＯＭ１７２に格納されている
プログラムが読み取られる。以下の動作はこのプログラ
ムにしたがって実行される。

【０１２０】入力装置１７１からテキスト・データが入
力される。入力されたテキスト・データは，言語識別装
置１７５および切替装置１７６に与えられる。言語識別
装置１７５において，入力したテキスト・データによっ
て表わされる言語の種類が識別される。

【０１２１】言語が識別されると，識別された言語に応
じて言語識別装置１７５によって切替装置１７６の切替
が制御される。これにより入力したテキスト・データが
中国語のテキストを表わすものであれば，中国語日本語
翻訳エンジン１７７に与えられ，入力したテキスト・デ
ータが韓国語のテキストを表わすものであれば，韓国語
日本語翻訳エンジン１７８に与えられる。翻訳エンジン
１７７または１７８において翻訳された日本語のテキス
ト・データは日本語音声合成装置１７９に与えられ，日
本語の音声出力が得られる。マルチリンガル音声合成シ
ステムに入力したテキスト・データが日本語のものであ
れば，切替装置１７６から出力したテキスト・データ
は，直接日本語音声合成装置１７９に与えられ日本語で
出力されるのはいうまでもない。

【図面の簡単な説明】

【図１】文字コードの言語識別システムの外観を表して
いる。

【図２】文字コードの言語識別システムの電気的構成の
概要を示している。

【図３】文字コードの言語識別システムに用いられる記
録媒体のデータ構造を示している。

【図４】処理対象の入力データ，言語識別プログラムお
よび出現確率データの相互の関係を示している。

【図５】文字コードの言語識別システムの処理手順を示
している。

【図６】所定の句を表す文字コードの出現確率を言語お
よび文字コードに対応して示す。

【図７】マルチリンガル形態素解析システムの電気的構
成の概要を示すブロック図である。

【図８】マルチリンガル形態素解析システムにおける処
理手順の概要を示している。

【図９】マルチリンガル検索システムの電気的構成の概
要を示すブロック図である。

【図１０】マルチリンガル検索システムにおける処理手
順の概要を示している。

【図１１】マルチリンガル出力システムの電気的構成の
概要を示すブロック図である。

【図１２】マルチリンガル出力システムにおける処理手
順の概要を示している。

【図１３】マルチリンガル翻訳システムの電気的構成の
概要を示すブロック図である。

【図１４】マルチリンガル翻訳システムにおける処理手
順の概要を示している。

【図１５】マルチリンガル・ワード・プロセッサの電気
的構成の概要を示すブロック図である。

【図１６】マルチリンガル・ワード・プロセッサにおけ
る処理手順の概要を示している。

【図１７】マルチリンガル音声合成システムの電気的構
成の概要を示すブロック図である。

【図１８】マルチリンガル音声合成システムにおける処
理手順の概要を示している。

【図１９】マルチリンガル音声合成システムの電気的構
成の概要を示している。

【符号の説明】

１０コンピュータ１３Ａキーボード１５ＣＤ−ＲＯＭドライブ１８，４３，６２，８２，１０２，１５２，１７２Ｃ
Ｄ−ＲＯＭ４２マルチリンガル形態素解析システム４８，４９，５０形態素解析装置６１，８１，１０１，１５１入力装置６５，８５，１０５，１２７，１５５，１７５言語識
別装置６７，６８，６９検索装置８６表示制御装置８８プリンタ制御装置１０７，１０８，１０９，１７７，１７８翻訳エンジ
ン１５７，１５８，１５９，１７９音声合成装置

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平７−262188（ＪＰ，Ａ) 特開平８−305704（ＪＰ，Ａ) 特開平７−160715（ＪＰ，Ａ) 菊井玄一郎、鷲崎誠司、林良彦、砂場倫太郎「インターネット情報ナビゲーションにおける多言語機能」、情報処理学会自然言語処理の応用に関するシンポジウム論文集、Ｖｏｌ．95，Ｎｏ．６, Ｐ．97−ｐ．105（1995) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G06F 17/20 - 17/30 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】エンコードされたテキスト・データの言
語と文字コード系との組合せを識別する装置であって，言語と文字コード系との組合せごとに，その組合せにお
いて文字コードが出現する確率をそれぞれ記述した複数
の出現確率テーブルを格納した記憶手段，与えられたテキスト・データに含まれる１または複数の
文字コードについて上記複数の出現確率テーブルからそ
れぞれ出現確率を読み出し，言語と文字コード系との組
合せごとに，評価データを得る手段，および得られた評
価データにもとづいて，与えられたテキスト・データの
言語と文字コード系との組合せを判別する手段，を備えた言語識別装置。
【請求項２】上記の評価データを得る手段が，出現確
率テーブルから読み出された出現確率の積を算出するも
のである，請求項１に記載の言語識別装置。
【請求項３】エンコードされたテキスト・データの言
語と文字コード系との組合せを識別する方法であって，言語と文字コード系との組合せごとに，その組合せにお
いて文字コードが出現する確率をそれぞれ記述した出現
確率テーブルをあらかじめ作成しておき，与えられたテキスト・データに含まれる１または複数の
文字コードについて上記複数の出現確率テーブルからそ
れぞれ出現確率を読み出し，言語と文字コード系との組
合せごとに，評価データを得，得られた評価データにもとづいて，与えられたテキスト
・データの言語と文字コード系との組合せを判別する，言語識別方法。
【請求項４】出現確率テーブルから読み出された出現
確率の積を算出することにより上記評価データを得るも
のである，請求項３に記載の言語識別方法。
【請求項５】言語と文字コード系との組合せごとに，
その組合せにおいて文字コードが出現する確率を記述し
た出現確率テーブルを用いて，エンコードされたテキス
ト・データの言語と文字コード系との組合せを識別する
ためのプログラムであって，与えられたテキスト・データに含まれる１または複数の
文字コードについて上記複数の出現確率テーブルからそ
れぞれ出現確率を読み出し，言語と文字コード系との組
合せごとに，評価データを得，得られた評価データに基づいて，与えられたテキスト・
データの言語と文字コード系との組合せを判別するよう
にコンピュータを制御する言語識別プログラムを格納し
た記録媒体。
【請求項６】上記出現確率テーブルをさらに格納した
請求項５に記載の記録媒体。
【請求項７】上記プログラムが出現確率テーブルから
読み出された出現確率の積を言語と文字コード系との組
合せごとに算出し，得られた積に基づいて与えられたテ
キスト・コードの言語と文字コード系の組合せを判別す
るものである，請求項５に記載の記録媒体。
【請求項８】複数の言語についてそれぞれ設けられた
複数の形態素解析手段へのテキスト・データの供給を制
御するためのプログラムであって，請求項５に記載の言語識別プログラムを含み，この言語
識別プログラムにより，与えられたテキスト・データの
言語を識別し，さらに，識別された言語に適した上記形態素解析手段
に，与えられた上記テキスト・データを供給するように
コンピュータを制御するためのプログラムを格納したコ
ンピュータが読取り可能な記録媒体。
【請求項９】複数の言語についてそれぞれ設けられ，
入力するキーワードにもとづいてそのキーワードに関連
する情報を出力する複数の検索手段へのキーワードの供
給を制御するためのプログラムであって，請求項５に記載の言語識別プログラムを含み，この言語
識別プログラムにより，与えられるキーワードの言語を
識別し，さらに，識別された言語に適した上記検索手段に，与え
られたキーワードを供給するようにコンピュータを制御
するためのプログラムを格納したコンピュータが読取り
可能な記録媒体。
【請求項１０】請求項５に記載の言語識別プログラム
を含み，この言語識別プログラムにより，与えられるテ
キスト・データの言語を識別し，識別された言語にもとづいて，上記テキスト・データに
よって表わされるテキストを出力する出力装置における
上記テキストの出力形態を制御するようにコンピュータ
を制御するためのプログラムを格納したコンピュータが
読取り可能な記録媒体。
【請求項１１】上記出力装置が上記テキストを印刷す
るプリンタであり，上記プリンタにおける印刷形態を制御するものである請
求項１０に記載の記録媒体。
【請求項１２】上記出力装置が上記テキストを表示す
る表示装置であり，上記表示装置における表示形態を制御するものである請
求項１０に記載の記録媒体。
【請求項１３】２つの言語の複数の組合せについてそ
れぞれ設けられ，一の言語を他の言語に翻訳して出力す
る複数の翻訳手段へのテキスト・データの入力を切り替
えるためのプログラムであって，請求項５に記載の言語識別プログラムを含み，この言語
識別プログラムにより，与えられるテキスト・データの
言語を識別し，さらに，識別された言語に適した上記翻訳手段に，与え
られたテキスト・データを供給するようにコンピュータ
を制御するためのプログラムを格納したコンピュータが
読取り可能な記録媒体。
【請求項１４】翻訳により得られた上記他の言語を音
声に変換して出力するプログラムをさらに備えた請求項
１３に記載の記録媒体。
【請求項１５】複数の言語についてのテキスト・デー
タが記憶されており，入力するテキストの言語ごとに，
入力されたテキスト・データをそのテキスト・データに
よって表されるテキストの言語体系に適した言語に変換
する言語入力手段が設けられている場合に，入力された
テキスト・データをそれに適した上記言語入力手段に供
給するためのプログラムであって，請求項５に記載の言語識別プログラムを含み，この言語
識別プログラムにより，記憶されているテキスト・デー
タおよび入力されるテキスト・データの言語を識別し，さらに，上記識別結果にもとづいて，記憶されているテ
キスト・データについてはその出力を制御し，入力され
たテキスト・データについてはそれに適した言語の上記
言語入力手段に与えるようにコンピュータを制御するた
めのプログラムを格納したコンピュータが読取り可能な
記録媒体。
【請求項１６】複数の言語についてそれぞれ設けら
れ，入力するテキスト・データによって表わされるテキ
ストを音声に変換して出力する複数の音声合成装置への
テキスト・データの入力を切り替えるためのプログラム
であって，請求項５に記載の言語識別プログラムを含み，この言語
識別プログラムにより，与えられるテキスト・データの
言語を識別し，さらに，識別された言語に適した上記音声合成装置に，
与えられたテキスト・データを供給するようにコンピュ
ータを制御するためのプログラムを格納したコンピュー
タが読取り可能な記録媒体。
【請求項１７】複数の言語についてそれぞれ設けられ
た複数の処理手段へのテキスト・データの入力を切り替
えるためのプログラムであって，請求項５に記載の言語識別プログラムを含み，この言語
識別プログラムにより，与えられるテキスト・データの
言語を識別し，さらに，識別された言語に適した上記処理手段に，与え
られた上記テキスト・データを供給するようにコンピュ
ータを制御するためのプログラムを格納したコンピュー
タが読取り可能な記録媒体。
【請求項１８】得られた評価データに基づいて，与え
られたテキスト・データの言語と文字コード系との組合
せを判別する手段を欠いている請求項１に記載の言語識
別装置。