JPH10320399A - 言語識別装置,言語識別方法および言語識別のプログラムを記録した記録媒体 - Google Patents

言語識別装置,言語識別方法および言語識別のプログラムを記録した記録媒体

Info

Publication number
JPH10320399A
JPH10320399A JP10076479A JP7647998A JPH10320399A JP H10320399 A JPH10320399 A JP H10320399A JP 10076479 A JP10076479 A JP 10076479A JP 7647998 A JP7647998 A JP 7647998A JP H10320399 A JPH10320399 A JP H10320399A
Authority
JP
Japan
Prior art keywords
language
text data
input
given
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10076479A
Other languages
English (en)
Other versions
JP2943791B2 (ja
Inventor
Toshihiro Fujinami
稔弘 藤並
Hidenobu Kaneoka
秀信 金岡
Tomoyuki Tada
多田  智之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Omron Tateisi Electronics Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp, Omron Tateisi Electronics Co filed Critical Omron Corp
Priority to JP10076479A priority Critical patent/JP2943791B2/ja
Publication of JPH10320399A publication Critical patent/JPH10320399A/ja
Application granted granted Critical
Publication of JP2943791B2 publication Critical patent/JP2943791B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 文字コードの言語およびその文字コード系を
識別する。 【構成】 文字コードの出現確率を一文字ごとに記述し
た出現確率テーブルを言語と文字コード系との組合せご
とに用意しておく。入力する文字コード列を一文字ごと
に分け(ステップ21),出現確率テーブルを参照して
その文字コードの出現確率を得る(ステップ23,2
5,27,29,31)。出現確率の積を言語と文字コ
ード系の組合せごとに算出し(ステップ24,26,2
8,30,32),得られた積に基づいて,入力文字コ
ード列についての言語と文字コード系の組合せを判断す
る。

Description

【発明の詳細な説明】
【0001】
【技術分野】この発明は,文字コード列によって表わさ
れる文字列の言語およびその文字コードの種類(文字コ
ード系)を判別する言語識別装置および方法,与えられ
たテキスト・データまたはキーワード(いずれもエンコ
ードされている)によって表わされるテキスト(文章)
または単語の言語を識別して種々の処理を切り替える各
種装置,ならびに上記装置を制御する,または上記方法
を実現するコンピュータ・プログラムを記憶した記録媒
体に関する。
【0002】
【発明の背景】現在,日本,中国(中華人民共和国),
韓国および台湾(中華民国)で使われている漢字(また
はハングル)用文字コードは,2バイトで1文字を表現
している。これらの文字コード(系)は,言語(日本
語,中国語,韓国語など)ごとに独立して定義されてい
る。エンコード方法(文字コード系,コードの種類また
はエンコードのルール)が異なれば同じ言語の文字でも
異なる文字コードで表される。言語を表わす情報は通常
文字コード・データに付加されていない。このため,一
連の文字コードが与えられたときに,その文字コードが
どのような言語をエンコードして得られたものかは簡単
には分からない。
【0003】データベースの検索システム,翻訳システ
ム,音声合成システムなどのような言語情報処理システ
ムは,特定の言語および文字コード系を前提としてつく
られている。複数種類の言語で利用可能な言語情報処理
システムを考えた場合にも,言語の種類ごとに言語情報
処理が異なるから,与えられるキーワードおよびテキス
ト・データの言語が分かっていることが必要である。与
えられるキーワード,テキスト・データの言語および文
字コード系が不明であると適切な処理は期待できない。
【0004】
【発明の開示】この発明は,与えられる文字コード列の
言語およびその文字コード系を識別できるようにするこ
とを目的とする。
【0005】また,この発明は,入力されるキーワード
またはテキスト・データの言語および文字コード系が分
からない場合であっても,それぞれの言語に適した各種
言語情報処理が可能になるようにすることを目的とす
る。
【0006】第1の発明による文字コードの判別装置
は,エンコードされたテキスト・データの言語と文字コ
ード系との組合せを識別する装置であって,言語と文字
コード系との組合せごとに,その組合せにおいて文字コ
ードが出現する確率をそれぞれ記述した複数の出現確率
テーブルを格納した記憶手段,与えられたテキスト・デ
ータに含まれる1または複数の文字コードについて上記
複数の出現確率テーブルからそれぞれ出現確率を読み出
し,言語と文字コード系との組合せごとに,評価データ
を得る手段,および得られた評価データにもとづいて,
与えられたテキスト・データの言語と文字コード系との
組合せを判別する手段を備えていることを特徴とする。
【0007】第1の発明は,上記装置に適した方法も提
供している。すなわち,この方法はエンコードされたテ
キスト・データの言語と文字コード系との組合せを識別
する方法であって,言語と文字コード系との組合せごと
に,その組合せにおいて文字コードが出現する確率をそ
れぞれ記述した出現確率テーブルをあらかじめ作成して
おき,与えられたテキスト・データに含まれる1または
複数の文字コードについて上記複数の出現確率テーブル
からそれぞれ出現確率を読み出し,言語と文字コード系
との組合せごとに,評価データを得,得られた評価デー
タにもとづいて,与えられたテキスト・データの言語と
文字コード系との組合せを判別することを特徴とする。
【0008】さらに,上記方法を実施するためのプログ
ラムを格納した記録媒体も提供している。すなわち,こ
の記録媒体は言語と文字コード系との組合せごとに,そ
の組合せにおいて文字コードが出現する確率を記述した
出現確率テーブルを用いて,エンコードされたテキスト
・データの言語と文字コード系の組合せを識別するため
のプログラムを格納した記録媒体であって,与えられた
テキスト・データに含まれる1または複数の文字コード
について上記複数の出現確率テーブルからそれぞれ出現
確率を読み出し,言語と文字コード系との組合せごと
に,評価データを得,得られた評価データに基づいて,
与えられたテキスト・データの言語と文字コード系との
組合せを判別するようにコンピュータを制御するプログ
ラムを格納した記録媒体である。記録媒体とは磁気ディ
スク記憶装置,光磁気ディスク記憶装置,光ディスク記
憶装置,磁気テープ,半導体メモリ等をいう。
【0009】文字コードの出現確率は,その文字コード
によって表わされる文字の言語と文字コード系との組合
せに依存する。同一の文字コードであっても,その文字
コードの出現確率は,言語ごとに異なる。また,同じ言
語でも文字コード系が異なれば同一文字コードの出現確
率が異なる。第1の発明は,言語と文字コード系との組
合せに特有な文字コードの出現確率に着目して文字コー
ドによって表わされる言語およびその文字コード系の種
類を判別するものである。
【0010】第1の発明によると,入力された文字コー
ド列の一文字コードごとに上記出現確率テーブルから上
記出現確率が読出され,評価データが言語と文字コード
系との組合せごとに作成される。出現確率に関係する評
価データが低ければ入力された文字コード列はその言語
と文字コード系との組合せに関するものではない可能性
が高いと判断され,評価データが高ければ入力された文
字コード列はその言語と文字コード系との組合せに関す
るものである可能性が高いと考えられる。このようにし
て評価データにもとづいて,与えられたテキスト・デー
タ(文字コード列)の言語と文字コード系との組合せが
判別される。
【0011】出現確率テーブルから読み出された出現確
率の積を算出し,算出された値にもとづいてテキスト・
データの言語およびエンコーディング方法を判別するこ
とが精度の観点から好ましい。いずれか一つの文字コー
ドの出現確率が0または0に非常に近い数値であれば,
積も非常に小さい値となり,そのような言語と文字コー
ド系との組合せが明確に除外される。
【0012】第2の発明によるマルチリンガル形態素解
析システムは,与えられるテキスト・データの言語を識
別する言語識別手段,複数の言語について設けられた複
数の形態素解析手段,および上記言語識別手段によって
識別された言語に適した上記形態素解析手段に,与えら
れた上記テキスト・データを供給する制御手段を備えた
ことを特徴とする。
【0013】第2の発明は,上記装置に適した方法も提
供している。すなわち,この方法は複数の言語について
複数の形態素解析手段を設けておき,与えられたテキス
ト・データの言語を識別し,識別された言語に適した上
記形態素解析手段に,与えられた上記テキスト・データ
を供給することを特徴とする。
【0014】第2の発明は,上記方法を実施するための
プログラムを格納した記録媒体も提供している。すなわ
ちこの記録媒体は,複数の言語について設けられた複数
の形態素解析手段へのテキスト・データの供給を切り替
えるためのプログラムを格納した記録媒体であって,与
えられたテキスト・データの言語を識別し,識別された
言語に適した上記形態素解析手段に,与えられた上記テ
キスト・データを供給するようにコンピュータを制御す
るためのプログラムを格納したコンピュータが読取り可
能な記録媒体である。
【0015】第2の発明によると,上記形態素解析手段
は複数の言語に対応して設けられている。与えられるテ
キスト・データの言語が識別される。識別された言語に
応じてその言語に適した形態素解析手段にテキスト・デ
ータが供給される。入力するテキスト・データがどのよ
うな言語に関するものかがわからなくても最適な形態素
解析が実施される。
【0016】第3の発明によるマルチリンガル検索シス
テムは,与えられるキーワードの言語を識別する言語識
別手段,複数の言語について設けられ,入力するキーワ
ードにもとづいてそのキーワードに関連する情報を出力
する複数の検索手段,および上記言語識別手段によって
識別された言語に適した上記検索手段に,与えられたキ
ーワードを供給する制御手段を備えたことを特徴とす
る。
【0017】第3の発明は,上記システムに適した方法
も提供している。すなわち,この方法は,入力するキー
ワードにもとづいてそのキーワードに関連する情報を出
力する複数の検索手段を複数の言語について設けてお
き,与えられたキーワードの言語を識別し,識別された
言語に適した上記検索手段に,与えられたキーワードを
供給することを特徴とする。
【0018】さらに第3の発明は,上記方法を実施する
ためのプログラムを格納した記録媒体も提供している。
すなわち,この記録媒体は,複数の言語について設けら
れ,入力するキーワードにもとづいてそのキーワードに
関連する情報を出力する複数の検索手段へのキーワード
の供給を切り替えるためのプログラムを格納した記録媒
体であって,与えられるキーワードの言語を識別し,識
別された言語に適した上記検索手段に,与えられたキー
ワードを供給するようにコンピュータを制御するための
プログラムを格納したコンピュータが読取り可能な記録
媒体である。
【0019】第3の発明によると,上記検索手段は,複
数の言語に対応して設けられている。
【0020】与えられるキーワードは,その言語が識別
される。識別された言語に応じて,その言語に適した検
索手段にキーワードが供給される。
【0021】入力するキーワードがどのような言語に関
するものかがわからなくても最適な検索処理を実現でき
る。
【0022】第4の発明によるマルチリンガル出力装置
は,与えられるテキスト・データの言語を識別する言語
識別手段,上記テキスト・データによって表わされるテ
キストを出力する出力装置,および上記言語識別手段に
よって識別された言語にもとづいて,上記出力装置にお
ける上記テキストの出力形態を制御する出力形態制御手
段を備えていることを特徴とする。
【0023】第4の発明は,上記装置に適した方法も提
供している。すなわち,この方法は,与えられるテキス
ト・データの言語を識別し,識別された言語にもとづい
て,上記テキスト・データによって表わされるテキスト
を出力する出力装置における上記テキストの出力形態を
制御することを特徴とする。
【0024】第4の発明は,上記方法を実現するための
記録媒体も提供している。すなわち,この記録媒体は,
与えられるテキスト・データの言語を識別し,識別され
た言語にもとづいて,上記テキスト・データによって表
わされるテキストを出力する出力装置における上記テキ
ストの出力形態を制御するようにコンピュータを制御す
るためのプログラムを格納したコンピュータが読取り可
能な記録媒体である。
【0025】第4の発明によると,与えられるテキスト
・データの言語が識別される。識別された言語にもとづ
いて上記テキストの出力形態(例えば,フォントの種類
の選択,縦書きか横書きか,左から右に向かって読むよ
うに出力するか右から左に向かって読むような出力する
かなど)が制御される。言語に応じた最適な出力が可能
となる。
【0026】上記出力装置は,例えばプリンタであり,
その場合には,プリンタにおけるテキストの印刷形態を
制御する。
【0027】また,上記出力装置が表示装置である場合
には,表示装置における表示形態を制御する。
【0028】第5の発明によるマルチリンガル翻訳シス
テムは,与えられるテキスト・データの言語を識別する
言語識別手段,2つの言語の複数の組合せについて設け
られ,一の言語を他の言語に翻訳して出力する複数の翻
訳手段,および上記言語識別手段によって識別された言
語に適した上記翻訳手段に,与えられたテキスト・デー
タを供給する制御手段を備えることを特徴とする。
【0029】第5の発明は,上記システムに適した方法
も提供している。すなわち,この方法は,一の言語を他
の言語に翻訳して出力する複数の翻訳手段が2つの言語
の複数の組合せについて設けられ,与えられたテキスト
・データの言語を識別し,識別された言語に適した上記
翻訳手段に,与えられたテキスト・データを供給するこ
とを特徴とする。
【0030】第5の発明は,上記方法を実施するための
記録媒体も提供している。すなわち,この記録媒体は,
2つの言語の複数の組合せについて設けられ,一の言語
を他の言語に翻訳して出力する複数の翻訳手段へのテキ
スト・データの入力を切り替えるためのプログラムを格
納した記録媒体であって,与えられるテキスト・データ
の言語を識別し,識別された言語に適した上記翻訳手段
に,与えられたテキスト・データを供給するようにコン
ピュータを制御するためのプログラムを格納したコンピ
ュータが読取り可能な記録媒体である。
【0031】第5の発明によると,上記翻訳手段は,2
つの言語の複数の組合せについて設けられている。
【0032】与えられるテキスト・データは,その言語
が識別される。識別された言語に応じてその言語に適し
た翻訳手段にテキスト・データが与えられる。
【0033】入力するテキスト・データの言語が分から
なくても,所定の言語に翻訳することができる。
【0034】翻訳された言語を音声に変換して出力する
こともできる。
【0035】第6の発明によるマルチリンガル・ワード
・プロセッサは,複数の言語についてのテキスト・デー
タを記憶するテキスト・データ記憶手段,上記テキスト
・データ記憶手段に記憶されているテキスト・データお
よび入力されるテキスト・データの言語を識別する言語
識別手段,言語の種類ごとに設けられ,入力されたテキ
スト・データをそのテキスト・データによって表わされ
るテキストの言語体系に適した言語のテキスト・データ
に変換する言語入力手段,および上記言語識別手段にお
ける識別結果にもとづいて,入力されたテキスト・デー
タをそれに適した言語の上記言語入力手段に与えるよう
に制御する制御手段を備えていることを特徴とする。
【0036】第6の発明は,上記装置に適した方法も提
供している。すなわち,この方法は,複数の言語につい
てのテキスト・データが記憶されており,入力するテキ
ストの言語ごとに,入力されたテキスト・データをその
テキスト・データによって表わされるテキストの言語体
系に適した言語に変換する言語入力手段が設けられ,記
憶されているテキスト・データおよび入力されるテキス
ト・データの言語を識別し,言語識別結果にもとづい
て,入力されたテキスト・データをそれに適した言語の
上記言語入力手段に与えるように制御する方法である。
【0037】第6の発明は,上記方法を実施するための
記録媒体も提供している。すなわち,この記録媒体は,
複数の言語についてのテキスト・データが記録されてお
り,入力するテキストの言語ごとに,入力されたテキス
ト・データをそのテキスト・データによって表されるテ
キストの言語体系に適した言語に変換する言語入力手段
が設けられている場合に,入力されたテキスト・データ
をそれに適した上記言語入力手段に供給するためのプロ
グラムを格納した記録媒体であって,記憶されているテ
キスト・データおよび入力されるテキスト・データの言
語を識別し,上記識別結果にもとづいて,入力されたテ
キスト・データをそれに適した言語の上記言語入力手段
に与えるようにコンピュータを制御するためのプログラ
ムを格納したコンピュータが読取り可能な記録媒体であ
る。
【0038】第6の発明によると,複数の言語について
のテキスト・データが記憶されている。記憶されている
テキスト・データおよび入力されるテキスト・データの
言語が識別され,この識別結果に応じて入力されたテキ
スト・データがそれに適した言語の上記言語入力手段に
与えられる。
【0039】第7の発明によるマルチリンガル音声合成
システムは,与えられるテキスト・データの言語を識別
する言語識別手段,複数の言語について設けられ,入力
するテキスト・データによって表わされるテキストを音
声に変換して出力する複数の音声合成装置,および上記
言語識別手段によって識別された言語に適した上記音声
合成装置に,与えられたテキスト・データを供給する制
御手段を備えていることを特徴とする。
【0040】第7の発明は,上記システムに適した方法
も提供している。すなわち,この方法は,入力するテキ
スト・データによって表わされるテキストを音声に変換
して出力する複数の音声合成装置が複数の言語について
設けられ,与えられたテキスト・データの言語を識別
し,識別された言語に適した上記音声合成装置に,与え
られたテキスト・データを供給する方法である。
【0041】第7の発明は,上記方法を実施するための
記録媒体も提供している。すなわち,この記録媒体は,
複数の言語について設けられ,入力するテキスト・デー
タによって表わされるテキストを音声に変換して出力す
る複数の音声合成装置へのテキスト・データの入力を切
り替えるためのプログラムを格納した記録媒体であっ
て,与えられるテキスト・データがどのような言語に関
するものかを識別し,識別された言語に適した上記音声
合成装置に,与えられたテキスト・データを供給するよ
うにコンピュータを制御するためのプログラムを格納し
たコンピュータが読取り可能な記録媒体である。
【0042】第7の発明によると,上記音声合成装置
は,複数の言語に対応して設けられている。
【0043】与えられたテキスト・データは,そのテキ
スト・データがどのような言語のものかが識別される。
識別された言語に応じてその言語に適した音声合成装置
にテキスト・データが供給される。
【0044】入力するテキスト・データがどのような言
語のものかがわからなくてもそのテキスト・データによ
って表わされるテキストが所定の言語での音声によって
出力される。
【0045】第8の発明によるマルチリンガル処理シス
テムは,与えられるテキスト・データの言語を識別する
言語識別手段,複数の言語について設けられた複数の処
理手段,および上記言語識別手段によって識別された言
語に適した上記処理手段に,与えられた上記テキスト・
データを供給する制御手段を備えたことを特徴とする。
【0046】第8の発明は,上記システムに適した方法
も提供している。すなわち,この方法は,複数の処理手
段を複数の言語について設けておき,与えられるテキス
ト・データの言語を識別し,識別された言語に適した上
記処理手段に,与えられた上記テキスト・データを供給
することを特徴とする。
【0047】第8の発明は,上記方法を実施するための
プログラムを格納した記録媒体も提供している。すなわ
ち,この記録媒体は,複数の言語について設けられた複
数の処理手段へのテキスト・データの入力を切り替える
ためのプログラムを格納した記録媒体であって,与えら
れるテキスト・データの言語を識別し,識別された言語
に適した上記処理手段に,与えられた上記テキスト・デ
ータを供給するようにコンピュータを制御するためのプ
ログラムを格納したコンピュータが読取り可能な記録媒
体である。
【0048】第8の発明によると,上記処理手段は複数
の言語に対応して設けられている。
【0049】与えられるテキスト・データの言語が識別
される。識別された言語に応じてその言語に適した処理
手段にテキスト・データが供給される。
【0050】入力するテキスト・データがどのような言
語に関するものかがわからなくても最適な処理が実施さ
れる。
【0051】
【実施例の説明】
第1実施例 この実施例は,文字コードまたは文字コード列の言語識
別装置に関するものである。
【0052】図1は,文字コードの言語識別装置の外観
を,図2は,その電気的構成の概要をそれぞれ示してい
る。
【0053】文字コードの言語識別装置は,コンピュー
タ10を含む。コンピュータ10にはCRT表示装置
(または液晶ディスプレイ・パネル)11,プリンタ1
2および入力装置(キーボード13Aやマウス13B)
が接続されている。コンピュータ10の内部にはFDド
ライブ14,CD−ROMドライブ15およびHDユニ
ット16が設けられている。FDドライブ14は,FD
(フロッピー・ディスク)19へのデータの書込みおよ
びFD19からのデータの読出しを行なう。CD−RO
Mドライブ15は,CD−ROM(コンパクト・ディス
ク−リード・オンリ・メモリ)18からのデータの読出
しを行なう。HDユニット16は,HD(ハードディス
ク)(図示略)へのデータの書込みおよびHDからのデ
ータの読出しを行なう。コンピュータ10はさらに内部
メモリ(半導体メモリなど)17を含む。
【0054】CD−ROM18には文字コードの言語識
別のための言語識別プログラムおよびこの言語識別に用
いられる出現確率データが格納されている。その内容が
図3に示されている。出現確率データは,文字コード
(すなわち文字)が出現する確率を表わすものである。
文字ごとの出現確率は過去の様々な文書に現れている文
字を統計処理することにより予め求められる。代表的な
文字についてのみ出現確率データを求めておいてもよい
し,すべての文字について求めておいてもよい。出現確
率データは,言語と文字コード系(文字コードの種類ま
たはエンコーディング方法)との組合せごとにテーブル
の形態で格納されている。この実施例においては,中国
語用(大陸用および台湾用)テーブル(出現確率表),
日本語用テーブル(EUC(Extended UNIX Code)コー
ドおよびShift-JIS (Japanese Industrial Standards
)コード),ならびに韓国語用テーブルがある。日本
語は一般的にEUCコードまたはShift−JISコードによ
ってエンコードされる。このEUCコードやShift−JIS
コードが文字コード系またはエンコーディング方法であ
る。したがって,言語の種類のみならず,文字コード系
の識別も行える。日本語以外の他の言語についても同様
である。もっとも,日本語Shift−JISコードは日本語E
UCコードにコード変換が可能であるから,後述する言
語識別処理の例のように日本語についてはEUCコード
・テーブルのみを設けておいてもよい。
【0055】CD−ROM18に格納されているプログ
ラムおよびデータは,文字コードの言語識別装置の立ち
上げ時に,CD−ROM18から読み出され,HDに格
納される。文字コードの言語識別処理においては,これ
らのプログラムおよびデータの一部は,必要に応じて,
内部メモリ17に一時的に記憶され,または展開され
る。
【0056】図4は,処理対象の入力データ,言語識別
プログラムおよび出現確率データの相互の関係を概念的
に示している。
【0057】ブラウザ,通信ソフトウェアなどのテキス
ト入力処理ソフトウェアによって(またはキーボード1
3Aを介して)入力されたテキスト・データは,言語識
別プログラムによって,一文字ごとに切出され,切出さ
れた各文字について言語(日本語,中国語,韓国語)と
文字コード系との組合せごとに出現確率データが求めら
れる。求められた出現確率が評価値用ワークエリア(内
部メモリ17の一部)において統計処理(後述する掛算
処理)され,最終的に入力テキスト・データの言語の種
類と文字コード系との組合せが識別される。
【0058】図5は,文字コード識別装置における文字
コード識別の処理手順を示すフローチャートである。こ
の処理においては「梅花に鶯」という句を表す文字コー
ド列(この文字コード列は,たとえば日本語EUCコー
ドでは0xC7DF,0xB2D6,0xA4CB,0
xB2A9と表わされる,日本語Shift−JISコードでは
0x947E,0x89D4,0x82C9,0x89
A7と表される。ここで,0xは16進数を示す。)が
キーボードから入力された場合にその文字コード列がど
の言語と文字コード系との組合せのものかを識別する例
について説明する。図6はこの句「梅花に鴬」を構成す
る文字コードの出現確率を言語と文字コード系との組合
せごとに示すものであり,各出現確率テーブルにおいて
最大の出現確率を 100%として正規化された値が示され
ている。
【0059】入力されたテキスト・データから2バイト
分(一文字分)のデータが取り出される(ステップ2
1)。
【0060】取り出された2バイト分のデータ(文字コ
ード)に対応する出現確率が言語と文字コード系との組
合せごとに出現確率テーブルから読み出される(ステッ
プ23,25,29,31)。取り出された2バイト分
のデータは,他方では,Shift-JIS コードからEUCコ
ードに変換され(ステップ22),変換後のEUCコー
ドによる文字コードの出現確率が日本語用出現確率テー
ブル(EUCコード)から読み出される(ステップ2
7)。
【0061】「梅花に鶯」の一文字目「梅」の文字コー
ドは,日本語のEUCコード系では,0.0948%,日本語
のShift-JIS コード系では0%,中国語(大陸)のEU
Cコード系では0.0129%,中国語(台湾)のBig5コ
ード系では0.0022%,韓国語のEUCコード系では10.9
41%の出現確率を持つ。
【0062】読出された出現確率と既に算出されている
評価値との積が算出され,この積が新たな評価値とされ
る(評価値の更新)(ステップ24,26,28,3
0,32)。この算出も言語と文字コード系との組合せ
ごと(すなわち,出現確率テーブルごと)に行われる。
評価値の初期値として1が設定されており,一文字目の
文字コードの場合には,読出された出現確率と1とが乗
算される。
【0063】このようにして更新された評価値の中の最
大値をもつ評価値を100として他の評価値が正規化さ
れる(ステップ33)。これは,後述するステップ35
でしきい値との比較処理を行うためである。
【0064】入力されたテキスト・データを構成するす
べての文字コードについて上記の処理が終了していなけ
れば(ステップ34),最大値を持つ評価値を除く他の
すべての評価値の合計が算出される。この算出合計値が
所定のしきい値以下であれば(ステップ35でYE
S),入力したテキスト・データは最大値を持つ評価値
を与える言語と文字コード系との組合せであると判別さ
れる。この算出合計値が所定のしきい値を超えていれば
(ステップ35でNO),再びステップ21からステッ
プ34の処理が繰り返される。
【0065】「梅花に鶯」の2文字目「花」の文字コー
ドに関して,日本語のEUCコードにおける出現確率は
3.2740%,日本語のShift-JIS コードの出現確率は0
%,中国語(大陸)のEUCコードにおける出現確率は
0.1118%,中国語(台湾)のBig5コードにおける出
現確率は0.2874%,韓国語のEUCコードにおける出現
確率は0%である。
【0066】「梅花に鶯」の3文字目「に」の文字コー
ドの出現確率は,日本語のEUCコードでは59.155%,
日本語のShift-JIS コードでは0%,中国語(大陸)の
EUCコードでは0.0001%,中国語(台湾)のBig5
コードでは0%,韓国語のEUCコードでは0.0001%で
ある。
【0067】「梅花に鶯」の4文字目「鴬」の文字コー
ドの出現確率は,日本語のEUCコードでは0.0001%,
日本語のShift-JIS コードでは0%,中国語(大陸)の
EUCコードでは0.3717%,中国語(台湾)のBig5
コードでは0.0048%,韓国語のEUCコードでは0.0299
%である。
【0068】「梅花に鶯」を構成する4文字分の文字コ
ードの出現確率の積が最終的な評価値として得られる。
入力されたテキスト・データを構成するすべての文字コ
ードについて上記の処理が終了したことになる(ステッ
プ34でYES)。最終的な評価値は日本語のEUCコ
ードでは0.000000001836%,日本語のShift-JIS コード
では0%,中国語(大陸)のEUCコードでは0.000000
000005366 %,中国(台湾)のBig5コードでは0
%,韓国のEUCコードでは0%となる。これらの値を
比べると日本語のEUCコードにおける評価値が一番大
きいから「梅花に鶯」は日本語でしかもEUCコードで
表現されたものであると判断される。このようにして文
字コードによって表わされる文字の言語およびその文字
コードの種類(文字コード系,またはエンコーディング
方法)が識別される。入力テキスト・データが多数の文
字コードを含む場合には,通常は,3〜4文字について
の処理が終了したときに,ステップ35でYESとな
り,入力テキスト・データの言語と文字コード系の組合
せの判別が終えるであろう。
【0069】第2実施例 この実施例は,マルチリンガル形態素解析システムに関
するものである。
【0070】図7はマルチリンガル形態素解析システム
の電気的構成の概要を示すブロック図,図8はその処理
手順の概要を示している。
【0071】このマルチリンガル形態素解析システムは
複数種類の言語用の複数の形態素解析装置を含み,入力
するテキスト・データをそのテキスト・データによって
表わされるテキストの言語の種類に適した形態素解析装
置に与え,形態素解析を行わせるものである。
【0072】図8に示す処理手順を実現するプログラム
はCD−ROM43に格納されている。このCD−RO
M43が言語識別装置46に装填されることにより,C
D−ROM43に格納されているプログラムおよびデー
タが読取られる。
【0073】テキスト・データは,WWWサーバ41か
らマルチリンガル形態素システム42に入力する。テキ
スト・データは,言語識別装置46および切替装置47
に入力する。入力したテキスト・データによって表わさ
れるテキストの言語(必要ならば言語と文字コード系と
の組合せ;以下同じ)が言語識別装置46において識別
される(ステップ55)。この識別処理は上述した第1
実施例の方法により行ってもよいし,言語に特有な文字
が含まれているかどうかにより行うこともできるし,い
わゆる文字のN−gramによる方法または文字列に関
するルールにより行うこともできる。
【0074】いずれにしても言語が識別されると,入力
したテキスト・データが,識別された言語に対応する形
態素解析装置(48,49および50のいずれか)に入
力するように,切替装置47が言語識別装置46によっ
て切替制御される(ステップ56)。これにより,入力
テキスト・データに適した形態素解析装置48,49ま
たは50に,テキスト・データが与えられ,適切な形態
素解析が行われる。
【0075】形態素解析の解析結果は,インデックス生
成装置51に与えられ,入力テキスト・データについて
のインデックスが生成される。生成されたインデックス
は検索用インデックス・データ・ベース54に記憶され
る。検索エンジン53を用いて検索用インデックス・デ
ータ・ベース54をアクセスすることにより,ユーザは
自分のコンピュータ52を用いて所望の検索処理を行な
うことができる。
【0076】上記において,日本語の形態素解析装置に
は,Inso CorporationのIntelliScope Search Enhance
r, 富士通株式会社のBreakfast , 言語工学研究所の俊
司,京都大学工学部電気系長尾研究室のJUMAN,奈
良先端科学技術大学院大学情報科学研究科自然言語処理
講座(松本研究室)の茶筌(ChaSen)があり,韓国語の形
態解析素装置には,奈良先端科学技術大学院大学情報科
学研究科自然言語処理講座(松本研究室)の茶筌(KoCh
a) があり,中国語(大陸)の形態素解析装置には,ニ
ューメキシコ大学CRLのChinese Segmenter , 北京大
学の現代漢語文本切分と品詞標記規範があり,英語の形
態素解析装置には,Inso CorporationのIntelliScope S
earch Enhancerがある。
【0077】上記マルチリンガル形態素解析システムは
その機能の観点から言語識別装置46,切替装置47,
形態素解析装置48,49,50およびインデックス生
成装置51に分けて示されているが,これらの装置を1
台または複数台のコンピュータにより実現することがで
きる。このことは以下に示す他の実施例においてもあて
はまる。パーソナル・コンピュータ52,検索エンジン
53および検索用インデックス・データ・ベース54を
マルチリンガル形態素解析システムに含ませてもよい。
【0078】第3実施例 この実施例は,マルチリンガル検索システムに関するも
のである。
【0079】図9はマルチリンガル検索システムの電気
的構成の概要を示すブロック図,図10はその処理手順
を示している。
【0080】このマルチリンガル検索システムは複数の
異なる言語の検索装置を有しており,入力するテキスト
・データによって表わされるテキストの言語の種類に適
した検索装置にテキスト・データを与え,検索処理を行
なうものである。
【0081】図10に示す処理を実現するプログラム
は,CD−ROM62に格納されている。このCD−R
OM62は言語識別装置65に装填されることにより,
CD−ROM62に格納されているプログラムおよびデ
ータが読取られる。
【0082】テキスト・データは,入力装置61を用い
て,例えば,オペレータが入力する。入力装置61から
入力されたキーワードは,言語識別装置65および切替
装置66に入力する。言語識別装置65において,入力
したキーワードの言語の種類が識別される(ステップ7
1)。
【0083】キーワードの言語の種類が識別されると,
入力したキーワードが,識別された種類の言語用の検索
装置67,68または69に入力するように言語識別装
置65によって切替装置66が切替制御される(ステッ
プ72)。これにより,入力したキーワードの言語に適
した検索装置67,68または69にキーワードが与え
られ,そのキーワードにもとづいた検索処理が行われ
る。検索結果は言語検索装置67,68または69から
出力される。
【0084】以上のようにしてキーワードの言語の種類
にかかわらず,かつその言語が事前に分からなくとも検
索処理が実行される。マルチリンガル検索システムもま
た1台または複数台のコンピュータにより実現できる。
【0085】第4実施例 この実施例は,マルチリンガル出力装置に関するもので
ある。
【0086】図11はマルチリンガル出力装置の電気的
構成の概要を示すブロック図,図12はその処理手順の
概要を示している。
【0087】このマルチリンガル出力装置は,入力する
テキスト・データによって表わされるテキストの言語の
種類に応じてテキストの出力形態を制御するものであ
る。
【0088】図12に示す処理手順を実現するプログラ
ムは,CD−ROM82に格納されている。このCD−
ROM82は,言語識別装置85に装填されることによ
り,CD−ROM82に格納されているプログラムおよ
びデータが読取られる。
【0089】入力装置81を用いてテキスト・データが
入力される。入力されたテキスト・データは,言語識別
装置85,表示制御装置86およびプリンタ制御装置8
8に与えられる。表示制御装置86は,表示装置87に
おけるテキストの表示を制御するものである。プリンタ
制御装置88は,プリンタ89におけるテキストの印刷
を制御するものである。
【0090】言語識別装置85において,入力したテキ
スト・データによって表わされるテキストの言語が識別
される(ステップ91)。
【0091】言語が識別されると,その入力したテキス
ト・データによって表わされるテキストの言語の種類に
応じた表示,印刷が行われるように言語識別装置85に
よって表示制御装置86およびプリンタ制御装置88が
制御される(ステップ92,93)。例えば,識別され
た言語に応じて,表示または印刷されるフォントの種類
(言語が日本語であればMSPゴシック,中国語(大
陸)であればMSSoug,中国語(台湾)であればMing L
iU,韓国語であればMS Hei),横書きか縦書きか,左
から右にむかって書くか右から左にむかって書くか,文
字間隔,行間,などが制御される。
【0092】このようにしてテキスト・データによって
表わされる言語の種類に応じて表示装置87における表
示およびプリンタ89における印刷の形態が制御され
る。
【0093】第5実施例 この実施例は,マルチリンガル翻訳システムに関するも
のである。
【0094】図13はマルチリンガル翻訳システムの電
気的構成の概要を示すブロック図,図14はその処理手
順の概要を示している。
【0095】このマルチリンガル翻訳システムは,中国
語,日本語および韓国語から英語にそれぞれ翻訳する複
数の翻訳エンジンを有しており,入力するテキスト・デ
ータによって表わされる言語の種類に応じた翻訳エンジ
ンに入力テキスト・データを与え,翻訳処理を行なうも
のである。
【0096】図14に示す処理手順を実現するプログラ
ムは,CD−ROM102に格納されている。このCD
−ROM102は,言語識別装置105に装填されるこ
とにより,CD−ROM102に格納されているプログ
ラムおよびデータが読取られる。
【0097】入力装置101から翻訳すべきテキストを
表わすテキスト・データが与えられ,言語識別装置10
5および切替装置106に入力する。言語識別装置10
5において,入力するテキスト・データによって表わさ
れるテキストの言語が識別される(ステップ111)。
【0098】言語が識別されると,入力したテキスト・
データが,そのテキスト・データによって表わされる言
語に適した翻訳エンジン,すなわち中国語から英語への
翻訳を行なう翻訳エンジン107,日本語から英語への
翻訳を行なう翻訳エンジン108または韓国語から英語
への翻訳を行なう翻訳エンジン109のいずれかに入力
するように,言語識別装置105によって切替装置10
6の切替が制御される(ステップ112)。
【0099】これにより,入力したテキスト・データに
よって表わされるテキストの言語の種類が日本語,中国
語,韓国語のいずれであっても英語に翻訳されて出力さ
れる。言語識別装置105,切替装置106および翻訳
エンジン107,108,109は1台または複数台の
コンピュータにより実現できる。
【0100】第6実施例 この実施例は,マルチリンガル・ワード・プロセッサに
関するものである。
【0101】図15はマルチリンガル・ワード・プロセ
ッサの電気的構成の概要を示すブロック図,図16はそ
の処理手順の概要を(複数の処理形態をまとめて)示し
ている。
【0102】図16に示す処理手順を実現するプログラ
ムは,CD−ROM134に格納されている。このCD
−ROM134は,言語識別装置127に装填されるこ
とにより,CD−ROM134に格納されているプログ
ラムおよびデータが読取られる。
【0103】マルチリンガル・ワード・プロセッサに
は,日本語用の言語入力装置122,中国語用の言語入
力装置123,韓国語用の言語入力装置124および英
語用の言語入力装置125が含まれている。日本語用の
言語入力装置122は,ローマ字またはかな入力された
テキスト・データをかな漢字混じり文のテキスト・デー
タに変換するものである。中国語用の言語入力装置12
3は,アルファベット入力されたテキスト・データを中
国語のテキスト・データに変換するものである。韓国語
用の言語入力装置124は,ハングル文字を構成する字
母(アルファベット入力であってもよい)を入力した場
合にハングル文字を構成するテキスト・データに変換す
るものである。英語用の言語入力装置125は,アルフ
ァベット入力されたテキスト・データよって表わされる
テキストのスペルチェックを行なうものである。
【0104】日本語のテキスト・データを入力する場
合,中国語のテキスト・データを入力する場合,韓国語
のテキスト・データを入力する場合および英語のテキス
ト・データを入力する場合のいずれであっても共通のキ
ーボード121が用いられる(もちろん,言語に応じて
異なるキーボードを用いてもよい)。
【0105】テキスト・データ・メモリ128には種々
の言語のテキスト・データ(ファイル)が,一般的には
混在して,格納されている。図15に示す例では,中国
語のテキスト・データを記憶しているメモリ領域12
9,日本語のテキスト・データを記憶しているメモリ領
域130,および韓国語のテキスト・データを記憶して
いるメモリ領域131が図示されている。ユーザが所望
のテキスト・ファイルを指定すると,そのファイルが読
み出され,言語識別装置127に与えられる。言語識別
装置127は読み出されたファイルのテキスト・データ
の言語(日本語,中国語,韓国語または英語)を識別し
(ステップ141),識別結果に応じて表示のためのフ
ォントを選択する。これにより,テキスト・データによ
って表される言語の文字が表示される(ステップ14
2)。
【0106】ユーザが特定の言語でテキスト・データを
入力したときには,キーボード121から入力されたテ
キスト・データは言語識別装置127に与えられ,入力
されたテキスト・データが日本語,中国語,韓国語およ
び英語のいずれの言語のものかが識別される(ステップ
141)。言語が識別されると,キーボード121から
入力されたテキスト・データが対応する入力装置12
2,123,124または125に入力するように,言
語識別装置127によって切替装置133が切替えられ
る(ステップ142)。入力装置(122,123,1
24,125のいずれか)から得られるテキスト・デー
タは,最終的には,その言語に応じた該当するファイル
(メモリ領域)に格納されるように切替装置126の切
替制御が行われる(ステップ142)。該当するファイ
ルがない場合,該当する言語のメモリ領域がない場合に
は,新たなファイルまたはメモリ領域が形成される。
【0107】第7実施例 この実施例は,マルチリンガル音声合成システムに関す
るものである。
【0108】図17はマルチリンガル音声合成システム
の電気的構成を示すブロック図,図18はその処理手順
の概要を示している。
【0109】このマルチリンガル音声合成システムは,
入力するテキスト・データによって表わされるテキスト
をそのテキストの言語の音声で出力するものである。
【0110】図18に示す処理手順を実現するプログラ
ムは,CD−ROM152に格納されている。このCD
−ROM152は,言語識別装置155に装着されるこ
とにより,CD−ROM152に格納されているプログ
ラム,データが読取られる。
【0111】マルチリンガル音声合成システムには,中
国語(大陸)のテキスト・データを,中国大陸で一般的
に用いられている中国語(大陸)音声に変換して出力す
る音声合成装置157,日本語のテキスト・データを,
日本語の音声で出力する音声合成装置158,入力する
テキスト・データが韓国語の場合に,韓国語の音声で出
力する音声合成装置159,および中国語(大陸)のテ
キスト・データを台湾で一般的に用いられている中国語
の音声で出力する音声合成装置160を有している。
【0112】入力装置151から入力されるテキスト・
データは,言語識別装置155および切替装置156に
与えられる。言語識別装置155において,入力したテ
キスト・データによって表わされるテキストの言語が識
別される(ステップ161)。
【0113】言語が識別されると,入力したテキスト・
データが,そのテキスト・データによって表わされるテ
キストの言語の適した音声合成装置157,158,1
59または160に入力するように切替装置156が制
御される(ステップ162)。これにより,入力したテ
キスト・データによって表わされるテキストの言語に適
した音声合成装置157,158,159または160
にテキスト・データが入力するようになる。それぞれの
言語での音声出力が得られる。言語識別装置155,切
替装置156および音声合成装置157〜160は1台
または複数台のコンピュータにより実現可能である。
【0114】応用例 この応用例もマルチリンガル音声合成システムに関する
ものである。
【0115】このマルチリンガル音声合成システムは,
入力するテキスト・データによって表わされるテキスト
の言語が日本語以外の言語であっても日本語の音声で出
力するものである。
【0116】図19は,マルチリンガル音声合成システ
ムの電気的構成の概要を示すブロック図である。
【0117】このマルチリンガル音声合成システムに
は,中国語を日本語に翻訳して出力する翻訳エンジン1
77および韓国語を日本語に翻訳して出力する翻訳エン
ジン178が含まれている。
【0118】CD−ROM172には言語識別装置17
5における言語識別処理およびその識別結果による切替
装置176の切替処理のプログラムが格納されている。
【0119】CD−ROM172が言語識別装置175
に装着されると,CD−ROM172に格納されている
プログラムが読み取られる。以下の動作はこのプログラ
ムにしたがって実行される。
【0120】入力装置171からテキスト・データが入
力される。入力されたテキスト・データは,言語識別装
置175および切替装置176に与えられる。言語識別
装置175において,入力したテキスト・データによっ
て表わされる言語の種類が識別される。
【0121】言語が識別されると,識別された言語に応
じて言語識別装置175によって切替装置176の切替
が制御される。これにより入力したテキスト・データが
中国語のテキストを表わすものであれば,中国語日本語
翻訳エンジン177に与えられ,入力したテキスト・デ
ータが韓国語のテキストを表わすものであれば,韓国語
日本語翻訳エンジン178に与えられる。翻訳エンジン
177または178において翻訳された日本語のテキス
ト・データは日本語音声合成装置179に与えられ,日
本語の音声出力が得られる。マルチリンガル音声合成シ
ステムに入力したテキスト・データが日本語のものであ
れば,切替装置176から出力したテキスト・データ
は,直接日本語音声合成装置179に与えられ日本語で
出力されるのはいうまでもない。
【図面の簡単な説明】
【図1】文字コードの言語識別システムの外観を表して
いる。
【図2】文字コードの言語識別システムの電気的構成の
概要を示している。
【図3】文字コードの言語識別システムに用いられる記
録媒体のデータ構造を示している。
【図4】処理対象の入力データ,言語識別プログラムお
よび出現確率データの相互の関係を示している。
【図5】文字コードの言語識別システムの処理手順を示
している。
【図6】所定の句を表す文字コードの出現確率を言語お
よび文字コードに対応して示す。
【図7】マルチリンガル形態素解析システムの電気的構
成の概要を示すブロック図である。
【図8】マルチリンガル形態素解析システムにおける処
理手順の概要を示している。
【図9】マルチリンガル検索システムの電気的構成の概
要を示すブロック図である。
【図10】マルチリンガル検索システムにおける処理手
順の概要を示している。
【図11】マルチリンガル出力システムの電気的構成の
概要を示すブロック図である。
【図12】マルチリンガル出力システムにおける処理手
順の概要を示している。
【図13】マルチリンガル翻訳システムの電気的構成の
概要を示すブロック図である。
【図14】マルチリンガル翻訳システムにおける処理手
順の概要を示している。
【図15】マルチリンガル・ワード・プロセッサの電気
的構成の概要を示すブロック図である。
【図16】マルチリンガル・ワード・プロセッサにおけ
る処理手順の概要を示している。
【図17】マルチリンガル音声合成システムの電気的構
成の概要を示すブロック図である。
【図18】マルチリンガル音声合成システムにおける処
理手順の概要を示している。
【図19】マルチリンガル音声合成システムの電気的構
成の概要を示している。
【符号の説明】
10 コンピュータ 13A キーボード 15 CD−ROMドライブ 18,43,62,82,102,152,172 C
D−ROM 42 マルチリンガル形態素解析システム 48,49,50 形態素解析装置 61,81,101,151 入力装置 65,85,105,127,155,175 言語識
別装置 67,68,69 検索装置 86 表示制御装置 88 プリンタ制御装置 107,108,109,177,178 翻訳エンジ
ン 157,158,159,179 音声合成装置
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 FI G06F 15/38 V

Claims (38)

    【特許請求の範囲】
  1. 【請求項1】 エンコードされたテキスト・データの言
    語と文字コード系との組合せを識別する装置であって,
    言語と文字コード系との組合せごとに,その組合せにお
    いて文字コードが出現する確率をそれぞれ記述した複数
    の出現確率テーブルを格納した記憶手段,与えられたテ
    キスト・データに含まれる1または複数の文字コードに
    ついて上記複数の出現確率テーブルからそれぞれ出現確
    率を読み出し,言語と文字コード系との組合せごとに,
    評価データを得る手段,および得られた評価データにも
    とづいて,与えられたテキスト・データの言語と文字コ
    ード系との組合せを判別する手段,を備えた言語識別装
    置。
  2. 【請求項2】 上記の評価データを得る手段が,出現確
    率テーブルから読み出された出現確率の積を算出するも
    のである,請求項1に記載の言語識別装置。
  3. 【請求項3】 与えられるテキスト・データの言語を識
    別する言語識別手段,複数の言語について設けられた複
    数の形態素解析手段,および上記言語識別手段によって
    識別された言語に適した上記形態素解析手段に,与えら
    れた上記テキスト・データを供給する制御手段,を備え
    たマルチリンガル形態素解析システム。
  4. 【請求項4】 与えられるキーワードの言語を識別する
    言語識別手段,複数の言語について設けられ,入力する
    キーワードにもとづいてそのキーワードに関連する情報
    を出力する複数の検索手段,および上記言語識別手段に
    よって識別された言語に適した上記検索手段に,与えら
    れたキーワードを供給する制御手段,を備えたマルチリ
    ンガル検索システム。
  5. 【請求項5】 与えられるテキスト・データの言語を識
    別する言語識別手段,上記テキスト・データによって表
    わされるテキストを出力する出力装置,および上記言語
    識別手段によって識別された言語にもとづいて,上記出
    力装置における上記テキストの出力形態を制御する出力
    形態制御手段,を備えたマルチリンガル出力装置。
  6. 【請求項6】 上記出力装置が上記テキストを印刷する
    プリンタであり,上記出力形態制御手段が上記プリンタ
    における印刷形態を制御するものである,請求項5に記
    載のマルチリンガル出力装置。
  7. 【請求項7】 上記出力装置が上記テキストを表示する
    表示装置であり,上記出力形態制御手段が上記表示装置
    における表示形態を制御するものである,請求項5に記
    載のマルチリンガル出力装置。
  8. 【請求項8】 与えられるテキスト・データの言語を識
    別する言語識別手段,2つの言語の複数の組合せについ
    て設けられ,一の言語を他の言語に翻訳して出力する複
    数の翻訳手段,および上記言語識別手段によって識別さ
    れた言語に適した上記翻訳手段に,与えられたテキスト
    ・データを供給する制御手段,を備えたマルチリンガル
    翻訳システム。
  9. 【請求項9】 翻訳により得られた上記他の言語を音声
    に変換して出力する音声合成手段,をさらに備えた請求
    項8に記載のマルチリンガル翻訳システム。
  10. 【請求項10】 複数の言語についてのテキスト・デー
    タを記憶するテキスト・データ記憶手段,上記テキスト
    ・データ記憶手段に記憶されているテキスト・データお
    よび入力されるテキスト・データの言語を識別する言語
    識別手段,言語の種類ごとに設けられ,入力されたテキ
    スト・データをそのテキスト・データによって表わされ
    るテキストの言語体系に適した言語のテキスト・データ
    に変換する言語入力手段,および上記言語識別手段にお
    ける識別結果にもとづいて,入力されたテキスト・デー
    タをそれに適した言語の上記言語入力手段に与えるよう
    に制御する制御手段,を備えたマルチリンガル・ワード
    ・プロセッサ。
  11. 【請求項11】 与えられるテキスト・データの言語を
    識別する言語識別手段,複数の言語について設けられ,
    入力するテキスト・データによって表わされるテキスト
    を音声に変換して出力する複数の音声合成装置,および
    上記言語識別手段によって識別された言語に適した上記
    音声合成装置に,与えられたテキスト・データを供給す
    る制御手段,を備えたマルチリンガル音声合成システ
    ム。
  12. 【請求項12】 与えられるテキスト・データの言語を
    識別する言語識別手段,複数の言語について設けられた
    複数の処理手段,および上記言語識別手段によって識別
    された言語に適した上記処理手段に,与えられた上記テ
    キスト・データを供給する制御手段,を備えたマルチリ
    ンガル処理システム。
  13. 【請求項13】 エンコードされたテキスト・データの
    言語と文字コード系との組合せを識別する方法であっ
    て,言語と文字コード系との組合せごとに,その組合せ
    において文字コードが出現する確率をそれぞれ記述した
    出現確率テーブルをあらかじめ作成しておき,与えられ
    たテキスト・データに含まれる1または複数の文字コー
    ドについて上記複数の出現確率テーブルからそれぞれ出
    現確率を読み出し,言語と文字コード系との組合せごと
    に,評価データを得,得られた評価データにもとづい
    て,与えられたテキスト・データの言語と文字コード系
    との組合せを判別する,言語識別方法。
  14. 【請求項14】 出現確率テーブルから読み出された出
    現確率の積を算出することにより上記評価データを得る
    ものである,請求項13に記載の言語識別方法。
  15. 【請求項15】 複数の言語について複数の形態素解析
    手段を設けておき,与えられたテキスト・データの言語
    を識別し,識別された言語に適した上記形態素解析手段
    に,与えられた上記テキスト・データを供給する,マル
    チリンガル形態素解析方法。
  16. 【請求項16】 入力するキーワードにもとづいてその
    キーワードに関連する情報を出力する複数の検索手段を
    複数の言語について設けておき,与えられたキーワード
    の言語を識別し,識別された言語に適した上記検索手段
    に,与えられたキーワードを供給する,マルチリンガル
    検索方法。
  17. 【請求項17】 与えられるテキスト・データの言語を
    識別し,識別された言語にもとづいて,上記テキスト・
    データによって表わされるテキストを出力する出力装置
    における上記テキストの出力形態を制御する,マルチリ
    ンガル出力方法。
  18. 【請求項18】 上記出力装置が上記テキストを印刷す
    るプリンタであり,上記プリンタにおける印刷形態を制
    御するものである,請求項17に記載のマルチリンガル
    出力方法。
  19. 【請求項19】 上記出力装置が上記テキストを表示す
    る表示装置であり,上記表示装置における表示形態を制
    御するものである,請求項17に記載のマルチリンガル
    出力方法。
  20. 【請求項20】 一の言語を他の言語に翻訳して出力す
    る複数の翻訳手段が2つの言語の複数の組合せについて
    設けられ,与えられたテキスト・データの言語を識別
    し,識別された言語に適した上記翻訳手段に,与えられ
    たテキスト・データを供給する,マルチリンガル翻訳方
    法。
  21. 【請求項21】 翻訳により得られた上記他の言語を音
    声に変換して出力する請求項20に記載のマルチリンガ
    ル翻訳方法。
  22. 【請求項22】 複数の言語についてのテキスト・デー
    タが記憶されており,入力するテキストの言語ごとに,
    入力されたテキスト・データをそのテキスト・データに
    よって表わされるテキストの言語体系に適した言語に変
    換する言語入力手段が設けられ,記憶されているテキス
    ト・データおよび入力されるテキスト・データの言語を
    識別し,言語識別結果にもとづいて,入力されたテキス
    ト・データをそれに適した言語の上記言語入力手段に与
    えるように制御する,マルチリンガル・ワード・プロセ
    ッサの制御方法。
  23. 【請求項23】 入力するテキスト・データによって表
    わされるテキストを音声に変換して出力する複数の音声
    合成装置が複数の言語について設けられ,与えられたテ
    キスト・データの言語を識別し,識別された言語に適し
    た上記音声合成装置に,与えられたテキスト・データを
    供給する,マルチリンガル音声合成方法。
  24. 【請求項24】 複数の処理手段を複数の言語について
    設けておき,与えられるテキスト・データの言語を識別
    し,識別された言語に適した上記処理手段に,与えられ
    た上記テキスト・データを供給する,マルチリンガル処
    理方法。
  25. 【請求項25】 言語と文字コード系との組合せごと
    に,その組合せにおいて文字コードが出現する確率を記
    述した出現確率テーブルを用いて,エンコードされたテ
    キスト・データの言語と文字コード系との組合せを識別
    するためのプログラムであって,与えられたテキスト・
    データに含まれる1または複数の文字コードについて上
    記複数の出現確率テーブルからそれぞれ出現確率を読み
    出し,言語と文字コード系との組合せごとに,評価デー
    タを得,得られた評価データに基づいて,与えられたテ
    キスト・データの言語と文字コード系との組合せを判別
    するようにコンピュータを制御するプログラムを格納し
    た記録媒体。
  26. 【請求項26】 上記出現確率テーブルをさらに格納し
    た請求項25に記載の記録媒体。
  27. 【請求項27】 上記プログラムが出現確率テーブルか
    ら読み出された出現確率の積を言語と文字コード系との
    組合せごとに算出し,得られた積に基づいて与えられた
    テキスト・コードの言語と文字コード系の組合せを判別
    するものである,請求項25に記載の記録媒体。
  28. 【請求項28】 複数の言語について設けられた複数の
    形態素解析手段へのテキスト・データの供給を制御する
    ためのプログラムであって,与えられたテキスト・デー
    タの言語を識別し,識別された言語に適した上記形態素
    解析手段に,与えられた上記テキスト・データを供給す
    るようにコンピュータを制御するためのプログラムを格
    納したコンピュータが読取り可能な記録媒体。
  29. 【請求項29】 複数の言語について設けられ,入力す
    るキーワードにもとづいてそのキーワードに関連する情
    報を出力する複数の検索手段へのキーワードの供給を制
    御するためのプログラムであって,与えられるキーワー
    ドの言語を識別し,識別された言語に適した上記検索手
    段に,与えられたキーワードを供給するようにコンピュ
    ータを制御するためのプログラムを格納したコンピュー
    タが読取り可能な記録媒体。
  30. 【請求項30】 与えられるテキスト・データの言語を
    識別し,識別された言語にもとづいて,上記テキスト・
    データによって表わされるテキストを出力する出力装置
    における上記テキストの出力形態を制御するようにコン
    ピュータを制御するためのプログラムを格納したコンピ
    ュータが読取り可能な記録媒体。
  31. 【請求項31】 上記出力装置が上記テキストを印刷す
    るプリンタであり,上記プリンタにおける印刷形態を制
    御するものである請求項30に記載の記録媒体。
  32. 【請求項32】 上記出力装置が上記テキストを表示す
    る表示装置であり,上記表示装置における表示形態を制
    御するものである請求項30に記載の記録媒体。
  33. 【請求項33】 2つの言語の複数の組合せについて設
    けられ,一の言語を他の言語に翻訳して出力する複数の
    翻訳手段へのテキスト・データの入力を切り替えるため
    のプログラムであって,与えられるテキスト・データの
    言語を識別し,識別された言語に適した上記翻訳手段
    に,与えられたテキスト・データを供給するようにコン
    ピュータを制御するためのプログラムを格納したコンピ
    ュータが読取り可能な記録媒体。
  34. 【請求項34】 翻訳により得られた上記他の言語を音
    声に変換して出力するプログラムをさらに備えた請求項
    33に記載の記録媒体。
  35. 【請求項35】 複数の言語についてのテキスト・デー
    タが記憶されており,入力するテキストの言語ごとに,
    入力されたテキスト・データをそのテキスト・データに
    よって表されるテキストの言語体系に適した言語に変換
    する言語入力手段が設けられている場合に,入力された
    テキスト・データをそれに適した上記言語入力手段に供
    給するためのプログラムであって,記憶されているテキ
    スト・データおよび入力されるテキスト・データの言語
    を識別し,上記識別結果にもとづいて,入力されたテキ
    スト・データをそれに適した言語の上記言語入力手段に
    与えるようにコンピュータを制御するためのプログラム
    を格納したコンピュータが読取り可能な記録媒体。
  36. 【請求項36】 複数の言語について設けられ,入力す
    るテキスト・データによって表わされるテキストを音声
    に変換して出力する複数の音声合成装置へのテキスト・
    データの入力を切り替えるためのプログラムであって,
    与えられるテキスト・データの言語を識別し,識別され
    た言語に適した上記音声合成装置に,与えられたテキス
    ト・データを供給するようにコンピュータを制御するた
    めのプログラムを格納したコンピュータが読取り可能な
    記録媒体。
  37. 【請求項37】 複数の言語について設けられた複数の
    処理手段へのテキスト・データの入力を切り替えるため
    のプログラムであって,与えられるテキスト・データの
    言語を識別し,識別された言語に適した上記処理手段
    に,与えられた上記テキスト・データを供給するように
    コンピュータを制御するためのプログラムを格納したコ
    ンピュータが読取り可能な記録媒体。
  38. 【請求項38】 得られた評価データに基づいて,与え
    られたテキスト・データの言語と文字コード系との組合
    せを判別する手段を欠いている請求項1に記載の言語識
    別装置。
JP10076479A 1997-03-14 1998-03-11 言語識別装置,言語識別方法および言語識別のプログラムを記録した記録媒体 Expired - Fee Related JP2943791B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10076479A JP2943791B2 (ja) 1997-03-14 1998-03-11 言語識別装置,言語識別方法および言語識別のプログラムを記録した記録媒体

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP7918097 1997-03-14
JP9-79180 1997-03-14
JP10076479A JP2943791B2 (ja) 1997-03-14 1998-03-11 言語識別装置,言語識別方法および言語識別のプログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JPH10320399A true JPH10320399A (ja) 1998-12-04
JP2943791B2 JP2943791B2 (ja) 1999-08-30

Family

ID=26417626

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10076479A Expired - Fee Related JP2943791B2 (ja) 1997-03-14 1998-03-11 言語識別装置,言語識別方法および言語識別のプログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2943791B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7035801B2 (en) 2000-09-06 2006-04-25 Telefonaktiebolaget L M Ericsson (Publ) Text language detection
KR100881000B1 (ko) * 2002-07-22 2009-02-03 삼성전자주식회사 이동 무선단말기의 문자 입력 방법
JP2010240844A (ja) * 2009-04-01 2010-10-28 Seiko Epson Corp ラベルプリンター、プログラムおよびラベルプリントシステム
CN110838290A (zh) * 2019-11-18 2020-02-25 中国银行股份有限公司 跨语言交流的语音机器人交互方法及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101584329B1 (ko) 2011-08-16 2016-01-21 엠파이어 테크놀로지 디벨롭먼트 엘엘씨 복수 개의 저장 장치로 데이터의 할당

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7035801B2 (en) 2000-09-06 2006-04-25 Telefonaktiebolaget L M Ericsson (Publ) Text language detection
KR100881000B1 (ko) * 2002-07-22 2009-02-03 삼성전자주식회사 이동 무선단말기의 문자 입력 방법
JP2010240844A (ja) * 2009-04-01 2010-10-28 Seiko Epson Corp ラベルプリンター、プログラムおよびラベルプリントシステム
CN110838290A (zh) * 2019-11-18 2020-02-25 中国银行股份有限公司 跨语言交流的语音机器人交互方法及装置

Also Published As

Publication number Publication date
JP2943791B2 (ja) 1999-08-30

Similar Documents

Publication Publication Date Title
KR100330801B1 (ko) 언어식별장치및언어식별방법
EP0686286B1 (en) Text input transliteration system
US5802482A (en) System and method for processing graphic language characters
JP3689954B2 (ja) 異種コード文字列転記装置および電子辞書
JP2943791B2 (ja) 言語識別装置,言語識別方法および言語識別のプログラムを記録した記録媒体
JP2000148754A (ja) マルチリンガル・システム,マルチリンガル処理方法およびマルチリンガル処理のプログラムを記憶した媒体
JPH0883280A (ja) 文書処理装置
JPH09153034A (ja) 文書作成装置及び文書作成方法
JP4050745B2 (ja) 文章入力システム
KR0164405B1 (ko) 한/영 혼용문 자동구분방법
JPH08272780A (ja) 中国語入力処理装置及び中国語入力処理方法及び言語処理装置及び言語処理方法
JP3273778B2 (ja) 仮名漢字変換装置及び仮名漢字変換方法
JPH11306176A (ja) 文字処理装置及び方法並びにその制御プログラムを記憶した媒体
JPH0612453A (ja) 未知語抽出登録装置
JPH08171568A (ja) 複数言語入力方法
JPH11203279A (ja) かな漢字変換装置、かな漢字変換方法、及び記憶媒体
JPH09146937A (ja) 文字列変換装置および文字列変換方法
JPS60207948A (ja) カナ漢字変換処理装置
JPH07182344A (ja) 機械翻訳装置
JPS62202259A (ja) 文書作成装置
JPH11338859A (ja) 氏名入力装置及びプログラム記録媒体
JPH0769909B2 (ja) 文書処理装置
JPH08241315A (ja) 文書処理装置の単語登録機構
JPH0769908B2 (ja) 文書処理装置
JPS63308664A (ja) 文字処理装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080625

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090625

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090625

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100625

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100625

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110625

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110625

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120625

Year of fee payment: 13

LAPS Cancellation because of no payment of annual fees