JPH10334096A

JPH10334096A - テキストデータ処理装置および記録媒体

Info

Publication number: JPH10334096A
Application number: JP9147598A
Authority: JP
Inventors: Tomoyuki Tada; 多田　　智之; Toshihiro Fujinami; 稔弘藤並; Hidenobu Kaneoka; 秀信金岡; Shinichi Mukogawa; 信一向川; Yasuyuki Furukawa; 靖之古河
Original assignee: Omron Corp; Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 1997-06-05
Filing date: 1997-06-05
Publication date: 1998-12-18
Anticipated expiration: 2017-06-05
Also published as: JP3758813B2

Abstract

(57)【要約】【課題】より正確にテキストデータを解析することが
できるようにする。【解決手段】検出部１１で、入力された文字列の中か
ら、１個以上の連続する非表示文字（スペースなど）を
検出する。判定部１２は、非表示文字の直前または直後
に位置する文字が、いずれもカタカナ文字または英数文
字であるか否かを判定する。処理部１３は、カタカナと
カタカナの間に改行が挿入されている場合、これを削除
する。あるいは、英数文字と英数文字の間に非表示文字
が挿入されている場合、これを１個のスペースに置換す
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、テキストデータ処
理装置および記録媒体に関し、特に、漢字を含む文字列
のテキストデータを、より正確に解析することができる
ようにしたテキストデータ処理装置および記録媒体に関
する。

【０００２】

【従来の技術】翻訳装置で翻訳を行う場合、入力される
テキストデータを、形態素解析装置などにより、所定の
品詞毎に単語に予め分解する必要がある。翻訳装置は、
分解された単語を予め用意されている辞書などを参照し
て、翻訳することになる。

【０００３】

【発明が解決しようとする課題】形態素解析装置におい
ては、入力されるテキストデータを１行ずつ処理する
か、あるいは句点または読点に着目して、１文章ずつ処
理するようにしている。

【０００４】しかしながら、１行ずつ処理する場合、例
えば図７に番号１で示すように、「発病」の文字が途中
で改行されて、２行にわたって表示されているような場
合、正しい解析を行うことができなくなる。同様に、番
号２で示すように、テキストを整形するために、行頭に
スペースが挿入されているような場合にも、正しい解析
ができなくなることが多い。さらに、番号３で示すよう
に、「発病する」の文字の「病」と「する」の間に、誤
ってスペースが挿入されていると、やはり正しい解析が
できなくなることが多い。このことは、番号４で示すよ
うに、「病原菌」のように、「病」と「原」の間にテキ
ストを強調するために、意図的にスペースが挿入されて
いる場合も同様である。

【０００５】番号５で示すように、「ストロマティーニ
ア」が「ストロマ」と「ティーニア」の部分に分割さ
れ、２行にわたって表示されている場合にも、番号１に
おける場合と同様に、正しい解析を行うことができな
い。

【０００６】しかしながら、例えば番号６で示す「スト
ロマティーニア」と「クリプトメリアエ」の間のスペー
スは、２つの単語を区分するスペースであるため、スペ
ースが存在した方が正しい解析を行うことができる。番
号７で示す「Stromania」と「cryptomeriae」の間のス
ペースも、２つの単語を区分するスペースであるため、
そのスペースが存在することにより、より正確な解析が
可能となる。

【０００７】図８は、中国語のテキストの表示例を示し
ている。中国語は、全ての文字が漢字であるため、各文
字の間にスペースを挿入しないと文章が見にくくなる。
そこで、番号８で示すように、各文字と文字の間にスペ
ースを挿入するようにしている。このスペースがある
と、やはり正しい解析をすることが困難になる。

【０００８】句読点に着目して１文章ずつ処理するよう
にすれば、番号１または番号５で示すような、１つの単
語が複数の行にまたがってしまうことによる誤解析は起
こらないが、番号２乃至番号４、および番号８に示すよ
うなスペースの存在は、正しい解析の妨げとなる。

【０００９】本発明はこのような状況に鑑みてなされた
ものであり、文章の途中に改行やスペースが存在したと
しても、正確に解析を行うことができるようにするもの
である。

【００１０】

【課題を解決するための手段】請求項１に記載のテキス
トデータ処理装置は、漢字を含む文字列のテキストデー
タ中の１個以上の連続する非表示文字を検出する検出手
段と、検出手段により検出された非表示文字の前後の文
字の種類を判定する判定手段と、判定手段の判定結果に
対応して非表示文字を処理する処理手段とを備えること
を特徴とする。

【００１１】請求項５に記載の記録媒体は、漢字を含む
文字列のテキストデータ中の１個以上の連続する非表示
文字を検出する検出ステップと、検出ステップで検出さ
れた非表示文字の前後の文字の種類を判定する判定ステ
ップと、判定ステップの判定結果に対応して非表示文字
を処理する処理ステップとを備えるプログラムが記録さ
れていることを特徴とする。

【００１２】請求項１に記載のテキストデータ処理装置
においては、テキストデータ中の１個以上の連続する非
表示文字が検出されると、その非表示文字の前後の文字
の種類が判定され、その判定結果に対応して非表示文字
が処理される。

【００１３】この判定にあたっては、非表示文字の前後
の文字が、いずれもカタカナまたは英数文字であるのか
否かを判定するようにすることができる。

【００１４】非表示文字の前後の文字が、いずれもカタ
カナであり、かつ、その非表示文字の数が２個以上であ
る場合、その非表示文字をすべて削除したり、非表示文
字の前後の文字が、いずれも英数文字である場合、その
非表示文字を１個のスペースに置換するようにすること
ができる。

【００１５】文字列は、日本語または中国語の少なくと
も一方と、英語が混在可能な文字列とすることができ
る。

【００１６】請求項５に記載の記録媒体においては、テ
キストデータ中の１個以上の連続する非表示文字が検出
されると、その前後の文字の種類が判定され、判定結果
に対応して非表示文字が処理される。

【００１７】

【発明の実施の形態】以下に本発明の実施の形態を説明
するが、特許請求の範囲に記載の発明の各手段と以下の
実施の形態との対応関係を明らかにするために、各手段
の後の括弧内に、対応する実施の形態（但し一例）を付
加して本発明の特徴を記述すると、次のようになる。但
し勿論この記載は、各手段を記載したものに限定するこ
とを意味するものではない。

【００１８】請求項１に記載のテキストデータ処理装置
は、漢字を含む文字列のテキストデータ中の１個以上の
連続する非表示文字を検出する検出手段（例えば図１の
検出部１１）と、検出手段により検出された非表示文字
の前後の文字の種類を判定する判定手段（例えば図１の
判定部１２）と、判定手段の判定結果に対応して非表示
文字を処理する処理手段（例えば図１の処理部１３）と
を備えることを特徴とする。

【００１９】図１は、本発明を適用した翻訳システムの
構成例を示すブロック図である。この構成例において
は、処理されるべき入力テキストが、非表示文字削除装
置１に入力されるようになされている。非表示文字削除
装置１は、入力されたテキストデータから１個以上の連
続する非表示文字を検出する検出部１１を有している。
判定部１２は、検出部１１が１個以上の連続する非表示
文字を検出したとき、その非表示文字の直前と直後の文
字の種類を判定する。処理部１３は、判定部１２の判定
結果に対応して非表示文字の数を制限したり、削除した
りする処理を行う。

【００２０】非表示文字削除装置１で処理された入力テ
キストデータは、形態素解析装置２に入力され、形態素
解析が行われた後、翻訳装置３に供給され、翻訳される
ようになされている。

【００２１】次に、その動作について、図２のフローチ
ャートを参照して説明する。最初にステップＳ１におい
て、検出部１１に文字列のテキストデータが入力され
る。検出部１１は、ステップＳ２において、１個以上の
連続する非表示文字を検出する。なお、ここにおける非
表示文字とは、スペース、タブ、改行、改ページなど、
表示されない文字のことを意味する。

【００２２】判定部１２は、検出部１１が１個以上の連
続する非表示文字を検出したとき、ステップＳ３におい
て、その検出された１個以上の連続する非表示文字の直
前と直後の文字が、いずれもカタカナ文字であるか否か
を判定する。いずれもカタカナ文字である場合には、ス
テップＳ４に進み、その非表示文字が２個以上のスペー
ス文字であるか否か、またはその非表示文字がスペース
以外の非表示文字であるか否かが判定される。非表示文
字が２個以上のスペース文字である場合、またはスペー
ス以外の非表示文字である場合、ステップＳ５に進み、
処理部１３が、その非表示文字の連続を全て削除する処
理を実行する。

【００２３】例えば、図３に示すように、「セグメン
ト」の文字が、「セグ」と「メント」の間に改行の非表
示文字が存在する状態で表示されているとき、改行が削
除され、「セグメント」の文字列とされる。そして、こ
の文字列がステップＳ９において出力される。

【００２４】ステップＳ４において、非表示文字が１個
のスペースであると判定された場合、処理部１３は、特
に処理を行わず、ステップＳ９に進み、その文字列をそ
のまま出力する。例えば、図４に示すように、「メモリ
セグメント」のように、「メモリ」と「セグメント」
の間に１個のスペースが存在する場合、その文字列はそ
のまま出力される。これは、この場合におけるスペース
は、単語を区分するために意図的に挿入されたものが多
いためである。

【００２５】ステップＳ３において、１個以上の連続す
る非表示文字の直前と直後の文字が、ともにカタカナで
はないと判定された場合、ステップＳ６に進み、１個以
上の連続する非表示文字の直前と直後の文字が、いずれ
も英数文字であるか否かが、判定部１２で判定される。
１個以上の連続する非表示文字の直前と直後の文字が、
いずれも英数文字である場合には、ステップＳ７に進
み、処理部１３は、非表示文字の連続を１個のスペース
に置換する処理を実行する。

【００２６】例えば図５（Ａ）に示すように、「memor
y」と「segment」の間に改行が存在する場合、改行を削
除して、「memory segment」の文字列に変換される。こ
れにより、異なる単語が１個のスペースを挟んで配置さ
れた状態となる。また、図５（Ｂ）に示すように、「me
mory segment」のように、非表示文字がそもそも１個の
スペースである場合には、ステップＳ７では、実質的に
何も行われずに、その文字列がステップＳ９においてそ
のまま出力される。このようにすることで、より正確な
解析が可能となる。

【００２７】ステップＳ６において、１個以上の連続す
る非表示文字の直前と直後の文字がいずれも英数文字で
はないと判定された場合、ステップＳ８に進み、処理部
１３は、非表示文字の連続を全て削除する処理を実行す
る。

【００２８】例えば図６（Ａ）に示すように、「方式」
と「segment」が１個のスペースを挟んで配列されてい
る場合、「方式segment」のように、スペースが削除さ
れる。また、図６（Ｂ）に示すように、「方式」と「装
置」の間に１個のスペースが存在する場合、そのスペー
スが削除され、「方式装置」のように配列される。この
ように配列された文字列がステップＳ９で出力される。

【００２９】以上のようにして、例えば図１に示すよう
に、「このような要請に答えるのがセグ」、「メント方
式 segment system で」、および「ある」の３行の文
字列が非表示文字削除装置１に入力されると、「このよ
うな要請に答えるのがセグメント方式segment systemで
ある」の文字列が出力されることになる。

【００３０】形態素解析装置２は、非表示文字削除装置
１から入力された文字列を、形態素解析する。すなわ
ち、入力された文字列を単語に分解し、各単語の品詞を
判定する。非表示文字削除装置１で不要な非表示文字が
削除されているので、１つの単語を複数の単語として誤
って解析してしまうようなことが防止される。

【００３１】形態素解析装置２で形態素解析された単語
は、その品詞とともに翻訳装置３に供給され、翻訳され
る。正確な形態素解析が行われているので、その翻訳も
正確に行うことが可能となる。

【００３２】なお、非表示文字削除装置１に入力される
文字列が中国語の文字列である場合には、各漢字と漢字
の間のスペースは、図６（Ｂ）に示した場合と同様の原
理により削除される。従って、正確な形態素解析が可能
となる。

【００３３】なお、非表示文字削除装置１は、ハードウ
エアで構成することもできるが、ソフトウエアプログラ
ムで構成することもできる。この場合、プログラムは、
磁気ディスク、CD-ROMディスクなどの記録媒体に記録し
たものを各ユーザに提供したり、非表示文字削除装置１
に予め内蔵されているハードディスクや固体メモリなど
に予め記憶させておくようにすることができる。あるい
はまた、プログラムをネットワークを介して伝送し、ハ
ードディスクや固体メモリに記憶させるようにしてもよ
い。

【００３４】

【発明の効果】以上の如く、請求項１に記載のテキスト
データ処理装置および請求項５に記載の記録媒体によれ
ば、１個以上の連続する非表示文字を検出し、検出され
た非表示文字の前後の文字の種類を判定して、その判定
結果に対応して非表示文字を処理するようにしたので、
正確な解析処理が可能となる。

【図面の簡単な説明】

【図１】本発明を適用した翻訳システムの構成例を示す
ブロック図である。

【図２】図１の非表示文字削除装置１の処理を説明する
フローチャートである。

【図３】図２のフローチャートの処理を説明する図であ
る。

【図４】図２のフローチャートの処理を説明する図であ
る。

【図５】図２のフローチャートの処理を説明する図であ
る。

【図６】図２のフローチャートの処理を説明する図であ
る。

【図７】日本語テキストの表示例を示す図である。

【図８】中国語テキストの表示例を示す図である。

【符号の説明】

１非表示文字削除装置２形態素解析装置３翻訳装置１１検出部１２判定部１３処理部

───────────────────────────────────────────────────── フロントページの続き (72)発明者向川信一京都府京都市右京区花園土堂町10番地オムロン株式会社内 (72)発明者古河靖之京都府京都市右京区花園土堂町10番地オムロン株式会社内

Claims

【特許請求の範囲】

【請求項１】漢字を含む文字列のテキストデータ中の
１個以上の連続する非表示文字を検出する検出手段と、前記検出手段により検出された前記非表示文字の前後の
文字の種類を判定する判定手段と、前記判定手段の判定結果に対応して前記非表示文字を処
理する処理手段とを備えることを特徴とするテキストデ
ータ処理装置。
【請求項２】前記判定手段は、前記非表示文字の前後
の文字が、いずれもカタカナであるか否か、またはいず
れも英数文字であるか否かを判定することを特徴とする
請求項１に記載のテキストデータ処理装置。
【請求項３】前記処理手段は、前記非表示文字の前後
の文字が、いずれもカタカナであり、かつ、その非表示
文字の数が２個以上である場合、その非表示文字をすべ
て削除し、前記非表示文字の前後の文字が、いずれも英
数文字である場合、その非表示文字を１個のスペースに
置換することを特徴とする請求項１または２に記載のテ
キストデータ処理装置。
【請求項４】前記文字列は、日本語または中国語の少
なくとも一方と、英語が混在可能な文字列であることを
特徴とする請求項１、２または３に記載のテキストデー
タ処理装置。
【請求項５】漢字を含む文字列のテキストデータ中の
１個以上の連続する非表示文字を検出する検出ステップ
と、前記検出ステップで検出された前記非表示文字の前後の
文字の種類を判定する判定ステップと、前記判定ステップの判定結果に対応して前記非表示文字
を処理する処理ステップとを備えるプログラムが記録さ
れていることを特徴とする記録媒体。