JPH10334096A - テキストデータ処理装置および記録媒体 - Google Patents
テキストデータ処理装置および記録媒体Info
- Publication number
- JPH10334096A JPH10334096A JP9147598A JP14759897A JPH10334096A JP H10334096 A JPH10334096 A JP H10334096A JP 9147598 A JP9147598 A JP 9147598A JP 14759897 A JP14759897 A JP 14759897A JP H10334096 A JPH10334096 A JP H10334096A
- Authority
- JP
- Japan
- Prior art keywords
- characters
- character
- display
- text data
- space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
できるようにする。 【解決手段】 検出部11で、入力された文字列の中か
ら、1個以上の連続する非表示文字(スペースなど)を
検出する。判定部12は、非表示文字の直前または直後
に位置する文字が、いずれもカタカナ文字または英数文
字であるか否かを判定する。処理部13は、カタカナと
カタカナの間に改行が挿入されている場合、これを削除
する。あるいは、英数文字と英数文字の間に非表示文字
が挿入されている場合、これを1個のスペースに置換す
る。
Description
理装置および記録媒体に関し、特に、漢字を含む文字列
のテキストデータを、より正確に解析することができる
ようにしたテキストデータ処理装置および記録媒体に関
する。
テキストデータを、形態素解析装置などにより、所定の
品詞毎に単語に予め分解する必要がある。翻訳装置は、
分解された単語を予め用意されている辞書などを参照し
て、翻訳することになる。
ては、入力されるテキストデータを1行ずつ処理する
か、あるいは句点または読点に着目して、1文章ずつ処
理するようにしている。
えば図7に番号1で示すように、「発病」の文字が途中
で改行されて、2行にわたって表示されているような場
合、正しい解析を行うことができなくなる。同様に、番
号2で示すように、テキストを整形するために、行頭に
スペースが挿入されているような場合にも、正しい解析
ができなくなることが多い。さらに、番号3で示すよう
に、「発病する」の文字の「病」と「する」の間に、誤
ってスペースが挿入されていると、やはり正しい解析が
できなくなることが多い。このことは、番号4で示すよ
うに、「病原菌」のように、「病」と「原」の間にテキ
ストを強調するために、意図的にスペースが挿入されて
いる場合も同様である。
ア」が「ストロマ」と「ティーニア」の部分に分割さ
れ、2行にわたって表示されている場合にも、番号1に
おける場合と同様に、正しい解析を行うことができな
い。
ロマティーニア」と「クリプトメリアエ」の間のスペー
スは、2つの単語を区分するスペースであるため、スペ
ースが存在した方が正しい解析を行うことができる。番
号7で示す「Stromania」と「cryptomeriae」の間のス
ペースも、2つの単語を区分するスペースであるため、
そのスペースが存在することにより、より正確な解析が
可能となる。
ている。中国語は、全ての文字が漢字であるため、各文
字の間にスペースを挿入しないと文章が見にくくなる。
そこで、番号8で示すように、各文字と文字の間にスペ
ースを挿入するようにしている。このスペースがある
と、やはり正しい解析をすることが困難になる。
にすれば、番号1または番号5で示すような、1つの単
語が複数の行にまたがってしまうことによる誤解析は起
こらないが、番号2乃至番号4、および番号8に示すよ
うなスペースの存在は、正しい解析の妨げとなる。
ものであり、文章の途中に改行やスペースが存在したと
しても、正確に解析を行うことができるようにするもの
である。
トデータ処理装置は、漢字を含む文字列のテキストデー
タ中の1個以上の連続する非表示文字を検出する検出手
段と、検出手段により検出された非表示文字の前後の文
字の種類を判定する判定手段と、判定手段の判定結果に
対応して非表示文字を処理する処理手段とを備えること
を特徴とする。
文字列のテキストデータ中の1個以上の連続する非表示
文字を検出する検出ステップと、検出ステップで検出さ
れた非表示文字の前後の文字の種類を判定する判定ステ
ップと、判定ステップの判定結果に対応して非表示文字
を処理する処理ステップとを備えるプログラムが記録さ
れていることを特徴とする。
においては、テキストデータ中の1個以上の連続する非
表示文字が検出されると、その非表示文字の前後の文字
の種類が判定され、その判定結果に対応して非表示文字
が処理される。
の文字が、いずれもカタカナまたは英数文字であるのか
否かを判定するようにすることができる。
カナであり、かつ、その非表示文字の数が2個以上であ
る場合、その非表示文字をすべて削除したり、非表示文
字の前後の文字が、いずれも英数文字である場合、その
非表示文字を1個のスペースに置換するようにすること
ができる。
も一方と、英語が混在可能な文字列とすることができ
る。
キストデータ中の1個以上の連続する非表示文字が検出
されると、その前後の文字の種類が判定され、判定結果
に対応して非表示文字が処理される。
するが、特許請求の範囲に記載の発明の各手段と以下の
実施の形態との対応関係を明らかにするために、各手段
の後の括弧内に、対応する実施の形態(但し一例)を付
加して本発明の特徴を記述すると、次のようになる。但
し勿論この記載は、各手段を記載したものに限定するこ
とを意味するものではない。
は、漢字を含む文字列のテキストデータ中の1個以上の
連続する非表示文字を検出する検出手段(例えば図1の
検出部11)と、検出手段により検出された非表示文字
の前後の文字の種類を判定する判定手段(例えば図1の
判定部12)と、判定手段の判定結果に対応して非表示
文字を処理する処理手段(例えば図1の処理部13)と
を備えることを特徴とする。
構成例を示すブロック図である。この構成例において
は、処理されるべき入力テキストが、非表示文字削除装
置1に入力されるようになされている。非表示文字削除
装置1は、入力されたテキストデータから1個以上の連
続する非表示文字を検出する検出部11を有している。
判定部12は、検出部11が1個以上の連続する非表示
文字を検出したとき、その非表示文字の直前と直後の文
字の種類を判定する。処理部13は、判定部12の判定
結果に対応して非表示文字の数を制限したり、削除した
りする処理を行う。
キストデータは、形態素解析装置2に入力され、形態素
解析が行われた後、翻訳装置3に供給され、翻訳される
ようになされている。
ャートを参照して説明する。最初にステップS1におい
て、検出部11に文字列のテキストデータが入力され
る。検出部11は、ステップS2において、1個以上の
連続する非表示文字を検出する。なお、ここにおける非
表示文字とは、スペース、タブ、改行、改ページなど、
表示されない文字のことを意味する。
続する非表示文字を検出したとき、ステップS3におい
て、その検出された1個以上の連続する非表示文字の直
前と直後の文字が、いずれもカタカナ文字であるか否か
を判定する。いずれもカタカナ文字である場合には、ス
テップS4に進み、その非表示文字が2個以上のスペー
ス文字であるか否か、またはその非表示文字がスペース
以外の非表示文字であるか否かが判定される。非表示文
字が2個以上のスペース文字である場合、またはスペー
ス以外の非表示文字である場合、ステップS5に進み、
処理部13が、その非表示文字の連続を全て削除する処
理を実行する。
ト」の文字が、「セグ」と「メント」の間に改行の非表
示文字が存在する状態で表示されているとき、改行が削
除され、「セグメント」の文字列とされる。そして、こ
の文字列がステップS9において出力される。
のスペースであると判定された場合、処理部13は、特
に処理を行わず、ステップS9に進み、その文字列をそ
のまま出力する。例えば、図4に示すように、「メモリ
セグメント」のように、「メモリ」と「セグメント」
の間に1個のスペースが存在する場合、その文字列はそ
のまま出力される。これは、この場合におけるスペース
は、単語を区分するために意図的に挿入されたものが多
いためである。
る非表示文字の直前と直後の文字が、ともにカタカナで
はないと判定された場合、ステップS6に進み、1個以
上の連続する非表示文字の直前と直後の文字が、いずれ
も英数文字であるか否かが、判定部12で判定される。
1個以上の連続する非表示文字の直前と直後の文字が、
いずれも英数文字である場合には、ステップS7に進
み、処理部13は、非表示文字の連続を1個のスペース
に置換する処理を実行する。
y」と「segment」の間に改行が存在する場合、改行を削
除して、「memory segment」の文字列に変換される。こ
れにより、異なる単語が1個のスペースを挟んで配置さ
れた状態となる。また、図5(B)に示すように、「me
mory segment」のように、非表示文字がそもそも1個の
スペースである場合には、ステップS7では、実質的に
何も行われずに、その文字列がステップS9においてそ
のまま出力される。このようにすることで、より正確な
解析が可能となる。
る非表示文字の直前と直後の文字がいずれも英数文字で
はないと判定された場合、ステップS8に進み、処理部
13は、非表示文字の連続を全て削除する処理を実行す
る。
と「segment」が1個のスペースを挟んで配列されてい
る場合、「方式segment」のように、スペースが削除さ
れる。また、図6(B)に示すように、「方式」と「装
置」の間に1個のスペースが存在する場合、そのスペー
スが削除され、「方式装置」のように配列される。この
ように配列された文字列がステップS9で出力される。
に、「このような要請に答えるのがセグ」、「メント方
式 segment system で」、および「ある」の3行の文
字列が非表示文字削除装置1に入力されると、「このよ
うな要請に答えるのがセグメント方式segment systemで
ある」の文字列が出力されることになる。
1から入力された文字列を、形態素解析する。すなわ
ち、入力された文字列を単語に分解し、各単語の品詞を
判定する。非表示文字削除装置1で不要な非表示文字が
削除されているので、1つの単語を複数の単語として誤
って解析してしまうようなことが防止される。
は、その品詞とともに翻訳装置3に供給され、翻訳され
る。正確な形態素解析が行われているので、その翻訳も
正確に行うことが可能となる。
文字列が中国語の文字列である場合には、各漢字と漢字
の間のスペースは、図6(B)に示した場合と同様の原
理により削除される。従って、正確な形態素解析が可能
となる。
エアで構成することもできるが、ソフトウエアプログラ
ムで構成することもできる。この場合、プログラムは、
磁気ディスク、CD-ROMディスクなどの記録媒体に記録し
たものを各ユーザに提供したり、非表示文字削除装置1
に予め内蔵されているハードディスクや固体メモリなど
に予め記憶させておくようにすることができる。あるい
はまた、プログラムをネットワークを介して伝送し、ハ
ードディスクや固体メモリに記憶させるようにしてもよ
い。
データ処理装置および請求項5に記載の記録媒体によれ
ば、1個以上の連続する非表示文字を検出し、検出され
た非表示文字の前後の文字の種類を判定して、その判定
結果に対応して非表示文字を処理するようにしたので、
正確な解析処理が可能となる。
ブロック図である。
フローチャートである。
る。
る。
る。
る。
Claims (5)
- 【請求項1】 漢字を含む文字列のテキストデータ中の
1個以上の連続する非表示文字を検出する検出手段と、 前記検出手段により検出された前記非表示文字の前後の
文字の種類を判定する判定手段と、 前記判定手段の判定結果に対応して前記非表示文字を処
理する処理手段とを備えることを特徴とするテキストデ
ータ処理装置。 - 【請求項2】 前記判定手段は、前記非表示文字の前後
の文字が、いずれもカタカナであるか否か、またはいず
れも英数文字であるか否かを判定することを特徴とする
請求項1に記載のテキストデータ処理装置。 - 【請求項3】 前記処理手段は、前記非表示文字の前後
の文字が、いずれもカタカナであり、かつ、その非表示
文字の数が2個以上である場合、その非表示文字をすべ
て削除し、前記非表示文字の前後の文字が、いずれも英
数文字である場合、その非表示文字を1個のスペースに
置換することを特徴とする請求項1または2に記載のテ
キストデータ処理装置。 - 【請求項4】 前記文字列は、日本語または中国語の少
なくとも一方と、英語が混在可能な文字列であることを
特徴とする請求項1、2または3に記載のテキストデー
タ処理装置。 - 【請求項5】 漢字を含む文字列のテキストデータ中の
1個以上の連続する非表示文字を検出する検出ステップ
と、 前記検出ステップで検出された前記非表示文字の前後の
文字の種類を判定する判定ステップと、 前記判定ステップの判定結果に対応して前記非表示文字
を処理する処理ステップとを備えるプログラムが記録さ
れていることを特徴とする記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP14759897A JP3758813B2 (ja) | 1997-06-05 | 1997-06-05 | テキストデータ処理装置および記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP14759897A JP3758813B2 (ja) | 1997-06-05 | 1997-06-05 | テキストデータ処理装置および記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10334096A true JPH10334096A (ja) | 1998-12-18 |
JP3758813B2 JP3758813B2 (ja) | 2006-03-22 |
Family
ID=15433972
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP14759897A Expired - Fee Related JP3758813B2 (ja) | 1997-06-05 | 1997-06-05 | テキストデータ処理装置および記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3758813B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111274765A (zh) * | 2019-06-01 | 2020-06-12 | 向英 | 一种文本处理方法、软件、设备 |
-
1997
- 1997-06-05 JP JP14759897A patent/JP3758813B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111274765A (zh) * | 2019-06-01 | 2020-06-12 | 向英 | 一种文本处理方法、软件、设备 |
Also Published As
Publication number | Publication date |
---|---|
JP3758813B2 (ja) | 2006-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20060149557A1 (en) | Sentence displaying method, information processing system, and program product | |
US9218066B2 (en) | Method for character correction | |
JP5314195B2 (ja) | 自然言語処理装置、方法、及びプログラム | |
KR20110102358A (ko) | 오역의 검출을 지원하는 장치 및 방법 | |
KR20040065468A (ko) | 특허문서의 다국어 번역 처리방법 및 이 번역소프트웨어를 기록한 판독 가능한 기록매체 | |
JPH10334096A (ja) | テキストデータ処理装置および記録媒体 | |
JP6933395B2 (ja) | 自動翻訳装置及び自動翻訳プログラム | |
JPH0619962A (ja) | テキスト分割装置 | |
JPS6118074A (ja) | プレ・エデイツト方式 | |
JP2021144273A (ja) | 文字入力装置、文字入力方法、および、文字入力プログラム | |
JP7223450B2 (ja) | 自動翻訳装置及び自動翻訳プログラム | |
JP3099792B2 (ja) | 単語区切り処理装置、単語区切り処理方法、および単語区切り処理プログラム記録媒体 | |
JP2902138B2 (ja) | 誤読文字修正方法 | |
JP4032894B2 (ja) | 形態素処理方法および装置 | |
JPH087046A (ja) | 文書認識装置 | |
JP3599734B2 (ja) | 文章校正装置およびその方法 | |
JPH10240736A (ja) | 形態素解析装置 | |
JP3236868B2 (ja) | 文書処理装置 | |
JP2683116B2 (ja) | 罫線の除去方法 | |
JPH05233619A (ja) | 日本語文章誤り訂正方法およびその装置 | |
JPS60189573A (ja) | 文字変換装置 | |
JPH05342260A (ja) | 単語綴りチェック装置 | |
JPH08335250A (ja) | 誤字訂正装置 | |
JPH05158974A (ja) | 英日機械翻訳システム | |
JPH05225183A (ja) | 日本文単語誤り自動検出装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20021218 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20051227 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090113 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100113 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100113 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110113 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110113 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120113 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |