JPH10334096A - テキストデータ処理装置および記録媒体 - Google Patents

テキストデータ処理装置および記録媒体

Info

Publication number
JPH10334096A
JPH10334096A JP9147598A JP14759897A JPH10334096A JP H10334096 A JPH10334096 A JP H10334096A JP 9147598 A JP9147598 A JP 9147598A JP 14759897 A JP14759897 A JP 14759897A JP H10334096 A JPH10334096 A JP H10334096A
Authority
JP
Japan
Prior art keywords
characters
character
display
text data
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9147598A
Other languages
English (en)
Other versions
JP3758813B2 (ja
Inventor
Tomoyuki Tada
多田  智之
Toshihiro Fujinami
稔弘 藤並
Hidenobu Kaneoka
秀信 金岡
Shinichi Mukogawa
信一 向川
Yasuyuki Furukawa
靖之 古河
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Omron Tateisi Electronics Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp, Omron Tateisi Electronics Co filed Critical Omron Corp
Priority to JP14759897A priority Critical patent/JP3758813B2/ja
Publication of JPH10334096A publication Critical patent/JPH10334096A/ja
Application granted granted Critical
Publication of JP3758813B2 publication Critical patent/JP3758813B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 より正確にテキストデータを解析することが
できるようにする。 【解決手段】 検出部11で、入力された文字列の中か
ら、1個以上の連続する非表示文字(スペースなど)を
検出する。判定部12は、非表示文字の直前または直後
に位置する文字が、いずれもカタカナ文字または英数文
字であるか否かを判定する。処理部13は、カタカナと
カタカナの間に改行が挿入されている場合、これを削除
する。あるいは、英数文字と英数文字の間に非表示文字
が挿入されている場合、これを1個のスペースに置換す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、テキストデータ処
理装置および記録媒体に関し、特に、漢字を含む文字列
のテキストデータを、より正確に解析することができる
ようにしたテキストデータ処理装置および記録媒体に関
する。
【0002】
【従来の技術】翻訳装置で翻訳を行う場合、入力される
テキストデータを、形態素解析装置などにより、所定の
品詞毎に単語に予め分解する必要がある。翻訳装置は、
分解された単語を予め用意されている辞書などを参照し
て、翻訳することになる。
【0003】
【発明が解決しようとする課題】形態素解析装置におい
ては、入力されるテキストデータを1行ずつ処理する
か、あるいは句点または読点に着目して、1文章ずつ処
理するようにしている。
【0004】しかしながら、1行ずつ処理する場合、例
えば図7に番号1で示すように、「発病」の文字が途中
で改行されて、2行にわたって表示されているような場
合、正しい解析を行うことができなくなる。同様に、番
号2で示すように、テキストを整形するために、行頭に
スペースが挿入されているような場合にも、正しい解析
ができなくなることが多い。さらに、番号3で示すよう
に、「発病する」の文字の「病」と「する」の間に、誤
ってスペースが挿入されていると、やはり正しい解析が
できなくなることが多い。このことは、番号4で示すよ
うに、「病原菌」のように、「病」と「原」の間にテキ
ストを強調するために、意図的にスペースが挿入されて
いる場合も同様である。
【0005】番号5で示すように、「ストロマティーニ
ア」が「ストロマ」と「ティーニア」の部分に分割さ
れ、2行にわたって表示されている場合にも、番号1に
おける場合と同様に、正しい解析を行うことができな
い。
【0006】しかしながら、例えば番号6で示す「スト
ロマティーニア」と「クリプトメリアエ」の間のスペー
スは、2つの単語を区分するスペースであるため、スペ
ースが存在した方が正しい解析を行うことができる。番
号7で示す「Stromania」と「cryptomeriae」の間のス
ペースも、2つの単語を区分するスペースであるため、
そのスペースが存在することにより、より正確な解析が
可能となる。
【0007】図8は、中国語のテキストの表示例を示し
ている。中国語は、全ての文字が漢字であるため、各文
字の間にスペースを挿入しないと文章が見にくくなる。
そこで、番号8で示すように、各文字と文字の間にスペ
ースを挿入するようにしている。このスペースがある
と、やはり正しい解析をすることが困難になる。
【0008】句読点に着目して1文章ずつ処理するよう
にすれば、番号1または番号5で示すような、1つの単
語が複数の行にまたがってしまうことによる誤解析は起
こらないが、番号2乃至番号4、および番号8に示すよ
うなスペースの存在は、正しい解析の妨げとなる。
【0009】本発明はこのような状況に鑑みてなされた
ものであり、文章の途中に改行やスペースが存在したと
しても、正確に解析を行うことができるようにするもの
である。
【0010】
【課題を解決するための手段】請求項1に記載のテキス
トデータ処理装置は、漢字を含む文字列のテキストデー
タ中の1個以上の連続する非表示文字を検出する検出手
段と、検出手段により検出された非表示文字の前後の文
字の種類を判定する判定手段と、判定手段の判定結果に
対応して非表示文字を処理する処理手段とを備えること
を特徴とする。
【0011】請求項5に記載の記録媒体は、漢字を含む
文字列のテキストデータ中の1個以上の連続する非表示
文字を検出する検出ステップと、検出ステップで検出さ
れた非表示文字の前後の文字の種類を判定する判定ステ
ップと、判定ステップの判定結果に対応して非表示文字
を処理する処理ステップとを備えるプログラムが記録さ
れていることを特徴とする。
【0012】請求項1に記載のテキストデータ処理装置
においては、テキストデータ中の1個以上の連続する非
表示文字が検出されると、その非表示文字の前後の文字
の種類が判定され、その判定結果に対応して非表示文字
が処理される。
【0013】この判定にあたっては、非表示文字の前後
の文字が、いずれもカタカナまたは英数文字であるのか
否かを判定するようにすることができる。
【0014】非表示文字の前後の文字が、いずれもカタ
カナであり、かつ、その非表示文字の数が2個以上であ
る場合、その非表示文字をすべて削除したり、非表示文
字の前後の文字が、いずれも英数文字である場合、その
非表示文字を1個のスペースに置換するようにすること
ができる。
【0015】文字列は、日本語または中国語の少なくと
も一方と、英語が混在可能な文字列とすることができ
る。
【0016】請求項5に記載の記録媒体においては、テ
キストデータ中の1個以上の連続する非表示文字が検出
されると、その前後の文字の種類が判定され、判定結果
に対応して非表示文字が処理される。
【0017】
【発明の実施の形態】以下に本発明の実施の形態を説明
するが、特許請求の範囲に記載の発明の各手段と以下の
実施の形態との対応関係を明らかにするために、各手段
の後の括弧内に、対応する実施の形態(但し一例)を付
加して本発明の特徴を記述すると、次のようになる。但
し勿論この記載は、各手段を記載したものに限定するこ
とを意味するものではない。
【0018】請求項1に記載のテキストデータ処理装置
は、漢字を含む文字列のテキストデータ中の1個以上の
連続する非表示文字を検出する検出手段(例えば図1の
検出部11)と、検出手段により検出された非表示文字
の前後の文字の種類を判定する判定手段(例えば図1の
判定部12)と、判定手段の判定結果に対応して非表示
文字を処理する処理手段(例えば図1の処理部13)と
を備えることを特徴とする。
【0019】図1は、本発明を適用した翻訳システムの
構成例を示すブロック図である。この構成例において
は、処理されるべき入力テキストが、非表示文字削除装
置1に入力されるようになされている。非表示文字削除
装置1は、入力されたテキストデータから1個以上の連
続する非表示文字を検出する検出部11を有している。
判定部12は、検出部11が1個以上の連続する非表示
文字を検出したとき、その非表示文字の直前と直後の文
字の種類を判定する。処理部13は、判定部12の判定
結果に対応して非表示文字の数を制限したり、削除した
りする処理を行う。
【0020】非表示文字削除装置1で処理された入力テ
キストデータは、形態素解析装置2に入力され、形態素
解析が行われた後、翻訳装置3に供給され、翻訳される
ようになされている。
【0021】次に、その動作について、図2のフローチ
ャートを参照して説明する。最初にステップS1におい
て、検出部11に文字列のテキストデータが入力され
る。検出部11は、ステップS2において、1個以上の
連続する非表示文字を検出する。なお、ここにおける非
表示文字とは、スペース、タブ、改行、改ページなど、
表示されない文字のことを意味する。
【0022】判定部12は、検出部11が1個以上の連
続する非表示文字を検出したとき、ステップS3におい
て、その検出された1個以上の連続する非表示文字の直
前と直後の文字が、いずれもカタカナ文字であるか否か
を判定する。いずれもカタカナ文字である場合には、ス
テップS4に進み、その非表示文字が2個以上のスペー
ス文字であるか否か、またはその非表示文字がスペース
以外の非表示文字であるか否かが判定される。非表示文
字が2個以上のスペース文字である場合、またはスペー
ス以外の非表示文字である場合、ステップS5に進み、
処理部13が、その非表示文字の連続を全て削除する処
理を実行する。
【0023】例えば、図3に示すように、「セグメン
ト」の文字が、「セグ」と「メント」の間に改行の非表
示文字が存在する状態で表示されているとき、改行が削
除され、「セグメント」の文字列とされる。そして、こ
の文字列がステップS9において出力される。
【0024】ステップS4において、非表示文字が1個
のスペースであると判定された場合、処理部13は、特
に処理を行わず、ステップS9に進み、その文字列をそ
のまま出力する。例えば、図4に示すように、「メモリ
セグメント」のように、「メモリ」と「セグメント」
の間に1個のスペースが存在する場合、その文字列はそ
のまま出力される。これは、この場合におけるスペース
は、単語を区分するために意図的に挿入されたものが多
いためである。
【0025】ステップS3において、1個以上の連続す
る非表示文字の直前と直後の文字が、ともにカタカナで
はないと判定された場合、ステップS6に進み、1個以
上の連続する非表示文字の直前と直後の文字が、いずれ
も英数文字であるか否かが、判定部12で判定される。
1個以上の連続する非表示文字の直前と直後の文字が、
いずれも英数文字である場合には、ステップS7に進
み、処理部13は、非表示文字の連続を1個のスペース
に置換する処理を実行する。
【0026】例えば図5(A)に示すように、「memor
y」と「segment」の間に改行が存在する場合、改行を削
除して、「memory segment」の文字列に変換される。こ
れにより、異なる単語が1個のスペースを挟んで配置さ
れた状態となる。また、図5(B)に示すように、「me
mory segment」のように、非表示文字がそもそも1個の
スペースである場合には、ステップS7では、実質的に
何も行われずに、その文字列がステップS9においてそ
のまま出力される。このようにすることで、より正確な
解析が可能となる。
【0027】ステップS6において、1個以上の連続す
る非表示文字の直前と直後の文字がいずれも英数文字で
はないと判定された場合、ステップS8に進み、処理部
13は、非表示文字の連続を全て削除する処理を実行す
る。
【0028】例えば図6(A)に示すように、「方式」
と「segment」が1個のスペースを挟んで配列されてい
る場合、「方式segment」のように、スペースが削除さ
れる。また、図6(B)に示すように、「方式」と「装
置」の間に1個のスペースが存在する場合、そのスペー
スが削除され、「方式装置」のように配列される。この
ように配列された文字列がステップS9で出力される。
【0029】以上のようにして、例えば図1に示すよう
に、「このような要請に答えるのがセグ」、「メント方
式 segment system で」、および「ある」の3行の文
字列が非表示文字削除装置1に入力されると、「このよ
うな要請に答えるのがセグメント方式segment systemで
ある」の文字列が出力されることになる。
【0030】形態素解析装置2は、非表示文字削除装置
1から入力された文字列を、形態素解析する。すなわ
ち、入力された文字列を単語に分解し、各単語の品詞を
判定する。非表示文字削除装置1で不要な非表示文字が
削除されているので、1つの単語を複数の単語として誤
って解析してしまうようなことが防止される。
【0031】形態素解析装置2で形態素解析された単語
は、その品詞とともに翻訳装置3に供給され、翻訳され
る。正確な形態素解析が行われているので、その翻訳も
正確に行うことが可能となる。
【0032】なお、非表示文字削除装置1に入力される
文字列が中国語の文字列である場合には、各漢字と漢字
の間のスペースは、図6(B)に示した場合と同様の原
理により削除される。従って、正確な形態素解析が可能
となる。
【0033】なお、非表示文字削除装置1は、ハードウ
エアで構成することもできるが、ソフトウエアプログラ
ムで構成することもできる。この場合、プログラムは、
磁気ディスク、CD-ROMディスクなどの記録媒体に記録し
たものを各ユーザに提供したり、非表示文字削除装置1
に予め内蔵されているハードディスクや固体メモリなど
に予め記憶させておくようにすることができる。あるい
はまた、プログラムをネットワークを介して伝送し、ハ
ードディスクや固体メモリに記憶させるようにしてもよ
い。
【0034】
【発明の効果】以上の如く、請求項1に記載のテキスト
データ処理装置および請求項5に記載の記録媒体によれ
ば、1個以上の連続する非表示文字を検出し、検出され
た非表示文字の前後の文字の種類を判定して、その判定
結果に対応して非表示文字を処理するようにしたので、
正確な解析処理が可能となる。
【図面の簡単な説明】
【図1】本発明を適用した翻訳システムの構成例を示す
ブロック図である。
【図2】図1の非表示文字削除装置1の処理を説明する
フローチャートである。
【図3】図2のフローチャートの処理を説明する図であ
る。
【図4】図2のフローチャートの処理を説明する図であ
る。
【図5】図2のフローチャートの処理を説明する図であ
る。
【図6】図2のフローチャートの処理を説明する図であ
る。
【図7】日本語テキストの表示例を示す図である。
【図8】中国語テキストの表示例を示す図である。
【符号の説明】
1 非表示文字削除装置 2 形態素解析装置 3 翻訳装置 11 検出部 12 判定部 13 処理部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 向川 信一 京都府京都市右京区花園土堂町10番地 オ ムロン株式会社内 (72)発明者 古河 靖之 京都府京都市右京区花園土堂町10番地 オ ムロン株式会社内

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 漢字を含む文字列のテキストデータ中の
    1個以上の連続する非表示文字を検出する検出手段と、 前記検出手段により検出された前記非表示文字の前後の
    文字の種類を判定する判定手段と、 前記判定手段の判定結果に対応して前記非表示文字を処
    理する処理手段とを備えることを特徴とするテキストデ
    ータ処理装置。
  2. 【請求項2】 前記判定手段は、前記非表示文字の前後
    の文字が、いずれもカタカナであるか否か、またはいず
    れも英数文字であるか否かを判定することを特徴とする
    請求項1に記載のテキストデータ処理装置。
  3. 【請求項3】 前記処理手段は、前記非表示文字の前後
    の文字が、いずれもカタカナであり、かつ、その非表示
    文字の数が2個以上である場合、その非表示文字をすべ
    て削除し、前記非表示文字の前後の文字が、いずれも英
    数文字である場合、その非表示文字を1個のスペースに
    置換することを特徴とする請求項1または2に記載のテ
    キストデータ処理装置。
  4. 【請求項4】 前記文字列は、日本語または中国語の少
    なくとも一方と、英語が混在可能な文字列であることを
    特徴とする請求項1、2または3に記載のテキストデー
    タ処理装置。
  5. 【請求項5】 漢字を含む文字列のテキストデータ中の
    1個以上の連続する非表示文字を検出する検出ステップ
    と、 前記検出ステップで検出された前記非表示文字の前後の
    文字の種類を判定する判定ステップと、 前記判定ステップの判定結果に対応して前記非表示文字
    を処理する処理ステップとを備えるプログラムが記録さ
    れていることを特徴とする記録媒体。
JP14759897A 1997-06-05 1997-06-05 テキストデータ処理装置および記録媒体 Expired - Fee Related JP3758813B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP14759897A JP3758813B2 (ja) 1997-06-05 1997-06-05 テキストデータ処理装置および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP14759897A JP3758813B2 (ja) 1997-06-05 1997-06-05 テキストデータ処理装置および記録媒体

Publications (2)

Publication Number Publication Date
JPH10334096A true JPH10334096A (ja) 1998-12-18
JP3758813B2 JP3758813B2 (ja) 2006-03-22

Family

ID=15433972

Family Applications (1)

Application Number Title Priority Date Filing Date
JP14759897A Expired - Fee Related JP3758813B2 (ja) 1997-06-05 1997-06-05 テキストデータ処理装置および記録媒体

Country Status (1)

Country Link
JP (1) JP3758813B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274765A (zh) * 2019-06-01 2020-06-12 向英 一种文本处理方法、软件、设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274765A (zh) * 2019-06-01 2020-06-12 向英 一种文本处理方法、软件、设备

Also Published As

Publication number Publication date
JP3758813B2 (ja) 2006-03-22

Similar Documents

Publication Publication Date Title
US20060149557A1 (en) Sentence displaying method, information processing system, and program product
US9218066B2 (en) Method for character correction
JP5314195B2 (ja) 自然言語処理装置、方法、及びプログラム
KR20110102358A (ko) 오역의 검출을 지원하는 장치 및 방법
KR20040065468A (ko) 특허문서의 다국어 번역 처리방법 및 이 번역소프트웨어를 기록한 판독 가능한 기록매체
JPH10334096A (ja) テキストデータ処理装置および記録媒体
JP6933395B2 (ja) 自動翻訳装置及び自動翻訳プログラム
JPH0619962A (ja) テキスト分割装置
JPS6118074A (ja) プレ・エデイツト方式
JP2021144273A (ja) 文字入力装置、文字入力方法、および、文字入力プログラム
JP7223450B2 (ja) 自動翻訳装置及び自動翻訳プログラム
JP3099792B2 (ja) 単語区切り処理装置、単語区切り処理方法、および単語区切り処理プログラム記録媒体
JP2902138B2 (ja) 誤読文字修正方法
JP4032894B2 (ja) 形態素処理方法および装置
JPH087046A (ja) 文書認識装置
JP3599734B2 (ja) 文章校正装置およびその方法
JPH10240736A (ja) 形態素解析装置
JP3236868B2 (ja) 文書処理装置
JP2683116B2 (ja) 罫線の除去方法
JPH05233619A (ja) 日本語文章誤り訂正方法およびその装置
JPS60189573A (ja) 文字変換装置
JPH05342260A (ja) 単語綴りチェック装置
JPH08335250A (ja) 誤字訂正装置
JPH05158974A (ja) 英日機械翻訳システム
JPH05225183A (ja) 日本文単語誤り自動検出装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20021218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051227

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090113

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100113

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100113

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110113

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110113

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120113

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees