JPH0619962A - テキスト分割装置 - Google Patents

テキスト分割装置

Info

Publication number
JPH0619962A
JPH0619962A JP4177950A JP17795092A JPH0619962A JP H0619962 A JPH0619962 A JP H0619962A JP 4177950 A JP4177950 A JP 4177950A JP 17795092 A JP17795092 A JP 17795092A JP H0619962 A JPH0619962 A JP H0619962A
Authority
JP
Japan
Prior art keywords
text
sentence
segmenting
line
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4177950A
Other languages
English (en)
Inventor
Hidezo Kugimiya
秀造 釘宮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP4177950A priority Critical patent/JPH0619962A/ja
Publication of JPH0619962A publication Critical patent/JPH0619962A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 言語処理に先立って行なわれるテキスト分割
をより正確にし、言語処理の効率を向上させる。 【構成】 テキストに含まれるピリオド、コロンなどの
区切り文字と、テキストのフォーマットとから分割位置
を検出するための分割位置検出部(S11〜S13、S
18〜S20)と、検出された分割位置でテキストを区
切って出力するための出力部(S14、S21)とを含
む。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、機械翻訳、文章要
約、キーワード抽出などの言語処理において用いられる
テキスト分割装置に関し、特に、原文を一括入力した
後、所定の分割単位、たとえば1文ごとに切出して後続
する処理に出力するためのテキスト分割装置に関する。
【0002】
【従来の技術】機械翻訳等の言語処理においては、原文
テキストをOCR(光学的文字読取装置)などにより一
括入力した後に所定の処理を行なうことが一般的であ
る。この場合、機械翻訳、文章要約、キーワード抽出な
どの処理はテキストの1文を単位として行なわれる。そ
のため、一括して入力された原文テキストを1文ずつに
分割する処理が必要となる。
【0003】従来、この1文切出の処理は、ピリオ
ド(.)、コロン(:)、セミコロン(;)などの文の
切れ目を表わす区切り文字を認識することにより、この
区切り文字の部分でテキストを分割して行なっていた。
【0004】
【発明が解決しようとする課題】このような従来のテキ
スト分割装置では、区切り文字が存在しないとテキスト
をその部分で分割することができない。そのため、テキ
ストのタイトル部分と本文部分とが分割されずひとまと
めとして出力されたり、リストとして数行にわたって挙
げられた多数の項目が、全体で1つの文になってしまっ
て出力されたりするという、誤った処理が行なわれるこ
とがあった。このような誤った1文切出し処理をする
と、後の処理を正しく行なうために、誤った部分を修正
する作業が必要となる。そのため従来のテキスト分割装
置を用いると言語処理全体の効率が悪くなるという問題
点がある。
【0005】それゆえにこの発明の目的は、従来のテキ
スト分割装置よりもより精度よくテキストの分割を行な
うことができ、その結果後の言語処理を効率よくするこ
とができるテキスト分割装置を提供することである。
【0006】
【課題を解決するための手段】本発明に係るテキスト分
割装置は、テキストに含まれる区切り文字と、テキスト
のフォーマットとからテキストの分割位置を検出するた
めの分割位置検出手段と、分割位置検出手段により検出
された分割位置で、テキストを区切って出力するための
出力手段とを含む。
【0007】
【作用】本発明に係るテキスト分割装置では、分割位置
として区切り文字のみでなく、テキストのフォーマット
をも用いて検出処理が行なわれ、このようにして検出さ
れた分割位置でテキストが分割される。
【0008】
【発明の実施例】以下、この発明の一実施例を図面を参
照して詳細に説明する。なお、本明細書においては、テ
キストの「フォーマット」とは、文の配列を示すレイア
ウトや、文を構成する各文字が用いられている文字種な
ど、文字の配置を表わすすべての情報を示すものとす
る。
【0009】図1は、本発明の一実施例に係るテキスト
分割装置を用いた機械翻訳装置で行なわれる処理のフロ
ーチャートおよびハードウェアの一部を示す模式図であ
る。まずステップS1で、翻訳対象の原文を図示されな
いOCRなどにより入力する。
【0010】続いてステップS2で、本発明に係るテキ
スト分割装置を用いて1文切出し処理が行なわれる。こ
のときの1文切出し処理は、テキストのレイアウト/文
字種などのフォーマット情報を取出し、テキストに含ま
れる区切り文字のみならずこれらフォーマット情報をも
用いて各文ごとに行なう。このとき、抽出されたレイア
ウト情報も図1に示されるように文章に含まれる各文と
対比させて格納する。
【0011】ステップS3では、ステップS2で切出さ
れた1文を入力単位として順次翻訳処理を行なう。
【0012】続いてステップS4で、ステップS3で得
られた翻訳結果の文に対して、ステップS2の処理によ
って一旦格納していたレイアウト/文字種などのフォー
マット情報を適用して訳文のフォーマッティングを行な
う。
【0013】そしてステップS5で、ステップS4でフ
ォーマットされた結果の文を出力して終了する。
【0014】図2は、図1のステップS2で行なわれる
1文切出し処理のより詳細な手順を示すフローチャート
である。図3は入力テキストの一例を示す模式図であ
り、図4は図3に対して1文切出し処理を行なった場合
に得られたレイアウト/文字種情報と、切出された文と
の対応関係を示すバッファの模式図である。
【0015】図2を参照して、1文切出しは次のように
して行なわれる。まずステップS11で、テキストのう
ちの処理対象となっている行を指す行ポインタを、テキ
ストの先頭行にセットする処理が行なわれる。
【0016】ステップS12で、ポインタの指す行が空
行かどうかを判定する処理が行なわれる。空行とは、何
も文字が含まれていない行を指す。処理対象の行が空行
である場合には処理はステップS15に進み、空行でな
い場合には処理はステップS13に進む。
【0017】ステップS13では、処理対象の行の先頭
が数字と記号の組合せであるかどうかについての判断が
行なわれる。行頭が数字と記号の組合せである場合には
この行はタイトルである可能性が高い。そのため処理は
ステップS14に進む。行頭が数字と記号の組合せでな
い場合には処理はステップS18に進む。
【0018】ステップS14では、現在処理中の行を1
文(1つの単位)としてバッファに格納する処理が行な
われる。ステップS14の後処理はステップS15に進
む。
【0019】ステップS13からステップS18に処理
が進んだ場合、ステップS18では、処理対象の行の行
頭がスペースであるかどうかについての判定が行なわれ
る。行頭がスペースであれば処理はステップS19に進
み、それ以外の場合には処理はステップS21に進む。
【0020】ステップS19では、スペースの後の最初
の文字が記号であるかどうかについての判断が行なわれ
る。記号である場合には処理はステップS20に、それ
以外の場合には処理はステップS21に進む。
【0021】ステップS20においては、現在の行の次
の行または現在の行の前の行と現在の行とが同じ形かど
うかについての判断が行なわれる。同じ形かどうかと
は、行頭がスペースであってかつ最初の文字が記号であ
るか、あるいはそうした条件が成立しないかということ
である。次行または前行が現在の行と同じ形の場合には
処理はステップS14に進み、それ以外の場合には処理
はステップS21に進む。ステップS14に処理が進ん
だ場合、行頭が数字と記号の組合せであった場合と同様
に現在の行を1文としてバッファに格納する処理が行な
われ、さらにステップS15以下に処理が進む。
【0022】一方ステップS18、ステップS19、ス
テップS20の3つの判断のいずれかでNOという判断
が行なわれた場合処理はステップS21に進む。ステッ
プS21では、現在の行から、次の空行の前までに対し
て、通常の1文切出し処理を施す。すなわち、テキスト
に含まれるピリオドやコロンなどの区切り文字でテキス
トを分割し、それぞれを1文として処理を行なう。処理
はステップS22に進む。
【0023】ステップS22では、行ポインタを、まだ
1文切出し処理を行なっていない部分まで進める処理を
行なう。ステップS22の後処理はステップS17に進
む。
【0024】一方、ステップS15では、レイアウト/
文字種などのテキストのフォーマット情報をバッファに
格納する処理が行なわれる。ここでフォーマット情報と
しては、文頭にスペースがある場合のそのスペースの個
数、使用されている活字の種類(たとえばボールド体、
イタリック体など)、文末に改行があるどうかなどの情
報を含む。この詳細については図3、4を参照して後に
説明する。
【0025】ステップS15の後処理はステップS16
に進み、行ポインタを1つ進める処理が行なわれる。こ
れにより処理対象の行は1つ先に進むことになる。ステ
ップS16の後処理はステップS17に進む。
【0026】ステップS17では、ステップS16、ス
テップS22で新たに設定された行ポインタで示される
位置に、処理対象となる行が存在するかどうかについて
の判断が行なわれる。存在する場合には処理は再びステ
ップS12に戻りステップS12以下の処理が繰返して
実行される。行が存在しない場合には処理は終了する。
【0027】図2に示されるような1文切出し処理を行
なうことにより、次のような結果を得ることができる。
図3は、入力テキストの一例である。図3に示されるテ
キストの場合には、タイトルと、本文とが空白行で分離
されている。また本文はさらに、地の文を表わす部分
と、この地の文によって導入される多数の例示部分とが
含まれ、これら2つの部分は空行で分離されている。
【0028】図3に示されるテキストの場合には、通常
の区切り文字以外の部分でテキストを分割しなければ、
たとえばタイトルと地の文の部分が相互に接続されてし
まったり、例示の文が相互に複数個接続されてしまった
りし、正しい1文切出し処理が行なわれない。
【0029】これに対し、本願発明のテキスト分割装置
を用いてこの文を分割すると、その結果は図4に示され
るようになる。図4を参照して、文ナンバー1のタイト
ルと文ナンバー3の地の文とは、文ナンバー2の空行に
よって分離されている。また文ナンバー3と文ナンバー
4とは通常の区切り文字(ピリオド)により分離され、
文ナンバー4と文ナンバー6との間は通常の区切り文字
(コロン)および文ナンバー5の空行によって分離され
ている。また文ナンバー6、7の例示の部分は、文末に
改行が存在することからこのレイアウト情報によって2
つの文に分割される。他の例示の文も同様に分離され
る。また文ナンバー1と文ナンバー3との間では、使用
されている文字種が異なっていることを用いても分割が
可能である。
【0030】以上のように本発明に係るテキスト分割装
置では、通常の区切り文字以外のフォーマット情報を用
いてテキストの分割が行なわれる。そのための、区切り
文字のみでは表わせないような文の区切りを正しく検出
してテキストを1文ずつに切出す処理が可能である。区
切り文字のみでは分割不能な文も正しく分割することが
できるため、後続する言語処理に先立って1文切出し処
理の結果を修正する必要性は少なく、処理の効率を向上
させることができる。
【0031】
【発明の効果】以上のように本発明に係るテキスト分割
装置には、通常の区切り文字のみでは表現できないテキ
ストの分割位置を、テキストのフォーマット情報を用い
て検出し、このように検出された分割位置でテキストを
分割することができる。そのため、区切り文字のみを用
いてテキスト分割を行なった場合に比べてテキスト分割
の精度がより向上し、後続する処理に先立ってテキスト
分割の処理結果を訂正する必要性は少なくなる。
【0032】その結果、テキスト分割の精度をより向上
させることができ、かつ後続する言語処理の効率も高め
ることができるテキスト分割装置を提供できる。
【図面の簡単な説明】
【図1】本発明の一実施例に係るテキスト分割装置を用
いた機械翻訳装置で行なう処理のフローチャートおよび
装置の一部を示す模式図である。
【図2】1文切出処理のフローチャートである。
【図3】入力テキストの一例を示す模式図である。
【図4】図3に示されるテキストを本発明に係るテキス
ト分割装置で分割した場合の処理結果を示すバッファの
模式図である。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 テキストに含まれる区切り文字と、前記
    テキストのフォーマットとから前記テキストの分割位置
    を検出するための分割位置検出手段と、 前記分割位置検出手段により検出された分割位置で前記
    テキストを区切って出力するための出力手段とを含むテ
    キスト分割装置。
JP4177950A 1992-07-06 1992-07-06 テキスト分割装置 Pending JPH0619962A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4177950A JPH0619962A (ja) 1992-07-06 1992-07-06 テキスト分割装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4177950A JPH0619962A (ja) 1992-07-06 1992-07-06 テキスト分割装置

Publications (1)

Publication Number Publication Date
JPH0619962A true JPH0619962A (ja) 1994-01-28

Family

ID=16039920

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4177950A Pending JPH0619962A (ja) 1992-07-06 1992-07-06 テキスト分割装置

Country Status (1)

Country Link
JP (1) JPH0619962A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4215153A1 (de) * 1991-05-08 1992-11-12 Mitsubishi Electric Corp Zuendvorrichtung fuer eine brennkraftmaschine
JPH11296550A (ja) * 1998-04-10 1999-10-29 Ricoh Co Ltd 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
US6036910A (en) * 1996-09-25 2000-03-14 Teijin Seiki Co., Ltd. Three-dimensional object by optical stereography and resin composition containing colorant for producing the same
KR100413784B1 (ko) * 1997-04-29 2004-02-14 삼성전자주식회사 절단위 분할기를 갖춘 영한 번역 장치 및 그영어 해석 방법
DE19917594B4 (de) * 1998-04-17 2004-02-19 Hitachi, Ltd. Zündeinheit und Zündsystem für Brennkraftmaschinen
US7194471B1 (en) 1998-04-10 2007-03-20 Ricoh Company, Ltd. Document classification system and method for classifying a document according to contents of the document

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4215153A1 (de) * 1991-05-08 1992-11-12 Mitsubishi Electric Corp Zuendvorrichtung fuer eine brennkraftmaschine
DE4215153C2 (de) * 1991-05-08 1999-02-04 Mitsubishi Electric Corp Zündvorrichtung für eine Mehrzylinderbrennkraftmaschine
US6036910A (en) * 1996-09-25 2000-03-14 Teijin Seiki Co., Ltd. Three-dimensional object by optical stereography and resin composition containing colorant for producing the same
KR100413784B1 (ko) * 1997-04-29 2004-02-14 삼성전자주식회사 절단위 분할기를 갖춘 영한 번역 장치 및 그영어 해석 방법
JPH11296550A (ja) * 1998-04-10 1999-10-29 Ricoh Co Ltd 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
US7194471B1 (en) 1998-04-10 2007-03-20 Ricoh Company, Ltd. Document classification system and method for classifying a document according to contents of the document
DE19917594B4 (de) * 1998-04-17 2004-02-19 Hitachi, Ltd. Zündeinheit und Zündsystem für Brennkraftmaschinen

Similar Documents

Publication Publication Date Title
US5051886A (en) System for character stream search using finite state automaton technique
CN107153469B (zh) 为输入数据搜索匹配候选项的方法、数据库创建方法、装置及计算机程序产品
JPS6359660A (ja) 情報処理装置
JPH0619962A (ja) テキスト分割装置
JP4470913B2 (ja) 文字列検索装置およびプログラム
JP2000040085A (ja) 日本語形態素解析処理の後処理方法および装置
JPS63244259A (ja) キ−ワ−ド抽出装置
JPH06215184A (ja) 抽出領域のラベリング装置
JP3398729B2 (ja) キーワード自動抽出装置およびキーワード自動抽出方法
JP3466761B2 (ja) 文書処理装置及びその制御方法
JP2746345B2 (ja) 文字認識の後処理方法
JPH09185674A (ja) 誤認識文字検出装置、誤認識文字訂正装置、誤認識文字検出方法、および、誤認識文字訂正方法
JPH06259481A (ja) 同一文字種最長一致照合機能を備えた文字列照合方法および装置
JP2024033667A (ja) 明細書入力支援方法、およびプログラム
CN116070644A (zh) 辅助翻译方法、装置、电子设备及存储介质
JP2989824B2 (ja) 文型・文法格認識方法
WO2003005233A1 (en) Method and system for lexical acquisition and identifying word boundaries
JPH06195327A (ja) 誤入力文字訂正装置および誤入力文字の訂正方法
JPH07152877A (ja) 英文字認識装置
JPH11282841A (ja) 言語解析装置および言語解析プログラムを記録したコンピュータ読み取り可能な記録媒体
WO2017126057A1 (ja) 情報検索方法
JPH09330331A (ja) 成句検出方法
JPH04252390A (ja) 文字認識結果の後処理方法
JPH04278664A (ja) 住所解析処理装置
JPH10334096A (ja) テキストデータ処理装置および記録媒体

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 19990706