JP3099792B2 - 単語区切り処理装置、単語区切り処理方法、および単語区切り処理プログラム記録媒体 - Google Patents

単語区切り処理装置、単語区切り処理方法、および単語区切り処理プログラム記録媒体

Info

Publication number
JP3099792B2
JP3099792B2 JP09348731A JP34873197A JP3099792B2 JP 3099792 B2 JP3099792 B2 JP 3099792B2 JP 09348731 A JP09348731 A JP 09348731A JP 34873197 A JP34873197 A JP 34873197A JP 3099792 B2 JP3099792 B2 JP 3099792B2
Authority
JP
Japan
Prior art keywords
word
words
word delimiter
delimiter
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP09348731A
Other languages
English (en)
Other versions
JPH11167568A (ja
Inventor
好廣 吉村
誠 水谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp filed Critical Omron Corp
Priority to JP09348731A priority Critical patent/JP3099792B2/ja
Publication of JPH11167568A publication Critical patent/JPH11167568A/ja
Application granted granted Critical
Publication of JP3099792B2 publication Critical patent/JP3099792B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、文章から抄録を
自動作成するなどの文書処理における単語区切り処理装
置、方法、および単語区切り処理のプログラムを収納し
た記録媒体に関する。
【0002】
【従来の技術】文章を入力し、処理する「文書処理」と
呼ばれる技術が、近年実用化されつつある。具体的な文
書処理としては、入力された文章を翻訳する、あるいは
自動的にその文章の抄録を作成する、あるいは特定の単
語を文章から検索する、などがある。
【0003】このような各種文書処理において、入力さ
れた文章の区切り、ことに単語と単語の区切りを正確に
判別することは、従来から重要な事項である。
【0004】
【発明が解決しようとする課題】しかしながら、単語同
志の区切りを判別するにあたっては、次のような課題が
存在した。
【0005】単語の区切りの記号として使われる「・」
(一般に中黒点と呼ばれる)は、複数の異なる用途で使
用される。
【0006】たとえば文章の中に「囲碁・将棋」とある
場合、「・」は2つの単語「囲碁」と「将棋」を同列に
並べる意味の区切りとして使われている。一方、たとえ
ば文章の中に「インターネット・プロバイダー」とある
場合は、いわゆる連語(2つ以上の単語が複合されて1
つの単語として扱われるもの)をつなぐ記号として、
「・」が使われている。
【0007】従来は、このように複数の意味を持つ
「・」が、どの意味で使われているか、を正確に判別す
るのが困難であり、各種文書処理の妨げとなっていた。
【0008】例えば、文書処理の一種である文書検索に
おいては、従来常に論理和もしくは論理積による検索を
行っている。したがって、「囲碁・将棋」が文章に含ま
れているときは「囲碁」「将棋」の論理和もしくは論理
積による検索を行うことが妥当であるが、「インターネ
ット・プロバイダー」が文章に含まれているときは、
「インターネット」「プロバイダー」の論理和もしくは
論理積による検索を行ってしまう。これでは、ユーザの
意図に反した検索となり、検索精度が低下する。
【0009】本発明は、こうした課題を解決し、単語の
区切りを正確に判別して文書処理を正しく行うことを目
的とする。
【0010】
【課題を解決するための手段】本発明では、区切りの記
号の前後にある単語それぞれについて、単語に使用され
ている文字の種類を判別し、判別した文字の種類をもと
に、区切りの記号の役割が2つの単語を分けることか、
あるいは1つの連語をつなぐことか、を判定する。これ
により、単語を正しく区切ることができ、各種文書処理
を正確に、効率よく行える。
【0011】
【発明の実施の形態】図1は、本発明を実施する単語区
切り処理装置の一例を表す機能ブロック図である。
【0012】入力部1は、文書ファイルを取り込むため
に設けられている。文書ファイルを取り込む形態として
は、ハードディスク、フロッピーディスクなどの各種記
憶媒体からの取り込み、および通信網を通じて外部の計
算機から送られてきた文書ファイルの受信、などが考え
られる。
【0013】単語区切り部2は、入力部1から入力され
た文書ファイルを、単語に区切る。文章を単語に区切る
手法は、すでにある公知の技術を使用することができ
る。この単語区切り部2が、請求項1でいう「単語区切
り手段」にあたる。
【0014】中黒点抽出部3は、単語に区切られた文章
の中に、区切り記号として使用される「・」(中黒点)
があったならば抽出する。
【0015】文字種類判別部4は、中黒点抽出部3で抽
出された「・」の前後にある単語を単語区切り部2から
受け取り、それぞれの単語に使用されている文字種類を
判別する。この文字種類判別部4が、請求項1での「文
字種類判別手段」にあたる。
【0016】判定部5は、「・」の前および後にある単
語に使用されている文字種類、すなわち文字種類判別部
4が判別した結果を受け取り、「・」の前後にある単語
が1つの連語か、2つの単語かを判定する。この判定部
5が、請求項1でいう「判定手段」にあたる。なお、判
定部5で判定した結果は、図示しない出力装置(ディス
プレイ、プリンタなど)でそのまま出力してもいいし、
図示しない文書検索システムなどに結果を渡し、前記文
書検索システムなどが正しく文書処理を行うための基準
として使用してもいい。
【0017】判定部5での判定の基準は種々考えられる
が、一例として以下の基準を挙げる。
【0018】1)「・」の前後に存在する単語の両方が
カタカナ表記であった場合は、2つの単語を合わせて1
つの連語として認識する。
【0019】2)「・」の前後に存在する単語のうち、
どちらか片方でもカタカナ表記でない場合は、異なる単
語2つが並列に並んでいると認識する。
【0020】ここで、「カタカナ表記」とは単語がすべ
てカタカナで書かれている場合を指し、単語の一部にで
もひらがな、漢字、あるいは英数字が使われている場合
は、「カタカナ表記」とはみなさない。例えば、前述の
「インターネット・プロバイダー」なら「カタカナ表
記」とみなすが、「アメリカ・中国」なら、「・」の後
の単語「中国」が漢字で書かれていて、「カタカナ表
記」でないので、異なる単語2つが並列に並んでいると
みなす。また、「ソ連・ロシア」なら、「・」の前の単
語「ソ連」に一部漢字が使われているので、これも「カ
タカナ表記」ではないとして、異なる単語2つが並列に
並んでいるとみなす。
【0021】次に、図2のフローチャートにより、処理
の流れを説明する。
【0022】ステップS1で、入力された文章を単語区
切り部2によって単語に区切る。次にステップS2で、
文章中に「・」があるか否か、を中黒点抽出部3によっ
て調べる。「・」があればステップS3に進み、なけれ
ばそこで処理を終わる。
【0023】ステップS3で、抽出された「・」の前後
にある単語を抽出する。そしてステップS4で、「・」
の前後にある単語を文字種類判別部4が受け取り、それ
ぞれの単語に使用されている文字種類を判別する。ここ
では、前記基準に沿う形で、単語すべてにカタカナが使
用されていれば「カタカナ表記である」と判別し、単語
の一部にでもカタカナ以外が使用されていれば「カタカ
ナ表記でない」と判別する。
【0024】ステップS5で、文字種類判別部4の出し
た判別結果を判定部5が受け取り、「・」の前後にある
のが1つの連語か、異なる2つの単語か、を判定する。
【0025】判定結果は、判定部5の説明で述べたよう
に、図示しない出力装置でそのまま出力することもでき
る。
【0026】また、図示しない文書検索システムに判定
結果を渡し、文書検索を正しく行うための基準とするこ
ともできる。前述の「インターネット・プロバイダー」
が文章に含まれているとしても、本実施例によりこれは
1つの連語であると判定されるので、従来技術のように
「インターネット」「プロバイダー」という2つの単語
の論理和もしくは論理積を用いた検索を行うことはな
い。
【0027】なお、本発明の実施にあたっては、図1の
機能ブロック図で表された各機能の形態を問わない。一
例としては、各機能を図2で表されるソフトウェアプロ
グラムの形にして、フロッピーディスク、光磁気ディス
ク、CD−ROM、ハードディスク等の記録媒体に収め
た上で、各種コンピュータと合わせて実施する形態、あ
るいは各機能を1つまたは複数の半導体チップに収めて
実施する形態などが考えられる。
【0028】各機能を図2で表されるソフトウェアプロ
グラムの形態にしたならば、ステップS1が請求項3の
「文章を単語に区切る処理」にあたり、ステップS4が
請求項3の「区切られた単語のうち、所定の単語に使用
されている文字の種類を判別する処理」にあたる。また
ステップS5が請求項3の「前記判別の結果により、所
定の区切り記号の前後にある言葉が1つの連語か、ある
いは2つの単語か、を判定する処理」にあたる。
【0029】
【発明の効果】以上説明したように、本発明では、文書
を単語に区切る処理において、区切り記号の前後にある
単語の文字の種類を判別し、単語を正しく認識すること
で、区切った後の処理としての前記各種文書処理(翻
訳、抄録の作成、単語検索など)が正確に、効率よく行
える。
【図面の簡単な説明】
【図1】本発明の実施形態を示した機能ブロック図であ
る。
【図2】本発明の処理の流れを示すフローチャートであ
る。
【符号の説明】
1 入力部 2 単語区切り部 3 中黒点抽出部 4 文字種類判別部 5 判定部
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G06F 17/27

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】文章を単語に区切る、単語区切り手段と、 前記単語区切り手段で区切られた単語のうち、所定の単
    語に使用されている文字の種類を判別する、文字種類判
    別手段と、 前記文字種類判別手段の判別結果により、所定の区切り
    記号の前後にある言葉が1つの連語か、あるいは2つの
    単語か、を判定する判定手段と、を備えた、単語区切り
    処理装置。
  2. 【請求項2】文章を単語に区切り、 区切られた単語のうち、所定の単語に使用されている文
    字の種類を判別し、 前記判別の結果により、所定の区切り記号の前後にある
    言葉が1つの連語か、あるいは2つの単語か、を判定す
    ることを特徴とした、単語区切り処理方法。
  3. 【請求項3】文章を単語に区切る処理と、 区切られた単語のうち、所定の単語に使用されている文
    字の種類を判別する処理と、 前記判別の結果により、所定の区切り記号の前後にある
    言葉が1つの連語か、あるいは2つの単語か、を判定す
    る処理とからなるプログラムを記録したことを特徴とす
    る単語区切り処理プログラム記録媒体。
JP09348731A 1997-12-04 1997-12-04 単語区切り処理装置、単語区切り処理方法、および単語区切り処理プログラム記録媒体 Expired - Fee Related JP3099792B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP09348731A JP3099792B2 (ja) 1997-12-04 1997-12-04 単語区切り処理装置、単語区切り処理方法、および単語区切り処理プログラム記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP09348731A JP3099792B2 (ja) 1997-12-04 1997-12-04 単語区切り処理装置、単語区切り処理方法、および単語区切り処理プログラム記録媒体

Publications (2)

Publication Number Publication Date
JPH11167568A JPH11167568A (ja) 1999-06-22
JP3099792B2 true JP3099792B2 (ja) 2000-10-16

Family

ID=18398991

Family Applications (1)

Application Number Title Priority Date Filing Date
JP09348731A Expired - Fee Related JP3099792B2 (ja) 1997-12-04 1997-12-04 単語区切り処理装置、単語区切り処理方法、および単語区切り処理プログラム記録媒体

Country Status (1)

Country Link
JP (1) JP3099792B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020123227A (ja) * 2019-01-31 2020-08-13 富士通株式会社 単語出力方法、単語出力プログラム及び情報処理装置

Also Published As

Publication number Publication date
JPH11167568A (ja) 1999-06-22

Similar Documents

Publication Publication Date Title
JP3557605B2 (ja) 文切り方法及びこれを用いた文切り処理装置、機械翻訳装置並びにプログラム
US5748953A (en) Document search method wherein stored documents and search queries comprise segmented text data of spaced, nonconsecutive text elements and words segmented by predetermined symbols
JP4263371B2 (ja) 文書をパージングするシステム及び方法
US8327265B1 (en) System and method for parsing a document
JP5314195B2 (ja) 自然言語処理装置、方法、及びプログラム
KR100435442B1 (ko) 문서 요약 방법 및 시스템
JP3099792B2 (ja) 単語区切り処理装置、単語区切り処理方法、および単語区切り処理プログラム記録媒体
JP4682627B2 (ja) 文書検索装置および方法
JPH11143902A (ja) n−gramを用いた類似文書検索方法
JP3398729B2 (ja) キーワード自動抽出装置およびキーワード自動抽出方法
JPS61248160A (ja) 文書情報登録方式
JP3904025B2 (ja) 文字列分割装置、及び記録媒体
JP2001142897A (ja) 文書検索装置、文書検索方法、文書検索システム及び文書検索方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3758813B2 (ja) テキストデータ処理装置および記録媒体
JPH05225183A (ja) 日本文単語誤り自動検出装置
JP2900628B2 (ja) 辞書検索装置
JP2560224B2 (ja) 文脈構造解析装置
JPS6316370A (ja) 単語抽出システム
JPH11259463A (ja) 分割テーブルを記憶した媒体、分割テーブル作成方法を記憶した媒体、文章解析装置、文章解析方法および文章解析プログラムを記憶した媒体
JP2001051993A (ja) 日本語の散文や口語文の文字列をコンピュータ処理により単語列として認識する方法およびソフトウェア記録媒体
JPH11110386A (ja) 文章切り出し機能を持つ情報処理装置及び文章切り出し方法
JPS63213062A (ja) 送り仮名検索装置
JPH0833891B2 (ja) 単語検索装置における送り仮名分類装置
JPH02110771A (ja) 電訳機
JP2002366557A (ja) 検索装置、コンピュータプログラム及び記録媒体

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080818

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080818

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090818

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100818

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100818

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110818

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110818

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120818

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130818

Year of fee payment: 13

LAPS Cancellation because of no payment of annual fees