JP3099792B2 - 単語区切り処理装置、単語区切り処理方法、および単語区切り処理プログラム記録媒体 - Google Patents
単語区切り処理装置、単語区切り処理方法、および単語区切り処理プログラム記録媒体Info
- Publication number
- JP3099792B2 JP3099792B2 JP09348731A JP34873197A JP3099792B2 JP 3099792 B2 JP3099792 B2 JP 3099792B2 JP 09348731 A JP09348731 A JP 09348731A JP 34873197 A JP34873197 A JP 34873197A JP 3099792 B2 JP3099792 B2 JP 3099792B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- words
- word delimiter
- delimiter
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Description
自動作成するなどの文書処理における単語区切り処理装
置、方法、および単語区切り処理のプログラムを収納し
た記録媒体に関する。
呼ばれる技術が、近年実用化されつつある。具体的な文
書処理としては、入力された文章を翻訳する、あるいは
自動的にその文章の抄録を作成する、あるいは特定の単
語を文章から検索する、などがある。
れた文章の区切り、ことに単語と単語の区切りを正確に
判別することは、従来から重要な事項である。
志の区切りを判別するにあたっては、次のような課題が
存在した。
(一般に中黒点と呼ばれる)は、複数の異なる用途で使
用される。
場合、「・」は2つの単語「囲碁」と「将棋」を同列に
並べる意味の区切りとして使われている。一方、たとえ
ば文章の中に「インターネット・プロバイダー」とある
場合は、いわゆる連語(2つ以上の単語が複合されて1
つの単語として扱われるもの)をつなぐ記号として、
「・」が使われている。
「・」が、どの意味で使われているか、を正確に判別す
るのが困難であり、各種文書処理の妨げとなっていた。
おいては、従来常に論理和もしくは論理積による検索を
行っている。したがって、「囲碁・将棋」が文章に含ま
れているときは「囲碁」「将棋」の論理和もしくは論理
積による検索を行うことが妥当であるが、「インターネ
ット・プロバイダー」が文章に含まれているときは、
「インターネット」「プロバイダー」の論理和もしくは
論理積による検索を行ってしまう。これでは、ユーザの
意図に反した検索となり、検索精度が低下する。
区切りを正確に判別して文書処理を正しく行うことを目
的とする。
号の前後にある単語それぞれについて、単語に使用され
ている文字の種類を判別し、判別した文字の種類をもと
に、区切りの記号の役割が2つの単語を分けることか、
あるいは1つの連語をつなぐことか、を判定する。これ
により、単語を正しく区切ることができ、各種文書処理
を正確に、効率よく行える。
切り処理装置の一例を表す機能ブロック図である。
に設けられている。文書ファイルを取り込む形態として
は、ハードディスク、フロッピーディスクなどの各種記
憶媒体からの取り込み、および通信網を通じて外部の計
算機から送られてきた文書ファイルの受信、などが考え
られる。
た文書ファイルを、単語に区切る。文章を単語に区切る
手法は、すでにある公知の技術を使用することができ
る。この単語区切り部2が、請求項1でいう「単語区切
り手段」にあたる。
の中に、区切り記号として使用される「・」(中黒点)
があったならば抽出する。
出された「・」の前後にある単語を単語区切り部2から
受け取り、それぞれの単語に使用されている文字種類を
判別する。この文字種類判別部4が、請求項1での「文
字種類判別手段」にあたる。
語に使用されている文字種類、すなわち文字種類判別部
4が判別した結果を受け取り、「・」の前後にある単語
が1つの連語か、2つの単語かを判定する。この判定部
5が、請求項1でいう「判定手段」にあたる。なお、判
定部5で判定した結果は、図示しない出力装置(ディス
プレイ、プリンタなど)でそのまま出力してもいいし、
図示しない文書検索システムなどに結果を渡し、前記文
書検索システムなどが正しく文書処理を行うための基準
として使用してもいい。
が、一例として以下の基準を挙げる。
カタカナ表記であった場合は、2つの単語を合わせて1
つの連語として認識する。
どちらか片方でもカタカナ表記でない場合は、異なる単
語2つが並列に並んでいると認識する。
てカタカナで書かれている場合を指し、単語の一部にで
もひらがな、漢字、あるいは英数字が使われている場合
は、「カタカナ表記」とはみなさない。例えば、前述の
「インターネット・プロバイダー」なら「カタカナ表
記」とみなすが、「アメリカ・中国」なら、「・」の後
の単語「中国」が漢字で書かれていて、「カタカナ表
記」でないので、異なる単語2つが並列に並んでいると
みなす。また、「ソ連・ロシア」なら、「・」の前の単
語「ソ連」に一部漢字が使われているので、これも「カ
タカナ表記」ではないとして、異なる単語2つが並列に
並んでいるとみなす。
の流れを説明する。
切り部2によって単語に区切る。次にステップS2で、
文章中に「・」があるか否か、を中黒点抽出部3によっ
て調べる。「・」があればステップS3に進み、なけれ
ばそこで処理を終わる。
にある単語を抽出する。そしてステップS4で、「・」
の前後にある単語を文字種類判別部4が受け取り、それ
ぞれの単語に使用されている文字種類を判別する。ここ
では、前記基準に沿う形で、単語すべてにカタカナが使
用されていれば「カタカナ表記である」と判別し、単語
の一部にでもカタカナ以外が使用されていれば「カタカ
ナ表記でない」と判別する。
た判別結果を判定部5が受け取り、「・」の前後にある
のが1つの連語か、異なる2つの単語か、を判定する。
に、図示しない出力装置でそのまま出力することもでき
る。
結果を渡し、文書検索を正しく行うための基準とするこ
ともできる。前述の「インターネット・プロバイダー」
が文章に含まれているとしても、本実施例によりこれは
1つの連語であると判定されるので、従来技術のように
「インターネット」「プロバイダー」という2つの単語
の論理和もしくは論理積を用いた検索を行うことはな
い。
機能ブロック図で表された各機能の形態を問わない。一
例としては、各機能を図2で表されるソフトウェアプロ
グラムの形にして、フロッピーディスク、光磁気ディス
ク、CD−ROM、ハードディスク等の記録媒体に収め
た上で、各種コンピュータと合わせて実施する形態、あ
るいは各機能を1つまたは複数の半導体チップに収めて
実施する形態などが考えられる。
グラムの形態にしたならば、ステップS1が請求項3の
「文章を単語に区切る処理」にあたり、ステップS4が
請求項3の「区切られた単語のうち、所定の単語に使用
されている文字の種類を判別する処理」にあたる。また
ステップS5が請求項3の「前記判別の結果により、所
定の区切り記号の前後にある言葉が1つの連語か、ある
いは2つの単語か、を判定する処理」にあたる。
を単語に区切る処理において、区切り記号の前後にある
単語の文字の種類を判別し、単語を正しく認識すること
で、区切った後の処理としての前記各種文書処理(翻
訳、抄録の作成、単語検索など)が正確に、効率よく行
える。
る。
る。
Claims (3)
- 【請求項1】文章を単語に区切る、単語区切り手段と、 前記単語区切り手段で区切られた単語のうち、所定の単
語に使用されている文字の種類を判別する、文字種類判
別手段と、 前記文字種類判別手段の判別結果により、所定の区切り
記号の前後にある言葉が1つの連語か、あるいは2つの
単語か、を判定する判定手段と、を備えた、単語区切り
処理装置。 - 【請求項2】文章を単語に区切り、 区切られた単語のうち、所定の単語に使用されている文
字の種類を判別し、 前記判別の結果により、所定の区切り記号の前後にある
言葉が1つの連語か、あるいは2つの単語か、を判定す
ることを特徴とした、単語区切り処理方法。 - 【請求項3】文章を単語に区切る処理と、 区切られた単語のうち、所定の単語に使用されている文
字の種類を判別する処理と、 前記判別の結果により、所定の区切り記号の前後にある
言葉が1つの連語か、あるいは2つの単語か、を判定す
る処理とからなるプログラムを記録したことを特徴とす
る単語区切り処理プログラム記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP09348731A JP3099792B2 (ja) | 1997-12-04 | 1997-12-04 | 単語区切り処理装置、単語区切り処理方法、および単語区切り処理プログラム記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP09348731A JP3099792B2 (ja) | 1997-12-04 | 1997-12-04 | 単語区切り処理装置、単語区切り処理方法、および単語区切り処理プログラム記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11167568A JPH11167568A (ja) | 1999-06-22 |
JP3099792B2 true JP3099792B2 (ja) | 2000-10-16 |
Family
ID=18398991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP09348731A Expired - Fee Related JP3099792B2 (ja) | 1997-12-04 | 1997-12-04 | 単語区切り処理装置、単語区切り処理方法、および単語区切り処理プログラム記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3099792B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020123227A (ja) * | 2019-01-31 | 2020-08-13 | 富士通株式会社 | 単語出力方法、単語出力プログラム及び情報処理装置 |
-
1997
- 1997-12-04 JP JP09348731A patent/JP3099792B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH11167568A (ja) | 1999-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3557605B2 (ja) | 文切り方法及びこれを用いた文切り処理装置、機械翻訳装置並びにプログラム | |
US5748953A (en) | Document search method wherein stored documents and search queries comprise segmented text data of spaced, nonconsecutive text elements and words segmented by predetermined symbols | |
JP4263371B2 (ja) | 文書をパージングするシステム及び方法 | |
US8327265B1 (en) | System and method for parsing a document | |
JP5314195B2 (ja) | 自然言語処理装置、方法、及びプログラム | |
KR100435442B1 (ko) | 문서 요약 방법 및 시스템 | |
JP3099792B2 (ja) | 単語区切り処理装置、単語区切り処理方法、および単語区切り処理プログラム記録媒体 | |
JP4682627B2 (ja) | 文書検索装置および方法 | |
JPH11143902A (ja) | n−gramを用いた類似文書検索方法 | |
JP3398729B2 (ja) | キーワード自動抽出装置およびキーワード自動抽出方法 | |
JPS61248160A (ja) | 文書情報登録方式 | |
JP3904025B2 (ja) | 文字列分割装置、及び記録媒体 | |
JP2001142897A (ja) | 文書検索装置、文書検索方法、文書検索システム及び文書検索方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP3758813B2 (ja) | テキストデータ処理装置および記録媒体 | |
JPH05225183A (ja) | 日本文単語誤り自動検出装置 | |
JP2900628B2 (ja) | 辞書検索装置 | |
JP2560224B2 (ja) | 文脈構造解析装置 | |
JPS6316370A (ja) | 単語抽出システム | |
JPH11259463A (ja) | 分割テーブルを記憶した媒体、分割テーブル作成方法を記憶した媒体、文章解析装置、文章解析方法および文章解析プログラムを記憶した媒体 | |
JP2001051993A (ja) | 日本語の散文や口語文の文字列をコンピュータ処理により単語列として認識する方法およびソフトウェア記録媒体 | |
JPH11110386A (ja) | 文章切り出し機能を持つ情報処理装置及び文章切り出し方法 | |
JPS63213062A (ja) | 送り仮名検索装置 | |
JPH0833891B2 (ja) | 単語検索装置における送り仮名分類装置 | |
JPH02110771A (ja) | 電訳機 | |
JP2002366557A (ja) | 検索装置、コンピュータプログラム及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080818 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080818 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090818 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100818 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100818 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110818 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110818 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120818 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130818 Year of fee payment: 13 |
|
LAPS | Cancellation because of no payment of annual fees |