JPS60124768A - 単語抽出方式 - Google Patents

単語抽出方式

Info

Publication number
JPS60124768A
JPS60124768A JP58232575A JP23257583A JPS60124768A JP S60124768 A JPS60124768 A JP S60124768A JP 58232575 A JP58232575 A JP 58232575A JP 23257583 A JP23257583 A JP 23257583A JP S60124768 A JPS60124768 A JP S60124768A
Authority
JP
Japan
Prior art keywords
character string
kanji
character
section
buffer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP58232575A
Other languages
English (en)
Inventor
Yasuyuki Numata
泰之 沼田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP58232575A priority Critical patent/JPS60124768A/ja
Publication of JPS60124768A publication Critical patent/JPS60124768A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 技術分野 本発明は日本語ワードプロセッサ等における単語抽出方
式に関し、特に単語抽出プロセスに漢字音の概念を導入
し辞書検索時における被検索文字列を必要最低限の設定
にすることにより、不必要な候補を抽出しないようにし
て、誤解析の減少および辞書検索の速度向上を実現可能
とした単語抽出方式に関するものである。
従来技術 従来のカナ漢字変換処理装置においては、入力されたカ
ナ文字列から単語を抽出するアルゴリズムは、一般に、
次の如きものであった。
(1)文字列に対する解析スター1〜位置の設定特殊な
場合を除いて、一般には文字列の先頭文字(第1番目の
文字)を解析のスタート位置としてまず設定し、その位
置を先頭文字とするm語の切出しに成功したならば、次
に、単語切出し後の文字列の先頭文字を新たな解析のス
ター1〜位置として設定する方゛式である。
(例)入力文字列 左いせきによりだんごの〜 ↑:最初の解析スタート位置 ここで、[かいせき(解析)」の切出しに成功すると。
かいせき茎よりだんごの〜 12次の解析スタート位置 (2)辞書検索のための被検索文字列の作成辞書中の読
みの長さが最長6文字であるとすれば、上記例文の場合
、次のような被検索文字列が設定される。
a)最初の単語の切出し く〕)かいせきによ − (づかいせきに ■かいせき ■かいせ ■かい (Φか b)r解析j切出し成功後の単語の切出し0)によりた
んご (牙によりたん ■によりた (4)により ■によ (Φに (3)設定した被検索文字列と辞書中の見出し文字列と
のマツチング判定による候補の抽出上記例の場合は次の
ようになる。
■「かいせきによ」により 候補抽出できない ■「かいせきに」により 候補抽出できない ■「かいせき」により 「会席」、「解析」、「懐石」を抽出 ■「かいせ」により 候補抽出できない ■「かい」により 「会」、「回」、「快」、「戒」等を抽出■「か」によ
り − 「可J、r香」、「蚊」、1課」等を抽出(4)(3)
で抽出された候補群に対して種々の評価を行い、最も適
切と思われる候補を決定する。
しかしながら、上述の如き単語j111出方式は入力文
字列によっては、候補群が極めて多数抽出される場合が
あり、誤解析および辞書検索速度低下の原因となるとい
う問題があった。
目 的 本発明は上記事情に鑑みてなされたもので、その目的と
するところは、従来の単語抽出方式における上述の如き
問題を解消し、誤解析の減少および辞書検索の速度向上
を可能とする単語抽出方式を提供することにある。
構 成 以下、実施例に基づいて、本発明の構成を詳細に説明す
る。
第1図は本発明の一実施例であるカナ漢字変換処理装置
の概要を示すブロック図、第2図はその要部である漢字
台(おん)テーブルの内容の一部を示すものである。第
1図において、1はキーボード入力部、2は入力文字列
一時記憶部、3は被検索文字列作成部、4は漢字台テー
ブル記憶部、5は辞書引き制御部、6は単語辞書を示し
ている。
なお、第2図はあくまでも、漢字量テーブルの一例を示
すものであり、本発明はこれに限定されるべきものでは
ない。
以下、本実施例の動作を説明するが、説明にあたっては
、先に従来技術の項に示したと同じ例文かいせきにより
だんごの〜 を用いる。
被検索文字列作成部3では、従来と同様に設定した解析
スタート位置から始まる6文字を、予め用意したバッフ
ァにセントする(第3図参照)。このバッファは文字が
一次元的に6文字セットできるものであれば良く、以下
、このバッファを「WINDOWJと呼ぶ。
次に、上記WINDOW中の文字列と、第2図に示した
漢字量テーブルの各要素とのマツチング処理を行い、W
INDOW中の文字列に対して漢字台の要素レベルでの
区切りを施し、その結果を具体的に表現し得る方法で、
予め用意したバッファ等にセットする。ここでは、W、
TNDOW2という、−次元的に大きさ6の配列という
表現を有するバッファを用意している。
第4図は上記WINDOW中の文字列に施した区切りと
、WINDOW2の内容の一例を示すものである。VT
’INDOWに付された矢印は上記漢字音レベルでの区
切りを示し、WINDOW2の内容である数字はその文
字数に対応する漢字音が前記漢字音テニブル中に存在し
ていることを示すものである。
ここでは、 W I NDOW2(1)=2(rかい」に対応する)
WTNDOW2(2)=2(rせきJに対応する)WI
 NDOW2(3)= 1(rに」に対応する)W I
 NDOW2(4)= ]、(rよ」に対応する)WT
 NDOW2(5)=O WINDOW2(6)=0 である。
」二記処理の結果、次の条件 が成立する場合には入力文字列から WINDOW2(1)+WINDOW2(2)に対応す
る文字数分だけを切出して被検索文字列を作成する。前
記例文の場合にはこの処理により「かいせきJが切出さ
れることになる。
なお、」二記条件(A)が成立しない場合には、従来技
術の項に示した方法で被検索文字列を作成することにな
る。以下、上で作成された被検索文字列を用いて、従来
と同様に辞書検索を行う。
第5図に他の例を挙げて説明の補足とする。なお、第5
図(1)、(2)は前記条件(A)が成立する例I(3
)は成立しない例を示すものである。(])の場合の被
検索文字列は「きよういく」、(2)の場合の被検索文
字列は「しようきよう」、(3)の場合の被検索文字列
は、 0)「このようにし」 ■「このように」 ■「このよう」 ■「このよ」 ■「この」 ■「こ」 となる。
上記各実施例においては、WINDOWおよびWIND
OW2をいずれも6文字分の大きさを有するバッファと
したが、二九は必ずしも6文字に限られるものではない
。また、上記WINDOWの如きバッファの代りに、入
力文字列をセットするバッファとそのバッファ中の位置
を示す複数のポインタおよびそのポインタの値をセラ1
へし得るレジスタ等を用意しても良い。
効 果 以上述へた如く、本発明によれば、単語抽出を行う際に
、漢字音を用いて候補単語の切出しを行うようにしたの
で、漢字を含む単語の抽出を高速化することができると
いう顕著な効果を奏するものである。
【図面の簡単な説明】
第一1図は本発明の一実施例を示すブロック図、第2図
は漢字音テーブルの内容の一部を示す図、第3図は入力
文字列バッファの内容の一例を示す図、第4図は入力文
字列と漢字音テーブルの内容とのマソチンクを行った状
況を示す図、第5図は他の処理例を示す図である。 I:キーボード六カ部、2:入力文字列一時記憶部、3
:被検索文字列作成部、4:漢字音テーブル記憶部、5
:辞書引き制御部、6:単語辞書。 第 1 図 第3図 第 5 図

Claims (1)

    【特許請求の範囲】
  1. (1)複数の単語をその読みを表わす文字列に対応して
    記憶する単語′nv記憶手段と、入力されたカナ文字列
    を一時記憶する手段と1作成された被検索文字列によっ
    て前記単語辞書を検索する手段とを有するカナ漢字変換
    処理装置において、読みが2字以上の漢字音を登録した
    テーブル記憶手段と。 前記入力カナ文字列を前記漢字音を用いて区切る手段と
    を設け、該区切り手段による区切りに基づいて被検索文
    字列を作成することを特徴とする単語抽出方式。
JP58232575A 1983-12-09 1983-12-09 単語抽出方式 Pending JPS60124768A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58232575A JPS60124768A (ja) 1983-12-09 1983-12-09 単語抽出方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58232575A JPS60124768A (ja) 1983-12-09 1983-12-09 単語抽出方式

Publications (1)

Publication Number Publication Date
JPS60124768A true JPS60124768A (ja) 1985-07-03

Family

ID=16941492

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58232575A Pending JPS60124768A (ja) 1983-12-09 1983-12-09 単語抽出方式

Country Status (1)

Country Link
JP (1) JPS60124768A (ja)

Similar Documents

Publication Publication Date Title
JPS6033665A (ja) キ−ワ−ド自動抽出方式
JP2828692B2 (ja) 情報検索装置
JPS60124768A (ja) 単語抽出方式
JPS58123129A (ja) 仮名漢字変換装置
JP4136055B2 (ja) 類似文字列検索システムおよび記録媒体
JPS6132167A (ja) カナ漢字変換処理装置
KR860000681B1 (ko) 한글/한자 워드프로 세서
JPS60124770A (ja) 単語抽出方式
JP2634596B2 (ja) かな漢字変換装置
JPS60124769A (ja) 単語抽出方式
JPH0668070A (ja) 複合語辞書登録装置
JPH06161995A (ja) 氏名データ整形方法および装置
JPS60124771A (ja) 単語抽出方式
JPS60124773A (ja) 文書作成装置
JPH0350669A (ja) 情報処理装置
JPS6175471A (ja) 連字学習方式
JPS59116835A (ja) 短縮入力機能付日本語入力装置
JPH0477953A (ja) 文書作成装置
JPS6243769A (ja) 仮名漢字変換装置
JP2001125907A (ja) 辞書検索方法、装置、および辞書検索プログラムを記録した記録媒体
JPS6118065A (ja) カナ漢字変換処理装置
JPS60136864A (ja) 単語抽出方式
JPS6316370A (ja) 単語抽出システム
JPS61285571A (ja) 複合語辞書
JPH0750487B2 (ja) 情報抽出装置