JPS60124768A

JPS60124768A - 単語抽出方式

Info

Publication number: JPS60124768A
Application number: JP58232575A
Authority: JP
Inventors: Yasuyuki Numata; 泰之沼田
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1983-12-09
Filing date: 1983-12-09
Publication date: 1985-07-03

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】技術分野本発明は日本語ワードプロセッサ等における単語抽出方
式に関し、特に単語抽出プロセスに漢字音の概念を導入
し辞書検索時における被検索文字列を必要最低限の設定
にすることにより、不必要な候補を抽出しないようにし
て、誤解析の減少および辞書検索の速度向上を実現可能
とした単語抽出方式に関するものである。

従来技術従来のカナ漢字変換処理装置においては、入力されたカ
ナ文字列から単語を抽出するアルゴリズムは、一般に、
次の如きものであった。

（１）文字列に対する解析スター１〜位置の設定特殊な
場合を除いて、一般には文字列の先頭文字（第１番目の
文字）を解析のスタート位置としてまず設定し、その位
置を先頭文字とするｍ語の切出しに成功したならば、次
に、単語切出し後の文字列の先頭文字を新たな解析のス
ター１〜位置として設定する方゛式である。

（例）入力文字列左いせきによりだんごの〜 ↑：最初の解析スタート位置ここで、［かいせき（解析）」の切出しに成功すると。

かいせき茎よりだんごの〜１２次の解析スタート位置（２）辞書検索のための被検索文字列の作成辞書中の読
みの長さが最長６文字であるとすれば、上記例文の場合
、次のような被検索文字列が設定される。

ａ）最初の単語の切出しく〕）かいせきによ　− （づかいせきに ■かいせき ■かいせ ■かい（Φかｂ）ｒ解析ｊ切出し成功後の単語の切出し０）によりた
んご（牙によりたん ■によりた（４）により ■によ（Φに（３）設定した被検索文字列と辞書中の見出し文字列と
のマツチング判定による候補の抽出上記例の場合は次の
ようになる。

■「かいせきによ」により候補抽出できない ■「かいせきに」により候補抽出できない ■「かいせき」により「会席」、「解析」、「懐石」を抽出 ■「かいせ」により候補抽出できない ■「かい」により「会」、「回」、「快」、「戒」等を抽出■「か」によ
り　− 「可Ｊ、ｒ香」、「蚊」、１課」等を抽出（４）（３）
で抽出された候補群に対して種々の評価を行い、最も適
切と思われる候補を決定する。

しかしながら、上述の如き単語ｊ１１１出方式は入力文
字列によっては、候補群が極めて多数抽出される場合が
あり、誤解析および辞書検索速度低下の原因となるとい
う問題があった。

目　的本発明は上記事情に鑑みてなされたもので、その目的と
するところは、従来の単語抽出方式における上述の如き
問題を解消し、誤解析の減少および辞書検索の速度向上
を可能とする単語抽出方式を提供することにある。

構　成以下、実施例に基づいて、本発明の構成を詳細に説明す
る。

第１図は本発明の一実施例であるカナ漢字変換処理装置
の概要を示すブロック図、第２図はその要部である漢字
台（おん）テーブルの内容の一部を示すものである。第
１図において、１はキーボード入力部、２は入力文字列
一時記憶部、３は被検索文字列作成部、４は漢字台テー
ブル記憶部、５は辞書引き制御部、６は単語辞書を示し
ている。

なお、第２図はあくまでも、漢字量テーブルの一例を示
すものであり、本発明はこれに限定されるべきものでは
ない。

以下、本実施例の動作を説明するが、説明にあたっては
、先に従来技術の項に示したと同じ例文かいせきにより
だんごの〜を用いる。

被検索文字列作成部３では、従来と同様に設定した解析
スタート位置から始まる６文字を、予め用意したバッフ
ァにセントする（第３図参照）。このバッファは文字が
一次元的に６文字セットできるものであれば良く、以下
、このバッファを「ＷＩＮＤＯＷＪと呼ぶ。

次に、上記ＷＩＮＤＯＷ中の文字列と、第２図に示した
漢字量テーブルの各要素とのマツチング処理を行い、Ｗ
ＩＮＤＯＷ中の文字列に対して漢字台の要素レベルでの
区切りを施し、その結果を具体的に表現し得る方法で、
予め用意したバッファ等にセットする。ここでは、Ｗ、
ＴＮＤＯＷ２という、−次元的に大きさ６の配列という
表現を有するバッファを用意している。

第４図は上記ＷＩＮＤＯＷ中の文字列に施した区切りと
、ＷＩＮＤＯＷ２の内容の一例を示すものである。ＶＴ
’ＩＮＤＯＷに付された矢印は上記漢字音レベルでの区
切りを示し、ＷＩＮＤＯＷ２の内容である数字はその文
字数に対応する漢字音が前記漢字音テニブル中に存在し
ていることを示すものである。

ここでは、Ｗ　Ｉ　ＮＤＯＷ２（１）＝２（ｒかい」に対応する）
ＷＴＮＤＯＷ２（２）＝２（ｒせきＪに対応する）ＷＩ
　ＮＤＯＷ２（３）＝　１（ｒに」に対応する）Ｗ　Ｉ
　ＮＤＯＷ２（４）＝　］、（ｒよ」に対応する）ＷＴ
　ＮＤＯＷ２（５）＝ＯＷＩＮＤＯＷ２（６）＝０である。

」二記処理の結果、次の条件が成立する場合には入力文字列からＷＩＮＤＯＷ２（１）＋ＷＩＮＤＯＷ２（２）に対応す
る文字数分だけを切出して被検索文字列を作成する。前
記例文の場合にはこの処理により「かいせきＪが切出さ
れることになる。

なお、」二記条件（Ａ）が成立しない場合には、従来技
術の項に示した方法で被検索文字列を作成することにな
る。以下、上で作成された被検索文字列を用いて、従来
と同様に辞書検索を行う。

第５図に他の例を挙げて説明の補足とする。なお、第５
図（１）、（２）は前記条件（Ａ）が成立する例Ｉ（３
）は成立しない例を示すものである。（］）の場合の被
検索文字列は「きよういく」、（２）の場合の被検索文
字列は「しようきよう」、（３）の場合の被検索文字列
は、０）「このようにし」 ■「このように」 ■「このよう」 ■「このよ」 ■「この」 ■「こ」となる。

上記各実施例においては、ＷＩＮＤＯＷおよびＷＩＮＤ
ＯＷ２をいずれも６文字分の大きさを有するバッファと
したが、二九は必ずしも６文字に限られるものではない
。また、上記ＷＩＮＤＯＷの如きバッファの代りに、入
力文字列をセットするバッファとそのバッファ中の位置
を示す複数のポインタおよびそのポインタの値をセラ１
へし得るレジスタ等を用意しても良い。

効　果以上述へた如く、本発明によれば、単語抽出を行う際に
、漢字音を用いて候補単語の切出しを行うようにしたの
で、漢字を含む単語の抽出を高速化することができると
いう顕著な効果を奏するものである。

【図面の簡単な説明】

第一１図は本発明の一実施例を示すブロック図、第２図
は漢字音テーブルの内容の一部を示す図、第３図は入力
文字列バッファの内容の一例を示す図、第４図は入力文
字列と漢字音テーブルの内容とのマソチンクを行った状
況を示す図、第５図は他の処理例を示す図である。Ｉ：キーボード六カ部、２：入力文字列一時記憶部、３
：被検索文字列作成部、４：漢字音テーブル記憶部、５
：辞書引き制御部、６：単語辞書。第　１　図第３図第　５　図

Claims

【特許請求の範囲】

（１）複数の単語をその読みを表わす文字列に対応して
記憶する単語′ｎｖ記憶手段と、入力されたカナ文字列
を一時記憶する手段と１作成された被検索文字列によっ
て前記単語辞書を検索する手段とを有するカナ漢字変換
処理装置において、読みが２字以上の漢字音を登録した
テーブル記憶手段と。前記入力カナ文字列を前記漢字音を用いて区切る手段と
を設け、該区切り手段による区切りに基づいて被検索文
字列を作成することを特徴とする単語抽出方式。