JPH0146895B2 - - Google Patents

Info

Publication number
JPH0146895B2
JPH0146895B2 JP54172471A JP17247179A JPH0146895B2 JP H0146895 B2 JPH0146895 B2 JP H0146895B2 JP 54172471 A JP54172471 A JP 54172471A JP 17247179 A JP17247179 A JP 17247179A JP H0146895 B2 JPH0146895 B2 JP H0146895B2
Authority
JP
Japan
Prior art keywords
word
candidate
dictionary
frequency
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP54172471A
Other languages
English (en)
Other versions
JPS5692675A (en
Inventor
Juji Uchida
Fukumi Fujiwara
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP17247179A priority Critical patent/JPS5692675A/ja
Publication of JPS5692675A publication Critical patent/JPS5692675A/ja
Publication of JPH0146895B2 publication Critical patent/JPH0146895B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 本発明は、単語辞書および文法辞書を参照して
得られた候補単語の優先順位を、上記単語辞書に
書込まれた使用頻度および単語の語長で以て定め
るように構成された単語抽出装置において、漢字
仮名混じり文を入力し、該漢字仮名混じり文にお
ける単語の出現頻度を調べ、求められた出現頻度
に基づき単語辞書内の単語使用頻度を更新するよ
うにした辞書学習方式に関するものである。
例えば、従来の仮名漢字変換装置においては、
入力仮名文字列に対応する単語を単語辞書および
文法辞書を用いて求め、候補単語の優先順位を単
語の文字数および単語の使用頻度に基づいて定め
ている。上記の単語辞書は、単語、単語の読み、
文法情報および単語の使用頻度が書込まれた複数
のエントリを有している。単語の使用頻度を単語
辞書に書込む方法としては、例えば国立国語研究
所などから提供される単語使用頻度表などを参照
して単語使用頻度を単語辞書に書込む方法や仮名
漢字変換の際に抽出される単語の頻度に基づいて
単語辞書内の単語使用頻度を更新する方法などが
知られている。しかし、単語の使用頻度は仮名漢
字変換装置の使用分野毎に異つており、上記のよ
うな単語使用頻度設定方法は常に適切な単語使用
頻度を与えるものではない。
本発明は、上記の考案に基づくものであつて、
単語辞書内の使用頻度を分野に応じて適切かつ簡
単に設定できるようになつた辞書学習方式を提供
することを目的としている。そしてそのため、本
発明の辞書学習方式は、 漢字表記もしくは仮名表記もしくは漢字仮名混
じり表記等の表記形式で表記された単語と単語の
読みと単語の文法情報と単語の使用頻度とが書込
まれた単語辞書9と、 品詞間の文法的接続可否情報が書込まれた文法
辞書8と、 漢字仮名混じり文字列を入力できる入力装置1
と、 単語辞書9と文法辞書8とを使用して入力装置
1から入力された漢字仮名混じり文字列を単語毎
に分割する単語分割装置4と、 単語の出現頻度に対する使用頻度の更新量を指
定する情報を保持する更新量指定情報保持手段2
と、 単語分割装置4によつて単語毎に分割された漢
字仮名混じり文字列における単語の出現頻度を計
数する頻度処理装置5と、 頻度処理装置5から渡される単語とその出現頻
度と更新量指定情報保持手段2の内容とに基づい
て単語辞書9内の単語の使用頻度を更新する辞書
更新装置7と を具備し、 単語分割装置4は、解析部4′と候補単語抽出
部6′とから構成され、 候補単語抽出部6′は、 単語辞書9から、解析部4′から渡された解
析位置の右に続く文字列と一致する単語をすべ
て取り出す処理を行い、 により取り出された単語の中で、その直前
に最尤候補があるときは当該最尤候補と文法的
に接続可能なもののみの集合を候補{i}と
し、候補{i}と関連情報を解析部4′に渡す
処理を行う ように構成され、 解析部4′は、 ′ 最初にi(iは抽出した単語に与えられる番
号)を初期値に設定し、解析位置を入力文字列
の左端に設定し、解析位置の右に続く入力文字
列を候補単語抽出部6′に与える処理を行い、 ′ 候補単語抽出部6′から候補{i}と関連情
報が渡されたときに、候補{i}が空きである
か否かを判定する処理を行い、 ′ 空きでない場合には単語の文字数とその使
用頻度に基づいて、候補{i}の中から最尤候
補の単語iを選ぶ処理を行い、 ′ 最尤候補の単語iの文字数だけ解析位置を
右にずらす処理を行い、 ′ 解析位置が右端にあるか否を判定し、解析
位置が右端でなければ、iを+1し、解析位置
の右に続く文字列を候補単語抽出部6′に渡す
処理を行い、 ′ ′の処理で空きであると判定された場合に
は、iが初期値でないときにはiを−1し、解
析位置をその最尤候補の単語iの文字数だけ左
にずらし、当該最尤候補を候補{i}から除去
し、′以後の処理を繰り返す処理を行うよう
構成されている ことを特徴とするものである。以下、本発明を図
面を参照しつつ説明する。
第1図は本発明の1実施例のブロツク図、第2
図は第1図の解析部候補単語抽出部、文法辞書お
よび単語辞書による単語抽出動作を説明する図で
ある。
第1図において、1は入力装置、2は更新量指
定情報保持手段、3は出力装置、4は単語分割装
置、4′は解析部、5は頻度処理装置、6′は候補
単語抽出部、7は辞書更新装置、8は文法辞書、
9は単語辞書をそれぞれ示している。
入力装置1は、例えば漢字仮名混じり文を入力
できるOCR装置である。入力装置1は、入力文
をJIS漢字コードに変換する。更新量指定情報保
持手段2は例えばレジスタであつて、単語の使用
頻度変更を指定する情報がセツトされるものであ
る。頻度変更の指定には次のようなものがある。
1 文中の出現1回につき1又はそれ以上の定数
だけ頻度を増す。
2 文中の出現1回につき1又はそれ以上の定数
だけ頻度を減らす。
3 変更しない。
以上のようなカウント・アツプあるいはカウン
ト・ダウンあるいは変更なしの機能があるのは、
以下の理由による。たとえば、システムを手紙文
に適したものに変更するためには、手紙文を入力
してこの辞書学習装置に与えればよい。その際、
より早く手紙文向きのシステムにするためにはカ
ウント・アツプすべき頻度を1ではなく或る程度
大きな値にできることが望ましい。ところが誤つ
たデータをこの装置に与えてしまい、後で誤つた
データを与えたことに気がついたとき、任意の値
でカウント・ダウンできることが必要となる。ま
た、学習していいデータか、あるいは学習した結
果がどうなるかを予想する手段としてカウント・
アツプもカウント・ダウンもなく学習をシミユレ
ートすることが望まれる。
出力装置3は、入力装置1から入力された漢字
仮名混じり文に出現する単語、上記単語の出現頻
度および単語辞書9内の単語使用頻度の更新結果
をデイスプレイやプリンタなどの他装置へ出力す
るものである。解析部4′は、単語抽出動作にお
ける全体の制御を司るものである。頻度処理装置
5は、抽出された最尤候補単語列を解析部4′よ
り受取り、単語列を構成する単語の出現頻度を計
数し、そして単語およびその出現頻度を辞書更新
装置7に渡すものである。辞書更新装置7は、受
取つた単語および出現頻度に基づいて単語辞書9
内の該当する単語の使用頻度を更新する。候補単
語抽出部6′は、解析部4′より渡された文字列と
一致する単語を単語辞書9から取出し、取出され
た単語の文法チエツクを行つて候補単語を抽出す
るものである。候補単語および関連情報は、解析
部4′に渡される。なお、解析部4′と候補単語抽
出部6′は、単語分割装置4を構成する。文法チ
エツクの際には文法辞書8が参照される。文法辞
書8は、品詞間の接続可否を示すものであつて、
行例の第1行および第1列には各種の品詞が書込
まれ、行列の交点に接続可否を示す「0」又は
「1」の接続可否情報が書込まれている。単語辞
書9は複数のエントリを有しており、各エントリ
には漢字もしくは平仮名もしくは漢字平仮名混じ
りの単語、片仮名の単語の読み、文法情報および
単語の使用頻度が書込まれている。文法情報と
は、単語の種類や活用形に関する情報を意味して
いる。
次に、第1図の動作を説明する。いま、「指定
された文章を単語辞書と文法辞書を用いて単語に
分割し」と言う文字列を入力装置1より入力した
ところ、解析部4′、候補単語抽出部6′、文法辞
書8及び単語辞書9によつて入力文字列が「指
定」、「され」、「た」、「文章」、「を」、「単語」
、「辞
書」、「と」、「文法」、「辞書」、「を」、「用い」

「て」、「単語」、「に」、「分割」及び「し」に分割
されたとする。入力文の単語列への分割が終了す
ると、解析部4′は、単語群を頻度処理装置5に
渡す。頻度処理装置5は単語の出現頻度を計数
し、「指定」の頻度が1、「され」の頻度が1、
「た」の頻度が1、「文章」の頻度が1、「を」の
頻度が2、「単語」の頻度が2、「辞書」の頻度が
2、「と」の頻度が「1」、「文法」の頻度が1、
「用い」の頻度が1、「て」の頻度が「1」、「に」
の頻度が1、「分割」の頻度が1、「し」の頻度が
1であることを辞書更新装置7へ通知する。な
お、この際、単語が書込まれているエントリの番
号も通知される。辞書更新装置7は、上記の通知
を受取ると、更新量指定情報保持手段2の内容に
従つて単語辞書9内の該当単語の使用頻度を更新
する。
入力文を単語列に変換する場合、単語列は単語
を節とするリストで表現され、各節にはその単語
の漢字コードの他に文法情報、使用頻度なども記
入される。入力テキストの単語列への変換は次の
アルゴリズムに従つて行われる。
イ 入力テキストの左端を解析位置とし、その右
側に続く文字列と一致する単語を単語辞書を検
索してすべて求める。これらの単語の内で直前
の最尤候補単語に文法的に接続可能な単語を選
び出し、これらを候補単語とする。
ロ 候補の中から出現頻度と単語長によつて評価
を行い、評価値の最も大きいものを最尤候補単
語とする。最尤候補単語の文字数だけ解析位置
を右へずらし、上記イ、ロの処理を行う。な
お、候補の中で出現頻度が同じ場合には当然の
こととして単語長の長い方が評価値が大きいも
のとされ、候補の中で単語長が同じ場合には当
然のこととして出現頻度の高い方が評価値の大
きいものとされる。
ハ 候補単語が存在しないときには、バツクトラ
ツクを行い、直前の最尤候補単語を候補単語群
から除いて上記ロの処理を行う。
上記イないしハの処理で単語抽出を行う方法
は、tree−search−methodと呼ばれている。
単語抽出は基本的には上記イないしハの方法で
行われるが、入力に誤りがある場合や単語辞書に
存在しない単語が入力された場合でも一応の単語
抽出を行い得るようにするため、バツクトラツク
制御および誤り回復操作が行われる。バツクトラ
ツク制御とは、バツクトラツクが行われてroot−
nodeに戻つたとき下記、の制御を行い、tree
−search−methodを行うことを言う。
解析木が所定段数以上で、それに対応する単
語列の長さが所定値以上となつたら、root−
nodeを切り捨てて次の単語をroot−nodeとす
る。(これは文頭の単語を確定することに相当
する。) 一意に確定する単語が現れた場合には、それ
以前の解析木を切り捨てその単語をroot−
nodeにする。
誤り回復操作とは、バツクトラツクがroot−
nodeに達したら、その時の入力テキストの左端
の1字を単語辞書にない、もしくはその一部と見
做し、入力テキストの左端を1字右へずらして
tree−search−methodを行うことを言う。この
場合、このような文字が連続して表れたとする
と、これらの文字は1まとまりの単語と見做され
る。
第2図は第1図の単語分割装置4、文法辞書8
および単語辞書9による単語抽出動作を説明する
図である。
漢字仮名混じりの入力文字列を単語に分割する
場合、解析部4′はiを1にセツトすると共に解
析位置を文の左端にセツトする。なお、iは抽出
された単語に与えられる番号であり、第1番目に
抽出された単語に対しては第1番が与えられる。
解析部4′は、上記の処理を行つた後、解析位置
より右側の文字列を候補単語抽出部6′に渡す。
候補単語抽出部6′は、単語辞書9から解析位置
の右に続く文字列と一致する単語を全て取出し、
そして文法辞書8を参照しながら取出された単語
の中で最尤候補(i−1)と文法的に接続可能な
もののみの集合を候補{i}とする。候補{i}
が求まると、候補単語抽出部6′は候補{i}お
よび関連情報を解析部4′へ渡す。候補{i}が
存在しない場合には、その旨が解析部4′に通知
されることは当然である。単語辞書検索結果を受
取ると、解析部4′は候補{i}が空であるか否
かを調べ、候補{i}が空でない場合には単語の
文字数と使用頻度を評価して最尤候補iを選択
し、そして最尤候補iの文字数だけ解析位置を右
へずらす。解析位置を右へずらした後、解析部
4′は解析位置が文の右端にあるか否かを調べ、
右端に存在しない場合にはiをi+1に更新して
解析位置より右の文字列を候補単語抽出部6′に
渡す。解析位置が文の右端にある場合には終了1
とされ、終了1において解析部4′は抽出された
最尤候補単語列を頻度処理装置5に渡す。候補
{i}が空である場合には、解析部4′はiが1で
あるか否かを調べ、iが1でないときにはiをi
−1とし、最尤候補iの文字数だけ解析位置を左
にずらし、候補{i}から最尤候補iを除去し、
そして図示説明した如き処理を行う。終了2に到
達した場合には、バツクトラツク制御および誤り
回復操作を付加して上述した如きtree−search−
methodを実行する。
以上の説明から明らかなように、本発明によれ
ば、単語辞書を用いて単語抽出を行う単語抽出装
置において、使用分野に適合した単語使用頻度を
簡単に単語辞書に設定できるという顕著な作用効
果が得られる。
【図面の簡単な説明】
第1図は本発明の1実施例のブロツク図、第2
図は第1図の解析部、候補単語抽出部、文法辞書
および単語辞書による単語抽出動作を説明する図
である。 1……入力装置、2……更新量指定情報保持手
段、3……出力装置、4……単語分割装置、4′
……解析部、5……頻度処理装置、6′……候補
単語抽出部、7……辞書更新装置、8……文法辞
書、9……単語辞書。

Claims (1)

  1. 【特許請求の範囲】 1 漢字表記もしくは仮名表記もしくは漢字仮名
    混じり表記等の表記形式で表記された単語と単語
    の読みと単語の文法情報と単語の使用頻度とが書
    込まれた単語辞書9と、 品詞間の文法的接続可否情報が書込まれた文法
    辞書8と、 漢字仮名混じり文字列を入力できる入力装置1
    と、 単語辞書9と文法辞書8とを使用して入力装置
    1から入力された漢字仮名混じり文字列を単語毎
    に分割する単語分割装置4と、 単語の出現頻度に対する使用頻度の更新量を指
    定する情報を保持する更新量指定情報保持手段2
    と、 単語分割装置4によつて単語毎に分割された漢
    字仮名混じり文字列における単語の出現頻度を計
    数する頻度処理装置5と、 頻度処理装置5から渡される単語とその出現頻
    度と更新量指定情報保持手段2の内容とに基づい
    て単語辞書9内の単語の使用頻度を更新する辞書
    更新装置7と を具備し、 単語分割装置4は、解析部4′と候補単語抽出
    部6′とから構成され、 候補単語抽出部6′は、 単語辞書9から、解析部4′から渡された解
    析位置の右に続く文字列と一致する単語をすべ
    て取り出す処理を行い、 により取り出された単語の中で、その直前
    に最尤候補があるときは当該最尤候補と文法的
    に接続可能なもののみの集合を候補{i}と
    し、候補{i}と関連情報を解析部4′に渡す
    処理を行う ように構成され、 解析部4′は、 ′ 最初にi(iは抽出した単語に与えられる番
    号)を初期値に設定し、解析位置を入力文字列
    の左端に設定し、解析位置の右に続く入力文字
    列を候補単語抽出部6′に与える処理を行い、 ′ 候補単語抽出部6′から候補{i}と関連情
    報が渡されたときに、候補{i}が空きである
    か否かを判定する処理を行い、 ′ 空きでない場合には単語の文字数とその使
    用頻度に基づいて、候補{i}の中から最尤候
    補の単語iを選ぶ処理を行い、 ′ 最尤候補の単語iの文字数だけ解析位置を
    右にずらす処理を行い、 ′ 解析位置が右端にあるか否を判定し、解析
    位置が右端でなければ、iを+1し、解析位置
    の右に続く文字列を候補単語抽出部6′に渡す
    処理を行い、 ′ ′の処理で空きであると判定された場合に
    は、iが初期値でないときにはiを−1し、解
    析位置をその最尤候補の単語iの文字数だけ左
    にずらし、当該最尤候補を候補{i}から除去
    し、′以後の処理を繰り返す処理を行うよう
    構成されている ことを特徴とする単語辞書内の単語の使用頻度を
    更新するための辞書学習方式。
JP17247179A 1979-12-26 1979-12-26 Dictionary study system Granted JPS5692675A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP17247179A JPS5692675A (en) 1979-12-26 1979-12-26 Dictionary study system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP17247179A JPS5692675A (en) 1979-12-26 1979-12-26 Dictionary study system

Publications (2)

Publication Number Publication Date
JPS5692675A JPS5692675A (en) 1981-07-27
JPH0146895B2 true JPH0146895B2 (ja) 1989-10-11

Family

ID=15942595

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17247179A Granted JPS5692675A (en) 1979-12-26 1979-12-26 Dictionary study system

Country Status (1)

Country Link
JP (1) JPS5692675A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01287771A (ja) * 1988-05-13 1989-11-20 Matsushita Electric Ind Co Ltd 形態素解析装置
JPH05113969A (ja) * 1991-10-23 1993-05-07 Nec Corp 文書入力用辞書編集システム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS52132653A (en) * 1976-04-30 1977-11-07 Toshiba Corp Dictionary automatic updating unit
JPS54139355A (en) * 1978-04-21 1979-10-29 Agency Of Ind Science & Technol Word separator

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS52132653A (en) * 1976-04-30 1977-11-07 Toshiba Corp Dictionary automatic updating unit
JPS54139355A (en) * 1978-04-21 1979-10-29 Agency Of Ind Science & Technol Word separator

Also Published As

Publication number Publication date
JPS5692675A (en) 1981-07-27

Similar Documents

Publication Publication Date Title
US4991094A (en) Method for language-independent text tokenization using a character categorization
US7818165B2 (en) Method and system for language identification
US5337232A (en) Morpheme analysis device
JP2013117978A (ja) タイピング効率向上のためのタイピング候補の生成方法
CN109086274B (zh) 基于约束模型的英文社交媒体短文本时间表达式识别方法
JPH0211934B2 (ja)
JPH0146895B2 (ja)
KR102182248B1 (ko) 문법 검사 시스템 및 방법과 이를 위한 컴퓨터 프로그램
UzZaman et al. A comprehensive bangla spelling checker
JP3803253B2 (ja) 漢字入力のための方法および装置
JPH0246976B2 (ja)
Mon Spell checker for Myanmar language
KR0165591B1 (ko) 한영 혼용 입력장치에 적용되는 한.영 자동 전환 방법
JPH0140372B2 (ja)
JP2821143B2 (ja) 形態素分解装置
JPH07105217A (ja) 入力文字自動補正装置
KR20040050461A (ko) 한국어 텍스트 상의 개체명 인식 장치 및 방법
JPH0810452B2 (ja) 日本語対象文固有用語抽出処理装置
CN115050034A (zh) 现代藏文音节字的全构件识别算法
Kim Construction ofYonsei 20th Century Corpus'
JPS58168180A (ja) 情報検索装置
JPS6175467A (ja) 仮名漢字変換方式
JPS5998236A (ja) 日本文入力装置
JPH0773174A (ja) 日本語処理システム
JPS5924379A (ja) 電子機器