JP3363552B2 - 文書処理方法とその装置 - Google Patents

文書処理方法とその装置

Info

Publication number
JP3363552B2
JP3363552B2 JP29930093A JP29930093A JP3363552B2 JP 3363552 B2 JP3363552 B2 JP 3363552B2 JP 29930093 A JP29930093 A JP 29930093A JP 29930093 A JP29930093 A JP 29930093A JP 3363552 B2 JP3363552 B2 JP 3363552B2
Authority
JP
Japan
Prior art keywords
word
sentence
input
meaning
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP29930093A
Other languages
English (en)
Other versions
JPH07152781A (ja
Inventor
誠 廣田
津義 八木沢
和恵 金子
昇吾 柴田
稔 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP29930093A priority Critical patent/JP3363552B2/ja
Publication of JPH07152781A publication Critical patent/JPH07152781A/ja
Application granted granted Critical
Publication of JP3363552B2 publication Critical patent/JP3363552B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は文書処理装置に関し、例
えば単語の語義を入力し、それに最も適当な単語を検索
する文書処理方法とその装置に関するものである。
【0002】
【従来の技術】一般に、語の語義からその語義を持つ単
語を検索する場合は、例えばUNIXのコマンド“gr
ep”やフルテキストサーチ(全文検索)を用いて検索
が行われる。
【0003】
【発明が解決しようとする課題】しかしながら、この種
のコマンド等で実行される検索方式は、ユーザが検索し
たい単語と関連のある単語或いは、その単語の語義文中
に含まれていそうな何らかの語句をキーワードとして入
力している。そして、単に、このキーワードを含む語義
文を探して、その語義文に該当する単語を検索している
ため、その検索の精度があまり良くないという問題があ
った。
【0004】本発明は上記従来例に鑑みてなされたもの
で、ユーザが知りたい単語の語義文を自由に作成して入
力し、その入力された語義文と辞書に記載された各単語
の語義文との表現の間で柔軟な比較を行って、入力され
た語義文に該当する単語を高速に検索できる文書処理方
法とその装置を提供することを目的とする。
【0005】
【課題を解決するための手段】上記目的を達成するため
に本発明の文書処理装置は以下のような構成を備える。
即ち、単語と該単語の語義文とを対応付けて記憶した辞
書記憶手段と、検索対象とする単語の語義を表わす文を
入力する入力手段と、前記辞書記憶手段に記憶された各
語義文において、前記入力手段により入力された入力文
の各入力文字につき順次、該入力文字と一致する一の語
義文字を、当該語義文の中でそれまでに当該入力文の他
の入力文字と未一致の語義文字の中から検索し、一致す
る一の語義文字が見つかれば当該入力文字についての検
索を終了して整合度を増加させることで、当該入力文に
対する各語義文の整合度を求める整合度獲得手段と、前
記整合度獲得手段により求められた前記整合度の高い語
義文に対応付けられた単語を、前記入力文に該当する単
語として前記辞書記憶手段より検索する検索手段と、を
有することを特徴とする。
【0006】また上記目的を達成するために本発明の文
書処理方法は以下のような工程を備える。即ち、文を入
力して該当する単語を検索する文書処理方法であって、
検索対象とする単語の語義を表わす文を入力する入力工
程と、単語と該単語の語義文とを対応付けて記憶した辞
書中の各語義文において、前記入力工程で入力された
力文の各入力文字につき順次、該入力文字と一致する一
の語義文字を、当該語義文の中でそれまでに当該入力さ
れた文の他の入力文字と未一致の語義文字の中から検索
し、一致する一の語義文字が見つかれば当該入力文字に
ついての検索を終了して整合度を増加させることで、当
該入力文に対する各語義文の整合度を求める整合度獲得
工程と、前記整合度獲得工程により求められた前記整合
度の高い語義文に対応付けられた単語を、前記入力文に
該当する単語として前記辞書より検索する検索工程と、
を有することを特徴とする。
【0007】
【作用】以上の構成において、検索対象とする単語の語
義を表わす入力文の各入力文字につき順次、該入力文字
と一致する一の語義文字を、当該語義文の中でそれまで
に当該入力文の他の入力文字と未一致の語義文字の中か
ら検索し、一致する一の語義文字が見つかれば当該入力
文字についての検索を終了して整合度を増加させること
で、当該入力文に対する各語義文の整合度を求め、整合
度の高い語義文に対応付けられた単語を、その入力文に
該当する単語として辞書記憶手段より検索するように動
作する。
【0008】
【実施例】以下、添付図面を参照して本発明の好適な実
施例を詳細に説明する。
【0009】図1は本発明の一実施例に係る自然言語処
理装置の概略構成を示すブロック図である。同図におい
て、1は入力文保持部で、後述するキーボード等より入
力された文を保持している。2は単語検索処理部で、入
力文保持部1に保持された入力文に基づいて該当する単
語を検索する。3は「単語−語義」辞書で、例えば図4
に示すように、単語とその語義文とが対応付けて記憶さ
れている。4は単語出力部で、単語検索処理部4で検索
された単語が出力される。
【0010】図2は本実施例の自然言語処理装置の具体
的な回路構成を示すブロック図である。
【0011】図2において、101は装置全体を制御す
るCPUで、プログラムメモリ104に記憶されている
制御プログラム(例えば、図3のフローチャートで示
す)に従って装置全体を制御している。このCPU10
1及びプログラムメモリ104は図1の単語検索処理部
2に該当している。102はキーボードで、オペレータ
により操作され、後述する入力文や文書データ等の各種
データや各種指示コマンド等が入力される。103は、
例えばマウス等のポインティングデバイスで、コマンド
入力やメニュ選択等に使用される。105はRAMで、
CPU101の動作時、ワークエリアとして使用され、
後述する入力文S、単語A、変数M、カウンタi等の各
種データを一時的に保存している。よって、このRAM
105は入力文保持部1の機能をも有している。106
は、例えばCRTや液晶等の表示部で、キーボード10
2より入力されたコマンドや文書データ、更にはオペレ
ータへのメッセージ等を表示しており、単語出力部4の
機能をも有している。3は図1に示された、単語と語義
との関係を記憶している辞書である。108は、例えば
ハードディスク等の外部記憶装置で、文書データや画像
データ、更には辞書107の内容が記憶されていても良
い。
【0012】次に、図3のフローチャートを参照して、
本実施例の装置の動作を詳しく説明する。
【0013】まずステップS1では、例えばキーボード
102から入力されるユーザからの入力文を受取り、こ
れを入力文保持部1(例えばRAM105の文書データ
記憶エリア:以降、ここに保持されている入力文を入力
文Sと呼ぶ)に保持する。また、後続の検索処理により
取り出される単語を保持する単語出力部4(例えばRA
M105の検索語記憶エリア:以後、ここに保持されて
いる単語を単語Aと呼ぶ)を、最初に空の文字列(例え
ばヌル(null)コード列)としておく。更に、入力文と辞
書中の語義文との整合度の度合いを示す(以後、これを
スコアSCと呼ぶ)の最大値を保持する変数M、チェッ
クした単語の数をカウントするカウンタiの値をそれぞ
れ“0”に初期化する。尚、これらスコアSC、変数
M、カウンタiの値はRAM105のワークエリアに記
憶されている。
【0014】次にステップS2に進み、カウンタiの値
が予め設定された所定値N(例えば辞書中の単語の総
数)を越えたかどうかを調べ、越えていない場合はステ
ップS3に進む。ステップS3では、カウンタiをイン
クリメント(+1)する。そしてステップS4に進み、
まず「単語−語義」辞書3を引く。
【0015】図4は、この「単語−語義」辞書3のデー
タ構成例を示す図である。
【0016】図4では、辞書中のいくつかの単語と、そ
の単語の意味を示す語義文とが対応付けて示されてい
る。
【0017】そこでステップS4において、カウンタi
の値で示されるi番目の単語の語義文(以後、これを語
義文Gi と呼ぶ)を辞書3より読出す。そして入力文S
と語義文Gi とを比較する。図3に示された関数f
(S,Gi )は、入力文Sと語義文Gi との整合度(マ
ッチング)を調べ、そのスコアを返す関数である。この
関数で表されたスコアは、RAM105の変数mに保持
される。次にステップS5に進み、ステップS4で得ら
れたスコアmと、それまでに得られたスコアの最大値M
とを比較し、mがM以下(m≦M)であればステップS
2に戻る。逆にmがMより大きければ(m>M)ステッ
プS6に進む。
【0018】ステップS6では、最大スコアMを今回得
られたスコアmに書き換えるとともに、単語出力部4に
保持されている単語Aを、辞書中のi番目の単語Wi
書き換える。そしてステップS2に戻る。こうしてステ
ップS2で、カウンタiの値がNを越えた場合はステッ
プS7に進み、検索結果として単語Aに記憶されている
単語Wを出力して処理を終了する。
【0019】図5は図3のステップS4における、入力
文Sと語義文Gi の整合度の比較およびスコア付け(関
数fの内容)のための処理を示すフローチャートであ
る。
【0020】図6(A)に示すように、入力文Sの前か
らp番目の文字をXp とし、図6(B)に示すように、
語義文Gi の前からq番目の文字をYq と表わす。また
最初、スコアSCの値は“0”としておく。尚、このス
コアSCの値は、RAM105に記憶されている。
【0021】マッチングの判定は、入力文Sの文字X
1 ,X2 ,…の先頭から順にそれぞれに一致する文字を
語義文Gi の中の(前から順に)探していく。また、入
力文の文字が語義文の何文字目の文字と一致するか(つ
まりqの値)を記憶するためのリスト(list)を用意す
る。最初、このリストの内容は全て空(“0”)にして
おく(ステップS11)。いま、図6(A)の文字Xp
に注目しているとすると、これが文末コードでなければ
ステップS12からステップS13に進み、対応する文
字を語義文Gi (Y1 〜文末まで)の中から探す。但
し、既にリストに記憶されているポインタの指す文字に
ついては(すでに入力文の他の文字と一致しているた
め)一致しているかどうかの判定を行なわない。図5で
は、ステップS12からステップS17の処理がこの処
理に該当している。即ち、最初にステップS13でqの
値を“1”とし(語義文Gi の先頭)、語義文Gi の先
頭より順次文字Xp と比較していく。このとき、qの値
がリストに既に登録されている時はステップS15より
ステップS17に進み、そうでない時のみステップS1
6で文字Xp と語義文のq番目の文字Yq とが比較され
る。この処理が語義文Gi の最後(文末)まで行われ
る。
【0022】こうしてステップS16で、文字Xp と語
義文字Yq とが一致するとステップS18に進み、スコ
アSCをある一定量増やし、語義文Gi 中の一致した文
字の順位を示す値qをリストに追加する。そしてステッ
プS19でpを+1して(p=p+1)、入力文の文字
位置を次の位置に進め、入力文Sの次の文字Xp+1 につ
いて、前述と同様の処理を行なう。
【0023】このような比較処理を行うことにより、入
力文Sと語義文Gi の表記上の差異が吸収され、柔軟な
マッチング処理を行うことができる。
【0024】例えば、入力文Sが『物事をする理由や目
的など』である場合、図4の辞書例にある「趣旨」とい
う単語の語義文『その事をする中心的なねらいや目的』
と文字の比較を行うと、両者の文表記が異なっているに
もかかわらず、“事をする”や“目的”という文字がう
まく一致して、同じ内容を表していると判断され、この
単語「趣旨」の語義文が高いスコアを得ることができ
る。
【0025】また、前述のマッチング処理では、比較す
る文の中での文字の出現順序の制約を受けない(例え
ば、入力文Sの1番目および5番目の各文字が、語義文
i の4番目および2番目の文字とそれぞれ一致すると
いうことが許される)ので、文字列の前後が逆になって
いるような、いわゆるクロス状態にあっても入力文Sと
語義文Gi の表記とがうまく比較される。
【0026】この文字列のクロスとは、例えば入力文S
が、『目下の者に対し、目上の者が言い聞かせること』
である場合を考える。図4の辞書例の「諭旨」という単
語の語義文『目上の者から目下の者にさとして言い聞か
せること』のようになっている場合は、“目上の者”と
いう文字列と“目下の者”という文字列の位置が入力文
と語義文とで逆になっている。このような関係を文字列
のクロスと呼んでいる。本実施例では、このようなクロ
スしている場合であっても、各文字列同士はうまくマッ
チングが取られることになる。
【0027】図7は本実施例の言語処理装置における具
体的な動作例を示す図で、ここでは入力文が「物事をす
る理由や目的など」であるとき、その文に対応する意味
の単語が検索され、単語「趣旨」との整合度がスコア
“8.0”であり、単語「要旨」との整合度が“5.
0”であり、単語「趣旨」との整合度が“3.0”とい
うようにそれぞれ示されている。
【0028】図7における701は、単語「趣旨」の語
義文『その事をする中心的なねらいや目的』と、入力文
との比較例を示したものである。これから明らかなよう
に、その語義文と入力文とでは8文字が一致しており、
従ってスコアは“8.0”となる。
【0029】尚、前述の実施例では、スコアの最も高い
語義文を持つ単語を検索するものとしたが、スコアの高
い順に複数の単語の候補を出力するようにしてもよい。
本実施例では、整合度の度合いをスコアとして定量的に
評価しているため、このようなことが簡単に実現でき
る。
【0030】また上記実施例では、一致する文字が見つ
かるごとにスコアを一定量増加させるというスコア付け
を行なっているが、本発明はこれに限定されるものでな
く、先見的な知識などを利用したさまざまな方法が可能
である。例えば、漢字同士が一致したときは意味的にも
一致している可能性が高いとみなし、漢字が一致したと
きのスコアの増分を、ひらがなやカタカナが一致した場
合よりも多くする方法等が考えられる。その他にも、ス
コアを計算する数式を自由に設定或いは記述できるよう
にすることにより、種々の微調整ができる。
【0031】更にまた本実施例では、日本語の場合を例
にとって説明したが、英語や独語などのように、どのよ
うな言語にも適用できる。
【0032】また本実施例では、マッチングの対象を語
義文として説明したが、語義文以外の情報、例えば市販
辞書に見られるような同義語、反対語、用例文などを辞
書に持たせ、これらの文字列をマッチングの対象にして
も良い。
【0033】更に、実施例では、文字列を対象とした簡
易なマッチングの場合で説明したが、これ以外にも文字
や単語レベルでのDPマッチング(参照:長尾 真,
「言語工学」,昭晃堂)や、文解析を用いた手法を組み
合わせても良い。
【0034】尚、本発明は複数の機器から構成されるシ
ステムに適用しても、1つの機器からなる装置に適用し
ても良い。また、本発明はシステム或は装置に、本発明
を実施するプログラムを供給することによって達成され
る場合にも適用できることは言うまでもない。
【0035】以上説明したように本実施例では、入力さ
れた語義文と辞書中の各語義文との間で文解析を用いず
に、それぞれの表記上の異なりをある程度吸収して、で
きるだけ高速に一致しているかどうかを調べ、その一致
している度合いを定量的に評価できるようにしている。
更に、入力された語義文に、最も整合していると判断さ
れる語義文を有する単語を検索するようにしたので、ユ
ーザはある語義を有する単語を知りたいときに、その語
義を自由に記述した語義文を入力することによって、そ
の単語を辞書から容易に検索できる効果がある。
【0036】
【発明の効果】以上説明したように本発明によれば、入
力文と辞書中の各単語の語義文との間の文字単位の比較
から得られた整合度に基づいて、入力文該当する単語
が検索されるので、複雑な処理を要することなく、ユー
ザは、知りたい単語について自由に表現した文を入力す
れば、目的とする単語を得ることができるという効果が
ある。
【図面の簡単な説明】
【図1】本実施例の自然言語処理装置の基本構成を示す
機能ブロック図である。
【図2】本実施例の自然言語処理装置の具体的な構成を
示すブロック図である。
【図3】本実施例の自然言語処理装置における処理手順
を示すフローチャートである。
【図4】本実施例の「単語−語義」辞書の具体的な内容
例を示す図である。
【図5】図3のステップS4における入力文と辞書語義
文とのマッチング処理およびスコア付けの処理手順を示
すフローチャートである。
【図6】入力文と辞書語義文の各ポインタにより指示さ
れた文字位置を説明するための図である。
【図7】本実施例の自然言語処理装置の動作例を説明す
るための図である。
【符号の説明】
1 入力文保持部 2 単語検索処理部 3 「単語−語義」辞書 4 単語出力部 101 CPU 104 プログラムメモリ 105 プログラムメモリ 106 表示部 108 外部記憶装置
───────────────────────────────────────────────────── フロントページの続き (72)発明者 柴田 昇吾 東京都大田区下丸子3丁目30番2号 キ ヤノン株式会社内 (72)発明者 藤田 稔 東京都大田区下丸子3丁目30番2号 キ ヤノン株式会社内 (56)参考文献 特開 平2−115974(JP,A) 特開 平4−139580(JP,A) 特開 平2−184975(JP,A) 特開 平4−152468(JP,A) 特開 平4−357568(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 G06F 17/21

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 単語と該単語の語義文とを対応付けて記
    憶した辞書記憶手段と、 検索対象とする単語の語義を表わす文を入力する入力手
    段と、前記辞書記憶手段に記憶された各語義文において、 前記
    入力手段により入力された入力文の各入力文字につき順
    次、該入力文字と一致する一の語義文字を、当該語義文
    の中でそれまでに当該入力文の他の入力文字と未一致の
    語義文字の中から検索し、一致する一の語義文字が見つ
    かれば当該入力文字についての検索を終了して整合度を
    増加させることで、当該入力文に対する各語義文の整合
    度を求める整合度獲得手段と、 前記整合度獲得手段により求められた前記整合度の高い
    語義文に対応付けられた単語を、前記入力文に該当する
    単語として前記辞書記憶手段より検索する検索手段と、 を有することを特徴とする文書処理装置。
  2. 【請求項2】 前記整合度獲得手段は、前記入力文字と
    一致する語義文字が漢字である場合に、仮名である場合
    よりも前記整合度の増分を多くすることを特徴とする請
    求項1に記載の文書処理装置。
  3. 【請求項3】 文を入力して該当する単語を検索する文
    書処理方法であって、 検索対象とする単語の語義を表わす文を入力する入力工
    程と、単語と該単語の語義文とを対応付けて記憶した辞書中の
    各語義文において、 前記入力工程で入力された入力文の
    各入力文字につき順次、該入力文字と一致する一の語義
    文字を、当該語義文の中でそれまでに当該入力された文
    の他の入力文字と未一致の語義文字の中から検索し、一
    致する一の語義文字が見つかれば当該入力文字について
    の検索を終了して整合度を増加させることで、当該入力
    文に対する各語義文の整合度を求める整合度獲得工程
    と、 前記整合度獲得工程により求められた前記整合度の高い
    語義文に対応付けられた単語を、前記入力文に該当する
    単語として前記辞書より検索する検索工程と、を有する
    ことを特徴とする文書処理方法。
  4. 【請求項4】 前記整合度獲得工程では、前記入力文字
    と一致する語義文字が漢字である場合に、仮名である場
    合よりも整合度の増分を多くすることを特徴とする請求
    に記載の文書処理方法。
JP29930093A 1993-11-30 1993-11-30 文書処理方法とその装置 Expired - Fee Related JP3363552B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP29930093A JP3363552B2 (ja) 1993-11-30 1993-11-30 文書処理方法とその装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP29930093A JP3363552B2 (ja) 1993-11-30 1993-11-30 文書処理方法とその装置

Publications (2)

Publication Number Publication Date
JPH07152781A JPH07152781A (ja) 1995-06-16
JP3363552B2 true JP3363552B2 (ja) 2003-01-08

Family

ID=17870752

Family Applications (1)

Application Number Title Priority Date Filing Date
JP29930093A Expired - Fee Related JP3363552B2 (ja) 1993-11-30 1993-11-30 文書処理方法とその装置

Country Status (1)

Country Link
JP (1) JP3363552B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4622272B2 (ja) * 2004-03-10 2011-02-02 富士ゼロックス株式会社 言語処理装置、言語処理方法およびプログラム
CN110046491B (zh) * 2019-03-05 2022-09-09 北京达佳互联信息技术有限公司 密保问题的校验方法、装置、电子设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02115974A (ja) * 1988-10-26 1990-04-27 Hitachi Ltd 言語検索装置
JPH02184975A (ja) * 1989-01-11 1990-07-19 Nippon Telegr & Teleph Corp <Ntt> 自然語入力対話型情報検索における文章による知識表現方式
JPH04139580A (ja) * 1990-09-29 1992-05-13 Fujitsu Ltd 見出し語探索システム
JPH04152468A (ja) * 1990-10-17 1992-05-26 Hitachi Ltd 文書検索装置
JP2943447B2 (ja) * 1991-01-30 1999-08-30 三菱電機株式会社 テキスト情報抽出装置とテキスト類似照合装置とテキスト検索システムとテキスト情報抽出方法とテキスト類似照合方法、及び、質問解析装置

Also Published As

Publication number Publication date
JPH07152781A (ja) 1995-06-16

Similar Documents

Publication Publication Date Title
EP0118187B1 (en) Menu-based natural language understanding system
JP3363552B2 (ja) 文書処理方法とその装置
JP3123836B2 (ja) テキスト型データベース装置
KR100191001B1 (ko) 고속교정장치 및 그 방법
JPH0576067B2 (ja)
JP2595934B2 (ja) 仮名漢字変換処理装置
JPH05113964A (ja) 電子辞書
JPS62209666A (ja) ワ−ドプロセツサ
JP2621999B2 (ja) 文書処理装置
JP2793992B2 (ja) 同音異義語認識装置
JPH0793345A (ja) 文書検索装置
JPS6134668A (ja) 仮名漢字変換処理方式
JP2862236B2 (ja) 文字処理装置
JP3847801B2 (ja) 文字処理装置及びその処理方法
JPH04290158A (ja) 文書作成装置
JPH0414381B2 (ja)
JPH06149790A (ja) 文章作成装置
JPH0721186A (ja) 翻訳支援装置
KR20010003037A (ko) 다국어 입력기
JPH0468466A (ja) かな漢字変換装置
JPH0623973B2 (ja) 文字処理装置の頻度変更方式
JPH06149791A (ja) 漢字文章入力装置
JPS63657A (ja) 日本語ワ−ドプロセツサ
JPH10240738A (ja) 訳語推論装置及び訳語推論装置制御プログラムを記憶した媒体
JPH07319908A (ja) 文書検索方法及び文書検索装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20021004

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071025

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081025

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091025

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees