JPH06195371A - 未登録語獲得方式 - Google Patents
未登録語獲得方式Info
- Publication number
- JPH06195371A JPH06195371A JP4256659A JP25665992A JPH06195371A JP H06195371 A JPH06195371 A JP H06195371A JP 4256659 A JP4256659 A JP 4256659A JP 25665992 A JP25665992 A JP 25665992A JP H06195371 A JPH06195371 A JP H06195371A
- Authority
- JP
- Japan
- Prior art keywords
- synonym
- word
- words
- occurrence
- unregistered word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【目的】 自然言語処理システムにおいて、自然言語の
入力文中に、意味解析による未登録語が発生した場合、
この未登録語をシステム内の既知の意味要素との関係づ
けを行なうための同義語候補を絞り込めるようにする。 【構成】 未登録語抽出手段11は、未登録語を含む入
力文から未登録語を抽出する。共起事例データ記憶手段
12は、共起事例データを格納する。解析手段14は、
単語とその間の関係を抽出する。同義語候補抽出手段1
5は、解析手段14により抽出された単語と関係をキー
にして共起事例データ記憶手段12を検索して得られた
共起単語の中から辞書記憶手段3に含まれる単語だけを
残して同義語候補とする。同義語選択手段16は、同義
語候補を利用者に提示し選択する。辞書登録手段17
は、選択された同義語を辞書記憶手段3に登録する。
入力文中に、意味解析による未登録語が発生した場合、
この未登録語をシステム内の既知の意味要素との関係づ
けを行なうための同義語候補を絞り込めるようにする。 【構成】 未登録語抽出手段11は、未登録語を含む入
力文から未登録語を抽出する。共起事例データ記憶手段
12は、共起事例データを格納する。解析手段14は、
単語とその間の関係を抽出する。同義語候補抽出手段1
5は、解析手段14により抽出された単語と関係をキー
にして共起事例データ記憶手段12を検索して得られた
共起単語の中から辞書記憶手段3に含まれる単語だけを
残して同義語候補とする。同義語選択手段16は、同義
語候補を利用者に提示し選択する。辞書登録手段17
は、選択された同義語を辞書記憶手段3に登録する。
Description
【0001】
【産業上の利用分野】本発明は、機械翻訳システムや自
然言語インタフェースなど自然言語処理システムに係わ
り、特に辞書に登録されていない単語(以下、未登録語
と称する。)を含む入力文を解析し、未登録語を抽出
し、辞書に登録する未登録語獲得方式に関する。
然言語インタフェースなど自然言語処理システムに係わ
り、特に辞書に登録されていない単語(以下、未登録語
と称する。)を含む入力文を解析し、未登録語を抽出
し、辞書に登録する未登録語獲得方式に関する。
【0002】
【従来の技術】データベース技術やAI(人工知能)技
術の発展により、専門のオペレータだけでなく、計算機
に馴染みの薄いユーザでも簡単に使えるインタフェース
の要望が高まってきている。この要望に答えるインタフ
ェースの一つに計算機に対して自然言語で問い合わせを
行なうものが開発されている。このような自然言語イン
タフェースは、自然言語処理を行なう意味解析部を備
え、入力される自然言語の入力文の意味を理解して、そ
れぞれのアプリケーションに対して、アプリケーション
固有の操作手段にしたがった入力列を作成し、アプリケ
ーションを実行する。
術の発展により、専門のオペレータだけでなく、計算機
に馴染みの薄いユーザでも簡単に使えるインタフェース
の要望が高まってきている。この要望に答えるインタフ
ェースの一つに計算機に対して自然言語で問い合わせを
行なうものが開発されている。このような自然言語イン
タフェースは、自然言語処理を行なう意味解析部を備
え、入力される自然言語の入力文の意味を理解して、そ
れぞれのアプリケーションに対して、アプリケーション
固有の操作手段にしたがった入力列を作成し、アプリケ
ーションを実行する。
【0003】システムの意味解析部が入力文中に含まれ
ている単語の意味を理解するためには、辞書との照合を
行ない意味解析を行なう必要がある。しかし、各種入力
文中に含まれる全ての単語を網羅して辞書に登録してお
くことは不可能であるため、一部に照合できない未登録
語が生じ、結果としては、システムが入力文を理解でき
ない結果となる場合が多くあった。
ている単語の意味を理解するためには、辞書との照合を
行ない意味解析を行なう必要がある。しかし、各種入力
文中に含まれる全ての単語を網羅して辞書に登録してお
くことは不可能であるため、一部に照合できない未登録
語が生じ、結果としては、システムが入力文を理解でき
ない結果となる場合が多くあった。
【0004】そのため、色々な未登録語処理方式が提案
されている。例えば、特開平1−180631号公報記
載の「情報検索システム」がある。この情報検索システ
ム中で使用されている意味解析部の中では、未登録語の
前後の単語から文法的関係を調べても属性を認定できな
い単語に関して、検索条件を生成する各種の処理に分類
して、分類毎に未定義語を既知語に置き換え、ユーザに
確認をもとめることで未定義語の意味情報の獲得及び処
理時の実行を行なうようになっている。
されている。例えば、特開平1−180631号公報記
載の「情報検索システム」がある。この情報検索システ
ム中で使用されている意味解析部の中では、未登録語の
前後の単語から文法的関係を調べても属性を認定できな
い単語に関して、検索条件を生成する各種の処理に分類
して、分類毎に未定義語を既知語に置き換え、ユーザに
確認をもとめることで未定義語の意味情報の獲得及び処
理時の実行を行なうようになっている。
【0005】未登録語を辞書に登録する手段にも、色々
な未登録語獲得方式が提案されている。例えば、特開昭
61−105671号公報記載の「自然言語処理装置」
がある。この自然言語処理装置の中では、未登録語が出
現した場合、未定義語の上位概念を求め、この上位概念
の下位概念を同義語情報として提示し選択するようにな
っている。
な未登録語獲得方式が提案されている。例えば、特開昭
61−105671号公報記載の「自然言語処理装置」
がある。この自然言語処理装置の中では、未登録語が出
現した場合、未定義語の上位概念を求め、この上位概念
の下位概念を同義語情報として提示し選択するようにな
っている。
【0006】また、特開昭62−212767号公報記
載の「辞書更新機能付き自然言語処理方式」がある。こ
の辞書更新機能付き自然言語処理方式では、未登録語が
活用のない場合は名詞、活用のある場合は各種の文法的
記述に関してその文法記述をそのままユーザに入力して
もらうようになっている。
載の「辞書更新機能付き自然言語処理方式」がある。こ
の辞書更新機能付き自然言語処理方式では、未登録語が
活用のない場合は名詞、活用のある場合は各種の文法的
記述に関してその文法記述をそのままユーザに入力して
もらうようになっている。
【0007】
【発明が解決しようとする課題】従来の未登録語獲得方
式において、直接文法的な記述を取り込む方式ではユー
ザに対して専門的な文法知識を要求することになり、ユ
ーザの負担を増加させることになる。また、同義語候補
を提示する場合、上位下位概念からその同義語を絞り込
むためには、一般的な上位下位概念を網羅した膨大な意
味ネットが必要になる。また、文法的な意味カテゴリか
らの絞り込みを行なう場合、同義語候補の数が膨大とな
り、ユーザが選択をするのが困難である。
式において、直接文法的な記述を取り込む方式ではユー
ザに対して専門的な文法知識を要求することになり、ユ
ーザの負担を増加させることになる。また、同義語候補
を提示する場合、上位下位概念からその同義語を絞り込
むためには、一般的な上位下位概念を網羅した膨大な意
味ネットが必要になる。また、文法的な意味カテゴリか
らの絞り込みを行なう場合、同義語候補の数が膨大とな
り、ユーザが選択をするのが困難である。
【0008】本発明は上記の問題点を解決するためにな
されたものであり、本発明の目的は、自然言語を入力し
処理する自然言語処理システムにおいて、自然言語の入
力文中に、意味解析による未登録語が発生した場合、こ
の未登録語をシステム内の既知の意味要素との関係づけ
を行なうための同義語候補を絞り込めるようにすること
にある。
されたものであり、本発明の目的は、自然言語を入力し
処理する自然言語処理システムにおいて、自然言語の入
力文中に、意味解析による未登録語が発生した場合、こ
の未登録語をシステム内の既知の意味要素との関係づけ
を行なうための同義語候補を絞り込めるようにすること
にある。
【0009】
【課題を解決するための手段】前述の課題を解決するた
めに、本発明の未登録語獲得方式は、入力文字列の表層
から前記表層に対応するアプリケーションシステム上で
登録されている単語である概念記号を検索する形式を持
つ辞書記憶手段と、前記辞書記憶手段上で検索できない
未登録語を含む入力文から前記未登録語を抽出する未登
録語抽出手段と、入力文に含まれる単語の表層及び前記
単語から辞書記憶手段を検索して得られる前記概念記号
及び前記意味要素間の格関係を分類した格関係項目の組
合せからなる共起事例データを格納する共起事例データ
記憶手段と、前記辞書記憶手段を用いて、入力文から前
記概念記号及び概念記号間の関係からなる概念構造を抽
出する解析手段と、前記解析手段により入力文から抽出
された概念構造の中の前記登録単語と、前記登録単語間
の関係から前記共起事例データ記憶のマッチングを行な
って共起事例データ上で未登録語の位置にくる単語であ
る共起単語の中から辞書記憶手段に含まれる単語だけを
残して同義語候補とする同義語候補抽出手段と、前記同
義語候補抽出手段で得られた同義語候補を利用者に提示
し選択させる同義語選択手段と、前記同義語選択手段で
選択された同義語を辞書記憶手段に登録する辞書登録手
段とを有することを特徴とする。
めに、本発明の未登録語獲得方式は、入力文字列の表層
から前記表層に対応するアプリケーションシステム上で
登録されている単語である概念記号を検索する形式を持
つ辞書記憶手段と、前記辞書記憶手段上で検索できない
未登録語を含む入力文から前記未登録語を抽出する未登
録語抽出手段と、入力文に含まれる単語の表層及び前記
単語から辞書記憶手段を検索して得られる前記概念記号
及び前記意味要素間の格関係を分類した格関係項目の組
合せからなる共起事例データを格納する共起事例データ
記憶手段と、前記辞書記憶手段を用いて、入力文から前
記概念記号及び概念記号間の関係からなる概念構造を抽
出する解析手段と、前記解析手段により入力文から抽出
された概念構造の中の前記登録単語と、前記登録単語間
の関係から前記共起事例データ記憶のマッチングを行な
って共起事例データ上で未登録語の位置にくる単語であ
る共起単語の中から辞書記憶手段に含まれる単語だけを
残して同義語候補とする同義語候補抽出手段と、前記同
義語候補抽出手段で得られた同義語候補を利用者に提示
し選択させる同義語選択手段と、前記同義語選択手段で
選択された同義語を辞書記憶手段に登録する辞書登録手
段とを有することを特徴とする。
【0010】また、本発明は、前記同義語候補抽出手段
が、前記共起事例データ記憶手段を検索する際に、未登
録語全体が共起事例データのエントリでない場合でも、
部分的に一致していればその語を同義語候補とすること
を特徴とする。
が、前記共起事例データ記憶手段を検索する際に、未登
録語全体が共起事例データのエントリでない場合でも、
部分的に一致していればその語を同義語候補とすること
を特徴とする。
【0011】また、本発明は、前記共起事例データ記憶
手段に記憶されている前記共起事例データ中の単語のう
ち、前記辞書記憶手段に登録されている単語に対して、
既に登録されていることを示すマークが付与されてお
り、前記同義語候補抽出手段が、前記解析手段により抽
出された単語及び単語間の関係をキーにして共起事例デ
ータを検索して得られた共起単語を同義語候補とするこ
とを特徴とする。
手段に記憶されている前記共起事例データ中の単語のう
ち、前記辞書記憶手段に登録されている単語に対して、
既に登録されていることを示すマークが付与されてお
り、前記同義語候補抽出手段が、前記解析手段により抽
出された単語及び単語間の関係をキーにして共起事例デ
ータを検索して得られた共起単語を同義語候補とするこ
とを特徴とする。
【0012】また、本発明は、同義語データを格納する
同義語データ記憶手段であって、同義語データ中の単語
のうち、前記辞書記憶手段に登録されている単語に対し
て既に登録されていることを示すマークを付与したマー
ク付き単語を含む同義語データ記憶手段を有し、前記同
義語候補抽出手段が、前記未登録語抽出手段により抽出
された未登録語をキーにして前記同義語データ記憶手段
を検索し、未登録語が同義語データのエントリであれ
ば、前記エントリを出発点として同義語データをめぐっ
て最も近いマーク付き単語を同義語候補とすることを特
徴とする。
同義語データ記憶手段であって、同義語データ中の単語
のうち、前記辞書記憶手段に登録されている単語に対し
て既に登録されていることを示すマークを付与したマー
ク付き単語を含む同義語データ記憶手段を有し、前記同
義語候補抽出手段が、前記未登録語抽出手段により抽出
された未登録語をキーにして前記同義語データ記憶手段
を検索し、未登録語が同義語データのエントリであれ
ば、前記エントリを出発点として同義語データをめぐっ
て最も近いマーク付き単語を同義語候補とすることを特
徴とする。
【0013】また、本発明は、前記同義語候補抽出手段
が、前記未登録語抽出手段により抽出された未登録語を
キーにして前記同義語データ記憶手段を検索し、未登録
語全体が同義語データのエントリと一致しなくても、部
分的に一致していればそのエントリを出発点として同義
語データをめぐって最も近いマーク付き単語を同義候補
とすることを特徴とする。
が、前記未登録語抽出手段により抽出された未登録語を
キーにして前記同義語データ記憶手段を検索し、未登録
語全体が同義語データのエントリと一致しなくても、部
分的に一致していればそのエントリを出発点として同義
語データをめぐって最も近いマーク付き単語を同義候補
とすることを特徴とする。
【0014】また、本発明は、前記同義語候補抽出手段
が、前記解析手段により抽出された単語及び単語間の関
係をキーにして共起事例データ記憶手段を検索して、得
られた共起単語をキーにして前記同義語データ記憶手段
を検索し、前記共起単語が同義語データのエントリであ
れば、前記エントリを出発点として同義語データをめぐ
って最も近いマーク付き単語と前記共起単語の両方を同
義語候補とすることを特徴とする。
が、前記解析手段により抽出された単語及び単語間の関
係をキーにして共起事例データ記憶手段を検索して、得
られた共起単語をキーにして前記同義語データ記憶手段
を検索し、前記共起単語が同義語データのエントリであ
れば、前記エントリを出発点として同義語データをめぐ
って最も近いマーク付き単語と前記共起単語の両方を同
義語候補とすることを特徴とする。
【0015】
【実施例】次に本発明について図面を参照して説明す
る。
る。
【0016】図1は本発明の実施例の未登録語獲得方式
の基本構成図、図2は図1中の共起事例データ記憶手段
12に記憶されているアプリケーションシステムで登録
されている単語及び単語間の関係の一例を示す図、図3
は図1中の同義語データ記憶手段18に記憶されている
同義語間の関係の一例を示す図、図4は未登録語を含ま
ない入力文を、図1中の解析手段14によって解析した
概念構造の一例を示す図、図5は未登録語を含む入力文
を図1中の解析手段14によって解析した概念構造の一
例を示す図、図6は辞書の一例を示す図である。
の基本構成図、図2は図1中の共起事例データ記憶手段
12に記憶されているアプリケーションシステムで登録
されている単語及び単語間の関係の一例を示す図、図3
は図1中の同義語データ記憶手段18に記憶されている
同義語間の関係の一例を示す図、図4は未登録語を含ま
ない入力文を、図1中の解析手段14によって解析した
概念構造の一例を示す図、図5は未登録語を含む入力文
を図1中の解析手段14によって解析した概念構造の一
例を示す図、図6は辞書の一例を示す図である。
【0017】図1において、本実施例はユーザが入力し
た自然言語の入力文から未登録語を抽出する未登録語抽
出手段11と、予め例文から抽出又は人手で登録された
共起事例データを格納する共起事例データ記憶手段12
と、アプリケーションシステムで登録されている単語で
ある概念記号及び前記概念記号間の関係を抽出する解析
手段14と、同義語データを格納する同義語データ記憶
手段であって、同義語データ中の単語のうち、辞書記憶
手段13に登録されている単語に対して既に登録されて
いることを示すマークを付与したマーク付き単語を含む
同義語データ記憶手段18と、解析手段14により抽出
された概念記号及び概念記号間の関係をキーにして共起
事例データ記憶手段12を検索して得られた共起単語
と、前記未登録語が部分的に一致する共起事例データの
部分的一致した単語の中から辞書記憶手段13に含まれ
る単語だけを残して第一次同義語候補とし、未登録語抽
出手段11により抽出された未登録語をキーにして同義
語データ記憶手段18を検索し、未登録語の全体あるい
は未登録語の一部が同義語データのエントリであれば、
前記エントリを出発点として同義語データをめぐって最
も近いマーク31付き単語を第二次同義語候補とし、前
記第一次同義語候補に前記第二次同義語候補を加えて同
義語候補とする同義語候補抽出手段15と、同義語候補
抽出手段15で得られた同義語候補を利用者に提示し選
択させる同義語選択手段16と、同義語選択手段16で
選択された同義語を辞書記憶手段13に登録する辞書登
録手段17を有している。
た自然言語の入力文から未登録語を抽出する未登録語抽
出手段11と、予め例文から抽出又は人手で登録された
共起事例データを格納する共起事例データ記憶手段12
と、アプリケーションシステムで登録されている単語で
ある概念記号及び前記概念記号間の関係を抽出する解析
手段14と、同義語データを格納する同義語データ記憶
手段であって、同義語データ中の単語のうち、辞書記憶
手段13に登録されている単語に対して既に登録されて
いることを示すマークを付与したマーク付き単語を含む
同義語データ記憶手段18と、解析手段14により抽出
された概念記号及び概念記号間の関係をキーにして共起
事例データ記憶手段12を検索して得られた共起単語
と、前記未登録語が部分的に一致する共起事例データの
部分的一致した単語の中から辞書記憶手段13に含まれ
る単語だけを残して第一次同義語候補とし、未登録語抽
出手段11により抽出された未登録語をキーにして同義
語データ記憶手段18を検索し、未登録語の全体あるい
は未登録語の一部が同義語データのエントリであれば、
前記エントリを出発点として同義語データをめぐって最
も近いマーク31付き単語を第二次同義語候補とし、前
記第一次同義語候補に前記第二次同義語候補を加えて同
義語候補とする同義語候補抽出手段15と、同義語候補
抽出手段15で得られた同義語候補を利用者に提示し選
択させる同義語選択手段16と、同義語選択手段16で
選択された同義語を辞書記憶手段13に登録する辞書登
録手段17を有している。
【0018】次に、本実施例の動作について、図1〜図
5を用いて説明する。
5を用いて説明する。
【0019】実際の流れをわかり易くするために未登録
語を含まない入力文(A)「東京の会社が持つ株は?」
と未登録語”企業”を含む入力文(B)「企業が持つ株
の比率は?」という2つの文を例にとって、説明する。
語を含まない入力文(A)「東京の会社が持つ株は?」
と未登録語”企業”を含む入力文(B)「企業が持つ株
の比率は?」という2つの文を例にとって、説明する。
【0020】入力された自然言語の文は辞書記憶手段1
3によって記憶されている図6で表される辞書情報を用
いて未登録語抽出手段11によって未登録語を抽出され
る。ここで前記辞書情報について図6を使って説明す
る。辞書情報は、入力文中に出現する文字列を文法的な
単位に区切ったエントリ61と、前記エントリに対応す
る文法情報62と前記エントリに対応する対象アプリケ
ーション上の単語である概念記号63と前記エントリの
文法上の意味分類64の組からなる。
3によって記憶されている図6で表される辞書情報を用
いて未登録語抽出手段11によって未登録語を抽出され
る。ここで前記辞書情報について図6を使って説明す
る。辞書情報は、入力文中に出現する文字列を文法的な
単位に区切ったエントリ61と、前記エントリに対応す
る文法情報62と前記エントリに対応する対象アプリケ
ーション上の単語である概念記号63と前記エントリの
文法上の意味分類64の組からなる。
【0021】未登録語の有無に係わらず解析手段14は
入力文を解析して概念構造を作成する。解析手段は例え
ば、特願61−175034によって周知のような構文
解析手段を用いれば良い。概念構造は例えば、電子情報
通信学会技術報告書NLC91−62「自然言語インタ
フェース構築キット:IF−Kit」に記載されている
方法を用いれば良く、アプリケーションシステム上で登
録されている単語及び前記単語間の関係から構成されて
いる。解析手段14は、入力文(A)、(B)から、そ
れぞれ図4(a),図5(a)のような概念構造を作成
する。
入力文を解析して概念構造を作成する。解析手段は例え
ば、特願61−175034によって周知のような構文
解析手段を用いれば良い。概念構造は例えば、電子情報
通信学会技術報告書NLC91−62「自然言語インタ
フェース構築キット:IF−Kit」に記載されている
方法を用いれば良く、アプリケーションシステム上で登
録されている単語及び前記単語間の関係から構成されて
いる。解析手段14は、入力文(A)、(B)から、そ
れぞれ図4(a),図5(a)のような概念構造を作成
する。
【0022】同義語候補抽出手段15は解析された概念
構造から、2つの意味要素21と前記意味要素間の関係
である格関係25の組に分割する。ここで図2を使って
用語を説明する。意味要素21とは、自然言語の表層2
2及びアプリケーションシステム上で登録されている単
語である概念記号23及び文法的な意味分類24からな
り、格関係25とは、2つの意味要素間を結んでいる助
詞の表層そのものである素表層格26及び副助詞などを
文法上同じ意味となる格助詞「が」、「を」、「に」、
「と」などに置き換えた正規化表層格27及び2つの意
味要素間の意味的な関係を表した深層格28から構成さ
れる。
構造から、2つの意味要素21と前記意味要素間の関係
である格関係25の組に分割する。ここで図2を使って
用語を説明する。意味要素21とは、自然言語の表層2
2及びアプリケーションシステム上で登録されている単
語である概念記号23及び文法的な意味分類24からな
り、格関係25とは、2つの意味要素間を結んでいる助
詞の表層そのものである素表層格26及び副助詞などを
文法上同じ意味となる格助詞「が」、「を」、「に」、
「と」などに置き換えた正規化表層格27及び2つの意
味要素間の意味的な関係を表した深層格28から構成さ
れる。
【0023】格関係の組が未登録語を含んでいない場
合、共起事例データ記憶手段12を検索し、マッチング
する格関係の組が登録されていない場合、共起事例デー
タ記憶手段12に記憶する。入力文(A)に対する格関
係の組は、図4(b)であらわされ、未登録語を含んで
いないので共起事例データ記憶手段12に図2のように
登録される。格関係の組が未登録語を含んでいる場合、
前記格関係の組のうち、意味要素の未登録語でない方と
格関係をキーとして、共起事例データ記憶手段12を検
索して、マッチングするものがあれば、検索された格関
係の組において、未登録語に当たる意味要素を第一次同
義語候補とし、未登録語の表層の一部がマッチングする
共起事例データが存在すれば、マッチングした意味要素
を第一次同義語候補に追加する。
合、共起事例データ記憶手段12を検索し、マッチング
する格関係の組が登録されていない場合、共起事例デー
タ記憶手段12に記憶する。入力文(A)に対する格関
係の組は、図4(b)であらわされ、未登録語を含んで
いないので共起事例データ記憶手段12に図2のように
登録される。格関係の組が未登録語を含んでいる場合、
前記格関係の組のうち、意味要素の未登録語でない方と
格関係をキーとして、共起事例データ記憶手段12を検
索して、マッチングするものがあれば、検索された格関
係の組において、未登録語に当たる意味要素を第一次同
義語候補とし、未登録語の表層の一部がマッチングする
共起事例データが存在すれば、マッチングした意味要素
を第一次同義語候補に追加する。
【0024】入力文(B)に対する格関係の組は、図4
(b)であらわされ、未登録語を含んでいる格関係の組
が1つ存在し、これをキーとして共起事例データ記憶手
段12を検索し、{会社}が未登録語の第一次同義語候
補となる。ここで、未登録語が”株式会社”であった場
合は、部分的にマッチングする{会社}が未登録語の第
一次同義語候補となる。同時に、同義語候補抽出手段
は、入力文に含まれていた未登録語をキーとして、同義
語データ記憶手段18を検索し、未登録語の全体あるい
は未登録語の一部が同義語データのエントリであれば、
前記エントリを出発点として同義語データをめぐって最
も近い既登録マーク31付き単語を第二次同義語候補と
する。
(b)であらわされ、未登録語を含んでいる格関係の組
が1つ存在し、これをキーとして共起事例データ記憶手
段12を検索し、{会社}が未登録語の第一次同義語候
補となる。ここで、未登録語が”株式会社”であった場
合は、部分的にマッチングする{会社}が未登録語の第
一次同義語候補となる。同時に、同義語候補抽出手段
は、入力文に含まれていた未登録語をキーとして、同義
語データ記憶手段18を検索し、未登録語の全体あるい
は未登録語の一部が同義語データのエントリであれば、
前記エントリを出発点として同義語データをめぐって最
も近い既登録マーク31付き単語を第二次同義語候補と
する。
【0025】入力文(B)における未登録語、”企業”
について図3で表される同義語データをめぐって最も近
いマーク付き単語{会社,株主}を第二次同義語候補と
する。ここで、同義語データ記憶手段18は、自然言語
とアプリケーションシステムで登録されている単語との
対応を記述された辞書記憶手段13に関係なく作成され
一般的な語彙に関して十分な同義語を保持しているもの
とする。
について図3で表される同義語データをめぐって最も近
いマーク付き単語{会社,株主}を第二次同義語候補と
する。ここで、同義語データ記憶手段18は、自然言語
とアプリケーションシステムで登録されている単語との
対応を記述された辞書記憶手段13に関係なく作成され
一般的な語彙に関して十分な同義語を保持しているもの
とする。
【0026】同義語候補抽出手段15は、前記第一次同
義語候補に第二次同義語候補を加えて同義語候補とす
る。
義語候補に第二次同義語候補を加えて同義語候補とす
る。
【0027】入力文(B)においては、{会社,株主}
が同義語候補となる。
が同義語候補となる。
【0028】同義語選択手段16は、前記同義語候補を
ユーザに提示し、ユーザによって選択された結果を、入
力文中の未登録語の辞書情報として、辞書登録手段17
により辞書記憶手段13に登録する。
ユーザに提示し、ユーザによって選択された結果を、入
力文中の未登録語の辞書情報として、辞書登録手段17
により辞書記憶手段13に登録する。
【0029】未登録語”企業”が、ユーザによって”会
社”と同義と選択された場合、”会社”に対する辞書情
報をコピーし、エントリを”企業”とした辞書項目を辞
書記憶手段13に新たに登録する。
社”と同義と選択された場合、”会社”に対する辞書情
報をコピーし、エントリを”企業”とした辞書項目を辞
書記憶手段13に新たに登録する。
【0030】以上、本発明を実施例にもとづき具体的に
説明したが、本発明は、前記実施例に限定されるもので
はなく、その要旨を逸脱しない範囲において種々変更可
能であることはいうまでもない。
説明したが、本発明は、前記実施例に限定されるもので
はなく、その要旨を逸脱しない範囲において種々変更可
能であることはいうまでもない。
【0031】
【発明の効果】以上、説明したように、本発明によれ
ば、自然言語による入力文を処理する自然言語処理シス
テムにおいて、意味解析で辞書内に登録されておらず、
照合できなかった未登録語に対して、共起事例データあ
るいは、同義語データを用いて同義語候補を絞り込むこ
とにより、未登録語を関連付けるべき選択枝を大幅に減
少させることができるため、未登録語の登録の効率が大
幅に向上する。
ば、自然言語による入力文を処理する自然言語処理シス
テムにおいて、意味解析で辞書内に登録されておらず、
照合できなかった未登録語に対して、共起事例データあ
るいは、同義語データを用いて同義語候補を絞り込むこ
とにより、未登録語を関連付けるべき選択枝を大幅に減
少させることができるため、未登録語の登録の効率が大
幅に向上する。
【図1】本発明の一実施例を示す基本構成図である。
【図2】図1中の共起事例データ記憶手段12に記憶さ
れているアプリケーションシステムで登録されている単
語及び単語間の関係の一例を示す図である。
れているアプリケーションシステムで登録されている単
語及び単語間の関係の一例を示す図である。
【図3】図1中の同義語データ記憶手段18に記憶され
ている同義語間の関係の一例を示す図である。
ている同義語間の関係の一例を示す図である。
【図4】未登録語を含まない入力文を、図1中の解析手
段14によって解析した概念構造の一例と図1中の同義
語候補抽出手段によって分割された格関係の組を示す図
である。
段14によって解析した概念構造の一例と図1中の同義
語候補抽出手段によって分割された格関係の組を示す図
である。
【図5】未登録語を含む入力文を、図1中の解析手段1
4によって解析した概念構造の一例と図1中の同義語候
補抽出手段によって分割された格関係の組を示す図であ
る。
4によって解析した概念構造の一例と図1中の同義語候
補抽出手段によって分割された格関係の組を示す図であ
る。
【図6】図1中の辞書記憶手段3に記憶されている辞書
情報の一例を示す図である。
情報の一例を示す図である。
11 未登録語抽出手段 12 共起事例データ記憶手段 13 辞書記憶手段 14 解析手段 15 同義語候補抽出手段 16 同義語選択手段 17 辞書登録手段 18 同義語データ記憶手段 21 意味要素 22 表層 23 概念記号 24 意味分類 25 格関係 26 素表層格 27 正規化表層格 28 深層格 31 既登録マーク 51 未登録語マーク 61 エントリ 62 文法情報 63 対象アプリケーション上の単語を表す概念記号 64 意味分類
Claims (6)
- 【請求項1】 入力文字列の表層から前記表層に対応す
るアプリケーションシステム上で登録されている単語で
ある概念記号を検索する形式を持つ辞書記憶手段と、 前記辞書記憶手段上で検索できない未登録語を含む入力
文から前記未登録語を抽出する未登録語抽出手段と、 入力文に含まれる単語の表層及び前記単語から辞書記憶
手段を検索して得られる前記概念記号及び前記意味要素
間の格関係を分類した格関係項目の組合せからなる共起
事例データを格納する共起事例データ記憶手段と、 前記辞書記憶手段を用いて、入力文から前記概念記号及
び概念記号間の関係からなる概念構造を抽出する解析手
段と、 前記解析手段により入力文から抽出された概念構造の中
の前記登録単語と、前記登録単語間の関係から前記共起
事例データ記憶のマッチングを行なって共起事例データ
上で未登録語の位置にくる単語である共起単語の中から
辞書記憶手段に含まれる単語だけを残して同義語候補と
する同義語候補抽出手段と、 前記同義語候補抽出手段で得られた同義語候補を利用者
に提示し選択させる同義語選択手段と、 前記同義語選択手段で選択された同義語を辞書記憶手段
に登録する辞書登録手段とを有することを特徴とする未
登録語獲得方式。 - 【請求項2】 前記同義語候補抽出手段が、前記共起事
例データ記憶手段を検索する際に、未登録語全体が共起
事例データのエントリでない場合でも、部分的に一致し
ていればその語を同義語候補とすることを特徴とする請
求項1に記載の未登録語獲得方式。 - 【請求項3】 前記共起事例データ記憶手段に記憶され
ている前記共起事例データ中の単語のうち、前記辞書記
憶手段に登録されている単語に対して、既に登録されて
いることを示すマークが付与されており、 前記同義語候補抽出手段が、前記解析手段により抽出さ
れた単語及び単語間の関係をキーにして共起事例データ
を検索して得られた共起単語を同義語候補とすることを
特徴とする請求項1に記載の未登録語獲得方式。 - 【請求項4】 同義語データを格納する同義語データ記
憶手段であって、同義語データ中の単語のうち、前記辞
書記憶手段に登録されている単語に対して既に登録され
ていることを示すマークを付与したマーク付き単語を含
む同義語データ記憶手段を有し、 前記同義語候補抽出手段が、前記未登録語抽出手段によ
り抽出された未登録語をキーにして前記同義語データ記
憶手段を検索し、未登録語が同義語データのエントリで
あれば、前記エントリを出発点として同義語データをめ
ぐって最も近いマーク付き単語を同義語候補とすること
を特徴とする請求項1に記載の未登録語獲得方式。 - 【請求項5】 前記同義語候補抽出手段が、前記未登録
語抽出手段により抽出された未登録語をキーにして前記
同義語データ記憶手段を検索し、未登録語全体が同義語
データのエントリと一致しなくても、部分的に一致して
いればそのエントリを出発点として同義語データをめぐ
って最も近いマーク付き単語を同義候補とすることを特
徴とする請求項4に記載の未登録語獲得方式。 - 【請求項6】 前記同義語候補抽出手段が、前記解析手
段により抽出された単語及び単語間の関係をキーにして
共起事例データ記憶手段を検索して、得られた共起単語
をキーにして前記同義語データ記憶手段を検索し、前記
共起単語が同義語データのエントリであれば、前記エン
トリを出発点として同義語データをめぐって最も近いマ
ーク付き単語と前記共起単語の両方を同義語候補とする
ことを特徴とする請求項4に記載の未登録語獲得方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4256659A JPH0782500B2 (ja) | 1992-09-25 | 1992-09-25 | 未登録語獲得方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4256659A JPH0782500B2 (ja) | 1992-09-25 | 1992-09-25 | 未登録語獲得方式 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH06195371A true JPH06195371A (ja) | 1994-07-15 |
JPH0782500B2 JPH0782500B2 (ja) | 1995-09-06 |
Family
ID=17295691
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4256659A Expired - Lifetime JPH0782500B2 (ja) | 1992-09-25 | 1992-09-25 | 未登録語獲得方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0782500B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006260402A (ja) * | 2005-03-18 | 2006-09-28 | Ricoh Co Ltd | 情報処理装置、同義語対生成方法、同義語対生成プログラム、同義語対生成プログラムを記録した記録媒体 |
JP2011118872A (ja) * | 2009-11-30 | 2011-06-16 | Nec (China) Co Ltd | 未登録語のカテゴリを決定する方法と装置 |
JP2012073951A (ja) * | 2010-09-29 | 2012-04-12 | Fujitsu Ltd | 文字列比較プログラム、文字列比較装置及び文字列比較方法 |
JP2013020439A (ja) * | 2011-07-11 | 2013-01-31 | Nec Corp | 同義語抽出システム、方法およびプログラム |
CN104239321A (zh) * | 2013-06-14 | 2014-12-24 | 高德软件有限公司 | 一种面向搜索引擎的数据处理方法及装置 |
CN109298796A (zh) * | 2018-07-24 | 2019-02-01 | 北京捷通华声科技股份有限公司 | 一种词联想方法及装置 |
-
1992
- 1992-09-25 JP JP4256659A patent/JPH0782500B2/ja not_active Expired - Lifetime
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006260402A (ja) * | 2005-03-18 | 2006-09-28 | Ricoh Co Ltd | 情報処理装置、同義語対生成方法、同義語対生成プログラム、同義語対生成プログラムを記録した記録媒体 |
JP2011118872A (ja) * | 2009-11-30 | 2011-06-16 | Nec (China) Co Ltd | 未登録語のカテゴリを決定する方法と装置 |
JP2012073951A (ja) * | 2010-09-29 | 2012-04-12 | Fujitsu Ltd | 文字列比較プログラム、文字列比較装置及び文字列比較方法 |
JP2013020439A (ja) * | 2011-07-11 | 2013-01-31 | Nec Corp | 同義語抽出システム、方法およびプログラム |
CN104239321A (zh) * | 2013-06-14 | 2014-12-24 | 高德软件有限公司 | 一种面向搜索引擎的数据处理方法及装置 |
CN109298796A (zh) * | 2018-07-24 | 2019-02-01 | 北京捷通华声科技股份有限公司 | 一种词联想方法及装置 |
CN109298796B (zh) * | 2018-07-24 | 2022-05-24 | 北京捷通华声科技股份有限公司 | 一种词联想方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JPH0782500B2 (ja) | 1995-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109344230B (zh) | 代码库文件生成、代码搜索、联结、优化以及移植方法 | |
US8024175B2 (en) | Computer program, apparatus, and method for searching translation memory and displaying search result | |
US20060095426A1 (en) | System and method for creating document abstract | |
JP2012248210A (ja) | 日本語などの複雑言語のコンテンツを検索するシステム及び方法 | |
CN112380848B (zh) | 文本生成方法、装置、设备及存储介质 | |
JP7167997B2 (ja) | 文献検索方法および文献検索システム | |
Yoo et al. | HUE: Pretrained model and dataset for understanding Hanja documents of ancient Korea | |
JP2005038395A (ja) | データベース検索装置 | |
JP2006227823A (ja) | 情報処理装置及びその制御方法 | |
JP3612769B2 (ja) | 情報検索装置および情報検索方法 | |
JP3617096B2 (ja) | 関係表現抽出装置および関係表現検索装置、関係表現抽出方法、関係表現検索方法 | |
CN112818645A (zh) | 一种化学信息抽取方法、装置、设备及存储介质 | |
JP2007025939A (ja) | 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム | |
JPH06195371A (ja) | 未登録語獲得方式 | |
Revanth et al. | Nl2sql: Natural language to sql query translator | |
KR100504632B1 (ko) | 비구조 문서에서 사용자가 요구하는 정보를 추출하는 장치및 그 방법 | |
JP2006227914A (ja) | 情報検索装置、情報検索方法、プログラム、記憶媒体 | |
JP3780556B2 (ja) | 自然言語事例検索装置及び自然言語事例検索方法 | |
JPS63228326A (ja) | キ−ワ−ド自動抽出方式 | |
JP3666066B2 (ja) | 多言語文書登録検索装置 | |
KR102338949B1 (ko) | 기술문서 번역 지원 시스템 | |
JP4059501B2 (ja) | 自然語辞書更新装置 | |
JP2014146076A (ja) | 文字列抽出方法、文字列抽出装置、および文字列抽出プログラム | |
JP4922030B2 (ja) | 文字列検索装置、方法及びプログラム | |
JPH0944521A (ja) | インデックス作成装置および文書検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 19960319 |