JPH0628391A - 辞書生成システム - Google Patents
辞書生成システムInfo
- Publication number
- JPH0628391A JPH0628391A JP4202971A JP20297192A JPH0628391A JP H0628391 A JPH0628391 A JP H0628391A JP 4202971 A JP4202971 A JP 4202971A JP 20297192 A JP20297192 A JP 20297192A JP H0628391 A JPH0628391 A JP H0628391A
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- character string
- word
- heading
- generated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【目的】 データベース内の単語を構成する文字列を見
出し文字列とした単語情報を生成し、これを一括して登
録して辞書を生成するシステムを提供する。 【構成】 同一見出し生成処理部2により、操作指示の
対象1であるデータベース内の語を取得し、この語を基
に文字列を生成して単語情報を格納する辞書情報の見出
し文字列としデータベース中の単語との対応関係を持つ
単語情報を有する辞書3を生成する。また、この生成し
た辞書を基にして、異表記見出し生成処理部4により、
前記見出し文字列の全角文字を半角文字に、半角文字を
全角文字に、平仮名文字を片仮名文字に、片仮名文字を
平仮名文字にそれぞれ置換して得られる文字列、また、
前記見出し文字列同士で共通な部分文字列、さらに見出
し文字列内の部分文字列の先頭文字同士、末尾文字同士
を並べて得られた文字列を新たな見出し文字列として辞
書3を生成する。
出し文字列とした単語情報を生成し、これを一括して登
録して辞書を生成するシステムを提供する。 【構成】 同一見出し生成処理部2により、操作指示の
対象1であるデータベース内の語を取得し、この語を基
に文字列を生成して単語情報を格納する辞書情報の見出
し文字列としデータベース中の単語との対応関係を持つ
単語情報を有する辞書3を生成する。また、この生成し
た辞書を基にして、異表記見出し生成処理部4により、
前記見出し文字列の全角文字を半角文字に、半角文字を
全角文字に、平仮名文字を片仮名文字に、片仮名文字を
平仮名文字にそれぞれ置換して得られる文字列、また、
前記見出し文字列同士で共通な部分文字列、さらに見出
し文字列内の部分文字列の先頭文字同士、末尾文字同士
を並べて得られた文字列を新たな見出し文字列として辞
書3を生成する。
Description
【0001】
【産業上の利用分野】本発明は、日本語による情報検索
等の処理を行う情報処理システムにおける日本語解析で
用いる辞書生成システムに係り、特に、操作指示対象で
あるデータベース中の単語の単語情報を基に辞書情報生
成し格納して好適な辞書を生成する辞書生成システムに
関する。
等の処理を行う情報処理システムにおける日本語解析で
用いる辞書生成システムに係り、特に、操作指示対象で
あるデータベース中の単語の単語情報を基に辞書情報生
成し格納して好適な辞書を生成する辞書生成システムに
関する。
【0002】
【従来の技術】従来の、辞書作成システムは、例えば、
特開平2−163874号公報に記載されている。これ
は、辞書への単語登録時間の遅延を防ぐことを目的とし
たものである。具体的には、オペレータにより確認され
た文字列を文字コード種別に基づき単語分割し、単語分
割の結果を利用して単語候補を抽出し、この単語が辞書
に登録されているか否か判別し、未登録である場合に該
当する単語を辞書に登録するものである。
特開平2−163874号公報に記載されている。これ
は、辞書への単語登録時間の遅延を防ぐことを目的とし
たものである。具体的には、オペレータにより確認され
た文字列を文字コード種別に基づき単語分割し、単語分
割の結果を利用して単語候補を抽出し、この単語が辞書
に登録されているか否か判別し、未登録である場合に該
当する単語を辞書に登録するものである。
【0003】
【発明が解決しようとする課題】従来の、計算機におけ
る辞書作成システムでは、利用者が確認し指定した単語
に対する辞書登録に留まっている。例えば、特開平2−
163874号公報に記載されている単語辞書作成方式
は、入力文字列を文字コード種別に基づいて単語境界を
検出し、1個以上の単語領域に分割し単語候補を抽出
し、辞書に未登録の単語候補が存在するならば、該単語
候補が単語として成立するか否か判別し、成立する場合
に単語辞書に追加登録するものである。この従来方式は
自然語解析中に辞書登録すべき単語を検出し逐次的に辞
書登録するものであり、自然語解析が対象とする世界の
情報を持つ単語情報を一括して辞書登録するものではな
い。本発明の目的は、自然語解析が対象とする世界の情
報を持つ単語情報を一括して辞書登録し、さらに、対象
世界に存在する単語の同一表記だけではなく、利用者が
容易に類推可能な単語の表記を生成する辞書生成システ
ムを提供することにある。
る辞書作成システムでは、利用者が確認し指定した単語
に対する辞書登録に留まっている。例えば、特開平2−
163874号公報に記載されている単語辞書作成方式
は、入力文字列を文字コード種別に基づいて単語境界を
検出し、1個以上の単語領域に分割し単語候補を抽出
し、辞書に未登録の単語候補が存在するならば、該単語
候補が単語として成立するか否か判別し、成立する場合
に単語辞書に追加登録するものである。この従来方式は
自然語解析中に辞書登録すべき単語を検出し逐次的に辞
書登録するものであり、自然語解析が対象とする世界の
情報を持つ単語情報を一括して辞書登録するものではな
い。本発明の目的は、自然語解析が対象とする世界の情
報を持つ単語情報を一括して辞書登録し、さらに、対象
世界に存在する単語の同一表記だけではなく、利用者が
容易に類推可能な単語の表記を生成する辞書生成システ
ムを提供することにある。
【0004】
【課題を解決するための手段】上記目的を達成するため
に、本発明の辞書生成システムは、操作指示の対象であ
るデータベース内の語を取得し、この語を基に文字列を
生成して単語情報を格納する辞書情報の見出し文字列と
しデータベース中の単語との対応関係を持つ単語情報を
有する辞書を生成する。辞書の見出し文字列としては、
データベース内の単語を構成する文字列を見出し文字列
とする。
に、本発明の辞書生成システムは、操作指示の対象であ
るデータベース内の語を取得し、この語を基に文字列を
生成して単語情報を格納する辞書情報の見出し文字列と
しデータベース中の単語との対応関係を持つ単語情報を
有する辞書を生成する。辞書の見出し文字列としては、
データベース内の単語を構成する文字列を見出し文字列
とする。
【0005】さらに、前記辞書の見出し文字列を構成す
る文字のバイトコードが1バイトコードか2バイトコー
ドであるかを判定して、判定されたバイトコードを他の
バイトコードに置換できるときには置換可能な文字列を
他のバイトコードに置換して新たな文字列とし、この文
字列を新たな見出し文字列とする新たな辞書を生成す
る。さらに、前記辞書の見出し文字列中に平仮名文字あ
るいは片仮名文字が含まれているか判定し、判定された
平仮名文字を片仮名文字に、片仮名文字を平仮名文字に
置換し、得られた文字列を新たな見出し文字列とする新
たな辞書を生成する。さらに、基本語辞書を参照して前
記辞書の見出し文字列を解析し、各見出し文字列毎に形
態素解析結果レコードを得、得られた1つの形態素解析
結果レコードの単語分割結果の中の分割された文字列を
検索キーとして該検索キーと等しい文字列を有する他の
形態素解析結果レコードを検索し、他の形態素解析結果
レコードが検索されたとき、前記検索キーとなった分割
された文字列を新たな見出し文字列とする新たな辞書を
生成する。さらに、前記の各形態素解析結果レコードか
ら単語分割結果を取り出し、該単語分割結果の中の各分
割された文字列から先頭文字1文字を順次取り出し順次
取り出された文字を並べて得られる文字列を新たな見出
し文字列とする新たな辞書を生成する。また、各分割さ
れた文字列から末尾文字1文字を順次取り出し順次取り
出された文字を並べて得られる文字列を新たな見出し文
字列とする新たな辞書を生成する。
る文字のバイトコードが1バイトコードか2バイトコー
ドであるかを判定して、判定されたバイトコードを他の
バイトコードに置換できるときには置換可能な文字列を
他のバイトコードに置換して新たな文字列とし、この文
字列を新たな見出し文字列とする新たな辞書を生成す
る。さらに、前記辞書の見出し文字列中に平仮名文字あ
るいは片仮名文字が含まれているか判定し、判定された
平仮名文字を片仮名文字に、片仮名文字を平仮名文字に
置換し、得られた文字列を新たな見出し文字列とする新
たな辞書を生成する。さらに、基本語辞書を参照して前
記辞書の見出し文字列を解析し、各見出し文字列毎に形
態素解析結果レコードを得、得られた1つの形態素解析
結果レコードの単語分割結果の中の分割された文字列を
検索キーとして該検索キーと等しい文字列を有する他の
形態素解析結果レコードを検索し、他の形態素解析結果
レコードが検索されたとき、前記検索キーとなった分割
された文字列を新たな見出し文字列とする新たな辞書を
生成する。さらに、前記の各形態素解析結果レコードか
ら単語分割結果を取り出し、該単語分割結果の中の各分
割された文字列から先頭文字1文字を順次取り出し順次
取り出された文字を並べて得られる文字列を新たな見出
し文字列とする新たな辞書を生成する。また、各分割さ
れた文字列から末尾文字1文字を順次取り出し順次取り
出された文字を並べて得られる文字列を新たな見出し文
字列とする新たな辞書を生成する。
【0006】
【作用】本発明により、自然語解析が対象とする操作指
示対象の情報を持つ単語情報を一括して辞書登録するこ
とが可能になる。さらに、操作指示対象内に存在する単
語と同一表記(見出し)文字列を持つ単語情報のみでは
なく、利用者が容易に類推可能であり使用すると予測さ
れる同類語や略語等の単語の表記文字列を持つ単語情報
を生成し辞書登録することが可能になり、辞書情報を充
実することができる。また、本発明により、単語の辞書
登録に要する非常に膨大な作業を省くことができる。
示対象の情報を持つ単語情報を一括して辞書登録するこ
とが可能になる。さらに、操作指示対象内に存在する単
語と同一表記(見出し)文字列を持つ単語情報のみでは
なく、利用者が容易に類推可能であり使用すると予測さ
れる同類語や略語等の単語の表記文字列を持つ単語情報
を生成し辞書登録することが可能になり、辞書情報を充
実することができる。また、本発明により、単語の辞書
登録に要する非常に膨大な作業を省くことができる。
【0007】
【実施例】以下本発明の実施例を、図面により詳細に説
明する。図1は、本発明の辞書生成システムの一実施例
を示す機能プロック図である。同一見出し生成処理部2
は、操作指示対象1を参照し、操作指示対象内の語と等
しい文字列を見出し文字とする単語を生成し、辞書3に
登録する。異表記見出し生成処理部4は、操作指示対象
1と基本語辞書5を参照し、操作指示対象内の語と異な
る文字列を見出し文字とする単語、即ち同類語を生成
し、辞書3に登録する。このように単語の生成機能を持
たせることにより、辞書の自動生成を実現する。
明する。図1は、本発明の辞書生成システムの一実施例
を示す機能プロック図である。同一見出し生成処理部2
は、操作指示対象1を参照し、操作指示対象内の語と等
しい文字列を見出し文字とする単語を生成し、辞書3に
登録する。異表記見出し生成処理部4は、操作指示対象
1と基本語辞書5を参照し、操作指示対象内の語と異な
る文字列を見出し文字とする単語、即ち同類語を生成
し、辞書3に登録する。このように単語の生成機能を持
たせることにより、辞書の自動生成を実現する。
【0008】図から明らかなように、同一見出し生成処
理部2,異表記見出し生成処理部4は処理装置で行なわ
れる処理を示し、操作指示対象(データベース)1、基
本語辞書5、辞書3はファイル(テーブルとも呼ぶ)で
ある。このように、本実施例によれば、各機能ブロック
が、プログラム論理により構成されている。そのため、
各機能ブロック単位にLSI化が可能であり、知識獲得
装置として、処理の高速化を図ることができる。
理部2,異表記見出し生成処理部4は処理装置で行なわ
れる処理を示し、操作指示対象(データベース)1、基
本語辞書5、辞書3はファイル(テーブルとも呼ぶ)で
ある。このように、本実施例によれば、各機能ブロック
が、プログラム論理により構成されている。そのため、
各機能ブロック単位にLSI化が可能であり、知識獲得
装置として、処理の高速化を図ることができる。
【0009】図2は、図1における辞書生成システムの
全体的なハードウェア構成を示すプロック図である。入
出力装置6は、データの入力を行ない、そして各種情報
を表示するためのものである。プロセッサ7は、プログ
ラムに基づき、図1における処理を実行する。記憶装置
8は、図1における基本語辞書5や各種プログラムを格
納する。さらに、記憶装置8は、プロセッサ7の各処理
実行用のメモリであるワーキングエリア9、同一見出し
生成処理部格納エリア20、異表記見出し生成処理部格
納エリア40、辞書格納エリア30、基本語辞書格納エ
リア40、操作指示対象格納エリア10の記憶部を持っ
ている。記憶装置8に格納される各プログラムは、プロ
セッサ7において実行される。その実行に際して、必要
に応じて入出力装置6が用いられる。
全体的なハードウェア構成を示すプロック図である。入
出力装置6は、データの入力を行ない、そして各種情報
を表示するためのものである。プロセッサ7は、プログ
ラムに基づき、図1における処理を実行する。記憶装置
8は、図1における基本語辞書5や各種プログラムを格
納する。さらに、記憶装置8は、プロセッサ7の各処理
実行用のメモリであるワーキングエリア9、同一見出し
生成処理部格納エリア20、異表記見出し生成処理部格
納エリア40、辞書格納エリア30、基本語辞書格納エ
リア40、操作指示対象格納エリア10の記憶部を持っ
ている。記憶装置8に格納される各プログラムは、プロ
セッサ7において実行される。その実行に際して、必要
に応じて入出力装置6が用いられる。
【0010】図3は、図1における同一見出し生成処理
のPAD図(Problem Analysis Di
agram)である。操作指示対象1であるデータベー
ス内の語の文字列を見出し文字列とする単語情報とデー
タベース内の語との対応関係を持つ単語情報を生成し、
辞書3に登録するまでの処理を示したものである。図7
は、図1の操作指示対象1であるデータベースの例であ
り、「商店テーブル」と「商店テーブル」の2つのテー
ブルにより構成されており、「商品テーブル」は「商品
名」、「価格」、「店名」の3つのカラム名により構成
され、「商店テーブル」は「店名」、「Phone.No」、
「所在地」の3つのカラム名により構成されている。各
カラムには、夫々、みそラーメン、日立飯店等のカラム
値が配置されている。図9は、図7のデータベース例を
参照し、図3のPAD図に示す同一見出し生成処理2に
より生成された単語情報を格納した辞書の例である。D
1はNo、D2は見出し文字列、D3は正規語、D4は
品詞、D5は分類、D6は所属である。Noは、辞書レ
コードの番号を示すものであり実施例の説明のために設
けた項目である。見出し文字列D2は、入力された文の
文字列と比較照合するための文字列であり、正規語D3
は、基本的には見出し文字列に対応する文字列であり操
作指示対象1であるデータベース内の語を構成する文字
列と同一の文字列であり、品詞D4は、語の品詞を示す
ものである。分類D5は、操作指示対象の世界における
語の性格を表わすものであり、図7におけるテーブル
名、カラム名、カラム値が入る。所属D6は、操作指示
対象1の世界であるデータベース内の位置を示すもので
あり、図7におけるテーブル名としての具体的名称(例
えば、商品テーブル)またはカラム名としての具体的名
称(例えば、商品名)が入る。また、正規語D3と分類
D5と所属D6は操作指示対象の世界に依存する情報で
あり、見出し文字列D2との対応が取れていれば、辞書
3内に設けず、他のテーブルとして設けることも可能で
ある。
のPAD図(Problem Analysis Di
agram)である。操作指示対象1であるデータベー
ス内の語の文字列を見出し文字列とする単語情報とデー
タベース内の語との対応関係を持つ単語情報を生成し、
辞書3に登録するまでの処理を示したものである。図7
は、図1の操作指示対象1であるデータベースの例であ
り、「商店テーブル」と「商店テーブル」の2つのテー
ブルにより構成されており、「商品テーブル」は「商品
名」、「価格」、「店名」の3つのカラム名により構成
され、「商店テーブル」は「店名」、「Phone.No」、
「所在地」の3つのカラム名により構成されている。各
カラムには、夫々、みそラーメン、日立飯店等のカラム
値が配置されている。図9は、図7のデータベース例を
参照し、図3のPAD図に示す同一見出し生成処理2に
より生成された単語情報を格納した辞書の例である。D
1はNo、D2は見出し文字列、D3は正規語、D4は
品詞、D5は分類、D6は所属である。Noは、辞書レ
コードの番号を示すものであり実施例の説明のために設
けた項目である。見出し文字列D2は、入力された文の
文字列と比較照合するための文字列であり、正規語D3
は、基本的には見出し文字列に対応する文字列であり操
作指示対象1であるデータベース内の語を構成する文字
列と同一の文字列であり、品詞D4は、語の品詞を示す
ものである。分類D5は、操作指示対象の世界における
語の性格を表わすものであり、図7におけるテーブル
名、カラム名、カラム値が入る。所属D6は、操作指示
対象1の世界であるデータベース内の位置を示すもので
あり、図7におけるテーブル名としての具体的名称(例
えば、商品テーブル)またはカラム名としての具体的名
称(例えば、商品名)が入る。また、正規語D3と分類
D5と所属D6は操作指示対象の世界に依存する情報で
あり、見出し文字列D2との対応が取れていれば、辞書
3内に設けず、他のテーブルとして設けることも可能で
ある。
【0011】以下、同一見出し生成処理を図3のPAD
図に従って説明する。まず、操作指示の対象であるデー
タベースの先頭テーブルから末尾テーブルまで以下の処
理を行う(ステップ21)。操作指示対象1のデータベ
ースを参照し、テーブル名(図7の場合、商品テーブ
ル、商店テーブル)を取得し、取得した文字列を見出し
文字列として辞書に登録する(ステップ22)。ステッ
プ22により登録した見出し文字列の品詞を「名詞」、
分類を「テーブル名」、所属を見出し文字列として辞書
に登録する(ステップ23)。ここでいう「品詞」とは
単語の品詞を表わし、「分類」とは操作指示対象3のデ
ータベース中の役割を表わし、「所属」とは操作指示対
象3のデータベース中の位置を表わしている。また、図
3の処理では、見出し文字列の品詞を全て名詞として処
理する。次に、操作指示対象1のデータベースを参照
し、カラム名(図7の場合、商品名、価格、店名、Phon
e.No、所在地)を取得し、取得した文字列を見出し文字
列として辞書に登録する(ステップ24)。ステップ2
4により登録した見出し文字列の品詞を「名詞」、分類
を「カラム名」、所属を該当するテーブル名として辞書
に登録する(ステップ25)。次に、操作指示対象1の
データベースを参照し、カラム値(図7の場合、みそラ
ーメン、ラーメン、‥‥、渋谷、新宿)を取得し、取得
した文字列を見出し文字列として辞書に登録する(ステ
ップ26)。ステップ26により登録した見出し文字列
の品詞を「名詞」、分類を「カラム値」、所属を該当す
るカラム名として辞書に登録する(ステップ27)。次
に、処理の対象となるテーブルを次のテーブルに移動す
る(ステップ28)。ステップ21〜ステップ28によ
り、図7に示すデータベースの文字列を取得し単語情報
を生成し、図9に示すように辞書に格納される。これに
よりデータベース中の文字列と等しい文字列を見出し文
字列とする単語情報が生成される。
図に従って説明する。まず、操作指示の対象であるデー
タベースの先頭テーブルから末尾テーブルまで以下の処
理を行う(ステップ21)。操作指示対象1のデータベ
ースを参照し、テーブル名(図7の場合、商品テーブ
ル、商店テーブル)を取得し、取得した文字列を見出し
文字列として辞書に登録する(ステップ22)。ステッ
プ22により登録した見出し文字列の品詞を「名詞」、
分類を「テーブル名」、所属を見出し文字列として辞書
に登録する(ステップ23)。ここでいう「品詞」とは
単語の品詞を表わし、「分類」とは操作指示対象3のデ
ータベース中の役割を表わし、「所属」とは操作指示対
象3のデータベース中の位置を表わしている。また、図
3の処理では、見出し文字列の品詞を全て名詞として処
理する。次に、操作指示対象1のデータベースを参照
し、カラム名(図7の場合、商品名、価格、店名、Phon
e.No、所在地)を取得し、取得した文字列を見出し文字
列として辞書に登録する(ステップ24)。ステップ2
4により登録した見出し文字列の品詞を「名詞」、分類
を「カラム名」、所属を該当するテーブル名として辞書
に登録する(ステップ25)。次に、操作指示対象1の
データベースを参照し、カラム値(図7の場合、みそラ
ーメン、ラーメン、‥‥、渋谷、新宿)を取得し、取得
した文字列を見出し文字列として辞書に登録する(ステ
ップ26)。ステップ26により登録した見出し文字列
の品詞を「名詞」、分類を「カラム値」、所属を該当す
るカラム名として辞書に登録する(ステップ27)。次
に、処理の対象となるテーブルを次のテーブルに移動す
る(ステップ28)。ステップ21〜ステップ28によ
り、図7に示すデータベースの文字列を取得し単語情報
を生成し、図9に示すように辞書に格納される。これに
よりデータベース中の文字列と等しい文字列を見出し文
字列とする単語情報が生成される。
【0012】図4は、図1における異表記見出し生成処
理の概要を表わすPAD図であり、見出し文字コード変
換処理41と同類語見出し生成処理42により構成され
る。図5は、図4における見出し文字コード変換処理を
表わすPAD図である。操作指示対象1であるデータベ
ース内の語を構成する文字列で、他の文字列コードとの
対応関係のみにより文字列コードの変換が可能な場合
に、見出し文字列を加工し、その加工した文字列を見出
し文字列とする単語情報とデータベース内の語との対応
関係を持つ単語情報を生成し、辞書3に登録するまでの
処理を示したものである。図11は、前記同一見出し生
成処理2により生成した図9に示す辞書を参照して、見
出し文字コード変換処理41により生成した見出し文字
列を持つ単語情報を格納した辞書の例である。D1、D
2、D3、D4、D5、D6については図9の場合と同
じである。
理の概要を表わすPAD図であり、見出し文字コード変
換処理41と同類語見出し生成処理42により構成され
る。図5は、図4における見出し文字コード変換処理を
表わすPAD図である。操作指示対象1であるデータベ
ース内の語を構成する文字列で、他の文字列コードとの
対応関係のみにより文字列コードの変換が可能な場合
に、見出し文字列を加工し、その加工した文字列を見出
し文字列とする単語情報とデータベース内の語との対応
関係を持つ単語情報を生成し、辞書3に登録するまでの
処理を示したものである。図11は、前記同一見出し生
成処理2により生成した図9に示す辞書を参照して、見
出し文字コード変換処理41により生成した見出し文字
列を持つ単語情報を格納した辞書の例である。D1、D
2、D3、D4、D5、D6については図9の場合と同
じである。
【0013】以下、この見出し文字コード変換処理をP
AD図に従って説明する。まず、前記同一見出し生成処
理2により生成した辞書3の先頭レコードから末尾レコ
ードまで以下の処理を行う(ステップ4101)。辞書
3の見出し文字列を取得する(ステップ4102)し、
この辞書レコードをワーキングエリア内に複写する(ス
テップ4103)。
AD図に従って説明する。まず、前記同一見出し生成処
理2により生成した辞書3の先頭レコードから末尾レコ
ードまで以下の処理を行う(ステップ4101)。辞書
3の見出し文字列を取得する(ステップ4102)し、
この辞書レコードをワーキングエリア内に複写する(ス
テップ4103)。
【0014】次に、見出し文字列が2バイトコード(実
施例の場合、全角文字)のみにより構成されているか否
か判別し(ステップ4104)、構成されている場合
(例えば、図9のNO.1の「商品テーブル」)に、該
2バイトコードに対応する1バイトコード(実施例の場
合、半角文字)が存在するか否か判別し(ステップ41
05)、存在する場合(例えば、「商品テーブル」の
「テーブル」が半角文字になる)に、該見出し文字列中
の1バイトコードに対応する2バイトコードの文字列を
1バイトコードに変換し(例えば、「商品テーブル」が
図11のNO.20の「商品」と半角の「テーブル」か
らなる「商品テーブル」に変換される(なお、JIS変
換するときに半角の「テーブル」は変換不可能であるた
めこのように記載した))(ステップ4106)、複写
した前記辞書レコードの見出し文字列と置換し、辞書3
に登録する(ステップ4107)。
施例の場合、全角文字)のみにより構成されているか否
か判別し(ステップ4104)、構成されている場合
(例えば、図9のNO.1の「商品テーブル」)に、該
2バイトコードに対応する1バイトコード(実施例の場
合、半角文字)が存在するか否か判別し(ステップ41
05)、存在する場合(例えば、「商品テーブル」の
「テーブル」が半角文字になる)に、該見出し文字列中
の1バイトコードに対応する2バイトコードの文字列を
1バイトコードに変換し(例えば、「商品テーブル」が
図11のNO.20の「商品」と半角の「テーブル」か
らなる「商品テーブル」に変換される(なお、JIS変
換するときに半角の「テーブル」は変換不可能であるた
めこのように記載した))(ステップ4106)、複写
した前記辞書レコードの見出し文字列と置換し、辞書3
に登録する(ステップ4107)。
【0015】次に、見出し文字列が1バイトコードのみ
により構成されているか否か判別し(ステップ410
8)、構成されている場合に、該1バイトコードに対応
する2バイトコードが存在するか否か判別し(ステップ
4109)、存在する場合に、該見出し文字列中の2バ
イトコードに対応する1バイトコードの文字列を2バイ
トコードに変換し(ステップ4110)、複写した前記
辞書レコードの見出し文字列と置換し、辞書3に登録す
る(ステップ4111)。例えば、図9のNO.6の
「Phone.No」が図11のNO.23、24の「Phon
e.No」、「PHONE.NO」に変換される。
により構成されているか否か判別し(ステップ410
8)、構成されている場合に、該1バイトコードに対応
する2バイトコードが存在するか否か判別し(ステップ
4109)、存在する場合に、該見出し文字列中の2バ
イトコードに対応する1バイトコードの文字列を2バイ
トコードに変換し(ステップ4110)、複写した前記
辞書レコードの見出し文字列と置換し、辞書3に登録す
る(ステップ4111)。例えば、図9のNO.6の
「Phone.No」が図11のNO.23、24の「Phon
e.No」、「PHONE.NO」に変換される。
【0016】次に、見出し文字列が1バイトコードと2
バイトコードにより構成されているか否か判別し(ステ
ップ4112)、構成されている場合に、該1バイトコ
ードまたは2バイトコードに対応する各々のバイトコー
ドが存在するか否か判別し(ステップ4113)、存在
する場合に、該見出し文字列中の2バイトコードまたは
1バイトコードに対応する文字列を各々のバイトコード
に変換し(ステップ4114)、複写した前記辞書レコ
ードの見出し文字列と置換し、辞書3に登録する(ステ
ップ4115)。例えば、図9のNO.12の「A定
食」が図11の NO.39〜40の「a定食」、「A
定食」、「a定食」に変換される。
バイトコードにより構成されているか否か判別し(ステ
ップ4112)、構成されている場合に、該1バイトコ
ードまたは2バイトコードに対応する各々のバイトコー
ドが存在するか否か判別し(ステップ4113)、存在
する場合に、該見出し文字列中の2バイトコードまたは
1バイトコードに対応する文字列を各々のバイトコード
に変換し(ステップ4114)、複写した前記辞書レコ
ードの見出し文字列と置換し、辞書3に登録する(ステ
ップ4115)。例えば、図9のNO.12の「A定
食」が図11の NO.39〜40の「a定食」、「A
定食」、「a定食」に変換される。
【0017】次に、見出し文字列中に平仮名文字列が含
まれているか判別し(ステップ4116)、含まれてい
る場合、見出し文字列中の平仮名文字列を対応する片仮
名文字列と置換し(ステップ4117)、辞書3に登録
する(ステップ4118)。次に、見出し文字列中に片
仮名文字列が含まれているか判別し(ステップ411
9)、含まれている場合、見出し文字列中の片仮名文字
列を対応する平仮名文字列と置換し(ステップ412
0)、辞書3に登録する(ステップ4121)。
まれているか判別し(ステップ4116)、含まれてい
る場合、見出し文字列中の平仮名文字列を対応する片仮
名文字列と置換し(ステップ4117)、辞書3に登録
する(ステップ4118)。次に、見出し文字列中に片
仮名文字列が含まれているか判別し(ステップ411
9)、含まれている場合、見出し文字列中の片仮名文字
列を対応する平仮名文字列と置換し(ステップ412
0)、辞書3に登録する(ステップ4121)。
【0018】ステップ4101〜ステップ4121によ
り、図9に示すデータベース中の語を構成する文字列と
等しい見出し文字列を持つ単語情報から、図11に示す
見出し文字列をコード変換した文字列を見出し文字列と
する単語情報を生成し辞書3に格納する。これによりデ
ータベース中の語を構成する文字列のコード変換可能な
文字列をコード変換した文字列を見出し文字列とする単
語情報が生成される。
り、図9に示すデータベース中の語を構成する文字列と
等しい見出し文字列を持つ単語情報から、図11に示す
見出し文字列をコード変換した文字列を見出し文字列と
する単語情報を生成し辞書3に格納する。これによりデ
ータベース中の語を構成する文字列のコード変換可能な
文字列をコード変換した文字列を見出し文字列とする単
語情報が生成される。
【0019】図9のNo(D1)1の見出し文字列から
図11のNo(D1)19〜20の見出し文字列を持つ
辞書レコードが生成される。また、図9のNo(D1)
2の見出し文字列から図11のNo(D1)21〜22
の見出し文字列を持つ辞書レコードが生成される。ま
た、図9のNo(D1)6の見出し文字列から図11の
No(D1)23〜25の見出し文字列を持つ辞書レコ
ードが生成される。また、図9のNo(D1)8の見出
し文字列から図11のNo(D1)26〜30の見出し
文字列を持つ辞書レコードが生成される。また、図9の
No(D1)9の見出し文字列から図11のNo(D
1)31〜32の見出し文字列を持つ辞書レコードが生
成される。また、図9のNo(D1)10の見出し文字
列から図11のNo(D1)33〜35の見出し文字列
を持つ辞書レコードが生成される。また、図9のNo
(D1)11の見出し文字列から図11のNo(D1)
36〜38の見出し文字列を持つ辞書レコードが生成さ
れる。また、図9のNo(D1)12の見出し文字列か
ら図11のNo(D1)39〜41の見出し文字列を持
つ辞書レコードが生成される。また、図9のNo(D
1)15の見出し文字列から図11のNo(D1)42
〜43の見出し文字列を持つ辞書レコードが生成され
る。
図11のNo(D1)19〜20の見出し文字列を持つ
辞書レコードが生成される。また、図9のNo(D1)
2の見出し文字列から図11のNo(D1)21〜22
の見出し文字列を持つ辞書レコードが生成される。ま
た、図9のNo(D1)6の見出し文字列から図11の
No(D1)23〜25の見出し文字列を持つ辞書レコ
ードが生成される。また、図9のNo(D1)8の見出
し文字列から図11のNo(D1)26〜30の見出し
文字列を持つ辞書レコードが生成される。また、図9の
No(D1)9の見出し文字列から図11のNo(D
1)31〜32の見出し文字列を持つ辞書レコードが生
成される。また、図9のNo(D1)10の見出し文字
列から図11のNo(D1)33〜35の見出し文字列
を持つ辞書レコードが生成される。また、図9のNo
(D1)11の見出し文字列から図11のNo(D1)
36〜38の見出し文字列を持つ辞書レコードが生成さ
れる。また、図9のNo(D1)12の見出し文字列か
ら図11のNo(D1)39〜41の見出し文字列を持
つ辞書レコードが生成される。また、図9のNo(D
1)15の見出し文字列から図11のNo(D1)42
〜43の見出し文字列を持つ辞書レコードが生成され
る。
【0020】図6は、図4における同類語見出し生成処
理を表わすPAD図である。操作指示対象1であるデー
タベース内の語を構成する文字列を利用して同類語(略
語)となる見出し文字列を持つ単語情報とデータベース
内の語との対応関係を持つ単語情報を生成し、辞書3に
登録するまでの処理を示したものである。図8は、図
1、図5に示した基本語辞書5の例であり、見出し語文
字列B1、品詞B2の2つの項目により構成されてい
る。従来技術の電子化辞書では、この他に文法情報や単
語の接続情報等の情報も辞書情報として格納している場
合があり、容易に実現可能な技術である。図10は、図
8に示す基本語辞書5を参照して、図9に示す単語情報
の見出し文字列を形態素解析した結果の例である。W1
はNo、W2は見出し文字列、W3は単語分割結果、W
4は分割結果別品詞であり、3つの項目W2〜W4によ
り構成されている。単語分割結果W3は見出し文字列の
単語分割結果を表わしたものでありカンマ「,」で分割
された文字列を区切っている。分割結果別品詞W4は分
割された単語別の品詞を表わすものである。図12は、
同類語見出し生成処理42のステップ4201〜ステッ
プ4207により生成した見出し文字列を持つ単語情報
を格納した辞書の例であり、D1、D2、D3、D4、
D5、D6については図9の場合と同じである。図13
は、同類語見出し生成処理42のステップ4208〜ス
テップ4209により生成した見出し文字列を持つ単語
情報を格納した辞書の例であり、D1、D2、D3、D
4、D5、D6については図9の場合と同じである。
理を表わすPAD図である。操作指示対象1であるデー
タベース内の語を構成する文字列を利用して同類語(略
語)となる見出し文字列を持つ単語情報とデータベース
内の語との対応関係を持つ単語情報を生成し、辞書3に
登録するまでの処理を示したものである。図8は、図
1、図5に示した基本語辞書5の例であり、見出し語文
字列B1、品詞B2の2つの項目により構成されてい
る。従来技術の電子化辞書では、この他に文法情報や単
語の接続情報等の情報も辞書情報として格納している場
合があり、容易に実現可能な技術である。図10は、図
8に示す基本語辞書5を参照して、図9に示す単語情報
の見出し文字列を形態素解析した結果の例である。W1
はNo、W2は見出し文字列、W3は単語分割結果、W
4は分割結果別品詞であり、3つの項目W2〜W4によ
り構成されている。単語分割結果W3は見出し文字列の
単語分割結果を表わしたものでありカンマ「,」で分割
された文字列を区切っている。分割結果別品詞W4は分
割された単語別の品詞を表わすものである。図12は、
同類語見出し生成処理42のステップ4201〜ステッ
プ4207により生成した見出し文字列を持つ単語情報
を格納した辞書の例であり、D1、D2、D3、D4、
D5、D6については図9の場合と同じである。図13
は、同類語見出し生成処理42のステップ4208〜ス
テップ4209により生成した見出し文字列を持つ単語
情報を格納した辞書の例であり、D1、D2、D3、D
4、D5、D6については図9の場合と同じである。
【0021】以下、この同類語見出し生成処理をPAD
図に従って説明する。まず、前記同一見出し生成処理2
により生成した辞書3の先頭レコードから末尾レコード
までステップ4202〜ステップ4203の処理を行う
(ステップ4201)。辞書3の見出し文字列を取得す
る(ステップ4202)し、基本語辞書5を参照し取得
した見出し文字列を形態素解析し、解析結果をワーキン
グエリアに格納する(ステップ4203)。この形態素
解析は既に常用されている従来の機械翻訳処理技術やワ
ードプロセッシング技術により容易に実現可能である。
また、ここでいう基本語辞書とは、形態素解析を行うた
めに参照する名詞、固有名詞、動詞、形容詞等の基本的
な語を持つ電子化辞書を示している。次に、ワーキング
エリアに格納した形態素解析結果の先頭レコードから末
尾レコードまで以下の処理を行う(ステップ420
4)。まず、形態素解析結果レコードを取得する(ステ
ップ4205)。取得したレコードから単語分割結果
(例えば、NO.1の「テーブル」)を取得し、単語分
割結果の中の分割された文字列と等しい文字列を持つ他
の形態素解析結果レコード(NO.2のレコード)を検
索し、正規語,品詞,分類,所属を取得する(ステップ
4206)。ステップ4206の検索のキーとなった文
字列を見出し文字列としてステップ4206で取得した
正規語、品詞、分類、所属を与えた単語情報を生成し、
辞書3に登録する(ステップ4207)。
図に従って説明する。まず、前記同一見出し生成処理2
により生成した辞書3の先頭レコードから末尾レコード
までステップ4202〜ステップ4203の処理を行う
(ステップ4201)。辞書3の見出し文字列を取得す
る(ステップ4202)し、基本語辞書5を参照し取得
した見出し文字列を形態素解析し、解析結果をワーキン
グエリアに格納する(ステップ4203)。この形態素
解析は既に常用されている従来の機械翻訳処理技術やワ
ードプロセッシング技術により容易に実現可能である。
また、ここでいう基本語辞書とは、形態素解析を行うた
めに参照する名詞、固有名詞、動詞、形容詞等の基本的
な語を持つ電子化辞書を示している。次に、ワーキング
エリアに格納した形態素解析結果の先頭レコードから末
尾レコードまで以下の処理を行う(ステップ420
4)。まず、形態素解析結果レコードを取得する(ステ
ップ4205)。取得したレコードから単語分割結果
(例えば、NO.1の「テーブル」)を取得し、単語分
割結果の中の分割された文字列と等しい文字列を持つ他
の形態素解析結果レコード(NO.2のレコード)を検
索し、正規語,品詞,分類,所属を取得する(ステップ
4206)。ステップ4206の検索のキーとなった文
字列を見出し文字列としてステップ4206で取得した
正規語、品詞、分類、所属を与えた単語情報を生成し、
辞書3に登録する(ステップ4207)。
【0022】次に、単語分割結果の各文字列(例えば、
NO.1における「商品」、「テーブル」)の先頭文字
列を1文字取得し(例えば、NO.1における「商」、
「テ」)、この各1文字を組み合わせた文字列(例え
ば、「商テ」)を見出し文字として該当する辞書レコー
ドの正規語、品詞、分類、所属を与えた単語情報を生成
し、辞書3に登録する(ステップ4208)。次に、単
語分割結果の各文字列(例えば、NO.1における「商
品」、「テーブル」)の末尾文字列を1文字取得し(例
えば、NO.1における「品」、「ル」)、この各1文
字を組み合わせた文字列(例えば、「品ル」)を見出し
文字として該当する辞書レコードの正規語、品詞、分
類、所属を与えた単語情報を生成し、辞書3に登録する
(ステップ4208)。
NO.1における「商品」、「テーブル」)の先頭文字
列を1文字取得し(例えば、NO.1における「商」、
「テ」)、この各1文字を組み合わせた文字列(例え
ば、「商テ」)を見出し文字として該当する辞書レコー
ドの正規語、品詞、分類、所属を与えた単語情報を生成
し、辞書3に登録する(ステップ4208)。次に、単
語分割結果の各文字列(例えば、NO.1における「商
品」、「テーブル」)の末尾文字列を1文字取得し(例
えば、NO.1における「品」、「ル」)、この各1文
字を組み合わせた文字列(例えば、「品ル」)を見出し
文字として該当する辞書レコードの正規語、品詞、分
類、所属を与えた単語情報を生成し、辞書3に登録する
(ステップ4208)。
【0023】ステップ4201〜ステップ4207によ
り、図10に示すデータベース中の語を構成する文字列
と等しい見出し文字列の形態素解析結果から、図12に
示す略語を表わす文字列を見出し文字列とする単語情報
を生成し辞書3に格納する。図12のNo(D1)50
の見出し文字列(D2)「テーブル」は、図10のNo
(D1)1と2から生成される。また、図12のNo
(D1)51の見出し文字列(D2)「テーブル」は、
図10のNo(D1)1と2から生成される。また、図
12のNo(D1)52の見出し文字列(D2)「ラー
メン」は、図10のNo(D1)8と9から生成され
る。また、図12のNo(D1)53の見出し文字列
(D2)「ラーメン」は、図10のNo(D1)8と9
から生成される。また、図12のNo(D1)54の見
出し文字列(D2)「日立」は、図10のNo(D1)
13と16から生成される。また、図12のNo(D
1)55の見出し文字列(D2)「日立」は、図10の
No(D1)13と16から生成される。また、図12
のNo(D1)56の見出し文字列(D2)「鶴亀」
は、図10のNo(D1)14と15から生成される。
また、図12のNo(D1)57の見出し文字列(D
2)「鶴亀」は、図10のNo(D1)14と15から
生成される。
り、図10に示すデータベース中の語を構成する文字列
と等しい見出し文字列の形態素解析結果から、図12に
示す略語を表わす文字列を見出し文字列とする単語情報
を生成し辞書3に格納する。図12のNo(D1)50
の見出し文字列(D2)「テーブル」は、図10のNo
(D1)1と2から生成される。また、図12のNo
(D1)51の見出し文字列(D2)「テーブル」は、
図10のNo(D1)1と2から生成される。また、図
12のNo(D1)52の見出し文字列(D2)「ラー
メン」は、図10のNo(D1)8と9から生成され
る。また、図12のNo(D1)53の見出し文字列
(D2)「ラーメン」は、図10のNo(D1)8と9
から生成される。また、図12のNo(D1)54の見
出し文字列(D2)「日立」は、図10のNo(D1)
13と16から生成される。また、図12のNo(D
1)55の見出し文字列(D2)「日立」は、図10の
No(D1)13と16から生成される。また、図12
のNo(D1)56の見出し文字列(D2)「鶴亀」
は、図10のNo(D1)14と15から生成される。
また、図12のNo(D1)57の見出し文字列(D
2)「鶴亀」は、図10のNo(D1)14と15から
生成される。
【0024】ステップ4208〜ステップ4209によ
り、図10に示すデータベース中の語を構成する文字列
と等しい見出し文字列の形態素解析結果から、図13に
示す略語を表わす文字列を見出し文字列とする単語情報
を生成し辞書3に格納する。図13のNo(D1)60
〜69は、分割単語の先頭文字の組合せによる略語を表
わす見出し文字列を持つ単語情報であり、No(D1)
70〜79は、分割単語の末尾文字の組合せによる略語
を表わす見出し文字列を持つ単語情報である。また、図
13のNo(D1)60の単語情報「商テ」は、図10
のNo(D1)1から生成される。また、図13のNo
(D1)61の単語情報「商テ」は、図10のNo(D
1)2から生成される。また、図13のNo(D1)6
2の単語情報「商名」は、図10のNo(D1)3から
生成される。また、図13のNo(D1)63の単語情
報「P.N」は、図10のNo(D1)6から生成され
る。また、図13のNo(D1)64の単語情報「み
ラ」は、図10のNo(D1)8から生成される。ま
た、図13のNo(D1)65の単語情報「A定」は、
図10のNo(D1)12から生成される。また、図1
3のNo(D1)66の単語情報「日飯」は、図10の
No(D1)13から生成される。また、図13のNo
(D1)67の単語情報「喫鶴」は、図10のNo(D
1)14から生成される。また、図13のNo(D1)
68の単語情報「か鶴」は、図10のNo(D1)15
から生成される。また、図13のNo(D1)69の単
語情報「日亭」は、図10のNo(D1)16から生成
される。
り、図10に示すデータベース中の語を構成する文字列
と等しい見出し文字列の形態素解析結果から、図13に
示す略語を表わす文字列を見出し文字列とする単語情報
を生成し辞書3に格納する。図13のNo(D1)60
〜69は、分割単語の先頭文字の組合せによる略語を表
わす見出し文字列を持つ単語情報であり、No(D1)
70〜79は、分割単語の末尾文字の組合せによる略語
を表わす見出し文字列を持つ単語情報である。また、図
13のNo(D1)60の単語情報「商テ」は、図10
のNo(D1)1から生成される。また、図13のNo
(D1)61の単語情報「商テ」は、図10のNo(D
1)2から生成される。また、図13のNo(D1)6
2の単語情報「商名」は、図10のNo(D1)3から
生成される。また、図13のNo(D1)63の単語情
報「P.N」は、図10のNo(D1)6から生成され
る。また、図13のNo(D1)64の単語情報「み
ラ」は、図10のNo(D1)8から生成される。ま
た、図13のNo(D1)65の単語情報「A定」は、
図10のNo(D1)12から生成される。また、図1
3のNo(D1)66の単語情報「日飯」は、図10の
No(D1)13から生成される。また、図13のNo
(D1)67の単語情報「喫鶴」は、図10のNo(D
1)14から生成される。また、図13のNo(D1)
68の単語情報「か鶴」は、図10のNo(D1)15
から生成される。また、図13のNo(D1)69の単
語情報「日亭」は、図10のNo(D1)16から生成
される。
【0025】また、図13のNo(D1)70の単語情
報「品ル」は、図10のNo(D1)1から生成され
る。また、図13のNo(D1)71の単語情報「品
ル」は、図10のNo(D1)2から生成される。ま
た、図13のNo(D1)72の単語情報「品名」は、
図10のNo(D1)3から生成される。また、図13
のNo(D1)73の単語情報「e.o」は、図10のN
o(D1)6から生成される。また、図13のNo(D
1)74の単語情報「そン」は、図10のNo(D1)
8から生成される。また、図13のNo(D1)75の
単語情報「A食」は、図10のNo(D1)12から生
成される。また、図13のNo(D1)76の単語情報
「立店」は、図10のNo(D1)13から生成され
る。また、図13のNo(D1)77の単語情報「茶
亀」は、図10のNo(D1)14から生成される。ま
た、図13のNo(D1)78の単語情報「ふぇ亀」
は、図10のNo(D1)15から生成される。また、
図13のNo(D1)79の単語情報「立亭」は、図1
0のNo(D1)16から生成される。
報「品ル」は、図10のNo(D1)1から生成され
る。また、図13のNo(D1)71の単語情報「品
ル」は、図10のNo(D1)2から生成される。ま
た、図13のNo(D1)72の単語情報「品名」は、
図10のNo(D1)3から生成される。また、図13
のNo(D1)73の単語情報「e.o」は、図10のN
o(D1)6から生成される。また、図13のNo(D
1)74の単語情報「そン」は、図10のNo(D1)
8から生成される。また、図13のNo(D1)75の
単語情報「A食」は、図10のNo(D1)12から生
成される。また、図13のNo(D1)76の単語情報
「立店」は、図10のNo(D1)13から生成され
る。また、図13のNo(D1)77の単語情報「茶
亀」は、図10のNo(D1)14から生成される。ま
た、図13のNo(D1)78の単語情報「ふぇ亀」
は、図10のNo(D1)15から生成される。また、
図13のNo(D1)79の単語情報「立亭」は、図1
0のNo(D1)16から生成される。
【0026】図12と図13に示す単語情報を格納した
辞書データ例は、操作指示対象であるデータベース内の
語を構成する文字列をそのまま見出し文字列として持つ
単語情報を基に生成した例であり、図4中の見出し文字
コード変換処理により生成された見出し文字列を持つ単
語情報(図11)を基に生成すれば、より多種の見出し
文字列を持つ単語情報を生成することができる。
辞書データ例は、操作指示対象であるデータベース内の
語を構成する文字列をそのまま見出し文字列として持つ
単語情報を基に生成した例であり、図4中の見出し文字
コード変換処理により生成された見出し文字列を持つ単
語情報(図11)を基に生成すれば、より多種の見出し
文字列を持つ単語情報を生成することができる。
【0027】以上、述べたように、本実施例によれば、
自然語解析が対象とするデータベースの情報を持つ単語
情報を一括して辞書登録することにより、利用者が単語
情報を作成し辞書登録する非常に膨大な作業を省くこと
ができるようになる。さらに、データベース内に存在す
る単語と同一表記(見出し)文字列を持つ単語情報のみ
ではなく、利用者が容易に類推可能であり使用すると予
測される同類語や略語等の単語の表記文字列を持つ単語
情報を生成し辞書登録することにより、辞書情報を充実
することが可能となり、これらの単語の辞書登録につい
ても非常に膨大な作業を省くことができるようになる。
自然語解析が対象とするデータベースの情報を持つ単語
情報を一括して辞書登録することにより、利用者が単語
情報を作成し辞書登録する非常に膨大な作業を省くこと
ができるようになる。さらに、データベース内に存在す
る単語と同一表記(見出し)文字列を持つ単語情報のみ
ではなく、利用者が容易に類推可能であり使用すると予
測される同類語や略語等の単語の表記文字列を持つ単語
情報を生成し辞書登録することにより、辞書情報を充実
することが可能となり、これらの単語の辞書登録につい
ても非常に膨大な作業を省くことができるようになる。
【0028】次に、本発明による辞書生成システムの応
用例を説明する。単語情報を生成するデータベースの範
囲を利用者に問い合わせ、利用者が指定したテーブル
名、カラム名を取得し、単語情報を生成する範囲を限定
した後、前記実施例で示した処理を施す。また、見出し
文字列の加工(生成)方法を利用者に問い合わせ、利用
者が指定した加工方法に合わせて前記実施例で示した処
理を施す。拡張した本実施例によれば、自然語解析が対
象とするデータベースの持つ単語情報を利用者が指定し
た範囲のみを効率良く一括して辞書登録することができ
ると同時に、利用者が単語情報を作成し辞書登録する非
常に膨大な作業を省くことができるようになる。さら
に、データベース内に存在する単語と同一表記文字列を
持つ単語情報のみではなく、利用者が容易に類推可能で
あり使用すると予測される同類語や略語等の単語の表記
文字列を持つ単語情報をデータベース内に存在する単語
から利用者が指定した加工方法のみにより限定し生成す
ることにより、時間的並びに容量的に効率良く辞書登録
し辞書情報を充実することが可能となると同時に、これ
らの単語の辞書登録についても非常に膨大な作業を省く
ことができるようになる。
用例を説明する。単語情報を生成するデータベースの範
囲を利用者に問い合わせ、利用者が指定したテーブル
名、カラム名を取得し、単語情報を生成する範囲を限定
した後、前記実施例で示した処理を施す。また、見出し
文字列の加工(生成)方法を利用者に問い合わせ、利用
者が指定した加工方法に合わせて前記実施例で示した処
理を施す。拡張した本実施例によれば、自然語解析が対
象とするデータベースの持つ単語情報を利用者が指定し
た範囲のみを効率良く一括して辞書登録することができ
ると同時に、利用者が単語情報を作成し辞書登録する非
常に膨大な作業を省くことができるようになる。さら
に、データベース内に存在する単語と同一表記文字列を
持つ単語情報のみではなく、利用者が容易に類推可能で
あり使用すると予測される同類語や略語等の単語の表記
文字列を持つ単語情報をデータベース内に存在する単語
から利用者が指定した加工方法のみにより限定し生成す
ることにより、時間的並びに容量的に効率良く辞書登録
し辞書情報を充実することが可能となると同時に、これ
らの単語の辞書登録についても非常に膨大な作業を省く
ことができるようになる。
【0029】次に、本発明による辞書生成システムによ
り生成された辞書の使用例を説明する。図14は、本実
施例により生成された辞書を参照する自然語インタフェ
ースの例であり、自然語入力aにより入力された自然語
を、本発明で生成された辞書3を参照し操作指示対象命
令認識部bにより操作指示命令を認識し、操作指示命令
実行部cにより操作指示対象1であるデータベースの操
作を行うシステムの機能ブロックである。このように、
本発明により生成される辞書を自然語インタフェースで
使用することは、容易に類推可能である。
り生成された辞書の使用例を説明する。図14は、本実
施例により生成された辞書を参照する自然語インタフェ
ースの例であり、自然語入力aにより入力された自然語
を、本発明で生成された辞書3を参照し操作指示対象命
令認識部bにより操作指示命令を認識し、操作指示命令
実行部cにより操作指示対象1であるデータベースの操
作を行うシステムの機能ブロックである。このように、
本発明により生成される辞書を自然語インタフェースで
使用することは、容易に類推可能である。
【0030】図15は、図14におけるユ−ザからの操
作指示命令を認識する操作指示命令認識処理bの概要P
AD図であり、自然語文の用語を認定する用語認定処理
b1、操作指示命令の認識結果を表現する中間表現を生
成する中間表現生成処理にb2より構成されている。図
16は、図15における用語認定処理b1のPAD図で
ある。以下、この処理をPAD図に従って説明する。ユ
−ザから入力される自然語文字例の入力待ちを行ない
(ステップb11)、入力された自然語文字列を文字列
変数INPに代入する(ステップb12)。次に、文字
列変数INPに文節が含まれている間、以下の処理を行
なう(b13)。文節中に辞書3の見出し文字列D2が
含まれているか否か判別し(ステップb14)、含まれ
ている場合に、文節テ−ブルの語幹M1に見出し文字列
D1を格納し、付属語M2にその他の文字列を格納し、
品詞M4に品詞D4を格納する(ステップb15)。次
に、文節テ−ブルの正規語M3に正規語D3を格納し、
項目分類M5に分類D5を格納し、所属テ−ブルM6に
所属D6を格納する(ステップb16)。次に、文字列
変数INPより当該文節文字列分を削除する(ステップ
b17)。ステップb11〜ステップb17により、図
18に示す自然語文を入力として用語認定処理b1を行
ない、図20に示す文節テ−ブルに用語認定結果を格納
する。ステップb11〜ステップb17により、図19
に示す自然語文を入力として用語認定処理b1を行な
い、図21に示す文節テ−ブルに用語認定結果を格納す
る。
作指示命令を認識する操作指示命令認識処理bの概要P
AD図であり、自然語文の用語を認定する用語認定処理
b1、操作指示命令の認識結果を表現する中間表現を生
成する中間表現生成処理にb2より構成されている。図
16は、図15における用語認定処理b1のPAD図で
ある。以下、この処理をPAD図に従って説明する。ユ
−ザから入力される自然語文字例の入力待ちを行ない
(ステップb11)、入力された自然語文字列を文字列
変数INPに代入する(ステップb12)。次に、文字
列変数INPに文節が含まれている間、以下の処理を行
なう(b13)。文節中に辞書3の見出し文字列D2が
含まれているか否か判別し(ステップb14)、含まれ
ている場合に、文節テ−ブルの語幹M1に見出し文字列
D1を格納し、付属語M2にその他の文字列を格納し、
品詞M4に品詞D4を格納する(ステップb15)。次
に、文節テ−ブルの正規語M3に正規語D3を格納し、
項目分類M5に分類D5を格納し、所属テ−ブルM6に
所属D6を格納する(ステップb16)。次に、文字列
変数INPより当該文節文字列分を削除する(ステップ
b17)。ステップb11〜ステップb17により、図
18に示す自然語文を入力として用語認定処理b1を行
ない、図20に示す文節テ−ブルに用語認定結果を格納
する。ステップb11〜ステップb17により、図19
に示す自然語文を入力として用語認定処理b1を行な
い、図21に示す文節テ−ブルに用語認定結果を格納す
る。
【0031】図17は、図15における中間表現生成処
理b2のPAD図である。以下、この処理をPAD図に
従って説明する。文節テ−ブルの先頭文節から末尾文節
まで、ステップb22〜ステップb25の処理を行なう
(ステップb21)。項目分類M5を取得し、項目分類
M5がカラム値であるか否か判別し(ステップb2
2)、カラム値である場合に(b22)、該カラム値に
対応するカラム名を取得し(ステップb23)、検索条
件としてのカラム名とカラム値の関係を取得する。次
に、ステップb21〜ステップb25により生成された
条件が複数個存在する場合には(ステップb26)、各
々の条件を論理積条件として「and」で連結し、これ
を検索条件として決定する(ステップb27)。生成さ
れた条件が複数個存在しない場合には、該当する1つの
条件を検索条件として決定する(ステップb28)。次
に、文末から文節として1つ以上連続する項目分類がカ
ラム名である文節の正規語を取得しこれを検索対象とす
る(ステップb29)。ステップb21〜ステップb2
9により、図20に示す文節テ−ブルを入力として自然
語文が表わす操作指示命令を認識し、図22に示す操作
指示命令を表現する中間表現を生成する。ステップb2
1〜ステップb29により、図21に示す文節テ−ブル
を入力として自然語文が表す操作指示命令を認識し、図
23に示す操作指示命令を表現する中間表現を生成す
る。
理b2のPAD図である。以下、この処理をPAD図に
従って説明する。文節テ−ブルの先頭文節から末尾文節
まで、ステップb22〜ステップb25の処理を行なう
(ステップb21)。項目分類M5を取得し、項目分類
M5がカラム値であるか否か判別し(ステップb2
2)、カラム値である場合に(b22)、該カラム値に
対応するカラム名を取得し(ステップb23)、検索条
件としてのカラム名とカラム値の関係を取得する。次
に、ステップb21〜ステップb25により生成された
条件が複数個存在する場合には(ステップb26)、各
々の条件を論理積条件として「and」で連結し、これ
を検索条件として決定する(ステップb27)。生成さ
れた条件が複数個存在しない場合には、該当する1つの
条件を検索条件として決定する(ステップb28)。次
に、文末から文節として1つ以上連続する項目分類がカ
ラム名である文節の正規語を取得しこれを検索対象とす
る(ステップb29)。ステップb21〜ステップb2
9により、図20に示す文節テ−ブルを入力として自然
語文が表わす操作指示命令を認識し、図22に示す操作
指示命令を表現する中間表現を生成する。ステップb2
1〜ステップb29により、図21に示す文節テ−ブル
を入力として自然語文が表す操作指示命令を認識し、図
23に示す操作指示命令を表現する中間表現を生成す
る。
【0032】本実施例では簡単な操作指示命令を認識す
る処理を示しており、複雑な操作指示命令の認識は、例
えば、絹川博之著「表階層モデルに基づく自然語インタ
フェ−ス処理方式」(情報処理学会論文誌Vol.27
No.5 May 1986)のpp.499〜50
8で示されている従来技術により容易に実現可能であ
る。
る処理を示しており、複雑な操作指示命令の認識は、例
えば、絹川博之著「表階層モデルに基づく自然語インタ
フェ−ス処理方式」(情報処理学会論文誌Vol.27
No.5 May 1986)のpp.499〜50
8で示されている従来技術により容易に実現可能であ
る。
【0033】前記中間表現からデ−タベ−スの検索言語
であるSQL(StrucuredQuery Lan
guage)言語へ変換しデ−タベ−ス検索の実行が可
能となる。また、中間表現は形式言語であり、SQL言
語への変換は、形式言語から形式言語への変換であり従
来技術により容易に実現可能である。
であるSQL(StrucuredQuery Lan
guage)言語へ変換しデ−タベ−ス検索の実行が可
能となる。また、中間表現は形式言語であり、SQL言
語への変換は、形式言語から形式言語への変換であり従
来技術により容易に実現可能である。
【0034】
【発明の効果】本発明によれば、自然語解析が対象とす
る操作指示対象の情報を持つ単語情報を一括して辞書登
録することにより、利用者が単語情報を作成し辞書登録
する非常に膨大な作業を省くことができるようになる。
さらに、操作指示対象内に存在する単語と同一表記(見
出し)文字列を持つ単語情報のみではなく、利用者が容
易に類推可能であり使用すると予測される同類語や略語
等の単語の表記文字列を持つ単語情報を生成し辞書登録
することにより、辞書情報を充実することが可能とな
り、これらの単語の辞書登録についても非常に膨大な作
業を省くことができるようになるという効果がある。
る操作指示対象の情報を持つ単語情報を一括して辞書登
録することにより、利用者が単語情報を作成し辞書登録
する非常に膨大な作業を省くことができるようになる。
さらに、操作指示対象内に存在する単語と同一表記(見
出し)文字列を持つ単語情報のみではなく、利用者が容
易に類推可能であり使用すると予測される同類語や略語
等の単語の表記文字列を持つ単語情報を生成し辞書登録
することにより、辞書情報を充実することが可能とな
り、これらの単語の辞書登録についても非常に膨大な作
業を省くことができるようになるという効果がある。
【図1】本発明の辞書生成システムの一実施例を示す機
能ブロック図である。
能ブロック図である。
【図2】図1における辞書生成システムの全体的なハー
ドウェア構成を示すプロック図である。
ドウェア構成を示すプロック図である。
【図3】同一見出し生成処理のPAD図である。
【図4】異表記見出し生成処理の概要PAD図である。
【図5】見出し文字コ−ド変換処理のPAD図である。
【図6】同類語見出し生成処理のPAD図である。
【図7】図1の操作指示対象1であるデータベースの例
を示す図である。
を示す図である。
【図8】基本語辞書5の例を示す図である。
【図9】図7のデータベース例を参照し、図3のPAD
図に示す同一見出し生成処理2により生成された単語情
報を格納した辞書の例を示す図である。
図に示す同一見出し生成処理2により生成された単語情
報を格納した辞書の例を示す図である。
【図10】見出し文字列を形態素解析した結果の例を示
す図である。
す図である。
【図11】見出し文字コード変換処理41により生成し
た見出し文字列を持つ単語情報を格納した辞書の例を示
す図である。
た見出し文字列を持つ単語情報を格納した辞書の例を示
す図である。
【図12】同類語見出し文字生成処理により生成される
見出し文字列を持つ単語情報を格納した辞書の例を示す
図である。
見出し文字列を持つ単語情報を格納した辞書の例を示す
図である。
【図13】同類語見出し文字生成処理により生成される
見出し文字列を持つ単語情報を格納した辞書の他の例を
示す図である。
見出し文字列を持つ単語情報を格納した辞書の他の例を
示す図である。
【図14】本発明により生成された辞書を参照する自然
語インタフェ−スの例を示す図である。
語インタフェ−スの例を示す図である。
【図15】図14におけるユ−ザからの操作指示命令を
認識する操作指示命令認識処理bの概要PAD図であ
る。
認識する操作指示命令認識処理bの概要PAD図であ
る。
【図16】図15における用語認定処理b1のPAD図
である。
である。
【図17】図15における中間表現生成処理b2のPA
D図である。
D図である。
【図18】操作指示命令を表わす自然語文の例を示す図
である。
である。
【図19】操作指示命令を表わす自然語文の他の例を示
す図である。
す図である。
【図20】図18に示す自然語文の用語認定結果を格納
した文節テ−ブルの例を示す図である。
した文節テ−ブルの例を示す図である。
【図21】図19に示す自然語文の用語認定結果を格納
した文節テ−ブルの例を示す図である。
した文節テ−ブルの例を示す図である。
【図22】図20に示す文節テ−ブルを入力として自然
語文が表わす操作指示命令を認識した結果を表現した中
間表現の例を示す図である。
語文が表わす操作指示命令を認識した結果を表現した中
間表現の例を示す図である。
【図23】図21に示す文節テ−ブルを入力として自然
語文が表わす操作指示命令を認識した結果を表現した中
間表現の例を示す図である。
語文が表わす操作指示命令を認識した結果を表現した中
間表現の例を示す図である。
1 操作指示対象部 2 同一見出し生成処理部 3 辞書 4 異表記見出し生成部 5 基本語辞書 6 入出力装置 7 プロセッサ 8 記憶装置
Claims (6)
- 【請求項1】 入出力装置と、処理装置と、操作指示対
象が格納されかつ辞書を格納するエリアを有する記憶装
置を備え、操作指示対象を基に辞書を生成する辞書生成
システムであって、 前記処理装置は前記記憶装置に格納された操作指示対象
内の各単語を構成する文字列を順次読み出し該文字列を
辞書の見出し文字列として前記記憶装置の辞書を格納す
るエリアに順次格納し、見出し文字列に付随する各項目
の項目データを生成して前記記憶装置の辞書を格納する
エリアに前記各見出し文字列対応に順次格納して辞書を
生成する手段を備えることを特徴とする辞書生成システ
ム。 - 【請求項2】 入出力装置と、処理装置と、基本語辞書
および請求項1記載の辞書生成システムで生成された辞
書が格納されかつ辞書を格納するエリアを有する記憶装
置を備え、前記生成された辞書を基に新たな辞書を生成
する辞書生成システムであって、 前記処理装置は、 前記生成された辞書の各見出し文字列を解析し、見出し
文字列を構成する文字のバイトコードが1バイトコード
か2バイトコードであるかを判定する手段と、 判定されたバイトコードを他のバイトコードに置換可能
か否か判定する手段と、 置換可能と判定されたとき、
前記見出し文字列の内の置換可能な文字列を他のバイト
コードに置換し、得られた見出し文字列を新たな見出し
文字列とし、元の見出し文字列に付随する項目データを
新たな見出し文字列に付随する項目データとして新たな
辞書を生成する手段を備えることを特徴とする辞書生成
システム。 - 【請求項3】 入出力装置と、処理装置と、基本語辞書
および請求項1記載の辞書生成システムで生成された辞
書が格納されかつ辞書を格納するエリアを有する記憶装
置を備え、前記生成された辞書を基に新たな辞書を生成
する辞書生成システムであって、 前記処理装置は、 前記生成された辞書の各見出し文字列を解析し、見出し
文字列中に平仮名文字あるいは片仮名文字が含まれてい
るか判定する手段と、 判定された平仮名文字を片仮名文字に、片仮名文字を平
仮名文字に置換し、得られた見出し文字列を新たな見出
し文字列とし、元の見出し文字列に付随する項目データ
を新たな見出し文字列に付随する項目データとして新た
な辞書を生成する手段を備えることを特徴とする辞書生
成システム。 - 【請求項4】 入出力装置と、処理装置と、基本語辞書
および請求項1記載の辞書生成システムで生成された辞
書が格納されかつ辞書を格納するエリアを有する記憶装
置を備え、前記基本語辞書および生成された辞書を基に
新たな辞書を生成する辞書生成システムであって、 前記処理装置は、 前記基本語辞書を参照して前記生成された辞書の各見出
し文字列を解析し、各見出し文字列毎に形態素解析結果
レコードを得る手段と、 得られた1つの形態素解析結果レコードから単語分割結
果を取り出し、該単語分割結果の中の分割された文字列
を検索キーとして該検索キーと等しい文字列を有する他
の形態素解析結果レコードを検索し、他の形態素解析結
果レコードが検索されたとき、前記検索キーとなった分
割された文字列を新たな見出し文字列とし、検索された
他の形態素解析結果レコードの元となった見出し文字列
に付随する項目データを新たな見出し文字列に付随する
項目データとし、各形態素解析結果レコード対応に得ら
れた新たな見出し文字列とその項目データから新たな辞
書を生成する手段を備えることを特徴とする辞書生成シ
ステム。 - 【請求項5】 入出力装置と、処理装置と、基本語辞書
および請求項1記載の辞書生成システムで生成された辞
書が格納されかつ辞書を格納するエリアを有する記憶装
置を備え、前記基本語辞書および生成された辞書を基に
新たな辞書を生成する辞書生成システムであって、 前記処理装置は、 前記基本語辞書を参照して前記生成された辞書の各見出
し文字列を解析し、各見出し文字列毎に形態素解析結果
レコードを得る手段と、 得られた形態素解析結果レコードから単語分割結果を取
り出し、該単語分割結果の中の各分割された文字列から
先頭文字1文字を順次取り出し、順次取り出された文字
を並べて得られる文字列を新たな見出し文字列とし、元
の見出し文字列に付随する項目データを新たな見出し文
字列に付随する項目データとし、各形態素解析結果レコ
ード対応に得られた新たな見出し文字列とその項目デー
タから新たな辞書を生成する手段を備えることを特徴と
する辞書生成システム。 - 【請求項6】 入出力装置と、処理装置と、基本語辞書
および請求項1記載の辞書生成システムで生成された辞
書が格納されかつ辞書を格納するエリアを有する記憶装
置を備え、前記基本語辞書および生成された辞書を基に
新たな辞書を生成する辞書生成システムであって、 前記処理装置は、 前記基本語辞書を参照して前記生成された辞書の各見出
し文字列を解析し、各見出し文字列毎に形態素解析結果
レコードを得る手段と、 得られた形態素解析結果レコードから単語分割結果を取
り出し、該単語分割結果の中の各分割された文字列から
末尾文字1文字を順次取り出し、順次取り出された文字
を並べて得られる文字列を新たな見出し文字列とし、元
の見出し文字列に付随する項目データを新たな見出し文
字列に付随する項目データとし、各形態素解析結果レコ
ード対応に得られた新たな見出し文字列とその項目デー
タから新たな辞書を生成する手段を備えることを特徴と
する辞書生成システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4202971A JPH0628391A (ja) | 1992-07-07 | 1992-07-07 | 辞書生成システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4202971A JPH0628391A (ja) | 1992-07-07 | 1992-07-07 | 辞書生成システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0628391A true JPH0628391A (ja) | 1994-02-04 |
Family
ID=16466199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4202971A Pending JPH0628391A (ja) | 1992-07-07 | 1992-07-07 | 辞書生成システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0628391A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7475005B2 (en) | 2003-03-17 | 2009-01-06 | International Business Machines Corporation | Translation system, dictionary updating server, translation method, and program and recording medium for use therein |
-
1992
- 1992-07-07 JP JP4202971A patent/JPH0628391A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7475005B2 (en) | 2003-03-17 | 2009-01-06 | International Business Machines Corporation | Translation system, dictionary updating server, translation method, and program and recording medium for use therein |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5794177A (en) | Method and apparatus for morphological analysis and generation of natural language text | |
JP3196868B2 (ja) | テキストをインデックス及び検索するための関連ワード形態の限定状態トランスジューサ | |
JP2783558B2 (ja) | 要約生成方法および要約生成装置 | |
JP3691844B2 (ja) | 文書処理方法 | |
US6523030B1 (en) | Sort system for merging database entries | |
JP2001043236A (ja) | 類似語抽出方法、文書検索方法及びこれらに用いる装置 | |
JPH11110416A (ja) | データベースからドキュメントを検索するための方法および装置 | |
WO1997004405A9 (en) | Method and apparatus for automated search and retrieval processing | |
JP2003167913A (ja) | 類似文書検索方法 | |
JPH11110413A (ja) | データベース検索結果を生成するための方法および装置 | |
CN113297251A (zh) | 多源数据检索方法、装置、设备及存储介质 | |
US5283737A (en) | Mechanism for generating linguistic expressions based on synonyms and rules derived from examples | |
JP3612769B2 (ja) | 情報検索装置および情報検索方法 | |
JPH09198395A (ja) | 文書検索装置 | |
JP3617096B2 (ja) | 関係表現抽出装置および関係表現検索装置、関係表現抽出方法、関係表現検索方法 | |
JPH10269233A (ja) | 文書データベースの検索結果表示方法及び装置 | |
JPH1145274A (ja) | 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JPH06348757A (ja) | 文書検索装置および方法 | |
JPH11143902A (ja) | n−gramを用いた類似文書検索方法 | |
JPH0628391A (ja) | 辞書生成システム | |
JPH08137895A (ja) | 類似文書検索システム | |
JPH1074207A (ja) | 情報検索装置及び情報検索方法 | |
JPH0561902A (ja) | 機械翻訳システム | |
JPH0827803B2 (ja) | テキストベース検索方法 | |
JPH03210659A (ja) | 複合語表現範囲決定方法および装置 |