JP2515726B2 - 情報検索方法及び装置 - Google Patents
情報検索方法及び装置Info
- Publication number
- JP2515726B2 JP2515726B2 JP60150176A JP15017685A JP2515726B2 JP 2515726 B2 JP2515726 B2 JP 2515726B2 JP 60150176 A JP60150176 A JP 60150176A JP 15017685 A JP15017685 A JP 15017685A JP 2515726 B2 JP2515726 B2 JP 2515726B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- keyword
- notation
- different
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の詳細な説明】 〔発明の利用分野〕 本発明は、部分文字列のマツチングが行なえるキーワ
ード検索に係り、特に必要な情報をもれなく抽出するの
に好適な情報検索方法及び装置に関する。
ード検索に係り、特に必要な情報をもれなく抽出するの
に好適な情報検索方法及び装置に関する。
従来の情報検索の主流はキーワード検索であつた(中
原:“情報検索”電子通信学会編参照)。これはまず限
定語彙辞書(シソーラス)を用い、キーワードはその限
定語彙の中から選び、データベースを構築している。そ
して、検索するときは、前記シソーラスから検索の専門
家が要求の情報に関して類似語の拡張を含めてキーワー
ドの選択を行つている。このような検索方式では、前記
シソーラスで限定されたキーワードを、専門家が代行し
て検索する限り問題はあまりなかつた。
原:“情報検索”電子通信学会編参照)。これはまず限
定語彙辞書(シソーラス)を用い、キーワードはその限
定語彙の中から選び、データベースを構築している。そ
して、検索するときは、前記シソーラスから検索の専門
家が要求の情報に関して類似語の拡張を含めてキーワー
ドの選択を行つている。このような検索方式では、前記
シソーラスで限定されたキーワードを、専門家が代行し
て検索する限り問題はあまりなかつた。
しかし、近年文書の電子フアイリングが盛んになり、
タイトル,抄録,本文から内容検索したいという要求が
出ており、また、検索も専門家に依頼するのでなく、要
求者が直接検索したいという要求も高まつている。その
ために次のような問題が発生する。
タイトル,抄録,本文から内容検索したいという要求が
出ており、また、検索も専門家に依頼するのでなく、要
求者が直接検索したいという要求も高まつている。その
ために次のような問題が発生する。
すなわち、文書等は前記シソーラスに載つている語彙
のみで限定されてはなく、自由な表現で書かれている。
更に、従来作成されてきたデータベース、計算機技術の
進歩とともに、データの表現がローマ字からカタカナ
へ、更にカタカナから漢字かな混じりの日本語に進歩し
てきていて、これらのデータは混在しているのが実状で
ある。
のみで限定されてはなく、自由な表現で書かれている。
更に、従来作成されてきたデータベース、計算機技術の
進歩とともに、データの表現がローマ字からカタカナ
へ、更にカタカナから漢字かな混じりの日本語に進歩し
てきていて、これらのデータは混在しているのが実状で
ある。
本文等を検索するための部分列のマツチングでは、一
字一句違わない完全な部分文字列の一致が要求される
が、自然言語では、一つの概念を表わすのに多数の言語
が存在する。一般に文書やデータベースの作成者は、一
つの概念を表わす多数の単語の中で、どの単語を使うこ
とも許されている。したがつて、検索対象の文書やデー
タベースがどの単語で書いてあるかを知らない検索者
は、目的の情報を示す概念を表す多くの単語を列挙し
て、検索を繰り返す。この手間を省くために考えられた
方法がシソーラスを導入した検索方法であり、入力した
単語が示す概念に類似した単語を自動発生するようにし
たものである。現在の所、シソーラスを用いた検索方法
は“ケイサンキ”と入力した場合“コンピユータ”とい
つた同義語を発生するが、“Computer",“Keisanki",
“計算機”といつた同一の単語でも表現の異なるものま
では発生しない。つまり、カタカナで記述されたデータ
は、“ケイサンキ”“コンピユータ”という文字列でマ
ツチングするが、英文字,ローマ字,漢字で記述された
データにはマツチングしない。
字一句違わない完全な部分文字列の一致が要求される
が、自然言語では、一つの概念を表わすのに多数の言語
が存在する。一般に文書やデータベースの作成者は、一
つの概念を表わす多数の単語の中で、どの単語を使うこ
とも許されている。したがつて、検索対象の文書やデー
タベースがどの単語で書いてあるかを知らない検索者
は、目的の情報を示す概念を表す多くの単語を列挙し
て、検索を繰り返す。この手間を省くために考えられた
方法がシソーラスを導入した検索方法であり、入力した
単語が示す概念に類似した単語を自動発生するようにし
たものである。現在の所、シソーラスを用いた検索方法
は“ケイサンキ”と入力した場合“コンピユータ”とい
つた同義語を発生するが、“Computer",“Keisanki",
“計算機”といつた同一の単語でも表現の異なるものま
では発生しない。つまり、カタカナで記述されたデータ
は、“ケイサンキ”“コンピユータ”という文字列でマ
ツチングするが、英文字,ローマ字,漢字で記述された
データにはマツチングしない。
また、前記シソーラス導入の検索方法で“ジヨウホ
ウ”と入力しても、“ジヨオホウ”“ジヨウホオ”“ジ
ヨオホオ”“ZYOUHOU"“ZYOOHOU"“ZYOUHOO"“ZYOOHOO"
“ZYOHHOU"“ZYOOHOH"“ZYOHHOH"“JOUHOU"“JOOHOU"
“JOUHOO"“JOOHOO"“JOHHOU"“JOUHOH"…といつたカナ
やローマ字特有の様々の音節表記までは発生しない。あ
るいは、漢字かな混じり表現の送り仮名表記の問題があ
る。例えば、“読み取り装置”でマツチングしたい場
合、“読み取り装置”の表記には他に“読取り装置”
“読取装置”が存在していて、単に“読み取り装置”で
マツチングしようとしても確実に情報を入手できるとは
限らない。シソーラスを拡張して、これら異表記すべて
を発生させることも考えられるが、辞書としての一貫性
が乱れ煩雑になるし、第一に辞書が巨大化するために実
現が困難であろうと思われる。またカナ,ローマ字の表
記にはかなり規則性があるが、前記の異表記をすべて辞
書に羅列するのは効率的でないとも考えられる。
ウ”と入力しても、“ジヨオホウ”“ジヨウホオ”“ジ
ヨオホオ”“ZYOUHOU"“ZYOOHOU"“ZYOUHOO"“ZYOOHOO"
“ZYOHHOU"“ZYOOHOH"“ZYOHHOH"“JOUHOU"“JOOHOU"
“JOUHOO"“JOOHOO"“JOHHOU"“JOUHOH"…といつたカナ
やローマ字特有の様々の音節表記までは発生しない。あ
るいは、漢字かな混じり表現の送り仮名表記の問題があ
る。例えば、“読み取り装置”でマツチングしたい場
合、“読み取り装置”の表記には他に“読取り装置”
“読取装置”が存在していて、単に“読み取り装置”で
マツチングしようとしても確実に情報を入手できるとは
限らない。シソーラスを拡張して、これら異表記すべて
を発生させることも考えられるが、辞書としての一貫性
が乱れ煩雑になるし、第一に辞書が巨大化するために実
現が困難であろうと思われる。またカナ,ローマ字の表
記にはかなり規則性があるが、前記の異表記をすべて辞
書に羅列するのは効率的でないとも考えられる。
一般に計算機の内部では文字列を一文字ずつコードと
して表現しているため、文字列のマツチングには厳密に
は検索者が入力した文字列を示すコード列と、検索対象
のコード列とが完全に一致することが要求される。この
ために、アルフアベツト文字の大文字と小文字でさえ区
別されており、検索者が“DATA BASE"と大文字で入力し
ても検索対象のデータベースに“Data Base"と記述され
ていれば検索は成功しない。また計算機が文字を表現す
る文字コードに現在は、EBCDIC,JIS,ASCII,等多種のコ
ードが存在し、データベースがどのコードで記述されて
いるかを知る必要がある。
して表現しているため、文字列のマツチングには厳密に
は検索者が入力した文字列を示すコード列と、検索対象
のコード列とが完全に一致することが要求される。この
ために、アルフアベツト文字の大文字と小文字でさえ区
別されており、検索者が“DATA BASE"と大文字で入力し
ても検索対象のデータベースに“Data Base"と記述され
ていれば検索は成功しない。また計算機が文字を表現す
る文字コードに現在は、EBCDIC,JIS,ASCII,等多種のコ
ードが存在し、データベースがどのコードで記述されて
いるかを知る必要がある。
以上の問題点をまとめると、探したい内容はデータベ
ースでは、 (1) 日本語又は英語あるいはその他の言語で表現し
ている。
ースでは、 (1) 日本語又は英語あるいはその他の言語で表現し
ている。
(2) 様々な同義語で同一の概念が表わされている。
(3) 日本語で表現してある場合、カナ,ローマ字,
漢字かな混じりの3種類の表現の仕方がある。
漢字かな混じりの3種類の表現の仕方がある。
(4) 日本語のカナ,ローマ字には音節の表現にいく
つかの表記法が存在する。漢字かな混じりの文では、漢
字の送り方にいくつかの方法がある。
つかの表記法が存在する。漢字かな混じりの文では、漢
字の送り方にいくつかの方法がある。
(5) 計算機内部における文字の表わし方にいくつか
の文字コードがある。
の文字コードがある。
以上のように、従来の検索手法のみでは、データベー
スの検索機能を一般ユーザに解放したり、検索対象が数
値データから文書などのマルチメデイア情報に拡大した
りすることが困難である。
スの検索機能を一般ユーザに解放したり、検索対象が数
値データから文書などのマルチメデイア情報に拡大した
りすることが困難である。
本発明の目的は、このような従来の欠点を補うため同
義語の他に表現,表記上での拡張を含めて、一つの概念
を示す多数の文字コード群を発生させて、もれなく必要
情報を抽出する情報検索方法及び装置を提供することに
ある。
義語の他に表現,表記上での拡張を含めて、一つの概念
を示す多数の文字コード群を発生させて、もれなく必要
情報を抽出する情報検索方法及び装置を提供することに
ある。
本発明の第1の特徴は、キーワードに対応する文字コ
ードを計算機に入力し、キーワードに対応する文字コー
ドを有する情報を前記データベースから検索する情報検
索方法において、入力されたキーワードから複数の異表
記のキーワードに展開し、展開された複数の異表記のキ
ーワードに対応する文字コードを有する情報をデータベ
ースから検索することである。
ードを計算機に入力し、キーワードに対応する文字コー
ドを有する情報を前記データベースから検索する情報検
索方法において、入力されたキーワードから複数の異表
記のキーワードに展開し、展開された複数の異表記のキ
ーワードに対応する文字コードを有する情報をデータベ
ースから検索することである。
また、本発明の第2の特徴は、同じく情報検索方法に
おいて、入力されたキーワードから複数の異表記のキー
ワードに展開し、展開された複数の異表記のキーワード
に対応する文字コードを有する情報をデータベースから
検索する第1のモードと、入力されたキーワードから複
数の異表記のキーワードに展開した後、展開された異表
記のキーワードを一旦ユーザに提示し、ユーザにて選択
されたキーワードに対応する文字コードを有する情報を
データベースから検索する第2のモードとを備え、第1
または第2のモードを切り換えて検索することである。
おいて、入力されたキーワードから複数の異表記のキー
ワードに展開し、展開された複数の異表記のキーワード
に対応する文字コードを有する情報をデータベースから
検索する第1のモードと、入力されたキーワードから複
数の異表記のキーワードに展開した後、展開された異表
記のキーワードを一旦ユーザに提示し、ユーザにて選択
されたキーワードに対応する文字コードを有する情報を
データベースから検索する第2のモードとを備え、第1
または第2のモードを切り換えて検索することである。
更に、本発明の第3の特徴は、情報を文字コードにて
格納するデータベースと、キーワードに対応する文字コ
ードを入力し、キーワードに対応する文字コードを有す
る情報をデータベースから検索する計算機を備えた情報
検索装置において、入力されたキーワードから複数の異
表記のキーワードに展開する異表記展開手段と、展開さ
れた複数の異表記のキーワードに対応する文字コードを
有する情報をデータベースから検索する検索手段を計算
機に備えたことである。
格納するデータベースと、キーワードに対応する文字コ
ードを入力し、キーワードに対応する文字コードを有す
る情報をデータベースから検索する計算機を備えた情報
検索装置において、入力されたキーワードから複数の異
表記のキーワードに展開する異表記展開手段と、展開さ
れた複数の異表記のキーワードに対応する文字コードを
有する情報をデータベースから検索する検索手段を計算
機に備えたことである。
本発明は、以上の言語変換,同義語抽出,カナ,ロー
マ字,漢字仮名混じりの各表現相互間の変換,音節表
記,送り仮名表記における異表記の発生,文字コードの
変換の各手段を合わせ持つことにより、データを記述す
る言語,表現,表記,文字コードに左右されることな
く、検索を成功させる。
マ字,漢字仮名混じりの各表現相互間の変換,音節表
記,送り仮名表記における異表記の発生,文字コードの
変換の各手段を合わせ持つことにより、データを記述す
る言語,表現,表記,文字コードに左右されることな
く、検索を成功させる。
以下、本発明を実施例にもとづいて説明する。
第1図は本発明の一実施例による情報検索方法を採用
した情報検索装置の機能ブロツク図である。同装置は文
字コード入力部10,文字コード100がカナ,ローマ字,外
国語のいずれであるかを判別する文字コード種別判別部
20,ローマ字,カナ,外国語の入力文字列をそれぞれの
種別において標準化する標準化部31,32,33,ローマ字,
外国語のカナへの変換を行う変換部41,42,同義語抽出部
50,カナから漢字かな混じり,ローマ字,外来語への変
換を行う変換部61,62,63,漢字かな混じり,ローマ字,
カナ,外国語のそれぞれにおいて、異表記を発生する発
生部71,72,73,74,前記発生部から出力されたすべての文
字コードをデータベース内の情報に照らし合わせる検索
部80とから成つている。
した情報検索装置の機能ブロツク図である。同装置は文
字コード入力部10,文字コード100がカナ,ローマ字,外
国語のいずれであるかを判別する文字コード種別判別部
20,ローマ字,カナ,外国語の入力文字列をそれぞれの
種別において標準化する標準化部31,32,33,ローマ字,
外国語のカナへの変換を行う変換部41,42,同義語抽出部
50,カナから漢字かな混じり,ローマ字,外来語への変
換を行う変換部61,62,63,漢字かな混じり,ローマ字,
カナ,外国語のそれぞれにおいて、異表記を発生する発
生部71,72,73,74,前記発生部から出力されたすべての文
字コードをデータベース内の情報に照らし合わせる検索
部80とから成つている。
処理の流れの概要を次に説明する。
探したい情報がもつ文字コードの部分文字列を文字コ
ード入力部10から入力すると、文字コード100が判別部2
0へ送られ、入力した文字コードが、ローマ字,カナ,
外国語のいずれであるかを判定する。判別部20で判定さ
れた文字コードは、その種別によつてローマ字表記標準
化部31,カナ表記標準化部32,外国語表記標化部33のいず
れかへ送られ、ヘボン式から訓令式への変換(“JOUHO
U"→“ZYOUHOU"),カナ異例文字の修正(“ヂヨウホ
ウ”→“ジヨウホウ”),アルフアベツトの大文字化
(“data"→“DATA")という処理を行い本装置で使用す
る標準的な表記法に変換する。標準化された文字コード
310,320,330のうち、ローマ字310,外国語330は、それぞ
れローマ字−カナ変換部41,外国語−カナ変換部42を通
つてカナ表記に統一される。ただし、外国語で日本語に
なつていないものは、外国語−カナ変換部42がカナ表現
に変換しないで、外国語420を出力する。文字コード400
は同義語抽出部50に送られ、該当する概念の拡張を行
う。拡張されて複数になつた文字コード500は、カナ−
漢字,カナ−ローマ字,カナ−外国語の変換部61,62,63
へ送られ、それぞれの表記へ変換する。漢字かな混じ
り、ローマ字,カナ,外国語で表現された文字コード
は、各表現において音節,漢字かな混じり文における送
り仮名の異表記の発生を行う発生部71,72,73,74を通つ
て検索部80へ送られる。検索部80は入力された複数の文
字コードのおのおのに対し、データベースに格納された
情報とのマツチングを行い一致するすべての情報800を
出力する。
ード入力部10から入力すると、文字コード100が判別部2
0へ送られ、入力した文字コードが、ローマ字,カナ,
外国語のいずれであるかを判定する。判別部20で判定さ
れた文字コードは、その種別によつてローマ字表記標準
化部31,カナ表記標準化部32,外国語表記標化部33のいず
れかへ送られ、ヘボン式から訓令式への変換(“JOUHO
U"→“ZYOUHOU"),カナ異例文字の修正(“ヂヨウホ
ウ”→“ジヨウホウ”),アルフアベツトの大文字化
(“data"→“DATA")という処理を行い本装置で使用す
る標準的な表記法に変換する。標準化された文字コード
310,320,330のうち、ローマ字310,外国語330は、それぞ
れローマ字−カナ変換部41,外国語−カナ変換部42を通
つてカナ表記に統一される。ただし、外国語で日本語に
なつていないものは、外国語−カナ変換部42がカナ表現
に変換しないで、外国語420を出力する。文字コード400
は同義語抽出部50に送られ、該当する概念の拡張を行
う。拡張されて複数になつた文字コード500は、カナ−
漢字,カナ−ローマ字,カナ−外国語の変換部61,62,63
へ送られ、それぞれの表記へ変換する。漢字かな混じ
り、ローマ字,カナ,外国語で表現された文字コード
は、各表現において音節,漢字かな混じり文における送
り仮名の異表記の発生を行う発生部71,72,73,74を通つ
て検索部80へ送られる。検索部80は入力された複数の文
字コードのおのおのに対し、データベースに格納された
情報とのマツチングを行い一致するすべての情報800を
出力する。
ここで同義語抽出は公知の技術であり、本実施例では
従来の方式を使用する。
従来の方式を使用する。
本発明の特徴をなす表現変換部と異表記発生部につい
て、以下更に詳細に実現手段を述べる。
て、以下更に詳細に実現手段を述べる。
カナ−漢字変換部61は、カナ表現の文字列に対応する
漢字かな混じり表現の文字列を辞書の形式で持つてお
り、入力したカナの文字列に対応する漢字かな混じり文
字列が存在すれば、その文字列を出力する。一つのカナ
文字列に対し複数個の漢字かな混じりの文字列が導かれ
る場合が考えられるが、変換部61は二つのモードをもつ
てこれに対処する。第1のモードは人手を介さずに与え
られたカナ文字列に対応するすべての漢字かな混じりの
文字列を出力し、第2のモードは、人手を介して、対応
する漢字かな混じりの文字列の中から所望の文字列を選
択するモードである。例えば、“ジヨウホウ”というカ
ナ文字列が入力された場合、辞書から“情報”“定法”
“乗法”という漢字文字列が引き出されたとする。この
場合、第1のモードでは“情報”“定法”“乗法”とい
う三つの漢字コード列を出力する。しかし、検索者が目
的とするのが“情報”という文字列を探す事であつた場
合、検索結果に所望の情報は含まれるが、まつたく予期
しなかつた“定法”“乗法”といつた文字列をもつた情
報までが含まれる。このような危険を避けるには、第2
のモードで、三つの漢字文字列の中から“情報”だけを
選択すればよい。この変換部61の2つのモードは、入力
部10への検索文字コード入力時に設定する。
漢字かな混じり表現の文字列を辞書の形式で持つてお
り、入力したカナの文字列に対応する漢字かな混じり文
字列が存在すれば、その文字列を出力する。一つのカナ
文字列に対し複数個の漢字かな混じりの文字列が導かれ
る場合が考えられるが、変換部61は二つのモードをもつ
てこれに対処する。第1のモードは人手を介さずに与え
られたカナ文字列に対応するすべての漢字かな混じりの
文字列を出力し、第2のモードは、人手を介して、対応
する漢字かな混じりの文字列の中から所望の文字列を選
択するモードである。例えば、“ジヨウホウ”というカ
ナ文字列が入力された場合、辞書から“情報”“定法”
“乗法”という漢字文字列が引き出されたとする。この
場合、第1のモードでは“情報”“定法”“乗法”とい
う三つの漢字コード列を出力する。しかし、検索者が目
的とするのが“情報”という文字列を探す事であつた場
合、検索結果に所望の情報は含まれるが、まつたく予期
しなかつた“定法”“乗法”といつた文字列をもつた情
報までが含まれる。このような危険を避けるには、第2
のモードで、三つの漢字文字列の中から“情報”だけを
選択すればよい。この変換部61の2つのモードは、入力
部10への検索文字コード入力時に設定する。
カナ−ローマ字変換部62は第4図の50音表を基にして
変換を行う。“ン”以外のカナ文字は50音表に載つてい
るので表からローマ字の子音部、母音部を引き出すこと
ができる。例えば、“シ”に対して、ローマ字の子音は
表を左に進み“S"を得て、母音は表を上へ進んで“I"を
得ることができる。50音表にない文字“ン”“゜”
“゛”“ャ”“ョ”“ョ”“ッ”については別途対処す
る。例えば“ン”に対しては“N"を出力し、“゜”
“゛”に対してはこの文字が現われる1文字前で変換し
た子音を入れ替える。“パ”という文字列を変換する場
合“゜”の1文字前の子音“H"を“P"と入れ替えて、
“PA"を得る。どの子音に対し、どの文字と入れ替える
かは、変換規則として記憶する“ヤ”“ユ”“ヨ”につ
いては、逆に1文字前の子音と母音の間に“Y"を挿入す
る。“シヨ”という文字列を変換する場合“SI"に“Y"
を挿入し、“SYO"を得る。“ツ”に対しては、次の文字
の子音字を二つ重ねる。“キツプ”という文字列を変換
する場合、“フ”の子音字は“H"であるが、“フ”の次
に“゜”があるために前記規則で“P"に入れ替えられる
ために“P"を2つ重ねて“KIPPU"を得る。変換部62は、
前記の様にカナ文字列から、訓令式のローマ文字列へ変
換することを目的とする。
変換を行う。“ン”以外のカナ文字は50音表に載つてい
るので表からローマ字の子音部、母音部を引き出すこと
ができる。例えば、“シ”に対して、ローマ字の子音は
表を左に進み“S"を得て、母音は表を上へ進んで“I"を
得ることができる。50音表にない文字“ン”“゜”
“゛”“ャ”“ョ”“ョ”“ッ”については別途対処す
る。例えば“ン”に対しては“N"を出力し、“゜”
“゛”に対してはこの文字が現われる1文字前で変換し
た子音を入れ替える。“パ”という文字列を変換する場
合“゜”の1文字前の子音“H"を“P"と入れ替えて、
“PA"を得る。どの子音に対し、どの文字と入れ替える
かは、変換規則として記憶する“ヤ”“ユ”“ヨ”につ
いては、逆に1文字前の子音と母音の間に“Y"を挿入す
る。“シヨ”という文字列を変換する場合“SI"に“Y"
を挿入し、“SYO"を得る。“ツ”に対しては、次の文字
の子音字を二つ重ねる。“キツプ”という文字列を変換
する場合、“フ”の子音字は“H"であるが、“フ”の次
に“゜”があるために前記規則で“P"に入れ替えられる
ために“P"を2つ重ねて“KIPPU"を得る。変換部62は、
前記の様にカナ文字列から、訓令式のローマ文字列へ変
換することを目的とする。
カナ−外国語変換部63は、カナ−漢字変換部61と同様
にカナ表現の文字列に対応する外国語表現の文字列を辞
書の形式で持つており、入力したカナの文字列に対応す
る外国語の文字列が存在すれば、その文字列を出力す
る。対応する文字列が存在しなければ、出力しない。
にカナ表現の文字列に対応する外国語表現の文字列を辞
書の形式で持つており、入力したカナの文字列に対応す
る外国語の文字列が存在すれば、その文字列を出力す
る。対応する文字列が存在しなければ、出力しない。
異表記発生部71,72,73,74は漢字かな混じり、ローマ
字,カナ,外国語と扱う表現が異なるが、すべて同一の
構造を持つ。これら発生部は一単語として異表記を発生
する第1の発生部と、音節、あるいは一文字単位で構成
された規則を基にした第2の発生部に分解できる。第1
の発生部は、第2の発生部で用いる規則で表わせない異
表記の発生を受け持つ。例えばカナ−表現の“バイオリ
ン”から(ヴァイオリン““バイオリン“),“モー
タ”から(“モーター”“モータ”)が出力される。第
1の発生部は、漢字かな混じり,ローマ字,カナ,外国
語の各表現において、それぞれ異表記発生のための辞書
をもつ。第5図はそのカナ表現の例である。もし入力文
字列が第5図で示すような辞書に載つていない場合、第
1の発生部は異表記が存在しないものとして、入力文字
列をそのまま出力する。第2の発生部は第1の発生部の
出力を受けて、規則に従つて発生を行う。ローマ字表現
の規則の例を第6図に示す。本実施例では訓令式を標準
としたため、異表記はヘボン式が主になつている。第2
の発生部は入力文字列の中に規則で示される文字列が存
在した場合、標準,異表記の両方を用いた文字列を出力
する。規則で示された文字列が存在しない場合には第2
の発生部は入力文字列をそのまま出力する。ローマ字表
現の例では“NINSIKI"の文字列に対し、規則“SI"→
(“SI"“SHI")を用いて(“NINSIKI",“NINSHIKI")
を出力する。規則が適用される部分文字列が複数個存在
するならば、存在する表記法の組み合わせにより、発生
する単語数は多くなる。例えば“KENSYUTU"というロー
マ字表現文字列には2つの規則“SYU"→(“SYU"“SH
U"),“TU"→(“TU"“TSU")が適応し、各規則はそれ
ぞれ2個ずつの単語を発生するので、出力は(KENSYUT
U"“KENSYUTSU"“KENSHUTU"“KENSHUTSU")の計4単語
となる。
字,カナ,外国語と扱う表現が異なるが、すべて同一の
構造を持つ。これら発生部は一単語として異表記を発生
する第1の発生部と、音節、あるいは一文字単位で構成
された規則を基にした第2の発生部に分解できる。第1
の発生部は、第2の発生部で用いる規則で表わせない異
表記の発生を受け持つ。例えばカナ−表現の“バイオリ
ン”から(ヴァイオリン““バイオリン“),“モー
タ”から(“モーター”“モータ”)が出力される。第
1の発生部は、漢字かな混じり,ローマ字,カナ,外国
語の各表現において、それぞれ異表記発生のための辞書
をもつ。第5図はそのカナ表現の例である。もし入力文
字列が第5図で示すような辞書に載つていない場合、第
1の発生部は異表記が存在しないものとして、入力文字
列をそのまま出力する。第2の発生部は第1の発生部の
出力を受けて、規則に従つて発生を行う。ローマ字表現
の規則の例を第6図に示す。本実施例では訓令式を標準
としたため、異表記はヘボン式が主になつている。第2
の発生部は入力文字列の中に規則で示される文字列が存
在した場合、標準,異表記の両方を用いた文字列を出力
する。規則で示された文字列が存在しない場合には第2
の発生部は入力文字列をそのまま出力する。ローマ字表
現の例では“NINSIKI"の文字列に対し、規則“SI"→
(“SI"“SHI")を用いて(“NINSIKI",“NINSHIKI")
を出力する。規則が適用される部分文字列が複数個存在
するならば、存在する表記法の組み合わせにより、発生
する単語数は多くなる。例えば“KENSYUTU"というロー
マ字表現文字列には2つの規則“SYU"→(“SYU"“SH
U"),“TU"→(“TU"“TSU")が適応し、各規則はそれ
ぞれ2個ずつの単語を発生するので、出力は(KENSYUT
U"“KENSYUTSU"“KENSHUTU"“KENSHUTSU")の計4単語
となる。
以上の変換部、発生部の働きをまとめると、同義語抽
出部50から送られる文字列は変換部に送られ、カナ,ロ
ーマ字,外国語,漢字のかな混じりの各表現の標準的な
表記へ変換される。各表現の標準的な表記は異表記発生
部へ送られさまざまな表記を発生する。同義語抽出部50
から送られる文字列が“ジヨウホウ“であつた場合、変
換部で(“ジヨウホウ”“ZYOUHOU"“情報”)となり、
さらに発生部で(“ジヨウホウ”“ジヨウホオ”“ジヨ
オホウ”“ジヨオホオ”“ZYOUHOU"“ZYOUHOO"“ZYOOHO
U"“ZYOOHOO"“ZYOHHOU"…“情報”)となつて検索部80
へ送られる。
出部50から送られる文字列は変換部に送られ、カナ,ロ
ーマ字,外国語,漢字のかな混じりの各表現の標準的な
表記へ変換される。各表現の標準的な表記は異表記発生
部へ送られさまざまな表記を発生する。同義語抽出部50
から送られる文字列が“ジヨウホウ“であつた場合、変
換部で(“ジヨウホウ”“ZYOUHOU"“情報”)となり、
さらに発生部で(“ジヨウホウ”“ジヨウホオ”“ジヨ
オホウ”“ジヨオホオ”“ZYOUHOU"“ZYOUHOO"“ZYOOHO
U"“ZYOOHOO"“ZYOHHOU"…“情報”)となつて検索部80
へ送られる。
次に第2の実施例の機能ブロツク図を第2図に示す。
第1の実施例との違いについて主に説明する。第2図に
おいて第1の例と異なるのは同義語抽出部50の出力500
をこれから検索を行うデータベースに記載されている文
字コードの種類によつて振り分ける検索対象種別判別部
90である。検索対象種別判別部90はデータベースに記載
されている文字コード900を検索部80から取り寄せ、そ
の種類が何であるか判別し、出力を各変換部へ送るか否
か決定する。例えば文字コード900がカナとアルフアベ
ツドから構成されていればカナ−漢字変換部61へは出力
を送らない。このようにすることにより、すべての場合
を想定した第1の実施例よりも発生する文字コードが少
なくなるので、能率的な検索を行うことができる。
第1の実施例との違いについて主に説明する。第2図に
おいて第1の例と異なるのは同義語抽出部50の出力500
をこれから検索を行うデータベースに記載されている文
字コードの種類によつて振り分ける検索対象種別判別部
90である。検索対象種別判別部90はデータベースに記載
されている文字コード900を検索部80から取り寄せ、そ
の種類が何であるか判別し、出力を各変換部へ送るか否
か決定する。例えば文字コード900がカナとアルフアベ
ツドから構成されていればカナ−漢字変換部61へは出力
を送らない。このようにすることにより、すべての場合
を想定した第1の実施例よりも発生する文字コードが少
なくなるので、能率的な検索を行うことができる。
本発明によれば、“デンサンキ”から(“デンシケイ
サンキ",“コンピユータ”といつたシソーラス上の拡張
のみでなく、第3図に示すような表現、表記上での拡張
も行うので検索における「もれ」を大幅に少なくすると
いう効果がある。このことにより、従来、人間が経験的
かつ試行錯誤的に行つている情報検索作業を一回で済ま
す事ができる。
サンキ",“コンピユータ”といつたシソーラス上の拡張
のみでなく、第3図に示すような表現、表記上での拡張
も行うので検索における「もれ」を大幅に少なくすると
いう効果がある。このことにより、従来、人間が経験的
かつ試行錯誤的に行つている情報検索作業を一回で済ま
す事ができる。
前記実施例では示していないが、1バイト1文字表記
のEBCDIC,JIS.ASCIIや2バイト1文字表記のJISなどの
コードについて、ある特定のコードへの標準化や、異な
るコードを発生するといつた拡張は容易に実現できる。
例えば文字コード入力部がASCIIコードを出力し、デー
タベースが、EBCDICとJISコードで記述されている場合
でも、本発明によつて検索を成功させることができる。
同様に、アルフアベツトの大文字,小文字の区別、日本
語のカタカナと平仮名の区別に対しても、文字コードの
拡張で対処できる。
のEBCDIC,JIS.ASCIIや2バイト1文字表記のJISなどの
コードについて、ある特定のコードへの標準化や、異な
るコードを発生するといつた拡張は容易に実現できる。
例えば文字コード入力部がASCIIコードを出力し、デー
タベースが、EBCDICとJISコードで記述されている場合
でも、本発明によつて検索を成功させることができる。
同様に、アルフアベツトの大文字,小文字の区別、日本
語のカタカナと平仮名の区別に対しても、文字コードの
拡張で対処できる。
第1図は本発明の情報検索方法及び装置の第1の実施例
の機能ブロツク図、第2図は第2の実施例の機能ブロツ
ク図、第3図は本発明の特徴である表記上での拡張の
例、第4図は本発明の実施例で用いる50音表、第5図
は、本発明の実施例で用いるカナ表現の異表記辞書、第
6図は本発明の実施例で用いるローマ字表現の異表記辞
書。
の機能ブロツク図、第2図は第2の実施例の機能ブロツ
ク図、第3図は本発明の特徴である表記上での拡張の
例、第4図は本発明の実施例で用いる50音表、第5図
は、本発明の実施例で用いるカナ表現の異表記辞書、第
6図は本発明の実施例で用いるローマ字表現の異表記辞
書。
フロントページの続き (72)発明者 中野 康明 国分寺市東恋ヶ窪1丁目280番地 株式 会社日立製作所中央研究所内 (72)発明者 東野 純一 国分寺市東恋ヶ窪1丁目280番地 株式 会社日立製作所中央研究所内 (56)参考文献 特開 昭53−98749(JP,A) 特開 昭56−92679(JP,A)
Claims (5)
- 【請求項1】情報を文字コードにて格納するデータベー
スと、キーワードに対応する文字コードを入力し、前記
入力されたキーワードに対応する文字コードを有する情
報を前記データベースから検索する計算機を備えた情報
検索装置において、 前記入力されたキーワードから同義語辞書を用いて複数
の同義語のキーワードに展開する同義語展開手段と、 単語を構成する部分文字列単位で異表記を発生させる規
則を記憶しておき、前記規則に従って前記同義語展開手
段で展開された各同義語を構成する部分文字列の異表記
を発生させることにより、前記キーワード自体を複数の
異表記に展開させる異表記展開手段と、 前記異表記展開手段で展開された複数の異表記のキーワ
ードおよび入力されたキーワードに対応する文字コード
のいずれかを有する情報を前記データベースから検索す
る検索手段を前記計算機に備えたことを特徴とする情報
検索装置。 - 【請求項2】特許請求の範囲第1項に記載の情報検索装
置において、 前記部分文字列は、1文字および1音節のうち少なくと
も一方であることを特徴とする情報検索装置。 - 【請求項3】特許請求の範囲第1項または第2項のいず
れかに記載の情報検索装置において、 前記異表記発生手段は、まず単語単位で異表記を発生さ
せる辞書を用いて異表記を発生させ、 前記規則を用いて異表記に展開することを特徴とする情
報検査装置。 - 【請求項4】特許請求の範囲第1項に記載の情報検索装
置において、 前記異表記展開手段は、前記入力されたキーワードがカ
タカナおよびローマ字のうち少なくとも一方を含む場合
は、 カタカナはローマ字に、ローマ字はカタカナに変換し、 変換されたキーワードおよび入力されたままのキーワー
ドに対して、アルファベットを大文字および小文字に展
開し、ローマ字を訓令式およびヘボン式に展開し、カタ
カナを同じ音節表記を示すことなる文字列に展開するこ
とにより入力されたキーワードを異表記に展開すること
を特徴とする情報検索装置。 - 【請求項5】キーワードに対応する文字コードを計算機
に入力し、前記キーワードに対応する文字コードを有す
る情報をデータベースから検索する情報検索方法におい
て、 前記入力されたキーワードから同義語辞書を用いて複数
の同義語のキーワードに展開し、 前記展開された各同義語のキーワードを構成する部分文
字列単位で異表記を発生させる規則を、予め記憶してお
き、 前記規則に従って前記入力されたキーワードを構成する
部分文字列の異表記を発生させることにより、前記キー
ワード自体を複数の異表記に展開し、上記展開された複
数の異表記のキーワードおよび上記入力されたキーワー
ドのいずれかに対応する文字コードを有する情報を上記
データベースから検索する第1のモードと、 上記入力されたキーワードから複数の異表記のキーワー
ドに展開した後、上記展開された異表記を一旦ユーザに
提示し、ユーザにて選択されたキーワードに対応する文
字コードを有する情報を上記データベースから検索する
第2のモードとを備え、 上記第1または第2のモードを切り換えて検索すること
を特徴とする情報検索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP60150176A JP2515726B2 (ja) | 1985-07-10 | 1985-07-10 | 情報検索方法及び装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP60150176A JP2515726B2 (ja) | 1985-07-10 | 1985-07-10 | 情報検索方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS6211932A JPS6211932A (ja) | 1987-01-20 |
JP2515726B2 true JP2515726B2 (ja) | 1996-07-10 |
Family
ID=15491160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP60150176A Expired - Lifetime JP2515726B2 (ja) | 1985-07-10 | 1985-07-10 | 情報検索方法及び装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2515726B2 (ja) |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63304996A (ja) * | 1987-06-04 | 1988-12-13 | Toray Ind Inc | 融合タンパク質およびその製造方法 |
US5220625A (en) * | 1989-06-14 | 1993-06-15 | Hitachi, Ltd. | Information search terminal and system |
US5748953A (en) * | 1989-06-14 | 1998-05-05 | Hitachi, Ltd. | Document search method wherein stored documents and search queries comprise segmented text data of spaced, nonconsecutive text elements and words segmented by predetermined symbols |
EP0437615B1 (en) * | 1989-06-14 | 1998-10-21 | Hitachi, Ltd. | Hierarchical presearch-type document retrieval method, apparatus therefor, and magnetic disc device for this apparatus |
US5471610A (en) * | 1989-06-14 | 1995-11-28 | Hitachi, Ltd. | Method for character string collation with filtering function and apparatus |
JP2828692B2 (ja) * | 1989-09-29 | 1998-11-25 | 株式会社リコー | 情報検索装置 |
JPH07117961B2 (ja) * | 1990-01-12 | 1995-12-18 | 株式会社日立製作所 | 文献データ登録方法 |
JP2984033B2 (ja) * | 1990-07-05 | 1999-11-29 | キヤノン株式会社 | 画像検索装置及び画像検索方法 |
US5140644A (en) * | 1990-07-23 | 1992-08-18 | Hitachi, Ltd. | Character string retrieving system and method |
JP3006798B2 (ja) * | 1990-09-10 | 2000-02-07 | 日本電気株式会社 | 辞書作成支援装置 |
JP2932667B2 (ja) * | 1990-10-22 | 1999-08-09 | 松下電器産業株式会社 | 情報の検索方法および情報蓄積装置 |
JP3281639B2 (ja) * | 1992-05-26 | 2002-05-13 | 三洋電機株式会社 | 文書検索システム |
JPH06162079A (ja) * | 1992-11-20 | 1994-06-10 | Matsushita Electric Ind Co Ltd | 対訳検索装置 |
JPH06309362A (ja) * | 1993-04-27 | 1994-11-04 | Fujitsu Ltd | 情報検索方法 |
JP3379985B2 (ja) * | 1993-05-07 | 2003-02-24 | 松下電器産業株式会社 | 翻訳例文検索装置 |
JPH06332934A (ja) * | 1993-05-19 | 1994-12-02 | Matsushita Electric Ind Co Ltd | 電子辞書引き装置 |
JPH0765013A (ja) * | 1993-08-26 | 1995-03-10 | Toshiba Corp | 文書検索装置 |
JP3331692B2 (ja) * | 1993-09-03 | 2002-10-07 | 富士通株式会社 | 異表記語辞書作成支援装置 |
JPH07152785A (ja) * | 1993-11-30 | 1995-06-16 | Sanyo Electric Co Ltd | カタカナ異表記変換装置 |
JP3527540B2 (ja) * | 1994-06-15 | 2004-05-17 | 株式会社アドイン研究所 | 情報検索装置 |
JP3014317B2 (ja) * | 1996-03-26 | 2000-02-28 | 三菱電機株式会社 | ローマ字/かな表記からの地名検索装置 |
JP3195275B2 (ja) * | 1997-06-27 | 2001-08-06 | インターナショナル・ビジネス・マシーンズ・コーポレ−ション | データベース・アクセス・システム |
JP3377942B2 (ja) * | 1998-01-09 | 2003-02-17 | シャープ株式会社 | 電子辞書検索装置および電子辞書検索装置制御用プログラムを記憶したコンピュータ読取可能な記憶媒体 |
JP3601653B2 (ja) * | 1998-03-18 | 2004-12-15 | 富士通株式会社 | 情報検索装置および方法 |
JP3498635B2 (ja) * | 1999-06-08 | 2004-02-16 | 日本電気株式会社 | 情報検索方法及びその装置並びにコンピュータ可読記録媒体 |
JP2001125915A (ja) | 1999-10-28 | 2001-05-11 | Fujitsu Ltd | 情報検索装置 |
JP2002092018A (ja) * | 2000-09-18 | 2002-03-29 | Nec Software Hokkaido Ltd | 片仮名平仮名も含めた検索システム |
JP2001167093A (ja) * | 2000-11-10 | 2001-06-22 | Fuji Xerox Co Ltd | 外国語電子辞書の生成、検索のための方法および装置 |
JP2002351868A (ja) * | 2001-05-30 | 2002-12-06 | Seiko Instruments Inc | 電子辞書 |
JP2003258786A (ja) * | 2002-02-27 | 2003-09-12 | Nippon Telegr & Teleph Corp <Ntt> | 公開鍵証明書検索装置、公開鍵証明書検索方法、コンピュータプログラムおよびコンピュータプログラムを記録した記録媒体 |
JP3677016B2 (ja) * | 2002-10-21 | 2005-07-27 | 富士ゼロックス株式会社 | 外国語電子辞書検索装置 |
WO2005124599A2 (en) * | 2004-06-12 | 2005-12-29 | Getty Images, Inc. | Content search in complex language, such as japanese |
KR101086550B1 (ko) * | 2009-06-24 | 2011-11-23 | 엔에이치엔(주) | 로마자 변환을 이용한 일본어 자동 추천 시스템 및 방법 |
JP5230664B2 (ja) * | 2010-01-06 | 2013-07-10 | ヤフー株式会社 | 類似語検索サーバ及び方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5398749A (en) * | 1977-02-08 | 1978-08-29 | Nec Corp | Information retrieval system |
JPS5692679A (en) * | 1979-12-26 | 1981-07-27 | Fujitsu Ltd | Word retrieval system by reading and writing |
-
1985
- 1985-07-10 JP JP60150176A patent/JP2515726B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPS6211932A (ja) | 1987-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2515726B2 (ja) | 情報検索方法及び装置 | |
KR100259407B1 (ko) | 중국어 텍스트 입력키보드, 중국어 텍스트 처리 컴퓨터 시스템, 중국어 텍스트 입력장치, 음성 중국어의 음절 및 단어 저장방법 | |
JPH03185561A (ja) | 欧文単語入力方法 | |
JP2000298667A (ja) | 構文情報による漢字変換装置 | |
JPH11238051A (ja) | 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体 | |
JP2004206659A (ja) | 読み情報決定方法及び装置及びプログラム | |
JPS5957324A (ja) | デ−タ変換処理方式 | |
JPH08272780A (ja) | 中国語入力処理装置及び中国語入力処理方法及び言語処理装置及び言語処理方法 | |
KR100268297B1 (ko) | 중국어 텍스트 처리 컴퓨터 시스템, 형태 처리에 의한 단어 스트링 처리 방법, 중국어 어구 분석 방법 | |
JP4262529B2 (ja) | 全文検索装置、方法、プログラム及び記録媒体 | |
Modi | POS Tagging and Structural Annotation of Handwritten Text Image Corpus of Devnagari Script | |
JPH11203281A (ja) | 電子辞書検索装置及び電子辞書検索装置制御プログラムを記憶した媒体 | |
JPH0350668A (ja) | 文字処理装置 | |
JPH0612453A (ja) | 未知語抽出登録装置 | |
JPH0475162A (ja) | 仮名漢字変換装置 | |
Kawada | Inputting Japanese from the keyboard | |
JPS5998236A (ja) | 日本文入力装置 | |
JP2819766B2 (ja) | 外国語電子辞書検索方式 | |
Sarkar | Regular Expression Matching for Multi-script Databases. | |
Morris | A review of recent developments in term conflation approaches for Arabic text information retrieval | |
Messaoudi | Developing the transliteration interface for Arabic text | |
JPH08241315A (ja) | 文書処理装置の単語登録機構 | |
JPH0232460A (ja) | 文書処理装置 | |
Itai | A Linguistic Search Tool for Semitic Languages | |
JPH03225462A (ja) | ローマ字漢字変換装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
EXPY | Cancellation because of completion of term |