JPH1115846A - 情報検索装置および記録媒体 - Google Patents

情報検索装置および記録媒体

Info

Publication number
JPH1115846A
JPH1115846A JP9170041A JP17004197A JPH1115846A JP H1115846 A JPH1115846 A JP H1115846A JP 9170041 A JP9170041 A JP 9170041A JP 17004197 A JP17004197 A JP 17004197A JP H1115846 A JPH1115846 A JP H1115846A
Authority
JP
Japan
Prior art keywords
word
search
retrieval
speech
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9170041A
Other languages
English (en)
Inventor
Hisao Miyauchi
久男 宮内
Shinji Ueno
真志 上野
Tomomitsu Sato
智満 佐藤
Jun Okamoto
潤 岡本
Hidenori Kondo
秀紀 近藤
Naohito Watanabe
尚人 渡辺
裕昭 ▲葛▼西
Hiroaki Kasai
Jun Nishida
純 西多
Toranoshin Nomura
虎之進 野村
Kazuhisa Tsujino
和久 辻野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
INIYUU SYST KK
IWANAMI SHIYOTEN KK
IWANAMI SHOTEN KK
Dai Nippon Printing Co Ltd
Original Assignee
INIYUU SYST KK
IWANAMI SHIYOTEN KK
IWANAMI SHOTEN KK
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by INIYUU SYST KK, IWANAMI SHIYOTEN KK, IWANAMI SHOTEN KK, Dai Nippon Printing Co Ltd filed Critical INIYUU SYST KK
Priority to JP9170041A priority Critical patent/JPH1115846A/ja
Publication of JPH1115846A publication Critical patent/JPH1115846A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 結果が絞り込まれた検索を行うことができる
情報検索装置および記録媒体を提供すること。 【構成】 検索語を入力すると(ステップ301)、シ
ソーラス辞書7を用いて検索語の同義語に展開し(ステ
ップ302)、単語情報11の表記法データ27を用い
て同義語を異表記展開し(ステップ303)、テキスト
データ13を検索する(ステップ304)。単語情報1
1の構文解析キーデータ29の品詞29−1等を用いて
検索結果を絞り込み(ステップ305)、検索結果を出
力する(ステップ306)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、キーワード検索に
関わる情報検索装置および記録媒体に関するものであ
る。
【0002】
【従来の技術】従来の情報検索は、一般にキーワード検
索で行われ、限定語彙辞典(シソーラス)の中から類似
語の拡張を含めて、要求に基づいてキーワードを選択し
てデータベースを構築していた。しかし、近年電子ファ
イル化された文書が多くなり、また、専門家に依頼する
ことなく一般の人が自由に検索したいと言う要望が高ま
ってきた。
【0003】一般の文書の場合、シソーラスに載ってい
る表現のみでなく、より自由度の高い表記法で書かれる
ことが多く、その表記法も流動的で、一つの単語であっ
ても英文字、ローマ字、カタカナ、漢字交じりの日本語
と、多彩な書き方で表現されている。このように色々な
形で書き表されると、一般の人がシソーラスのみでマッ
チングを行なった場合、それが検索結果から漏れること
が多くなってきた。
【0004】そこで、一つの単語に対して、かな表現、
ローマ字表現、外国語表現、漢字表現と表記法を拡張
し、更に前記の各々の表現のなかで、いろいろな規則に
基づき、音節単位で別表記を作り出すことで、一つの概
念を示す多数の文字コード群を発生させて、漏れなく情
報を抽出する情報検索方法(特開昭62−1193)が
ある。
【0005】
【発明が解決しょうとする課題】しかし、情報検索方法
(特開昭62−1193)では、検索結果として出力さ
れる文等の情報が相当の量になり、それを一つ一つ確認
する作業にかなりの労力を費やさねばならない。本発明
はこのような問題に鑑みてなされたもので、その目的と
するところは、結果が絞り込まれた検索を行うことがで
きる情報検索装置および記録媒体を提供することにあ
る。
【0006】
【課題を解決するための手段】検索語が入力されると、
検索語の同義語を展開する第1の展開手段と、前記同義
語の異表記を展開する第2の展開手段と、異表記展開さ
れた語を用いて被検索対象を検索する検索手段と、前記
検索手段によって検索された検索結果に対して、前記検
索語の品詞に基づいて絞り込みを行う絞り込み手段と、
を具備することを特徴とする情報検索装置である。
【0007】
【発明の実施の形態】以下、図面に基づいて本発明の実
施の形態を詳細に説明する。図1は本発明の実施の形態
に係る情報検索装置1のハードウエアの構成図である。
情報検索装置1は、コンピュータ3、データベース5、
データベース9からなる。テキストデータ13は検索の
対象であり、例えば新聞記事等が電子化されたものであ
る。データベース5にはシソーラス辞書7、データベー
ス9には単語情報11が格納される。
【0008】図2は単語情報11のデータ構造を示す図
である。単語情報11は、シソーラス辞書7のキーワー
ド毎に作成され、見出し語21、語幹23、読み25、
表記法キーデータ27、構文解析キーデータ29等を有
する。
【0009】見出し語21は、例えば「食べる」等であ
る。語幹23は、見出し語21の語幹、読み25は見出
し語21の読み方を示す。表記法キーデータ27は、か
な27−1、カナ27−2の項目からなる。例えば、見
出し語21の語が、ひらがなによる表記が可能な場合に
は、かな27−1に「1」が、不可能な場合には「0」
が示され、同様にカタカナによる表記が可能な場合に
は、カナ27−2に「1」が、不可能な場合には「0」
が示される。
【0010】構文解析キーデータ29は、品詞29−
1、活用語か否か29−2、活用タイプ29−3の項目
からなり、品詞29−1には見出し語21の品詞が示さ
れ、活用語か否か29−2には見出し語21が活用語な
ら「1」が、そうでない場合は「0」が示され、活用タ
イプ29−3には見出し語21が「1」の場合にその活
用タイプが示される。
【0011】図3は本実施の形態の動作を示すフローチ
ャートである。図4は入力される検索語「食べる」を示
す図である。「食べる」は動詞で、これを例にして説明
する。始めに、検索語「食べる」を入力すると(ステッ
プ301)、シソーラス辞書7を用いて検索語の同義語
を展開する(ステップ302)。図5はシソーラス辞書
7で展開される同義語を示す図である。図5に示すよう
に、検索語「食べる」に対して展開される同義語は、
「食べる」、「喰う」、「食す」、「きこしめす」と複
数になる。
【0012】その各々の同義語に対して、単語情報11
の表記法キーデータ27を用いて異表記展開を行う(ス
テップ303)。図6は異表記展開された検索語を示す
図である。図5に示す同義語を単語情報11によって異
表記に展開すると図6となる。 例えば「食べる」の単
語情報11の表記法キーデータ27は、図2に示される
ように、ひらがなの表記法はあるが、カタカナの展開は
なく、語幹23が「食べ」で、これから「たべ*」が異
表記展開される。「*」は自由であることを示す。 同
様に、単語情報11を用いて「喰う」から「く*」を、
「食す」から「しょく*」を異表記展開によって得る。
「きこしめす」の異表記展開はない。
【0013】このようにして、図6に示す異表記展開さ
れた語を用いて、テキストデータ13を検索する(ステ
ップ304)。テキストデータ11は、前述したように
例えば過去10年間の新聞記事である。図7は、図6に
示す語を用いて検索した検索の途中結果を示す図であ
る。テキストデータ11から図6に示す語を含む文章が
検索される。
【0014】最後に、図7に示す検索結果から単語情報
11の構文解析キーデータ29の品詞29−1等を用い
て構文解析を行い、検索結果の絞り込みを行う(ステッ
プ305)。例えば、図2に示すように見出し語21
「食べる」の構文解析データ29の品詞29−1で「動
詞」である。そして、コンピュータ3は、単語情報11
を用いて図7の(1)〜(7)の文章中の品詞を識別す
る。
【0015】例えば、図7(1)の「を食べていた」の
場合、「食べ」の前に格助詞「を」が存在し、「食べ」
の後に接続助詞「て」が存在し、更に「食べる」の活用
として連用形に「食べ」があるので、コンピュータ3は
「食べ」は動詞として使用されていると判断する。ま
た、図7(4)の「漆喰を」の場合、「喰」の前に名詞
「漆」が存在し、「喰」の後に格助詞「を」が存在する
ので、「喰」が「喰う」の未然形か連用形であっても、
「喰」は動詞以外で使用されていると判断する。
【0016】図8は、図7に対し、構文解析キーデータ
29を用いて絞り込みを行った検索結果を示す図であ
る。このように絞り込み作業を行うと、図7で検索され
た7つの文は、図8に示されるように5つに絞り込まれ
る。最後に、図8の検索結果を出力する(ステップ30
6)。
【0017】このように本実施の形態では、検索語の品
詞を用いて絞り込みを行うので、検索結果として、必要
な情報のみを得ることができる。尚、単語情報11に男
ことば、女ことばの違い、特定の業界だけで用いられる
語であること、その言葉の使用範囲(分野、時代、階
層)等を入れることもできる。
【0018】
【発明の効果】以上詳細に説明したように、本発明によ
れば、結果が絞り込まれた検索を行うことができる情報
検索装置および記録媒体を提供することができる。
【図面の簡単な説明】
【図1】本実施の形態に係る情報検索装置1のハードウ
エアの構成図
【図2】単語情報11を示す図
【図3】情報検索装置1の処理を示すフローチャート
【図4】検索語を示す図
【図5】シソーラスで展開される同義語を示す図
【図6】異表記展開された検索語を示す図
【図7】検索の途中結果を示す図
【図8】検索結果を示す図
【符号の説明】
1………情報検索装置 3………コンピュータ 5………データベース 7………シソーラス辞書 9………データベース 11………単語情報 13………テキストデータ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 上野 真志 東京都千代田区一ツ橋2丁目5番5号 株 式会社岩波書店内 (72)発明者 佐藤 智満 東京都千代田区一ツ橋2丁目5番5号 株 式会社岩波書店内 (72)発明者 岡本 潤 東京都千代田区一ツ橋2丁目5番5号 株 式会社岩波書店内 (72)発明者 近藤 秀紀 東京都新宿区山吹町130 株式会社イニュ −システム内 (72)発明者 渡辺 尚人 東京都新宿区山吹町130 株式会社イニュ −システム内 (72)発明者 ▲葛▼西 裕昭 東京都新宿区市谷加賀町1丁目1番1号 大日本印刷株式会社内 (72)発明者 西多 純 東京都新宿区市谷加賀町1丁目1番1号 大日本印刷株式会社内 (72)発明者 野村 虎之進 東京都新宿区市谷加賀町1丁目1番1号 大日本印刷株式会社内 (72)発明者 辻野 和久 東京都新宿区市谷加賀町1丁目1番1号 大日本印刷株式会社内

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 検索語が入力されると、検索語の同義語
    を展開する第1の展開手段と、 前記同義語の異表記を展開する第2の展開手段と、 異表記展開された語を用いて被検索対象を検索する検索
    手段と、前記検索手段によって検索された検索結果に対
    して、前記検索語の品詞に基づいて絞り込みを行う絞り
    込み手段と、を具備することを特徴とする情報検索装
    置。
  2. 【請求項2】 コンピュータを検索語が入力されると、
    検索語の同義語を展開する第1の展開手段と、 前記同義語の異表記を展開する第2の展開手段と、 異表記展開された語を用いて被検索対象を検索する検索
    手段と、前記検索手段によって検索された検索結果に対
    して、前記検索語の品詞に基づいて絞り込みを行う絞り
    込み手段として、機能させるためのプログラムを記録す
    ることを特徴とする記録媒体。
  3. 【請求項3】 見出し語と、この見出し語の品詞に基づ
    く構文解析キーデータと、を記録した記録媒体。
JP9170041A 1997-06-26 1997-06-26 情報検索装置および記録媒体 Pending JPH1115846A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9170041A JPH1115846A (ja) 1997-06-26 1997-06-26 情報検索装置および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9170041A JPH1115846A (ja) 1997-06-26 1997-06-26 情報検索装置および記録媒体

Publications (1)

Publication Number Publication Date
JPH1115846A true JPH1115846A (ja) 1999-01-22

Family

ID=15897523

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9170041A Pending JPH1115846A (ja) 1997-06-26 1997-06-26 情報検索装置および記録媒体

Country Status (1)

Country Link
JP (1) JPH1115846A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001010159A (ja) * 1999-06-25 2001-01-16 Teraoka Seiko Co Ltd ラベルプリンタ
US7339104B2 (en) 2001-04-17 2008-03-04 Kabushiki Kaisha Kenwood System for transferring information on attribute of, for example, CD
JP2010009215A (ja) * 2008-06-25 2010-01-14 Yahoo Japan Corp テキスト抽出装置、そのシステム、その方法、および、そのプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001010159A (ja) * 1999-06-25 2001-01-16 Teraoka Seiko Co Ltd ラベルプリンタ
US7339104B2 (en) 2001-04-17 2008-03-04 Kabushiki Kaisha Kenwood System for transferring information on attribute of, for example, CD
JP2010009215A (ja) * 2008-06-25 2010-01-14 Yahoo Japan Corp テキスト抽出装置、そのシステム、その方法、および、そのプログラム

Similar Documents

Publication Publication Date Title
KR101004515B1 (ko) 문장 데이터베이스로부터 문장들을 사용자에게 제공하는 컴퓨터 구현 방법 및 이 방법을 수행하기 위한 컴퓨터 실행가능 명령어가 저장되어 있는 유형의 컴퓨터 판독가능 기록 매체, 문장 데이터베이스로부터 확인 문장들을 검색하는 시스템이 저장되어 있는 컴퓨터 판독가능 기록 매체
US20070011132A1 (en) Named entity translation
JPS61163467A (ja) 機械翻訳システム
Vilares et al. Managing misspelled queries in IR applications
Kumar et al. A Comparative Analysis of Pre-Processing Time in Summary of Hindi Language using Stanza and Spacy
Canals et al. InterNOSTRUM: a Spanish-Catalan machine translation system
Yeshambel et al. Evaluation of corpora, resources and tools for Amharic information retrieval
JPH11120206A (ja) タグ付けされていないテキストの外観特徴を使用したテキストジャンルの自動決定方法及び装置
Rinaldi et al. Question Answering in Terminology-Rich Technical Domains.
JPH1115846A (ja) 情報検索装置および記録媒体
KR950013129B1 (ko) 기계번역장치 및 방법
Gavhal et al. Sentence Compression Using Natural Language Processing
Silvester Computer supported indexing: A history and evaluation of NASA's MAI system
Semmar et al. Using a stemmer in a natural language processing system to treat Arabic for cross-language information retrieval
Sedlácek et al. Automatic Processing of Czech Inflectional and Derivative Morphology
Riaz Improving Search via Named Entity Recognition in Morphologically Rich Languages–A Case Study in Urdu
Özenç Morphological analyser for Turkish
JP2007213157A (ja) 用例文検索装置および用例文検索方法
Szpektor et al. Cross lingual and semantic retrieval for cultural heritage appreciation
Sindhu et al. SRL based plagiarism detection system for Malayalam documents
Kanitha et al. Issues in Malayalam Text Summarization
Shahzad DOMAIN-SPECIFIC CROSS-LINGUAL URDU TO ENGLISH (CLUE) PLAGIARISM DETECTION
Tapaswi An efficient part-of-speech tagger rule-based approach of Sanskrit language analysis
JPH0973454A (ja) 文書作成装置及び文書作成方法
JP2819766B2 (ja) 外国語電子辞書検索方式