JP2012203728A - 情報検索装置およびプログラム - Google Patents

情報検索装置およびプログラム Download PDF

Info

Publication number
JP2012203728A
JP2012203728A JP2011068850A JP2011068850A JP2012203728A JP 2012203728 A JP2012203728 A JP 2012203728A JP 2011068850 A JP2011068850 A JP 2011068850A JP 2011068850 A JP2011068850 A JP 2011068850A JP 2012203728 A JP2012203728 A JP 2012203728A
Authority
JP
Japan
Prior art keywords
search
data
character string
headwords
headword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011068850A
Other languages
English (en)
Inventor
Toshihisa Nakamura
利久 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2011068850A priority Critical patent/JP2012203728A/ja
Publication of JP2012203728A publication Critical patent/JP2012203728A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】情報検索装置において、入力された検索文字列を見出し語あるいはその解説情報に含む当該見出し語の一覧を、検索文字列の解説として重要度の高い順番で出力する。
【解決手段】例えば[古語辞典]が指定されてキーワード「いと」「けれ」が入力されると、各見出し語とその説明情報からなる辞書データの全文から、入力された2つのキーワードを共に含むところの見出し語が検索され、検索された各見出し語とその解説情報のそれぞれにおいて前記2つのキーワードが出現する先頭からの位置(文字数)およびその相対距離(文字数)が取得される。そして、前記2つのキーワードの先頭からの出現位置が近い方またはその相対距離が近い方の何れが重要であるかに応じて重み付け評価点が算出され、算出された評価点に基づき重要度の高い順に前記検索された各見出し語が見出し語一覧エリアに表示される。
【選択図】 図9

Description

本発明は、辞書データ等のテキストデータを検索するための情報検索装置およびその制御プログラムに関する。
電子辞書と称される情報検索装置において、入力された検索文字列(検索語)に対して国語辞典等の見出し語とこの見出し語を解説する本文(解説情報)を全文検索する検索機能が提案されている。
従来の全文検索機能では、検索文字列が検索対象である辞書の見出し語および解説本文中に含まれているかを判断し、含まれていると判断されたところの見出し語を、辞書に収録された順番のままリストアップして表示している。このため、リストアップされた検索文字列を含む見出し語の一覧は、ユーザが参照したい順番、つまり検索文字列の解説として相応しい順番とは必ずしも一致していない欠点があった。
また、国語辞典のような辞書データベースにおいては、例文等に含まれる見出し語が引用符を示す記号「〜」などで置き換えられているため、全文検索の際には、当該引用符部分が検索文字列の検索対象とならない欠点があった。
全文検索機能を備えた文書検索装置であって、文書画像を文字認識し、その結果の第1候補文字で構成する第1検索インデックス(N gram)と、第2以降の候補文字で構成する第2検索インデックス(N gram)とを予め作成する。そして、入力されたキーワードと前記第1,第2検索インデックスとの照合度合いのスコアを算出し、この算出された検索スコアをもとに正確な検索結果を得るようにしたNグラム方式の文書検索装置が考えられている(例えば、特許文献1参照。)。
特開2009−020567号公報
本発明の目的は、ユーザ入力された検索文字列を見出し語あるいはその解説情報に含む当該見出し語の一覧を、検索文字列の解説として重要度の高い順番で出力することが可能になる情報検索装置およびその制御プログラムを提供することにある。
本発明に係る情報検索装置は、見出し語と同見出し語の解説情報とを対応付けたテキストデータを複数記憶するデータ記憶手段と、ユーザ操作に応じて少なくとも1つの検索文字列を入力する文字入力手段と、この文字入力手段により入力された検索文字列が含まれている見出し語および解説情報のテキストデータを前記データ記憶手段により記憶された全テキストデータの中から検索するデータ検索手段と、このデータ検索手段により検索された前記検索文字列を含む見出し語および解説情報のテキストデータの中で、当該検索文字列が含まれる位置を取得する検索位置取得手段と、この検索位置取得手段により取得された前記検索文字列が含まれる位置の値に基づいた重み付け評価点を算出する重み付け評価手段と、この重み付け評価手段により算出された重み付け評価点に従った順番で、前記データ検索手段により検索された複数のテキストデータに対応する見出し語を一覧にして表示させる見出し語一覧表示手段と、を備えたことを特徴としている。
本発明によれば、ユーザ入力された検索文字列を見出し語あるいはその解説情報に含む当該見出し語の一覧を、検索文字列の解説として重要度の高い順番で出力することが可能になる情報検索装置およびその制御プログラムを提供できる。
本発明の情報検索装置の実施形態に係る電子辞書装置10の外観構成を示す正面図。 前記電子辞書装置10の電子回路の構成を示すブロック図。 前記電子辞書装置10の辞書データベース22bに記憶された[古語辞典]22b4の一部の見出し語とその解説情報の具体例を示す図。 前記電子辞書装置10の全文検索インデックスメモリ26bに記憶されるBigramインデックスを生成するための検索インデックス生成処理を示すフローチャート。 前記電子辞書装置10のBigramインデックスを生成するための検索インデックス生成処理に従い[古語辞典]22b4の辞書データから生成された検索用データ22b4′の具体例を示す図。 前記検索インデックス生成処理に従い[古語辞典]22b4の検索用データ22b4′から生成されたBigramインデックス26b4の具体例を示す図。 前記電子辞書装置10の全文検索処理を示すフローチャート。 前記電子辞書装置10の全文検索処理に伴う重み付け評価点算出処理を示すフローチャート。 前記電子辞書装置10の[古語辞典]22b4を検索対象にした全文検索処理に伴い生成される全文検索データを示す図。 前記電子辞書装置10の[古語辞典]22b4を検索対象にした全文検索処理に伴う表示動作を示す図。
以下図面により本発明の実施の形態について説明する。
図1は、本発明の情報検索装置の実施形態に係る電子辞書装置10の外観構成を示す正面図である。
この電子辞書装置10は、以下に説明する電子辞書専用の携帯機器として構成されるか、辞書機能を備えたPDA(personal digital assistants)、PC(personal computer)、携帯電話、電子ブック、携帯ゲーム機等として構成される。
この電子辞書装置10は、その本体ケース11と蓋体ケース12とがヒンジ部13を介して展開/閉塞可能な折り畳み型ケースを備えて構成される。この折り畳み型ケースを展開した本体ケース11の表面には、文字入力キー14a、辞書指定キー14b、[訳/決定]キー14c、[戻る/リスト]キー14d、カーソルキー14e、スピーカ15などを備えたキー入力部(キーボード)14、およびタッチパネル式サブ表示部16が備えられる。
このタッチパネル式サブ表示部16は、ユーザがペンや指等でタッチした位置を検出するタッチ位置検出装置と表示装置が一体となった構造であり、キー入力部14の中央手前側において例えば256×64ドットのカラー液晶表示画面16dに透明タッチパネル16tを重ねて構成される。このタッチパネル式サブ表示部16の領域は、必要に応じて、手書き文字を入力するための手書き文字(漢字)入力領域や各種機能のアイコン入力領域、あるいは当該各領域が混在する領域に切り替えられる。
そして、前記サブ表示部16が手書き文字入力領域に切り替えられた状態での手書き入力に伴う軌跡はそのカラー液晶表示画面16dにエコーバックして表示される。
また蓋体ケース12の表面には、そのほぼ全面を対象に例えば480×320ドットのバックライト付きのタッチパネル式メイン表示部17が設けられる。このタッチパネル式メイン表示部17も、前記サブ表示部16と同様に、ユーザがペンや指等でタッチした位置を検出するタッチ位置検出装置と表示装置が一体となった構造であり、カラー液晶表示画面17dに透明タッチパネル17tを重ねて構成される。
そして、前記タッチパネル式メイン表示部17の右端には、前記キー入力部14における一部のキーの押下操作をタッチ操作により行うための、キー表記(例えば[訳/決定]キーKEや[戻る/リスト]キーKR)が固定印刷されたタッチキーエリア17Aが設けられる。
同図1におけるメイン表示部17は、[古語辞典]を検索対象辞書に指定して検索処理した場合の検索結果表示画面Gsの具体例を示している。
この検索結果表示画面Gsは、ユーザ入力された検索文字列に基づき検索された見出し語を一覧にした見出し語一覧エリアMLと、この見出し語一覧エリアMLにおいて反転カーソルCuにより選択された見出し語の解説情報を確認する画面にしたプレビューエリアVPとから構成される。
この検索結果表示画面Gsにおいて、[訳/決定]キー14c(KE)が操作されると、プレビューエリアVPに表示されている解説情報が、メイン表示部17の全領域を使用した解説情報表示画面(図示せず)に展開されて表示される。
図2は、前記電子辞書装置10の電子回路の構成を示すブロック図である。
この電子辞書装置10は、各種の記録媒体に記録されたプログラム、又は、伝送されたプログラムを読み込んで、その読み込んだプログラムによって動作が制御されるコンピュータによって構成され、その電子回路には、CPU(central processing unit)21が備えられる。
CPU21は、記憶装置(フラッシュROM)22内に予め記憶された装置制御プログラム、あるいはROMカードなどの外部記録媒体23から記録媒体読み取り部24を介して前記記憶装置22に読み込まれた装置制御プログラム、あるいはインターネットN上のWebサーバ(この場合はプログラムサーバ)30から通信部25を介して前記記憶装置22に読み込まれた装置制御プログラムに応じて、回路各部の動作を制御する。
前記記憶装置22に記憶された装置制御プログラムは、キー入力部14、タッチパネル式サブ表示部16、タッチパネル式メイン表示部17からのユーザ操作に応じた入力信号、あるいは通信部25を介して接続されるインターネットN上の各Webサーバ30…との通信信号、あるいは記録媒体読み取り部24を介して外部接続されるEEPROM,RAM,ROMなどのメモリ・カード(記録媒体)23との接続通信信号に応じて起動される。
このように前記CPU21には、記憶装置22、記録媒体読み取り部24、通信部25、キー入力部14、タッチパネル式サブ表示部16(16d,16t)、タッチパネル式メイン表示部17(17d,17t)などが接続される。
前記記憶装置22に記憶される装置制御プログラムとしては、当該電子辞書装置10の全体の動作を司るシステムプログラムや、通信部25を介してインターネットN上の各Webサーバ30…や図示しないユーザPC(Personal Computer)などとデータ通信するための通信プログラムが記憶される。
また、入力された検索文字列に応じて辞書データの見出し語を対象に検索する見出し語検索処理、入力された検索文字列に応じて辞書データの見出し語およびその解説情報からなる全文を対象に検索する全文検索処理、検索された見出し語に対応する解説情報の読み出し表示処理など、記憶装置22内に記憶された辞書データベース22bに基づく処理全般を制御するための各種情報検索表示制御プログラム22aが記憶される。
前記辞書データベース22bとしては、[国語辞典]22b1、[英和辞典]22b2、[和英辞典]22b3、[古語辞典]22b4などの各種の辞書データが予めあるいはダウンロードされて記憶され、各種の辞書データには、各見出し語と当該各見出し語の解説情報とが対応付けられて記述される。
図3は、前記電子辞書装置10の辞書データベース22bに記憶された[古語辞典]22b4の一部の見出し語とその解説情報の具体例を示す図である。
この[古語辞典]22b4に収録される見出し語には、当該見出し語を構成する文字列の文字間にその単語間を区切る区切り記号「−」cや活用語を区切る区切り記号「・」dが含まれる。また解説情報には、当該解説情報を構成する文章中に、該当する見出し語をそのまま引用したり活用語を除いて引用したりするための引用符「−」aや「・」bが含まれる。
なお、このような見出し語の区切り記号「−」c,「・」dや解説情報の引用符「−」a,「・」bは、[古語辞典]22b4に限らず、[国語辞典]22b1等の他の辞書にも使用されている。
RAM26には、表示データメモリ26a、全文検索インデックスメモリ26b、全文検索データメモリ26cが確保される。
表示データメモリ26aには、前記メイン表示部17に表示させるメイン表示データ、前記サブ表示部16に表示させるサブ表示データが、そのそれぞれのメモリ領域においてビットマップパターンに展開されて記憶される。
全文検索インデックスメモリ26bには、前記辞書データベース22bに記憶された各辞書それぞれに対応した全文検索用の検索インデックスが記憶される。この全文検索用の検索インデックスは、該当する辞書データに含まれる見出し語の区切り記号「−」c,「・」dを削除すると共に、解説情報の引用符「−」a,「・」bを見出し語に置き換えて生成した検索用データに基づき生成される。
本実施形態における全文検索用の検索インデックスは、後述するBigramインデックスとして予め生成され前記全文検索インデックスメモリ26bに記憶される。
図4は、前記電子辞書装置10の全文検索インデックスメモリ26bに記憶されるBigramインデックスを生成するための検索インデックス生成処理を示すフローチャートである。
図5は、前記電子辞書装置10のBigramインデックスを生成するための検索インデックス生成処理に従い[古語辞典]22b4の辞書データから生成された検索用データ22b4′の具体例を示す図である。
図6は、前記検索インデックス生成処理に従い[古語辞典]22b4の検索用データ22b4′から生成されたBigramインデックス26b4の具体例を示す図である。
前記図4における検索インデックス生成処理によれば、先ず図3で示したように[古語辞典]22b4に収録された辞書データから、その各見出し語に含まれる区切り記号「−」cおよび「・」dが削除されると共に、解説情報に含まれる引用符「−」aおよび「・」bが該当する見出し語に置き換えられ、図5に示すように検索用データ22b4′が生成される(ステップS1)。
具体的には、[古語辞典]22b4(図3参照)の見出し語『ふみ−ことば[文言葉]』に含まれる区切り記号「−」cが削除されると共に、解説情報『手紙に用いる言葉。枕草子(262)「−なめき人こそいとにくけれ」』に含まれる引用符「−」aが該当する見出し語「ふみことば」a′に置き換えられ、図5で示したように、見出し語番号01に対応した見出し語『ふみことば[文言葉]』とその解説情報『手紙に用いる言葉。枕草子(262)「ふみことばなめき人こそいとにくけれ」』からなる検索用データ22b4′が生成される。
また例えば、[古語辞典]22b4(図3参照)の見出し語『くち−がる・い[口軽い]』に含まれる区切り記号「−」cおよび「・」dが削除されると共に、解説情報『形…「かうまでも漏らし聞ゆるも、かつはいと−・けれど」…』に含まれる引用符「−」aおよび「・」bが該当する見出し語「くちがる・い」の活用語を除いた「くちがる」ab′に置き換えられ、図5で示したように、見出し語番号06に対応した見出し語『くちがるい[口軽い]』とその解説情報『形…「かうまでも漏らし聞ゆるも、かつはいとくちがるけれど」…』からなる検索用データ22b4′が生成される。
こうして、前記図5で示したように[古語辞典]22b4の検索用データ22b4′が生成されると、当該検索用データ22b4′から、図6に示すようなBigramインデックス26b4が生成され(ステップS2)、電子辞書装置10の全文検索インデックスメモリ26bに対して、[古語辞典]22b4のBigramインデックス26b4として予め記憶される。
具体的には、このBigramインデックス26b4は、前記検索用データ22b4′の各見出し語とその解説情報の全テキストを対象に、先頭から1文字毎に2文字ずつのインデックスが抽出され50音順にソートされると共に、当該各2文字インデックスに、同2文字インデックスが抽出されたところの見出し語番号と見出し語先頭からの出現位置(文字数)が対応付けられて生成される。
前記図6で示すBigramインデックス26b4では、前記図5で示す検索用データ22b4′から抽出された2文字インデックス「あく」A,「あし」B,「あり」C,「ある」D,「いと」E,「けれ」Fの具体例を示し、例えば2文字インデックス「あく」Aは、見出し語「ひらける[開ける]」の解説情報から抽出され、見出し語番号は[07]、出現位置(文字数)は[35]になる。
なお、前記全文検索用のBigramインデックスは、前記辞書データベース22bに記憶される各辞書データ22b1,22b2,…毎に生成され、前記全文検索インデックスメモリ26bに記憶される。
全文検索データメモリ26cには、前記情報検索表示制御プログラム22aの全文検索処理に伴い、ユーザ指定の辞書データに対応するBigramインデックス(26b)から検索された見出し語の表示順序を決定するための処理データ(図9参照)が記憶される。
このように構成された電子辞書装置10は、CPU21が前記情報検索表示制御プログラム22a(前記見出し語検索処理、全文検索処理、検索データ読み出し表示処理等を実行するためのプログラムを含む)に記述された命令に従い回路各部の動作を制御し、ソフトウエアとハードウエアとが協働して動作することにより、以下の動作説明で述べる機能を実現する。
次に、前記構成による電子辞書装置10の動作について説明する。
図7は、前記電子辞書装置10の全文検索処理を示すフローチャートである。
図8は、前記電子辞書装置10の全文検索処理に伴う重み付け評価点算出処理を示すフローチャートである。
図9は、前記電子辞書装置10の[古語辞典]22b4を検索対象にした全文検索処理に伴い生成される全文検索データを示す図である。
図10は、前記電子辞書装置10の[古語辞典]22b4を検索対象にした全文検索処理に伴う表示動作を示す図である。
辞書指定キー14bのユーザ操作に応じて[古語辞典]22b4が指定され、検索モードが全文検索モードに設定されると、図7における全文検索処理が開始され、図10(A)に示すように、検索キーワード入力画面Gがメイン表示部17に表示される。
この検索キーワード入力画面Gにおいて、文字入力キー14aのユーザ操作に応じて全文検索のキーワード(検索文字列)が、例えば「いと」と「けれ」として入力されると(ステップA1)、入力されたキーワード「いと」「けれ」の全てを見出し語およびその解説情報の中に含んでいるところの見出し語の項目が、全文検索インデックスメモリ26bに記憶されている[古語辞典]22b4のBigramインデックス26b4(図6参照)に基づき検索される(ステップA2)。
ここで、Bigramインデックス26b4の2文字インデックス「いと」に対応付けられた見出し語番号と「けれ」に対応付けられた見出し語番号との両方に存在する見出し語番号[01][02][03][04][05][06][07]が検索されることで、キーワードに該当する辞書情報があると判断されると(ステップA3(Yes))、当該検索された各見出し語の項目毎に前記キーワード(検索文字列)「いと」と「けれ」が検出された各出現位置がBigramインデックス26b4から読み出され、RAM26内の作業エリアに一時格納される(ステップA4)。
つまり、キーワード「いと」については、検索された見出し語番号[01]…[07]に対応付けられた出現位置[43]…[105]がRAM26に格納され、キーワード「けれ」についても、検索された見出し語番号[01]…[07]に対応付けられた出現位置[47]…[109]がRAM26に格納される。
そして、キーワード「いと」「けれ」の検出された見出し語の項目が複数あると判断された場合には(ステップA5(Yes))、図8における重み付け評価点算出処理に移行され、当該複数の見出し語を順位付けするための重み付け評価点が算出される(ステップAB)。
この重み付け評価点算出処理に移行されると、先ず、前記キーワード「いと」と「けれ」が検出された最初の見出し語の項目における前記RAM26に格納された「いと」と「けれ」の出現位置間の相対距離が算出され、全文検索データメモリ26cに記憶される(ステップB1)。
また、先頭から「いと」と「けれ」の出現位置までの距離が算出され、全文検索データメモリ26cに記憶される(ステップB2)。
そして、前記全文検索データメモリ26cに記憶された前記キーワード「いと」「けれ」の相対距離と出現位置の各値に対して、予め設定された重み係数1と重み係数2が与えられ、重み付けの計算処理が実行される(ステップB3)。
この処理を検出された全ての見出し語項目について処理すると(ステップB1〜B4)、図9に示すように、当該各見出し語の項目「ふみことば[文言葉]」「かよい[通い]」「はかぜ[羽風]」「つくりびと[使い人]」「みやづかえびと[宮仕え人]」「くちがるい[口軽い]」「ひらける[開ける]」毎に、前記キーワード「いと」と「けれ」の各出現位置、前記算出された相対距離、および重みデータが対応付けられて全文検索データメモリ26cに記憶される。
この際、1つの見出し語とその解説情報の中で、同じキーワードが複数箇所検出されることで複数の相対距離が得られた場合には、その最小の出現位置(つまり、見出し語とその解説情報の全テキストの中で最も先頭寄りの出現位置)およびその相対距離が採用され、前記全文検索データメモリ26cに記憶される。
次に、重み付けの計算処理(ステップB3)について詳細に説明する。
具体的には、例えば前記見出し語の項目「ふみことば[文言葉]」に対応付けられた全文検索データ(26c)の場合、キーワード「いと」「けれ」の両方向からの相対距離[4][4]が合計され、その合計値[8]に前記重み係数1[10]が乗算されて相対距離の重み点1[=80]が算出される。また、キーワード「いと」「けれ」の各出現位置[43][47]が合計され、その合計値[90]に前記重み係数2[=2]が乗算されて出現位置の重み点2[=180]が計算される。そして、前記相対距離の重み点1[=80]と前記出現位置の重み点2[=180]との総合計[=260]が計算され、この総合計値[=260]が、キーワード「いと」「けれ」について、該当する見出し語の項目「ふみことば[文言葉]」の重要度を示す値とされる。
なお、前記全文検索データとして処理される各値は、見出し語およびその解説情報の中での2つのキーワードの先頭からの出現位置およびその相対距離であるので、何れの値も小さい値の方が重要度は高いことなる。
前記ステップB1〜B3における、見出し語およびその解説情報の中での2つのキーワードの相対距離の算出記録処理、出現位置の記録処理、重み付け計算処理は、当該2つのキーワードが共に検索された各見出し語の項目毎に実行され、当該各見出し語の項目についての前記各処理が最後の項目まで実行されたと判断されると(ステップB4(Yes))、前記全文検索データメモリ26cに記録された各見出し語の項目の総合計値(重要度)に従い、その値が小さい順(重要度が高い順)にソートされる(ステップB5)。
こうして、前記図8における重み付け評価点算出処理に従い、前記全文検索データメモリ26c(図9参照)において、前記ユーザ入力されたキーワード「いと」「けれ」を共に含む各見出し語およびその解説情報についての重要度が計算され、重要度の高い順にソートされる。
そして、前記全文検索データメモリ26cにてソートされた高重要度順に該当する各見出し語「ふみことば[文言葉]」「かよい[通い]」「はかぜ[羽風]」「つくりびと[使い人]」「みやづかえびと[宮仕え人]」「くちがるい[口軽い]」「ひらける[開ける]」がリスト化され、図10(B)に示すように、検索結果表示画面Gs内の見出し語一覧エリアMLとしてメイン表示部17に表示される(ステップA6)。
この際、前記検索結果表示画面Gs内の見出し語一覧エリアMLにおいて反転カーソルCuにより選択された見出し語「ふみことば[文言葉]」の解説情報が、プレビューエリアVPに表示される。
したがって、前記構成の電子辞書装置10による辞書データの全文検索機能によれば、例えば[古語辞典]22b4が指定されてキーワード「いと」「けれ」が入力されると、各見出し語とその説明情報からなる辞書データの全文から、入力された2つのキーワードを共に含むところの見出し語が検索され、検索された各見出し語とその解説情報のそれぞれにおいて前記2つのキーワードが出現する先頭からの位置(文字数)およびその相対距離(文字数)が取得される。そして、前記2つのキーワードの先頭からの出現位置が近い方またはその相対距離が近い方の何れが重要であるかに応じて重み付け評価点が算出され、算出された評価点に基づき重要度の高い順に前記検索された各見出し語が見出し語一覧エリアMLに表示される。
これにより、ユーザ入力されたキーワード(検索文字列)を見出し語あるいはその解説情報に含む当該見出し語の一覧を、同キーワードの解説として重要度の高い順番で出力することが可能になる。
また、前記構成の電子辞書装置10による辞書データの全文検索機能によれば、辞書データベース22bに記憶された辞書データ22b4の各見出し語に含まれる区切り記号「−」c,「・」dを削除すると共に、解説情報に含まれる引用符「−」a,「・」bを該当する見出し語に置換してなる検索用データ22b4′に基づいて、全文検索用のBigramインデックス26b4を生成し、前記ユーザ入力されたキーワードは、このBigramインデックス22b4から検索され、何れの見出し語あるいはその解説情報に含まれるかが判断される。
これにより、前記キーワードを含む見出し語およびその解説情報が検索から外れてしまうことなく、また当該見出し語およびその解説情報における前記キーワードの先頭からの出現位置を正確に取得することができ、前記キーワードを含む辞書情報として重要度の高い順番で出力する見出し語の一覧を、正確に評価した順番として出力できる。
なお、前記実施形態では、複数のキーワード(検索文字列)「いと」「けれ」を入力した場合の全文検索処理について説明したが、1つのキーワードを入力した場合の全文検索処理では、Bigramインデックス26b4から検索された各見出し語の項目について、相対距離に関する処理および重み付け評価点に関する処理を省いて実行する。そして、単にキーワードの出現位置が小さい順にソートした見出し語一覧エリアMLを生成し、検索結果表示画面Gsにして表示させる。
前記各実施形態において記載した電子辞書装置10による各処理の手法およびデータベース、すなわち、図7のフローチャートに示す全文検索処理、図8のフローチャートに示す前記全文検索処理に伴う重み付け評価点算出処理などの各手法、および辞書データベース22b、全文検索インデックス(Bigramインデックス)26bは、何れもコンピュータに実行させることができるプログラムとして、メモリ・カード(ROMカード、RAMカード等)、磁気ディスク(フロッピディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の外部記録媒体23に格納して配布することができる。そして、コンピュータは、この外部記録媒体23に記憶されたプログラムを記憶装置22に読み込み、この読み込んだプログラムによって動作が制御されることにより、前記各実施形態において説明したキーワード検出の重み付け評価を有する全文検索機能を実現し、前述した手法による同様の処理を実行することができる。
また、前記各手法を実現するためのプログラムのデータは、プログラムコードの形態としてネットワークN上を伝送させることができ、このプログラムデータを、ネットワークNに接続されたコンピュータに通信部25によって取り込むことで、前述したキーワード検出の重み付け評価を有する全文検索機能を実現することもできる。
なお、本願発明は、前記各実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。さらに、前記各実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適宜な組み合わせにより種々の発明が抽出され得る。例えば、各実施形態に示される全構成要件から幾つかの構成要件が削除されたり、幾つかの構成要件が異なる形態にして組み合わされても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除されたり組み合わされた構成が発明として抽出され得るものである。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[1]
見出し語と同見出し語の解説情報とを対応付けたテキストデータを複数記憶するデータ記憶手段と、
ユーザ操作に応じて少なくとも1つの検索文字列を入力する文字入力手段と、
この文字入力手段により入力された検索文字列が含まれている見出し語および解説情報のテキストデータを前記データ記憶手段により記憶された全テキストデータの中から検索するデータ検索手段と、
このデータ検索手段により検索された前記検索文字列を含む見出し語および解説情報のテキストデータの中で、当該検索文字列が含まれる位置を取得する検索位置取得手段と、
この検索位置取得手段により取得された前記検索文字列が含まれる位置の値に基づいた重み付け評価点を算出する重み付け評価手段と、
この重み付け評価手段により算出された重み付け評価点に従った順番で、前記データ検索手段により検索された複数のテキストデータに対応する見出し語を一覧にして表示させる見出し語一覧表示手段と、
を備えたことを特徴とする情報検索装置。
[2]
前記データ記憶手段により記憶される解説情報のテキストデータは、当該解説情報の見出し語を引用する部分が引用符号で置き換えられ、
前記データ検索手段は、
前記データ記憶手段により記憶された全テキストデータの解説情報の中の引用符号を見出し語に置き換えた検索用データに基づき生成された全文検索用のNグラムインデックスを有し、
前記文字入力手段により入力された検索文字列が含まれている見出し語および解説情報のテキストデータを、前記Nグラムインデックスを用いて検索する、
ことを特徴とする[1]に記載の情報検索装置。
[3]
検索位置取得手段は、前記データ検索手段により検索された複数の検索文字列を含む見出し語および解説情報のテキストデータの中で、当該各検索文字列が含まれる先頭からの位置とその相対距離を取得し、
前記重み付け評価手段は、前記検索位置取得手段により取得された前記複数の検索文字列が含まれる先頭からの位置とその相対距離とで異なる重み係数を乗算した重み付け評価点を算出する、
ことを特徴とする[1]または[2]に記載の情報検索装置。
[4]
見出し語と同見出し語の解説情報とを対応付けたテキストデータを複数記憶するデータベースを有する電子機器のコンピュータを制御するためのプログラムであって、
前記コンピュータを、
ユーザ操作に応じて少なくとも1つの検索文字列を入力する文字入力手段、
この文字入力手段により入力された検索文字列が含まれている見出し語および解説情報のテキストデータを前記データベースに記憶された全テキストデータの中から検索するデータ検索手段、
このデータ検索手段により検索された前記検索文字列を含む見出し語および解説情報のテキストデータの中で、当該検索文字列が含まれる位置を取得する検索位置取得手段、
この検索位置取得手段により取得された前記検索文字列が含まれる位置の値に基づいた重み付け評価点を算出する重み付け評価手段、
この重み付け評価手段により算出された重み付け評価点に従った順番で、前記データ検索手段により検索された複数のテキストデータに対応する見出し語を一覧にして表示させる見出し語一覧表示手段、
として機能させるためのプログラム。
10 …電子辞書装置
11 …本体ケース
12 …蓋体ケース
13 …ヒンジ部
14 …キー入力部(キーボード)
14a…文字入力キー
14b…辞書指定キー
14c…[訳/決定]キー
14d…[戻る/リスト]キー
14e…カーソルキー
15 …スピーカ
16 …サブ表示部
16d…カラー液晶表示部
16t…透明タッチパネル
17 …メイン表示部
17d…カラー液晶表示部
17t…透明タッチパネル
17A…タッチキーエリア
21 …CPU
22 …記憶装置
22a…各種情報検索表示制御プログラム
22b…辞書データベース
22b4…[古語辞典]
22b4′…[古語辞典]検索用データ
23 …外部記録媒体
24 …記録媒体読み取り部
25 …通信部
26 …RAM
26a…表示データメモリ
26b…全文検索インデックスメモリ
26b4…[古語辞典]Bigramインデックス
26c…全文検索データメモリ
a,b…辞書解説情報の引用符
c,d…辞書見出し語の区切り記号
G …キーワード入力画面
Gs …検索結果表示画面
ML …見出し語一覧エリア
VP …プレビューエリア

Claims (4)

  1. 見出し語と同見出し語の解説情報とを対応付けたテキストデータを複数記憶するデータ記憶手段と、
    ユーザ操作に応じて少なくとも1つの検索文字列を入力する文字入力手段と、
    この文字入力手段により入力された検索文字列が含まれている見出し語および解説情報のテキストデータを前記データ記憶手段により記憶された全テキストデータの中から検索するデータ検索手段と、
    このデータ検索手段により検索された前記検索文字列を含む見出し語および解説情報のテキストデータの中で、当該検索文字列が含まれる位置を取得する検索位置取得手段と、
    この検索位置取得手段により取得された前記検索文字列が含まれる位置の値に基づいた重み付け評価点を算出する重み付け評価手段と、
    この重み付け評価手段により算出された重み付け評価点に従った順番で、前記データ検索手段により検索された複数のテキストデータに対応する見出し語を一覧にして表示させる見出し語一覧表示手段と、
    を備えたことを特徴とする情報検索装置。
  2. 前記データ記憶手段により記憶される解説情報のテキストデータは、当該解説情報の見出し語を引用する部分が引用符号で置き換えられ、
    前記データ検索手段は、
    前記データ記憶手段により記憶された全テキストデータの解説情報の中の引用符号を見出し語に置き換えた検索用データに基づき生成された全文検索用のNグラムインデックスを有し、
    前記文字入力手段により入力された検索文字列が含まれている見出し語および解説情報のテキストデータを、前記Nグラムインデックスを用いて検索する、
    ことを特徴とする請求項1に記載の情報検索装置。
  3. 検索位置取得手段は、前記データ検索手段により検索された複数の検索文字列を含む見出し語および解説情報のテキストデータの中で、当該各検索文字列が含まれる先頭からの位置とその相対距離を取得し、
    前記重み付け評価手段は、前記検索位置取得手段により取得された前記複数の検索文字列が含まれる先頭からの位置とその相対距離とで異なる重み係数を乗算した重み付け評価点を算出する、
    ことを特徴とする請求項1または請求項2に記載の情報検索装置。
  4. 見出し語と同見出し語の解説情報とを対応付けたテキストデータを複数記憶するデータベースを有する電子機器のコンピュータを制御するためのプログラムであって、
    前記コンピュータを、
    ユーザ操作に応じて少なくとも1つの検索文字列を入力する文字入力手段、
    この文字入力手段により入力された検索文字列が含まれている見出し語および解説情報のテキストデータを前記データベースに記憶された全テキストデータの中から検索するデータ検索手段、
    このデータ検索手段により検索された前記検索文字列を含む見出し語および解説情報のテキストデータの中で、当該検索文字列が含まれる位置を取得する検索位置取得手段、
    この検索位置取得手段により取得された前記検索文字列が含まれる位置の値に基づいた重み付け評価点を算出する重み付け評価手段、
    この重み付け評価手段により算出された重み付け評価点に従った順番で、前記データ検索手段により検索された複数のテキストデータに対応する見出し語を一覧にして表示させる見出し語一覧表示手段、
    として機能させるためのプログラム。
JP2011068850A 2011-03-25 2011-03-25 情報検索装置およびプログラム Pending JP2012203728A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011068850A JP2012203728A (ja) 2011-03-25 2011-03-25 情報検索装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011068850A JP2012203728A (ja) 2011-03-25 2011-03-25 情報検索装置およびプログラム

Publications (1)

Publication Number Publication Date
JP2012203728A true JP2012203728A (ja) 2012-10-22

Family

ID=47184658

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011068850A Pending JP2012203728A (ja) 2011-03-25 2011-03-25 情報検索装置およびプログラム

Country Status (1)

Country Link
JP (1) JP2012203728A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015049639A (ja) * 2013-08-30 2015-03-16 富士通フロンテック株式会社 帳票処理プログラム
JP2016071495A (ja) * 2014-09-29 2016-05-09 シャープ株式会社 検索装置、検索方法、プログラム、および記録媒体

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1021252A (ja) * 1996-06-28 1998-01-23 Hitachi Ltd 情報検索装置
JP2004152102A (ja) * 2002-10-31 2004-05-27 Casio Comput Co Ltd 情報表示装置および情報表示処理プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1021252A (ja) * 1996-06-28 1998-01-23 Hitachi Ltd 情報検索装置
JP2004152102A (ja) * 2002-10-31 2004-05-27 Casio Comput Co Ltd 情報表示装置および情報表示処理プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015049639A (ja) * 2013-08-30 2015-03-16 富士通フロンテック株式会社 帳票処理プログラム
JP2016071495A (ja) * 2014-09-29 2016-05-09 シャープ株式会社 検索装置、検索方法、プログラム、および記録媒体

Similar Documents

Publication Publication Date Title
US7752032B2 (en) Apparatus and method for translating Japanese into Chinese using a thesaurus and similarity measurements, and computer program therefor
US8199112B2 (en) Character input device
JP4983943B2 (ja) テキスト表示装置およびプログラム
JP2012198808A (ja) 情報表示装置およびプログラム
JP2012230544A (ja) 画像検索装置およびプログラム
JP4661924B2 (ja) 辞書機能を備えた電子機器およびプログラム
JP5810814B2 (ja) 辞書機能を備えた電子機器、複合語検索方法、及びプログラム
JP5024347B2 (ja) 辞書機能を備えた電子機器およびプログラム
JP2012203728A (ja) 情報検索装置およびプログラム
JP6315439B2 (ja) 文章編集支援装置、プログラムおよび文章編集支援システム
JP2010282507A (ja) 辞書機能を備えた電子機器およびプログラム
JP5487898B2 (ja) 辞書機能を備えた電子機器およびプログラム
JP5741542B2 (ja) 情報表示制御装置、情報表示制御方法、およびプログラム
JP2012168696A (ja) 辞書情報表示装置およびプログラム
JP2008059169A (ja) 中国語例文検索装置および中国語例文検索処理プログラム
JP5397199B2 (ja) 電子機器及び情報表示プログラム
JP7439429B2 (ja) 検索装置、検索方法、検索プログラム
JP2012181654A (ja) ロシア語検索装置およびプログラム
JP2010040045A (ja) 情報表示制御装置および情報表示制御プログラム
JP2007072786A (ja) 情報表示制御装置および情報表示制御プログラム
JP2024017326A (ja) 検索装置、検索方法およびプログラム
JP5338482B2 (ja) 漢文例文検索装置およびプログラム
Mukherjee et al. Text Processing
JP2012048383A (ja) 辞書機能を備えた電子機器およびプログラム
Bilac et al. Increasing the error coverage of the FOKS Japanese dictionary interface

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140318

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140919

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141014

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141212

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150414