JP2013161371A - テキスト検索装置及びプログラム - Google Patents

テキスト検索装置及びプログラム Download PDF

Info

Publication number
JP2013161371A
JP2013161371A JP2012024491A JP2012024491A JP2013161371A JP 2013161371 A JP2013161371 A JP 2013161371A JP 2012024491 A JP2012024491 A JP 2012024491A JP 2012024491 A JP2012024491 A JP 2012024491A JP 2013161371 A JP2013161371 A JP 2013161371A
Authority
JP
Japan
Prior art keywords
search
text
character string
keyword
head
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012024491A
Other languages
English (en)
Other versions
JP5910134B2 (ja
Inventor
Katsuhiko Sato
勝彦 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2012024491A priority Critical patent/JP5910134B2/ja
Priority to US13/734,174 priority patent/US8996571B2/en
Priority to CN201310049022.2A priority patent/CN103257995B/zh
Publication of JP2013161371A publication Critical patent/JP2013161371A/ja
Application granted granted Critical
Publication of JP5910134B2 publication Critical patent/JP5910134B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2468Fuzzy queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Abstract

【課題】ユーザにとって利便性が高い検索機能を実現でき、かつ必要な記憶容量が小さいテキスト検索装置及びプログラムを提供する。
【解決手段】テキスト検索装置100は、検索対象となる文書に記載された文字等と、当該文字等の出現位置と、を対応付けた転置インデックスを複数記憶する情報記憶部110を備える。転置インデックスは、文書中の前方一致検索の対象となるテキストの先頭に先頭マークを挿入した文書について生成されたものである。テキスト検索装置100のインクリメント検索部1410は、検索キーワードの先頭に先頭マークを挿入して、転置インデックスを用いて前方一致検索を実行する。また、本検索部1420は、同じ転置インデックスを用いて部分一致検索を実行する。
【選択図】図4

Description

本発明は、テキスト検索装置及びプログラムに関する。
複数の項目(フィールド)を含む文書(辞書等)を検索する装置が知られている。検索装置には、ユーザの利便性を高めるため、検索対象文書に文字列が存在するか否かだけでなく、その出現頻度等に着目して検索結果文書の順位付けを行なうものがある(例えば特許文献1)。特許文献1に記載の技術では、索引(インデックス)を用いて検索する。
特開平10−049549号公報
電子辞書には、検索キーワードを一文字入れるたびに見出語を検索し、見出語一覧表示するインクリメント検索機能と、検索キーワードを入れ終わった後に全文を検索する全文検索(本検索)機能と、二つの検索機能を持つことでユーザの利便性が高めたものがある。このような電子辞書では、一般に前方一致検索でインクリメント検索し、部分一致検索により全文検索する。
しかし、特許文献1の技術を用いて前方一致検索を用いる機能と部分一致検索を用いる機能を一つの装置に持たせるためには、それぞれに対応する索引情報を別々に記憶しておく必要がある。そのため、必要な記憶容量が大きくなってしまうという問題がある。
本発明はこのような事情に鑑みて成されたものであり、ユーザにとって利便性が高い検索機能を実現でき、かつ必要な記憶容量が小さいテキスト検索装置及びプログラムを提供することを目的とする。
上記目的を達成するため、本発明に係るテキスト検索装置は、
複数の文書カテゴリから構成される検索対象となる文書に含まれる文字列と、当該文字列の前記文書における出現位置と、を対応づけた索引情報を記憶する記憶手段と、
検索キーワードを取得する取得手段と、
前記文書のうち前方一致検索の対象となるカテゴリに属する文字列から、前記検索キーワードから始まる文字列を、前記索引情報を用いて検索する前方一致検索手段と、
前記索引情報を用いて、前記文書から前記検索キーワードを含む文字列を検索する部分一致検索手段と、
前記前方一致検索手段が検索した結果を示す情報と、前記部分一致検索手段が検索した結果を示す情報と、を出力する出力手段と、
を備えることを特徴とする。
本発明によれば、ユーザにとって利便性が高い検索機能を実現でき、かつ必要な記憶容量が小さいテキスト検索装置及びプログラムを提供できる。
本発明の実施形態1に係るテキスト検索装置の一例を示す斜視図である。 実施形態1に係るテキスト検索装置の一構成例を表すハードウェア構成図である。 実施形態1に係るテキスト検索装置が実行するデータ等生成処理の一例を表すフローチャートである。 実施形態1に係るテキスト検索装置が有する機能の一例を表す機能ブロック図である。 (a)は、テキスト検索装置が記憶する辞書データの一例を表す図である。(b)は、テキスト検索装置が記憶する再配置コンテンツテキストデータの一例を表す図である。 実施形態1に係るテキスト検索装置が表示するインクリメント検索の結果表示画面の一例を表す図である。 実施形態1に係るテキスト検索装置が表示する本検索の結果表示画面の一例を表す図である。 実施形態1に係るテキスト検索装置が記憶する辞書テーブルの一例を表す図である。 実施形態1に係るテキスト検索装置が記憶する転置インデックスを含む電子ファイルの一例を表す図である。 実施形態1に係るテキスト検索装置が実行するテキスト検索処理の一例を表すフローチャートである。 実施形態1に係るテキスト検索装置が実行する前方一致検索処理の一例を表すフローチャートである。 実施形態1に係るテキスト検索装置が実行する本検索処理の一例を表すフローチャートである。 実施形態1に係るテキスト検索装置が記憶する決定方法テーブルの一例を表す図である。 実施形態1に係るテキスト検索装置が実行する単一文字列検索処理の一例を表すフローチャートである。 実施形態1に係るテキスト検索装置が実行する出現位置取得処理の一例を表すフローチャートである。 実施形態1に係るテキスト検索装置が実行する複数文字列検索処理の一例を表すフローチャートである。 (a)は、検証文字列の特定出現位置が基準文字列の特定出現位置以降である場合における検証文字列と基準文字列との距離の一例を表す図である。(b)は、検証文字列の特定出現位置が基準文字列の特定出現位置よりも先である場合における検証文字列と基準文字列との距離の一例を表す図である。 検索キーワードの最小包含範囲の最小値と最大値との一例を表す図である。
以下、本発明の実施形態に係るテキスト検索装置100について、添付図面を参照しつつ説明する。
本発明の実施形態に係るテキスト検索装置100は、図1に示すような電子辞書で構成され、ユーザの操作に応じて検索キーワードを入力するキーボード100iと、検索キーワードに基づいて辞書を検索した検索結果を表示するLCD(Liquid Crystal Display)100hと、を備える。
テキスト検索装置100の内部には、図2に示すようなCPU(Central Processing Unit)100a、ROM(Read Only Memory)100b、RAM(Random Access Memory)100c、ハードディスク100d、メディアコントローラ100e、ビデオカード100g、及びスピーカ100jが内蔵され、図1に示したLCD100h及びキーボード100iとバスを介して接続されている。
CPU100aは、ROM100b若しくはハードディスク100dに保存されたプログラムにより、下記する検索処理のためにテキスト検索装置100の各部を制御し、また内部処理を実行する。RAM100cは、CPU100aによるプログラムの実行時において、処理対象とするデータを一時的に記憶する等、作業領域として用いられる。
ハードディスク100dは、各種のデータを保存したテーブルと、英和辞書等の辞書データと、を記憶する。尚、テキスト検索装置100は、ハードディスク100dの代わりに、フラッシュメモリを備えても良い。
メディアコントローラ100eは、フラッシュメモリ、CD(Compact Disc)、DVD(Digital Versatile Disc)、及びブルーレイディスク(Blu-ray Disc)(登録商標)を含む記録媒体から各種のデータ及びプログラムを読み出す。
ビデオカード100gは、CPU100aから出力されたデジタル信号に基づいて画像を描画(つまり、レンダリング)すると共に、描画された画像を表す画像信号を出力する。LCD100hは、ビデオカード100gから出力された画像信号に従って画像を表示する。尚、テキスト検索装置100は、LCD100hの代わりに、PDP(Plasma Display Panel)若しくはEL(Electroluminescence)ディスプレイを備えても良い。スピーカ100jは、CPU100aから出力された信号に基づいて音声を出力する。
ユーザが、辞書データを記録した記録媒体を図2に示したメディアコントローラ100eへ当該記録媒体を挿入すると、CPU100aは、メディアコントローラ100eから辞書データの信号を受信する。CPU100aは、メディアコントローラ100eから辞書データを取得すると、辞書データをハードディスク100dに保存する。その後、CPU100aは、辞書データで表される辞書を検索キーワードに基づいて検索するために用いられるデータ及び電子ファイルを生成する、図3に示すようなデータ等生成処理を実行する。これにより、CPU100aはテキスト検索装置100のその他の構成要素と協働して、図4に示すような生成部120として機能する。図4は、CPU100aが実行する機能を示す機能ブロック図である。そして、CPU100aは、テキスト検索装置100のその他の構成要素、特にハードディスク100dと協働することで、情報記憶部110として機能する。
情報記憶部110は、本実施形態で検索対象となる辞書データを記憶する。この辞書データは、図5(a)に示すように、見出語を表すテキスト(以下、見出語テキストという)と、見出語の解説を表すテキスト(以下、解説テキストという)と、例えば、成句や複合語など(以下、イディオムという)といった見出語の用例を表すテキスト(以下、用例テキストという)と、で構成される。解説テキストと用例テキストとを合わせて本文テキストと言う。言い換えれば、辞書データに含まれるテキストは、見出語を示すテキスト(見出語テキスト)と、見出語を説明するための本文(本文テキスト)と、の2つのカテゴリ(見出語カテゴリ、本文カテゴリ)に分類できる。本文カテゴリに属するテキストは、さらに見出語の解説と、その用例と、の二つ(解説カテゴリ、用例カテゴリ)に分類できる。
また、辞書データのうち、見出語テキストが占める部分を見出部CE、本文テキストがしめる部分を本文部CBという。
解説テキストは、当該テキストで表される内容が解説であることを表す解説タグに囲まれており、用例テキストは、当該テキストで表される内容が用例であることを表す用例タグに囲まれている。
辞書データは見出部CEと本文部CBとの組を一つの構成単位として、この構成単位が連なって構成されている。各構成単位は、見出部CEに配置された見出語テキストのアルファベット順に並べられている。各構成単位において、見出語テキストを含む見出部CEの直後に、その見出語を説明するための本文テキストを含む本文部CBが配置されている。
また、各見出部CEには、見出部CEを識別する見出語番号が予め割り当てられている。辞書データには、この見出語番号を表す情報と、当該見出語番号で識別される見出部CEが格納された情報記憶部110における記憶領域の先頭アドレスを表す情報と、当該見出部CEの直後に格納された本文部CBの先頭アドレスを表す情報と、が対応付けられた情報が、見出語の数だけ含まれる。
本文部CBには、複数の解説テキストが、電子辞書の編集者が定めた並び順に従って配置されている。具体例としては、見出語のより一般的な意味内容を解説する解説テキストの方が、見出語のより特殊な意味内容を解説する解説テキストよりも先の位置に格納されている。あるいは、より使用頻度の高い意味内容を解説する解説テキストの方が、より使用頻度の低い意味内容を解説する解説テキストよりも先の位置に格納されているとしても良い。
本実施形態のテキスト検索装置100は、情報記憶部110に記憶された辞書データから検索キーワードを次の二つの方法で検索して、検索結果をユーザに提示する。
第1に、テキスト検索装置100は、ユーザがキーボード100iを用いて検索キーワードを一文字入力する毎に、その時点のキーワードを前方一致検索して、キーワードを先頭に含む見出語を表示する。この検索をインクリメント検索と呼ぶ。また、テキスト検索装置100がインクリメント検索を実行している状態を、インクリメント検索モードと呼ぶ。インクリメント検索の実行例を図6に示す。
ユーザが、検索語の先頭の一字(図6の例ではw)を入力すると検索対象となる複数の辞書データ(ここでは、英英辞典、英和辞典、百科事典)において、先頭がwから始まる見出語を検索する。そして、図6の左側に示したように、見出語一覧をユーザが選択可能な態様で提示する。
次の一字(ここではh)を入力すると、同様にwhを先頭に持つ見出語を検索して表示する(図6の中央)。以下、3文字以上入力した場合についても、同様に検索して表示する(例えば図6の右)。ユーザは候補として所望の見出語(ここではwhile)が表示されると、いつでも所望の見出語を選択してその本文テキストを表示できるようにすることができる。
なお、図6ではインクリメント検索の結果を各辞書データ(英英辞典、英和辞典、百科事典)毎に分けて表示する例を紹介した。しかし、この例に限られず、すべての検索結果を文字順にソートしてまとめて表示する構成も可能である。このとき、重複する単語については一つだけ表示するとしても良い。
第2に、本実施形態のテキスト検索装置100は、ユーザがキーボード100iを用いて検索キーワードを入力して確定操作を実行すると、検索キーワードを含む見出テキスト・解説テキスト・用例テキストを部分一致検索して表示する(図7)。この検索を本検索と呼ぶ。また、テキスト検索装置100が本検索を実行している状態を本検索モードと呼ぶ。
本実施形態では、インクリメント検索と本検索を一つの索引情報(転置インデックス)を用いて実行する。
ここで、インクリメント検索と本検索を一つの索引(転置インデックス)を用いて検索するための準備処理であるデータ等生成処理について、図3を参照して説明する。生成部120は、辞書データを取得すると図3に示すデータ等生成処理を開始する。
データ等生成処理では、まず生成部120が情報記憶部110に記憶された辞書コンテンツを表す辞書データを読み出す(ステップS101)。
そして、読み出した辞書データから、見出語テキストと本文テキスト(解説テキストと用例テキスト)とを抽出する(ステップS102)。具体的に説明する。本文部CBには、解説テキストと用例テキストとが混在しているので、まず生成部120は、これらのテキストを内容に応じて分類分けをする。そのために、生成部120は、辞書データに含まれる見出語番号を表す情報と、見出部CEの先頭アドレスを表す情報と、本文部CBの先頭アドレスを表す情報と、を用いて、辞書データから見出語テキストと本文テキストとを複数抽出する。
さらに、生成部120はステップS102で、抽出された見出語テキスト毎に、見出語テキストで表される見出語を解説する解説テキストを本文テキストから解説タグに基づいて複数抽出し、かつ見出語の用例を表す用例テキストを用例タグに基づいて本文テキストから複数抽出する。
そして、インクリメント検索の対象となるカテゴリのテキスト(ここでは見出語)の先頭に、先頭であることを示すマーク(先頭マーク、ここでは半角スペース)を挿入する(ステップS103)。
その後、生成部120は、図5(b)に示すような再配置コンテンツテキストデータ(CTD)を生成して記憶する(ステップS104)。具体的には、見出語テキストに先頭マーク(ここでは「・」で代用して表示)を抽出した上で、構成単位ごとに抽出された解説テキストの並び順を変更せずにまとめて配置することで、抽出された複数の解説テキストが配置される部位(以下、解説部CCという)を生成する。
同様に、生成部120は、構成単位毎に、抽出された複数の用例テキストの並び順を変更せずにまとめて配置することで、抽出された複数の用例テキストが配置された部位(以下、用例部CXという)を生成する。
生成部120は、このようにして見出部CEと、解説部CCと、用例部CXと、を対応付けた複数のデータ(再配置コンテンツテキストデータ、若しくは再配置CTD)を生成する。そして、生成部120は、生成した再配置コンテンツテキストデータを情報記憶部110へ保存する(ステップS104)。
その後、生成部120は、再配置コンテンツテキストデータで表される辞書を識別する辞書番号を生成する。次に、生成部120は、図8に示す辞書テーブルへ、生成された辞書番号を表す情報と、辞書の名称を表す情報と、再配置コンテンツテキストデータが格納された情報記憶部110の記憶領域の先頭アドレスを表す情報と、を対応付けた情報を情報記憶部110に保存する(ステップS105)。
その後、生成部120は、再配置コンテンツテキストデータで表されるテキスト(つまり、見出部CE、解説部CC、及び用例部CXに配置されたテキスト)のそれぞれについて、先頭から1文字ずつずらしながら1文字を切り出すことで、モノグラム文字列パタンを抽出する。また、同様に、生成部120は、再配置コンテンツテキストデータで表されるテキストの先頭から1文字ずつずらしながら2文字を切り出すことで、バイグラム文字列パタンを抽出する。以下、モノグラム文字列パタン、バイグラム文字列パタンを、Nグラム文字列パタンと総称する。尚、本実施形態では、文字は文字列に含まれるとし、特別に区別する記載がある場合を除き、文字と文字列とを区別しない。
次に、生成部120は、各Nグラム文字列パタンについて、Nグラム文字列パタンが再配置コンテンツテキストデータで表されるテキスト(以下、再配置テキストという)に出現する位置(以下、出現位置という)を1又は複数特定する。その後、生成部120は、Nグラム文字列パタン毎に、再配置テキストにおけるNグラム文字列パタンの出現頻度を算出する。ここで、出現頻度は、例えば、再配置テキストにNグラム文字列パタンが現われる総回数であるとして説明するが、これに限定される訳ではない。
次に、生成部120は、Nグラム文字列パタン毎に、Nグラム文字列パタンが出現する出現位置を示すアドレス(以下、出現位置アドレスという)を表す1又は複数の情報と、当該Nグラム文字列パタンの出現頻度を表す情報と、を対応付けた出現位置情報を生成する。
次に、生成部120は、出現位置情報を1又は複数含む電子ファイル(以下、出現位置情報ファイル若しくはAPファイルという)を生成し、情報記憶部110へ保存する(図3のステップS106)。
図9では、出現位置情報ファイル(APファイル)は「position.idx」という名称(ファイル名)で示されている。また、出現位置情報ファイルに保存された出現位置情報は、先頭アドレスから出現頻度用の所定バイト数までの領域に出現頻度を表す情報が格納され、当該領域の直後から出現位置用の所定バイト数毎に出現位置アドレスを表す情報が格納される。
次に、生成部120は、Nグラム文字列パタンを表す情報(以下、Nグラム文字列パタン情報という)と、当該Nグラム文字列パタンの出現位置情報が格納された情報記憶部110の記憶領域の先頭アドレス(以下、出現位置情報格納アドレスという)を表す情報と、を対応付けた情報を複数含む電子ファイル(以下、Nグラム文字列パタンファイル若しくはSファイルという)を生成する。その後、生成部120は、Sファイルを情報記憶部110へ保存する(ステップS107)。
図9では、Sファイルは「pattern.idx」という名称(ファイル名)で示されている。
その後、生成部120は、見出語毎に、見出語の用例を表す用例テキストが分類された用例部CXの先頭アドレスと、当該用例テキストの先頭アドレスと、の差分(以下、用例部開始位置からの差分という)を、用例部CXに分類された用例テキストの個数(以下、用例個数という)だけ算出する。次に、生成部120は、見出語毎に、1又は複数の用例部開始位置からの差分を表す情報で構成される用例開始位置情報を生成し、生成された用例開始位置情報を複数含む電子ファイル(以下、用例開始位置情報ファイル若しくはEPファイルという)を生成する。
図9では、EPファイルは「example.idx」という名称(ファイル名)で示されている。
その後、生成部120は、用例開始位置情報ファイルを情報記憶部110へ保存する(図3に示すステップS108)。尚、EPファイルに保存された用例開始位置情報は、用例部開始位置からの差分を表す情報が、先頭アドレスから当該差分用の所定バイト数までの領域に格納され、当該領域の直後から所定バイト数毎に他の差分を表す情報が格納される。
次に、生成部120は、見出語テキストを含む見出部CEを識別する見出番号と、当該見出部CEが格納された情報記憶部110の記憶領域の先頭アドレス(以下、見出部CEの開始位置を表すアドレスという)を表す情報と、当該見出語テキストで表される見出語を解説する解説テキストが配置された解説部CCの先頭アドレス(以下、解説部CCの開始位置を表すアドレスという)を表す情報と、当該見出語の用例を表す用例テキストが配置された用例部CXの先頭アドレス(以下、用例部CXの開始位置を表すアドレスという)を表す情報と、当該用例部CXの用例個数を表す情報と、当該用例部CXの用例部開始位置情報(EPファイル、図9のexample.idx)が情報記憶部110に格納された領域の先頭位置を表すアドレス(以下、用例部開始位置情報格納アドレスという)を表す情報と、当該見出語を掲載した辞書の辞書番号を表す情報と、を対応付けた情報を複数含む電子ファイル(以下、見出等ファイル若しくはTファイルという)を生成する。
図9では、Tファイルは「number.idx」という名称(ファイル名)で示されている。
生成部120は、Tファイルを情報記憶部110へ保存した後に(図3に示すステップS109)、データ等生成処理の実行を終了する。
図9(特に「pattern.idx」と「position.idx」)に示すような、文字列(ここではNグラム文字列パタン)と、文字列の検索対象となる文書における出現位置とを、対応付けて記録した索引構造を転置インデックスと呼ぶ。本実施形態では、データ等生成処理により、インクリメント検索の対象となるカテゴリのテキストについて、先頭に先頭マークを付した再配置CTDの転置インデックスを生成する。
転置インデックスを情報記憶部110に記憶すると、この転置インデックスを用いて検索処理を実行する準備が整う。この状態で、ユーザが辞書の検索に用いる検索キーワードを入力する操作をキーボード100iを用いて実行すると、CPU100aがその情報を受け取り、図10に示すテキスト検索処理を実行する。
このテキスト検索処理を実行することにより、CPU100aは図4に示すような取得部130、インクリメント検索部1410と本検索部1420を含む検索部140、算出部150、決定部160、及び出力部170として機能する。また、CPU100aは、図2に示したビデオカード100g及びLCD100hと協働して表示部180として機能する。
ユーザがキーボード100iを用いて、検索キーワードの入力を始めると、テキスト検索装置は待機モードからインクリメント検索モードに移行し、CPU100aが図10に示すテキスト検索処理を開始する。テキスト検索処理では、まず取得部130が現在までに入力されたキーワード(入力キーワード)を取得する(ステップS201)。
そして、インクリメント検索部1410が、上述した複数の転置インデックスを用いて、入力キーワードが含まれる見出語を、前方一致検索により抽出する前方一致検索処理を実行する(ステップS202)。
ステップS202で実行される前方一致検索処理について、図11を参照して説明する。前方一致検索処理では、まず取得した入力キーワードの先頭に、先頭マーク(ここでは半角スペース)を挿入する(ステップS301)。例えば、ステップS201で取得した入力キーワードが「whi」の場合には、先頭に半角スペース(記号・で示す)を挿入した「・whi」を、以下の処理に用いる入力キーワードとする。以下、この例に沿って説明する。
そして、検索部140(インクリメント検索部1410)は、取得された検索キーワードからNグラム文字列パタンを生成し、生成したNグラム文字列パタンを検索パタンとする(ステップS302)。
Nの値は、設定値(転置インデックスに対応するNの値)及び入力キーワードの文字数で変化する。例えば、入力キーワードが「・whi」であり、設定値がN=2である場合には、バイグラム文字列パタン「・w」、「wh」、「hi」を検索パタンとして生成する。N=3の場合は、「・wh」、「whi」を生成する。なお、(マーク挿入後の)入力キーワードの文字数が設定値以下である場合(例えば設定値がN=3であり、入力キーワードが「・w」である場合)、入力キーワードの文字数(ここでは2)をNの値とする。そして、一つのNグラム(バイグラム「・w」)のみからなるNグラム文字列パタンを生成する。ここでは、N=2とし、「・w」、「wh」、「hi」を生成するとする。
そして、ステップS302で生成した検索パタンが一つであるか複数であるか判別する(ステップS303)。
検索パタンが複数生成された場合(ステップS303;NO)、インクリメント検索部1410は、検索パタンの各出現位置を特定して、その中で注目出現位置を特定する(ステップS304)。
ここでは、生成した複数の検索パタンのうち最も出現頻度が少ない検索パタンの出現位置を注目出現位置とする。具体的には、まずインクリメント検索部1410がAPファイル(つまり、出現位置情報ファイル)及びSファイル(つまり、Nグラム文字列パタンファイル)から、検索パタンの出現頻度を検索する。即ち、インクリメント検索部1410は、Nグラム文字列パタンファイル(図9の「pattern.idx」)から、生成した検索パタンを表す情報に対応付けられた出現位置情報格納アドレスを表す情報を検索する。そして、インクリメント検索部1410は、出現位置情報ファイル(図9の「position.idx」)から、検索された情報で表される出現位置情報格納アドレスが指し示す位置を開始位置として、情報記憶部110に格納された出現位置情報を取得する。次に、インクリメント検索部1410は、取得した出現位置情報の先頭アドレスから上記出現頻度用の所定バイト数までの領域に格納された出現頻度を表す情報を抽出する。
その後、インクリメント検索部1410は、生成した複数の検索パタンの内で、最少の出現頻度に対応付けられた検索パタンを注目検索パタンとして特定する。ここでは、「wh」を注目検索パタンとする。出現頻度が最も少ない検索パタンに基づいて辞書から検索キーワードを検索することにより、下記するループ(図11のステップS304からステップS316までのループ)が少ない回数で終了するので、より高速にインクリメント検索処理を実行出来るからである。
S304ではさらに、インクリメント検索部1410が注目検索パタンの出現位置情報における出現頻度を表す情報が格納された領域の直後から上記出現位置用の所定バイト数を読み込み、注目検索パタンの最初の出現位置を注目出現位置として選択する(ステップS304)。
そして、インクリメント検索部1410は注目検索パタン以外の検索パタン(他の検索パタン)の出現位置(特定出現位置)を特定する(ステップS305)。
具体的には、まず情報記憶部110が予め記憶する所定範囲を表す情報を取得する。さらに、インクリメント検索部1410は、注目検索パタン注目検索パタン「wh」以外の検索パタン「・w」、「hi」の出現位置の内で、注目出現位置から所定範囲までの出現位置を、それぞれ特定出現位置とする(ステップS305)。
次に、インクリメント検索部1410は、注目出現位置と、他の検索パタンの特定出現位置と、の連続性を評価して(ステップS306)、連続性の有無を判別し(ステップS307)、注目出現位置を含む位置に入力キーワードがあるか判別する。
具体的には、インクリメント検索部1410はステップS306で注目検索パタンと他の検索パタンについて、入力キーワードにおける相対位置(距離及び前後関係)を取得する。例えば、注目検索パタン「wh」は、入力キーワード(マーク挿入後)「・whi」において、他の検索パタン「・w」の一文字後にあり、「hi」の一文字前に位置する。相対位置とは、このような「n文字後(前)に位置する」という位置情報である。
同様に、ステップS305でSファイルとAPファイルを参照して取得した注目出現位置と特定出現位置を比較して、再配置コンテンツテキストデータ上の注目検索パタンと他の検索パタンとの相対位置を取得する。そして、全ての他の検索パタンと注目検索パタンの相対位置が、入力キーワードと再配置コンテンツテキストデータとで一致した場合に、連続性があると評価される。一方、何れかの他の検索パタンと注目検索パタンの相対位置が、入力キーワードと再配置コンテンツテキストデータとで異なる場合、連続性は無いと評価される。このようにして、注目出現位置における連続性を評価する(ステップS306)。
インクリメント検索部1410は、ステップS306における連続性の評価で、連続性ありと評価されたか否か判別する(ステップS307)。連続性なしと評価された場合は(ステップS307;NO)、その注目出現位置については検索ヒット部位とせず、処理を終了する。そして、注目検索パタンの出現位置の全てについて上記処理を実行したか否かを判別する(ステップS308)。
注目検索パタンの出現位置の全てについて上記処理済みではないと判別すると(ステップS308;No)、ステップS304に戻り、次の出現位置を選択して上記の処理を繰り返す。
一方、全出現位置について上記処理済みであると判別すると(ステップS308;Yes)、ステップS318にスキップする。
一方、ステップS307で連続性ありと評価された場合は(ステップS307;Yes)、現在の注目出現位置について、ステップS302で生成した全検索パタンのうち先頭にある検索パタン(本例では「・w」)の特定出現位置を、入力キーワード(本例では「・whi」)の再配置テキストにおける出現位置(検索ヒット部位)として特定する(ステップS309)。
一方、ステップS303で検索パタンが一つと判別された場合(ステップS303;Yes)は、その一つの検索パタンを注目検索パタンとしてステップS304と同様に出現位置を求め、求めた出現位置のうち未処理のものを注目出現位置として選択する(ステップS310)。そして、注目出現位置を入力キーワードの再配置テキストにおける出現位置として特定する(ステップS311)。
ステップS309又はステップS311で出現位置を特定すると、インクリメント検索部1410は、Tファイル(図9の「number.idx」)及び用例開始位置情報ファイル(EPファイル、図9の「example.idx」)と、を参照して、出現位置が、どの構成単位のどの部位(見出部CE、解説部CC、及び用例部CXのいずれか)に含まれるか特定する(ステップS312)。
具体的には、インクリメント検索部1410は、入力キーワード(本例では「・whi」)について特定した出現位置を表すアドレス以前のアドレスが指し示す位置から開始する見出部CEであって、開始位置を指し示すアドレスが最大の見出部CEを特定する。特定された見出部CEを特定見出部と呼ぶ。即ち、特定見出部とは、出現位置が属する構成単位の見出部CEである。
次に、インクリメント検索部1410は、Tファイル(見出等ファイル、図9の「number.idx」)を参照して、特定見出部の開始位置を指し示すアドレスを表す情報、当該特定見出部に分類された見出語テキストが表す見出語を解説する解説テキストが分類された解説部(以下、当該特定見出部に対応する解説部という)CCの開始位置を指し示すアドレスを表す情報、当該特定見出部に対応する用例部CXの開始位置を指し示すアドレスを表す情報、当該特定見出部に対応する用例開始位置情報格納アドレスを表す情報、当該見出語を掲載した辞書を識別する辞書番号を表す情報、及び当該特定見出部を識別する見出番号を表す情報を取得する。これらの情報から、特定見出部を示す識別子(見出番号)と、各部位の位置を特定できる情報を生成する。特定見出部を含む構成単位を特定構成単位と呼ぶ。また、各部位の位置から、特定した出現位置が特定構成単位のどの部位に位置するか定めることができる。この部位を特定部位とする。
ステップS312では、さらに、特定部位が見出部CEである場合に、算出部150が下記式(1)を用いて出現位置の評価値(Estidxid,cgy)を算出する。
Figure 2013161371
ただし、idxidは得られた見出番号、cgyは特定部位の識別子である。cgyには、見出部CEについて0が、解説部CCについて1が、用例部CXについて2が、それぞれ割り振られている。ここでは、特定した位置が見出部CE以外である場合には評価値を算出しないため、cgyは0のみを取る。また、Posstdstr,0は入力キーワードの特定した出現位置、PosStidxid、headline、hdlidは見出番号idxidの見出部CEの開始位置を示す。即ち、評価値(Estidxid,cgy)は、特定した出現位置が、見出語の先頭から何文字離れているかを示す値である。評価値(Estidxid,cgy)は、見出語に先頭マーク(半角スペース)が含まれている場合には0にならない場合がある。
そして、決定部160が特定した出現位置が見出部CEの先頭にあるか判別する(ステップS313)。即ち、特定部位が見出部CEであり、且つ評価値が0である場合は(ステップS313;Yes)、特定した出現位置は見出部CEの先頭であるため、その見出部CEを前方一致検索のヒット部位とみなせる。そのため決定部160がこの見出部CEを検索結果に反映する(ステップS314)。一方、特定部位が見出部CEでないか、あるいは評価値が0でない場合は(ステップS313;No)、特定した出現位置は検索結果から除外され(ステップS315)、以下の処理の対象とならない。
次に、インクリメント検索部1410は、ステップS304で求めた注目検索パタンの出現位置の全てについて、注目出現位置として上記処理を実行したか否かを判別する(ステップS316)。未処理の出現位置が残っている場合(ステップS316;No)、次の出現位置について処理を繰り返す。このとき、まずステップS303で検索パタンが一つであるか否か判別する(ステップS317)。複数であった場合(ステップS317;No)、ステップS304に戻る。一方、一つであった場合(ステップS317;Yes)、ステップS310に戻る。
一方、全ての出現位置について上記処理済みであった場合(ステップS316;Yes)、ステップS314で検索結果に反映した見出部CEを、見出し番号順にソートする(ステップS318)。この処理を、図8にしめした辞書テーブルに登録された各辞書データについて実行する。
図10に戻って、ステップS202で前方一致検索して見出語を抽出すると、出力部170がこの結果を示す情報を表示部180に出力して、図6に示したように検索結果を表示する。(ステップS203)。
そして、検索キーワードが確定したか判別する(ステップS204)。具体的には、現在の入力キーワードを検索キーワードとして確定する操作(例えば実行キーの押下)を検出すると、現在の入力キーワードを検索キーワードとする。この操作を検出しない場合(ステップS204;NO)、新たに一文字追加する操作を待ち受ける。そして、新たな操作を受け付けたことにより、新たな入力キーワードが得られた場合には、その入力キーワードについてステップS201から処理を繰り返す。
一方、上記の確定操作を検出して検索キーワードが確定すると(ステップS204;Yes)、テキスト検索装置100は本検索モードに移行し、検索キーワードを用いた本検索処理を実行する(ステップS205)。
本検索処理では、再配置コンテンツデータに含まれる全テキストについて、部分一致検索を実行し(全文検索)、ヒットした部位を優先度順に表示する(図7)。図7の例では、検索結果を各カテゴリ毎に優先度をつけて表示している。この処理は、検索対象となる文書を全文して、部分一致した結果に優先度を付けて表示する既知の任意の方法を用いて実行して良い。ここでは、以下のような処理によって本検索を実行する。なお、必ずしも全文を検索する必要は無く、例えば検索対象となる文書の範囲(辞書の種類やカテゴリ、部位等)をユーザが選択できるとしても良い。
ステップS205で実行される本検索処理を、図12を参照して説明する。
図12に示すテキスト検索処理では、まず取得部130が確定した検索キーワード(1又は複数の検索キーワード)を取得する(ステップS11)。ここでは、確定した入力キーワードが区切り文字(スペース等)を含む場合、その区切り文字で入力された文字を区切って、複数の検索キーワードを取得したとする。以降、1つの検索キーワード「while」が取得された場合を例に挙げて説明を行う。
ステップS11の後に、本検索部1420は、図11のステップS302と同様に、取得された検索キーワード(本例では「while」)からNグラム文字列パタン(「wh」、「hi」、「il」、「le」)を生成し、生成したNグラム文字列パタンを検索パタンとする(ステップS12)。なお、取得した検索キーワードが複数である場合は、各キーワードについてNグラム文字列パタンを生成する。
次に、本検索部1420は、検索パタン毎に、図11のステップS304で説明した方法で、各検索パタンの出現頻度を取得する(ステップS13)。そして、出現頻度が最も少ない検索パタンを特定する(ステップS14)。このような検索パタンに基づいて辞書から検索キーワードを検索すれば、出現頻度がより多い検索パタンに基づいて辞書を検索するよりもテキスト検索処理が短時間で終了するためである。ここでは、「il」の出現頻度が最も少ないとして説明を行う。
その後、本検索部1420は、ステップS11で取得した検索キーワードが一つであるか、複数であるか判別する(ステップS15)。検索キーワードが一つである場合(ステップS15;Yes)、その検索キーワードを基準文字列(優先度を定めるにあたって基準となる検索キーワード)とする(ステップS16)。そして、単一文字列検索処理を実行する(ステップS17)。
一方、検索キーワードが複数である場合(ステップS15;No)、ステップS12で生成した検索パタンのうち、最少の出現頻度の検索パタンを含む検索キーワードを基準文字列とし、基準文字列以外のキーワードを検証文字列とする(ステップS18)。検索に要する計算量を削減するためである。そして、複数の検索キーワードを検索する処理(複数文字列検索処理)を実行する(ステップS19)。ステップS17乃至ステップS19の検索処理を終えると、図12の本検索処理は終了する。
ステップS17で実行される単一文字列検索処理を、図14を参照して説明する。単一文字列検索処理では、まず本検索部1420が図12のステップS12で生成した、基準文字列のNグラム文字列パタンを検索パタンとして取得する(ステップS21)。
そして、基準文字列の再配置CTDにおける出現位置を全て取得する処理(出現位置取得処理)を実行する(ステップS22)。
出現位置取得処理について、図15を参照して説明する。まず出現位置を取得すべき対象となる文字列(対象文字列、ここでは基準文字列)について生成された検索パタンが一つであるか判別する(ステップS31)。検索パタンが複数生成された場合(ステップS31;NO)、本検索部1420は、図11のステップS304〜ステップS307と同様にステップS32〜ステップS35を実行する。即ち、注目検索パタンの出現位置を求めて注目出現位置を選択し(ステップS32)、他の検索パタンの出現位置(特定出現位置)を求め(ステップS33)、その連続性を評価して(ステップS34)、連続しているか判別する(ステップS35)。
そして、ステップS35で注目出現位置において連続性が無いと判別すると(ステップS35;No)、処理はステップS36に移行し、未処理の出現位置があるか判別する(ステップS36)。そして、未処理の出現位置があれば(ステップS36;No)、次の出現位置についてステップS32から処理を繰り返す。また、全ての出現位置について処理済なら(ステップS36;Yes)、出現位置取得処理を終了する。
一方、連続性があると判別すると(ステップS35;Yes)、図11のS309と同様に、対象文字列の全検索パタンのうち先頭にある検索パタンの特定出現位置を、対象文字列の再配置テキストにおける出現位置として特定する(ステップS37)。
一方、ステップS31で検索パタンが一つと判別された場合(ステップS31;Yes)は、その一つの検索パタンを注目検索パタンとしてステップS32と同様に出現位置を求め、注目出現位置を選択する(ステップS38)。そして、注目出現位置を入力キーワードの再配置テキストにおける出現位置として特定する(ステップS39)。
次に、本検索部1420は、注目検索パタンの出現位置の全てを注目出現位置として上記処理を実行したかしたか否かを判別する(ステップS40)。未処理の出現位置が残っている場合(ステップS40;No)、次の出現位置について処理を繰り返す。このとき、まずステップS31で検索パタンが一つであると判別したか否か判別する(ステップS41)。検索パタンが一つであった場合(ステップS41;Yes)、ステップS38に戻る。一方、検索パタンが複数であった場合(ステップS41;No)、ステップS32に戻る。
一方、全ての出現位置について上記処理済みであった場合(ステップS40;Yes)、対象文字列の全ての出現位置を特定したので、出現位置取得処理は終了する。
図14に戻って、ステップS22で基準文字列の再配置CTDにおける出現位置を全て取得すると、次に本検索部1420が、各出現位置が、どの構成単位のどの部位(見出部CE、解説部CC、及び用例部CXのいずれか)に含まれるか、特定する(ステップS23)。具体的な特定方法は図11のステップS312と同様である。
ステップS23ではさらに、算出部150が図13に示す決定方法テーブルを参照して、現在の検索条件、各出現位置に対する評価値の決定方法(順位決定方法)を取得する。
例えば、検索キーワードが「単一」(つまり、1個)であり、見出部CEが出現部位である場合については、数式(2)を用いて評価値を算出するという情報を取得する。このとき、その見出部CEに含まれるテキストを特定テキストと呼ぶ。
さらに、算出部150は、評価値を算出する方法の情報を取得すると、その情報が示す方法で各出現部位の評価値を算出する(ステップS23)。この評価値の値が小さい程、出力優先度は高い。
本実施形態では、検索キーワードが一つであり、特定部位が見出部CEであった場合の出力優先度(Estidxid,0)は、以下の式(2)を用いて算出する。
Figure 2013161371
なお、NumStrindexは特定部位(見出部)の文字列の長さであり、NumStrstdstrは基準文字列の長さである。
数式(2)で算出される評価値は、基準文字列と特定部位(見出部)の文字列(つまり、見出テキスト)とが完全に一致する場合に最小の値となり、特定見出部の見出テキストに基準文字列「while」以外の文字が多く含まれる程大きい値となる。これは、通常、ユーザは、検索キーワードである基準文字列と完全一致する見出テキストの表示を所望することが多いからである。また、通常、ユーザは、検索キーワード以外の文字を多く含む見出テキストよりも検索キーワード以外の文字を少なく含む見出テキストの表示を所望することが多いからである。
また、検索キーワードが一つであり、特定部位が解説部CCであった場合の出力優先度(Estidxid,1)は、以下の式(3)を用いて算出する。
Figure 2013161371
なお、PosStidxid,comentaryは、特定見出部に対応する解説部CCの開始位置である。数式(3)で算出される評価値は、基準文字列の特定出現位置が、解説部CCの開始位置に近い程小さい値となる。例えば、基準文字列をそれぞれ含む複数の解説テキストが同じ解説部CCに分類されている場合には、解説部CCにおいて先の位置に格納された解説テキストの評価値程小さい値となる。再配置コンテンツテキストデータの解説部CCに分類された解説テキストは、例えば、見出語の一般的な意味内容若しくは見出語の使用頻度の高い意味内容を解説する解説テキスト程先の位置に格納されており、通常、ユーザは、一般的な解説を行う若しくは使用頻度の高いテキストの表示を所望することが多いためである。つまり、解説部CCにおいて先の位置に格納された解説テキスト程ユーザが所望するテキストである可能性が高いと考えられるためである。このときには、その解説部CCのうち、特定部位を含む解説テキストの特定部位を含む所定の文字数の文字列を特定テキストと呼ぶ。
また、検索キーワードが一つであり、特定部位が用例部CXであった場合の出力優先度(Estidxid,2)は、以下の式(4)を用いて算出する。
Figure 2013161371
なお、PosStidxid,example,expidは、特定見出部idxidに対応する用例部CXにおける、基準文字列を含む用例テキスト(用例番号expidとする)の開始位置である。
なお、検索部140は、PosStidxid,example,expidは、次の手順で取得する。
まず、ステップS23で取得した用例開始位置情報格納アドレスに基づいて、図9に示したファイル名が「example.idx」のEPファイル(つまり、用例開始位置情報ファイル)から用例開始位置情報を参照して求める。さらに、用例番号用例開始位置情報に含まれる用例部開始位置からの差分を表す情報の内で、算出された用例部CXの開始位置と、処理対象となる特定出現位置と、の差分以下であり、かつ最大の差分を求める。
次に、検索部140は、検索した差分を表す情報が用例開始位置情報において何番目の情報であるかを上記差分用の所定バイト数に基づいて特定し、特定した番号を用例番号とする。
その後、求めた差分を、特定見出部に対応した用例部CXの開始位置に加算することで、特定した用例番号の用例テキストの開始位置(PosStidxid,example,expid)を算出する。
数式(4)で算出される評価値は、基準文字列の特定出現位置が、用例テキストの開始位置に近い程小さい値となる。例えば、基準文字列をそれぞれ含む複数の解説テキストが同じ用例部CXに分類されている場合には、用例部CXにおける格納位置が先であるか後であるかではなく、用例テキストにおいて基準文字列「while」が使用される位置が先である程評価値が小さい値となる。通常、例えば、検索キーワードである基準文字列「while」の一般的な使用例若しくは使用頻度の高い使用例を表す用例テキスト程先の位置で基準文字列「while」を使用することが多いからである。また、通常、ユーザは、一般的な使用例を表すテキスト若しくは使用頻度の高いテキストの表示を所望することが多いためである。つまり、先の位置に基準文字列「while」が格納された用例テキスト程ユーザが所望するテキストである可能性が高いと考えられるためである。このときには、この用例テキストのうち特定部位を含む所定の長さの文字列を特定テキストと呼ぶ。すなわち、特定テキストとは、検索ヒット部位を含む、検索結果として表示されるべきテキストである。特定テキストは、上記説明に限らず、自由に設定された設定情報に基づき検索結果をふくむテキストから抽出されるとしてもよい。
そして、ステップS23で全ての出現位置について評価値を算出すると、決定部160が、特定テキストのカテゴリ毎に、算出した特定テキストの評価値に基づき、1又は複数の特定テキストの表示順位を決定する(ステップS24)。本実施形態では、決定部160は、特定テキストの評価値が小さい特定テキストの表示順位程、先に表示される順位に決定する。
その後、出力部170が、カテゴリ毎に、決定された表示順位で1又は複数の特定テキストを表示する、図7に示すような検索結果表示画面を表す信号を表示部180へ出力する(ステップS25)。そして、単一文字列検索処理の実行を終了する。尚、表示部180は、出力された信号に基づいて検索結果表示画面を表する。
次に、ステップS19で実行される複数文字列検索処理について、図16を参照して説明する。
複数文字列検索処理では、まず本検索部1420が図12のステップS12で生成した、基準文字列のNグラムを取得する(ステップS51)。
そして、基準文字列の再配置CTDにおける出現位置を全て取得する処理(出現位置取得処理、図15)を実行する(ステップS52)。
さらに、図12のS18で定められた検証文字列の一つについて、図12のステップS12で生成した、基準文字列のNグラムを取得する(ステップS53)。
そして、検証文字列の再配置CTDにおける出現位置を全て取得する処理(出現位置取得処理、図15)を実行する(ステップS54)。
ある検証文字列の出現位置を全て取得すると、未処理の検証文字列があるか判別する(ステップS55)。未処理の検証文字列が有る場合(ステップS55;No)、次の未処理の検証文字列について、ステップS53から処理を繰り返す。
一方、全ての検証文字列について出現位置を取得している場合(ステップS55;Yes)、次にステップS52で取得した基準文字列の出現位置の一つを、注目出現位置として選択する(ステップS56)。
そして、注目出現位置から所定の範囲に、すべての検証文字列が存在するか、ステップS54で取得した検証文字列の出現位置に基づいて判別する(ステップS57)。ここで、所定の範囲とは、注目出現部位が、ある見出番号の見出部CEに有る場合は、その見出部全体を言う。また、解説部CCに有る場合は、その解説部CC全体の中で、所定の文字数の範囲を言う。また、用例部CXに有る場合は、その注目出現部位が属する用例テキスト(図5(b)の用例テキスト11、用例テキスト12、等のそれぞれ)が占める範囲を言う。
なお、この「所定の範囲」はこれに限らず、自由に設定可能である。また、ユーザ操作等により設定変更することが出来るとしても良い。
注目出現位置から所定の範囲に、すべての検証文字列が存在しない場合(ステップS57;No)、その注目出現部位は複数の検索キーワードに対する検索(AND検索)のヒット部位では無いとの判断のもと、注目出現部位を検索結果から排除する(ステップS58)。
一方、注目出現位置から所定の範囲に、すべての検証文字列が存在する場合(ステップS57;Yes)、注目出現部位を検索ヒット部位とする(ステップS59)。そして、その注目出現部位について評価値を算出する(ステップS60)。
ここで、本処理における評価値の算出方法を説明する。まず、算出部150が図13の決定方法テーブルを参照して、注目出現部位のカテゴリと、検索キーワードの単語数に合致する順位決定方法(算出方法)を取得する。
注目出現部位が見出部CEに位置する場合には、算出部150は、図13に示す決定方法テーブルから、検索キーワードが「複数」であることを表す情報と、特定カテゴリ「見出部」を表す情報と、に対応付けられた順位決定方法「数式5」を表す情報を取得する。
次に、算出部150は、基準文字列と、各検証文字列の文字数を取得する。次に、そして、各数値を以下の数式(5)に代入して、注目出現部位の特定テキストの評価値を算出する。
Figure 2013161371
ここで、数式(5)で算出される基準文字列とk番目の検証文字列との距離について、基準文字列を「while」とし、1番目の検証文字列を「for」とした例を用いて説明する。図17(a)に示すように、基準文字列「while」の特定出現位置が、1番目の検証文字列「for」の特定出現位置よりも先である場合には、基準文字列「while」と1番目の検証文字列「for」との距離は、基準文字列「while」の先頭から検証文字列の末尾までの距離を表す。これに対して、図17(b)に示すように、基準文字列「while」の特定出現位置が、1番目の検証文字列「for」の特定出現位置よりも後である場合には、基準文字列「while」と1番目の検証文字列「for」との距離は、検証文字列「for」の先頭から基準文字列「while」の末尾まで距離を表す。
次に、数式(5)で算出される上限値maxPos及び下限値minPos並びにこれらを用いて算出される検索キーワード間距離(入力順を考慮しない場合)について、基準文字列「while」と1番目の検証文字列「for」と2番目の検証文字列「a」とを具体例として挙げて説明を行う。図18に示すように、上限値maxPos及び下限値minPosは、基準文字列と、基準文字列「while」との距離を最小とする1番目の検証文字列「for」と、基準文字列「while」との距離を最小とする2番目の検証文字列「a」と、基準文字列「while」、1番目の検証文字列「for」、及び2番目の検証文字列「a」の全てを含む最小の範囲(以下、最小包含範囲という)の下限値及び上限値である。また、検索キーワード間距離(入力順を考慮しない場合)は、当該下限値minPosと上限値maxPosとの差異である。
このため、数式(5)で算出される評価値は、最小包含範囲に含まれる文字列が、入力された検索キーワードのみである場合に最小値となる。また、検索キーワードの全てがより狭い最小包含範囲に含まれている程(つまり、検索キーワードのいずれかの使用が開始される位置が、全ての検索キーワードの使用が終了される位置により近い程)算出される評価値が小さい値となる。例えば、入力された複数の検索キーワードが「for」、「a」、及び「while」である場合には、「for a while」を含む用例テキストの評価値の方が、「for a brief while」を含む用例テキストの評価値よりも小さい値となる。また、「for a brief while」を含む用例テキストの評価値の方が、「for a job while」を含む「This will allow you to look 『for a job while』 you are working at a part-time job」というテキストの評価値よりも小さい値となる。つまり、通常、ユーザは、検索キーワードのみで構成されるイディオムの使用例を表す用例テキストの表示を所望することが多いからであり、かつ検索キーワード以外の文字列を多く含む用例テキストよりも検索キーワード以外の文字を少なく含む用例テキストの表示を所望するからである。また、入力された複数の検索キーワードの間に文字が多く使用されている用例テキスト程、入力された複数の検索キーワードで構成されるイディオムとは異なるイディオムの使用例を表すことが多いためである。
また、特定テキストの特定カテゴリが解説部CCである場合には、算出部150は、決定方法テーブルから、検索キーワードが「複数」であることを表す情報と、特定カテゴリ「解説部」を表す情報と、に対応付けられた順位決定方法「数式6」を表す情報を取得する。
次に、算出部150は、数式(5)を用いて評価値を算出する場合と同様に、検索キーワード間距離及び下限値minPosを算出する。また、算出部150は、数式(3)を用いて評価値を算出する場合と同様に、特定見出部に対応する解説部CCの開始位置を算出する。その後、算出部150は、検索キーワード間距離及び下限値minPosと解説部CCの開始位置Posidxid,comentaryとを、以下の数式(6)に用いて特定テキストの評価値を算出する。
Figure 2013161371
数式(6)で算出される評価値は、検索キーワード間距離(入力順を考慮しない場合)が同じ解説テキストであれば、検索キーワードを包含する最小包含範囲の下限値minPosが解説部CCの開始位置に近い程小さい値となる。また、数式(6)で算出される評価値は、下限値minPosと解説部CCの開始位置との距離が同じ解説テキストであれば、検索キーワード間距離(入力順を考慮しない場合)が短い程小さい値となる。
次に、特定テキストの特定カテゴリが用例部CXである場合には、決定方法テーブルから、検索キーワードが「複数」であることを表す情報と、特定カテゴリ「用例部」を表す情報と、に対応付けられた順位決定方法「数式7」を表す情報を取得する。
この場合、数式(5)を用いて評価値を算出する場合と同様に、検索キーワード間距離及び下限値minPosを算出し、数式(6)を用いて評価値を算出する場合と同様に、用例テキストの開始位置を算出する。その後、算出部150は、検索キーワード間距離及び下限値minPosと用例テキストの開始位置Posidxid、example,expidとを、以下の数式(7)に用いて特定テキストの評価値を算出する。
Figure 2013161371
数式(7)で算出される評価値は、同じ並び順の複数の検索キーワードの検索キーワード間距離(入力順を考慮しない場合)が同じであれば、下限値minPosが用例テキストの開始位置に近い程小さい値となり、下限値minPosと用例テキストの開始位置との距離が同じ解説テキストであれば、検索キーワード間距離(入力順を考慮しない場合)が短い程小さい値となる。
以上のようにして注目出現部位の特定テキストについて評価値を算出すると、次に、S52で求めた基準文字列の出現位置の全ての出現位置を注目出現位置として上記処理を実行したかしたか否かを判別する(ステップS61)。未処理の出現位置が残っている場合(ステップS61;No)、次の未処理の出現位置についてステップS56から処理を繰り返す。
一方、全ての出現位置について上記処理済みであった場合(ステップS61;Yes)、決定部160が、カテゴリ毎に、ステップS60で算出された評価値に基づき、1又は複数の特定テキストの表示順位を決定する(ステップS62)。本実施形態では、決定部160は、特定テキストの評価値が小さい特定テキストの表示順位程、先に表示される順位に決定する。
その後、出力部170が、カテゴリ毎に、決定された表示順位で1又は複数の特定テキストを表示する、検索結果表示画面を表す信号を表示部180へ出力する(ステップS63)。そして、単一文字列検索処理の実行を終了する。尚、表示部180は、出力された信号に基づいて検索結果表示画面を表する。
以上説明したとおり、本実施形態のテキスト検索装置によれば、前方一致検索とその他の検索(部分一致検索)とを、一つの索引(転置インデックス)を用いて実行することが出来る。そのため、ユーザに対して前方一致検索と部分一致検索の結果を提示できる、ユーザの利便性の高いテキスト検索機能を、少ない必要記憶容量で実現できる。
また、式(1)の評価値や、先頭マークを含めた検索により、部分一致検索用の索引情報を用いて、検索キーワードが前方一致検索の対象となるテキストの先頭にある文字列を特定する手段(特定手段)を実現している。このため、利便性の高いテキスト検索機能を実現するために必要な計算量の増加が少ない。
例えば、先頭マークを含める検索により、先頭にある文字列を特定することにより、先頭マークを含めない場合よりも検索ヒット候補を抑えることが出来、計算量が少なくてすむ。
また、本実施形態では、ユーザがキーワードを一文字ずつ入力している場合に前方一致検索(インクリメント検索)を実施し、検索キーワードを確定するとより詳細かつ表示される検索結果が多い部分一致検索を実施する。このように、ユーザが必要とする検索結果を、キーワード入力中とキーワード確定後といった状況に合わせて提示することが出来る。
(変形例)
以上、本発明の実施形態1について説明したが、本発明の実施形態はこれに限られない。
例えば、上記実施形態1では、先頭マークは半角スペースであるとしたが、先頭マークはこれに限られず自由に選択可能である。例えば、先頭マークはシステムに予約されたユニークなマーク(その他で前方一致検索の対象となるテキストに現れないマーク)であってよい。このような場合、ユニークな先頭マークを挿入した転置インデックスを用いて、先頭マークを挿入した検索キーワードを検索すれば、検索ヒット部位は必ず対象となる文字列の先頭である。そのため、この場合には検索ヒット部位(特定部位)が前方一致検索の対象となるテキストの先頭であるかを、先頭を示すアドレスと特定部位とを比較して評価する必要はない。具体的には、図11のステップS312で評価値を算出し、ステップS313での判別処理に反映する必要は無い。このような構成によれば、少ない必要計算量で前方一致検索と部分一致検索を実現できる。
一方、前方一致検索において、先頭を示すアドレスと検索ヒット部位(特定部位)とを比較して評価する場合、転置インデックスに先頭マークが含まれておらず、検索キーワードの先頭に先頭マークを挿入しなくても、転置インデックスを用いて前方一致検索を実行することが出来る。この場合は、転置インデックスが外部サーバにあり、先頭マークを含んでいない一般的なものであった場合でも、その転置インデックスを用いて前方一致検索と部分一致検索とを実行することが出来る。
また、実施形態1では再配置CTD及び転置インデックスを生成する処理(データ等生成処理)をテキスト検索装置100が実行するとしたが、これに限らず、予め外部装置が生成した再配置CTD及び転置インデックスを記憶部に記憶していることで足りる。例えば、工場出荷時において、各辞書データに対応する再配置CTDと転置インデックスとを記憶するとしても良い。
尚、実施形態1およびその変形例において、電子辞書は、電子辞典をも含む。つまり、電子辞書は、国語辞典、英和辞典、和英辞典、及び百科事典であっても良い。また、本発明では、テキスト検索装置100は、検索キーワードに基づいて辞書を検索するとして説明したが、検索の対象とされる文書は、辞書に限定される訳ではなく、複数のカテゴリに分類されたテキストで構成される文書であれば、どのような文書でも良い。また、インクリメント検索(前方一致検索)と、全文検索(部分一致検索)における具体的な方法、特に順位付けの方法については、任意に設定可能である。
検索の対象とされる文書は、例えば、「発明の名称」及び「特許請求の範囲」などのカテゴリにそれぞれ分類されたテキストで構成される特許明細書であっても良い。このとき、インクリメント検索の対処を、発明の名称とし、全文を本検索の対象とすることが考えられる。
また、検索の対象とされる文書は、例えば、ある製品が有する機能の名称を表すテキストが分類されるカテゴリ(以下、機能名カテゴリという)と、当該機能を利用するための操作方法を表すテキストが分類されるカテゴリ(以下、操作方法カテゴリという)とを有する説明書であっても良い。このとき、製品名と、カテゴリと、をインクリメント検索の対象とし、全文を本検索の対象とうすることが考えられる。
尚、本実施形態において、検索キーワードの検索方法は、Nグラム検索を用いるとして説明したが、検索キーワードの検索方法は、これに限定される訳でない。
尚、本発明は、実施形態1、若しくはその変形例に係るテキスト検索装置100として提供できることはもとより、プログラムの適用により、既存のテキスト検索装置をテキスト検索装置100として機能させることもできる。すなわち、テキスト検索装置100による各機能構成を実現させるためのテキスト検索プログラムを、既存のテキスト検索装置を制御するコンピュータ(CPUなど)が実行できるように適用することで、実施形態1、若しくは変形例に係るテキスト検索装置100として機能させることができる。
このようなプログラムの配布方法は任意であり、例えば、メモリカード、CD−ROM、又はDVD−ROMなどの記録媒体に格納して配布できる他、インタネットなどの通信媒体を介して配布することもできる。また、再配置CTD及び転置インデックス等の上記処理に必要なデータの一部又は全部は、外部サーバに記憶されており、通信機能によりこれらのデータを取得して上記処理を実行する構成も可能である。
また、本発明は、本発明の広義の精神と範囲を逸脱することなく、様々な実施形態及び変形が可能とされるものである。つまり、本発明のいくつかの実施形態を説明したが、上述した実施形態は本発明を説明するためのものであり、本発明の範囲を限定するものではない。本発明の範囲は、実施形態ではなく、特許請求の範囲に記載された発明とその均等の範囲を含む。
以下に本願出願の当初の特許請求の範囲に記載された発明を付記する。
(付記1)
複数の文書カテゴリから構成される検索対象となる文書に含まれる文字列と、当該文字列の前記文書における出現位置と、を対応づけた索引情報を記憶する記憶手段と、
検索キーワードを取得する取得手段と、
前記文書のうち前方一致検索の対象となるカテゴリに属する文字列から、前記検索キーワードから始まる文字列を、前記索引情報を用いて検索する前方一致検索手段と、
前記索引情報を用いて、前記文書から前記検索キーワードを含む文字列を検索する部分一致検索手段と、
前記前方一致検索手段が検索した結果を示す情報と、前記部分一致検索手段が検索した結果を示す情報と、を出力する出力手段と、
を備えることを特徴とするテキスト検索装置。
(付記2)
前記前方一致検索手段は、前記索引情報を用いて、前記検索キーワードが前記前方一致検索の対象となるカテゴリに属する文字列のうち、当該検索キーワードが先頭にある文字列を特定して、前記検索キーワードから始まる文字列を検索する、
ことを特徴とする付記1に記載のテキスト検索装置。
(付記3)
前記記憶手段は、前記前方一致検索の対象となるカテゴリに属する文字列の先頭に、先頭であることを示すマークである先頭マークを挿入した上で、当該文字列を前記索引情報を記憶し、
前記前方一致検索手段は、前記取得手段が取得した検索キーワードの先頭に前記先頭マークを挿入して、当該先頭マークを含む検索キーワードを、前記先頭マークを挿入した文字列を含む索引情報を用いて前記文書を検索することにより、前記検索キーワードが先頭にある文字列を特定する、
ことを特徴とする付記2に記載のテキスト検索装置。
(付記4)
前記索引情報は、前記前方一致検索の対象となるカテゴリに属する各文字列の先頭の位置を示す先頭情報をさらに含み、
前記前方一致検索手段は、前記索引情報を用いて前記検索キーワードの位置を特定し、当該特定した位置と、前記索引情報の先頭情報が示す位置と、を比較して前記検索キーワードが先頭にある文字列を特定する、
ことを特徴とする付記2又は3に記載のテキスト検索装置。
(付記5)
検索キーワードを一字ずつ入力するユーザの操作と、検索キーワードを確定するユーザの操作と、を受け付ける操作受付手段を更に備え、
前記取得手段は、
前記操作受付手段が検索キーワードを入力する操作を受け付ける度に、当該操作が示す文字をそれまで受け付けた操作が示す文字又は文字列に加えて、前記前方一致検索手段が検索する検索キーワードとして取得し、
前記操作受付手段が前記検索キーワードを確定するユーザの操作を受け付けると、当該確定された検索キーワードを、前記部分一致検索手段が検索する検索キーワードとして取得する、
ことを特徴とする付記1乃至4の何れか一つに記載のテキスト検索装置。
(付記6)
コンピュータに、
複数の文書カテゴリから構成される検索対象となる文書に含まれる文字列と、当該文字列の前記文書における出現位置と、を対応づけた索引情報を取得する処理、
検索キーワードを取得する処理、
前記文書のうち前方一致検索の対象となるカテゴリに属する文字列から、前記検索キーワードから始まる文字列を、前記索引情報を用いて検索する処理、
前記索引情報を用いて、前記文書のうち前記検索キーワードを含む文字列を検索する処理、
前記検索した結果を示す情報を出力する処理、
を実行させることを特徴とするプログラム。
100・・・テキスト検索装置、100a・・・CPU、100b・・・ROM、100c・・・RAM、100d・・・ハードディスク、100e・・・メディアコントローラ、100g・・・ビデオカード、100h・・・LCD、100i・・・キーボード、100j・・・スピーカ、110・・・情報記憶部、120・・・生成部、130・・・取得部、140・・・検索部、1410・・・インクリメント検索部、1420・・・本検索部、150・・・算出部、160・・・決定部、170・・・出力部、180・・・表示部

Claims (6)

  1. 複数の文書カテゴリから構成される検索対象となる文書に含まれる文字列と、当該文字列の前記文書における出現位置と、を対応づけた索引情報を記憶する記憶手段と、
    検索キーワードを取得する取得手段と、
    前記文書のうち前方一致検索の対象となるカテゴリに属する文字列から、前記検索キーワードから始まる文字列を、前記索引情報を用いて検索する前方一致検索手段と、
    前記索引情報を用いて、前記文書から前記検索キーワードを含む文字列を検索する部分一致検索手段と、
    前記前方一致検索手段が検索した結果を示す情報と、前記部分一致検索手段が検索した結果を示す情報と、を出力する出力手段と、
    を備えることを特徴とするテキスト検索装置。
  2. 前記前方一致検索手段は、前記索引情報を用いて、前記検索キーワードが前記前方一致検索の対象となるカテゴリに属する文字列のうち、当該検索キーワードが先頭にある文字列を特定して、前記検索キーワードから始まる文字列を検索する、
    ことを特徴とする請求項1に記載のテキスト検索装置。
  3. 前記記憶手段は、前記前方一致検索の対象となるカテゴリに属する文字列の先頭に、先頭であることを示すマークである先頭マークを挿入した上で、当該文字列を前記索引情報を記憶し、
    前記前方一致検索手段は、前記取得手段が取得した検索キーワードの先頭に前記先頭マークを挿入して、当該先頭マークを含む検索キーワードを、前記先頭マークを挿入した文字列を含む索引情報を用いて前記文書を検索することにより、前記検索キーワードが先頭にある文字列を特定する、
    ことを特徴とする請求項2に記載のテキスト検索装置。
  4. 前記索引情報は、前記前方一致検索の対象となるカテゴリに属する各文字列の先頭の位置を示す先頭情報をさらに含み、
    前記前方一致検索手段は、前記索引情報を用いて前記検索キーワードの位置を特定し、当該特定した位置と、前記索引情報の先頭情報が示す位置と、を比較して前記検索キーワードが先頭にある文字列を特定する、
    ことを特徴とする請求項2又は3に記載のテキスト検索装置。
  5. 検索キーワードを一字ずつ入力するユーザの操作と、検索キーワードを確定するユーザの操作と、を受け付ける操作受付手段を更に備え、
    前記取得手段は、
    前記操作受付手段が検索キーワードを入力する操作を受け付ける度に、当該操作が示す文字をそれまで受け付けた操作が示す文字又は文字列に加えて、前記前方一致検索手段が検索する検索キーワードとして取得し、
    前記操作受付手段が前記検索キーワードを確定するユーザの操作を受け付けると、当該確定された検索キーワードを、前記部分一致検索手段が検索する検索キーワードとして取得する、
    ことを特徴とする請求項1乃至4の何れか一項に記載のテキスト検索装置。
  6. コンピュータに、
    複数の文書カテゴリから構成される検索対象となる文書に含まれる文字列と、当該文字列の前記文書における出現位置と、を対応づけた索引情報を取得する処理、
    検索キーワードを取得する処理、
    前記文書のうち前方一致検索の対象となるカテゴリに属する文字列から、前記検索キーワードから始まる文字列を、前記索引情報を用いて検索する処理、
    前記索引情報を用いて、前記文書のうち前記検索キーワードを含む文字列を検索する処理、
    前記検索した結果を示す情報を出力する処理、
    を実行させることを特徴とするプログラム。
JP2012024491A 2012-02-07 2012-02-07 テキスト検索装置及びプログラム Active JP5910134B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012024491A JP5910134B2 (ja) 2012-02-07 2012-02-07 テキスト検索装置及びプログラム
US13/734,174 US8996571B2 (en) 2012-02-07 2013-01-04 Text search apparatus and text search method
CN201310049022.2A CN103257995B (zh) 2012-02-07 2013-02-07 文本检索装置以及文本检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012024491A JP5910134B2 (ja) 2012-02-07 2012-02-07 テキスト検索装置及びプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2016050358A Division JP6447549B2 (ja) 2016-03-15 2016-03-15 テキスト検索装置、テキスト検索方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2013161371A true JP2013161371A (ja) 2013-08-19
JP5910134B2 JP5910134B2 (ja) 2016-04-27

Family

ID=48903842

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012024491A Active JP5910134B2 (ja) 2012-02-07 2012-02-07 テキスト検索装置及びプログラム

Country Status (3)

Country Link
US (1) US8996571B2 (ja)
JP (1) JP5910134B2 (ja)
CN (1) CN103257995B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016177395A (ja) * 2015-03-19 2016-10-06 アイシン・エィ・ダブリュ株式会社 文字入力システム、方法およびプログラム

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6135331B2 (ja) * 2013-06-27 2017-05-31 カシオ計算機株式会社 電子機器、プログラム、および、検索システム、検索方法
CN104424255B (zh) * 2013-08-28 2019-02-01 阿尔派株式会社 检索装置及检索方法
WO2016082094A1 (en) 2014-11-25 2016-06-02 Yahoo! Inc. Method and system for providing a user agent string database
US11120004B2 (en) * 2014-11-25 2021-09-14 Verizon Media Inc. Method and system for analyzing a user agent string
CN110471888A (zh) * 2018-05-09 2019-11-19 株式会社日立制作所 一种自动收集数据的方法、装置、介质、设备及系统
CN110674249B (zh) * 2019-09-29 2020-10-20 北京幻想纵横网络技术有限公司 一种信息处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08241332A (ja) * 1995-03-02 1996-09-17 Fuji Xerox Co Ltd 全文登録語検索装置および方法
JPH08314948A (ja) * 1995-05-23 1996-11-29 Matsushita Electric Ind Co Ltd 情報検索装置
JP2002269139A (ja) * 2001-03-08 2002-09-20 Ricoh Co Ltd 文書検索方法
JP2011107986A (ja) * 2009-11-17 2011-06-02 Casio Computer Co Ltd 辞書機能を備えた電子機器およびプログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3160201B2 (ja) * 1996-03-25 2001-04-25 インターナショナル・ビジネス・マシーンズ・コーポレ−ション 情報検索方法、情報検索装置
JPH1049549A (ja) 1996-05-29 1998-02-20 Matsushita Electric Ind Co Ltd 文書検索装置
US6772150B1 (en) * 1999-12-10 2004-08-03 Amazon.Com, Inc. Search query refinement using related search phrases
JP2003006216A (ja) * 2001-06-26 2003-01-10 Sony Corp 情報処理装置および情報処理方法、記録媒体、プログラム、並びに電子出版用データ提供システム
US7496559B2 (en) * 2002-09-03 2009-02-24 X1 Technologies, Inc. Apparatus and methods for locating data
CN1300718C (zh) * 2002-10-31 2007-02-14 卡西欧计算机株式会社 信息显示装置和信息显示处理程序
JP2005043977A (ja) * 2003-07-23 2005-02-17 Hitachi Ltd 文書間の類似度算出方法および装置
US7836044B2 (en) * 2004-06-22 2010-11-16 Google Inc. Anticipated query generation and processing in a search engine
US7487145B1 (en) * 2004-06-22 2009-02-03 Google Inc. Method and system for autocompletion using ranked results
US7516125B2 (en) * 2005-08-01 2009-04-07 Business Objects Americas Processor for fast contextual searching
JP2007272872A (ja) * 2006-03-08 2007-10-18 Ricoh Co Ltd 情報検索方法、情報検索装置、情報検索システム、及び情報検索プログラム
JP4861078B2 (ja) * 2006-06-30 2012-01-25 富士通株式会社 索引作成プログラム、索引作成装置および索引作成方法
US8504553B2 (en) * 2007-04-19 2013-08-06 Barnesandnoble.Com Llc Unstructured and semistructured document processing and searching
CN102073639A (zh) * 2009-11-20 2011-05-25 英业达股份有限公司 使用者输入与查询的辅助系统及其方法
CN102156724A (zh) * 2011-03-31 2011-08-17 北京百度网讯科技有限公司 一种用于对查询片段进行后缀匹配的方法与设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08241332A (ja) * 1995-03-02 1996-09-17 Fuji Xerox Co Ltd 全文登録語検索装置および方法
JPH08314948A (ja) * 1995-05-23 1996-11-29 Matsushita Electric Ind Co Ltd 情報検索装置
JP2002269139A (ja) * 2001-03-08 2002-09-20 Ricoh Co Ltd 文書検索方法
JP2011107986A (ja) * 2009-11-17 2011-06-02 Casio Computer Co Ltd 辞書機能を備えた電子機器およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016177395A (ja) * 2015-03-19 2016-10-06 アイシン・エィ・ダブリュ株式会社 文字入力システム、方法およびプログラム

Also Published As

Publication number Publication date
JP5910134B2 (ja) 2016-04-27
CN103257995A (zh) 2013-08-21
CN103257995B (zh) 2016-08-03
US8996571B2 (en) 2015-03-31
US20130204898A1 (en) 2013-08-08

Similar Documents

Publication Publication Date Title
JP5910134B2 (ja) テキスト検索装置及びプログラム
US7752032B2 (en) Apparatus and method for translating Japanese into Chinese using a thesaurus and similarity measurements, and computer program therefor
JP5900367B2 (ja) 検索装置、検索方法及びプログラム
JP5737079B2 (ja) テキスト検索装置、テキスト検索プログラム、及びテキスト検索方法
JP2006072744A (ja) 文書処理装置、その制御方法、プログラム、及び記憶媒体
CN114297143A (zh) 一种搜索文件的方法、显示文件的方法、装置及移动终端
JP5204203B2 (ja) 用例翻訳システム、用例翻訳方法及び用例翻訳プログラム
JP6447549B2 (ja) テキスト検索装置、テキスト検索方法及びプログラム
JPH0844771A (ja) 情報検索装置
JP5733285B2 (ja) 検索装置、検索方法及びプログラム
JP4813312B2 (ja) 電子文書検索方法、電子文書検索装置及びプログラム
JP4301879B2 (ja) 抄録作成支援システム及び特許文献検索システム
JP2009104475A (ja) 類似文書検索装置、類似文書検索方法およびプログラム
JP5326781B2 (ja) 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム
JP6668855B2 (ja) 検索装置、検索方法及びプログラム
JP2003108582A (ja) 類義語抽出方法および文書検索装置
JP2004152041A (ja) 重要語句抽出装置、プログラムおよび記録媒体
JP5292873B2 (ja) 文書検索方法、文書検索装置、文書検索プログラムを記録した記録媒体
JPH09231234A (ja) 文書検索装置
CN112528635A (zh) 检索装置、检索方法、及记录介质
JP2005234635A (ja) 文書要約装置および方法
JP2006146578A (ja) 検索装置、検索方法、及びプログラム
JP2003006229A (ja) 文書検索システム、文書検索方法及びその方法を実行させるためのプログラム
JP2013058230A (ja) 文書検索方法、文書検索装置、文書検索プログラムを記録した記録媒体
JPH10307849A (ja) 検索用のキーワードの決定方法及び装置、文書検索装置、記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150202

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160314

R150 Certificate of patent or registration of utility model

Ref document number: 5910134

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150