JP6737117B2 - 符号化データ検索プログラム、符号化データ検索方法および符号化データ検索装置 - Google Patents

符号化データ検索プログラム、符号化データ検索方法および符号化データ検索装置 Download PDF

Info

Publication number
JP6737117B2
JP6737117B2 JP2016198914A JP2016198914A JP6737117B2 JP 6737117 B2 JP6737117 B2 JP 6737117B2 JP 2016198914 A JP2016198914 A JP 2016198914A JP 2016198914 A JP2016198914 A JP 2016198914A JP 6737117 B2 JP6737117 B2 JP 6737117B2
Authority
JP
Japan
Prior art keywords
code
automaton
word
search
basic form
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016198914A
Other languages
English (en)
Other versions
JP2018060443A (ja
Inventor
片岡 正弘
正弘 片岡
賢一 川久保
賢一 川久保
昭次 岩本
昭次 岩本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2016198914A priority Critical patent/JP6737117B2/ja
Priority to US15/705,917 priority patent/US10942934B2/en
Publication of JP2018060443A publication Critical patent/JP2018060443A/ja
Application granted granted Critical
Publication of JP6737117B2 publication Critical patent/JP6737117B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、符号化データ検索プログラム等に関する。
従来の符号化技術においては、文書をコード化する場合に、静的辞書および動的辞書を用いる符号化技術がある。例えば、静的辞書は、単語と、この単語の出現頻度に応じた符号長の静的符号とを対応付ける辞書である。動的辞書は、文書に複数回出現する文字列と動的符号とを対応付ける辞書である。従来の符号化技術では、静的辞書にヒットした単語については、静的辞書の静的符号(コード)に置換し、静的辞書にヒットせず、複数回登場する文字列については、動的辞書にかかる文字列を登録し、動的符号(コード)を文字列に割り当てる。
ここで、符号化技術によってコード化された文書から、復号化することなく、所定の単語が文書に含まれているか否かを検索することで、検索効率を向上させることが望まれている。従来技術では、例えば、コード化された文書から検索対象の単語を検索する場合には、検索対象の単語と静的辞書(または動的辞書)とを比較することで、検索対象の単語のコードを特定する。そして、従来技術では、特定したコードと、コード化された文書とを比較することで、検索対象の単語を検索する。
国際公開第2014/147672号 特開平11−143893号公報 特開昭60−222960号公報 米国特許出願公開第2016/0006456号明細書
しかしながら、上述した従来技術では、類義語検索を行う場合に、基本形の検索と同様に、一走査で検索することができないという問題がある。
例えば、文書中の単語を検索する場合には、表記ゆれを含めた検索を行う場合がしばしば発生する。ここで、文書をコード化する場合に、単語の表記ゆれを統制することができれば検索は容易となるが、単語の表記ゆれを完全に統制することは難しく、表記ゆれがコード化された文書中に残ってしまう場合がある。
このため、コード化された文書を単語単位で検索する場合には、表記ゆれに対応した、複数の符号の検索を行うことになる。例えば、単語「振込」を検索する場合には、「振込」に加え、「振り込み」、「振込み」、「ふり込み」、「振りこみ」、「ふりこみ」についても、それぞれ、検索することになり、一走査で検索することができない。
また、ある英単語を検索する場合にも、検索対象となる英単語だけでなく、英単語の語形変化を考慮した検索を行う場合もある。例えば、「go」を検索する場合には、基本形の「go」に加え、語形変化した「goes」、「went」、「gone」「going」についても、それぞれ検索することになる。
上記のように、検索対象となる単語の表記ゆれや、語形変化を考慮した検索処理を行う場合には、各表記ゆれや語形変化に関連する単語の数に応じて、検索時間を要してしまう。
1つの側面では、本発明は、類義語検索を行う際の走査数を抑制して検索を行うことができる符号化データ検索プログラム、符号化データ検索方法および符号化データ検索装置を提供することを目的とする。
第1の案では、コンピュータに下記の処理を実行させる。コンピュータは、符号化文書に対する検索文字列を受け付ける。コンピュータは、複数の単語について、符号化文書の符号化規則による単語の符号化データと単語の基本形と基本形に関連する関連単語とを対応付けた関連情報を参照する。コンピュータは、検索文字列の基本形、および、基本形の関連単語に関する複数の符号を取得する。コンピュータは、複数の符号を検索対象に設定したオートマトンを利用して、符号化文書に対する検索を行う。
符号のレベルで類義語の関連付けを行うことにより、類義語検索を行う場合であっても、基本形の検索と同様に、一走査で検索を行うことができる。
図1は、本実施例に係るデータ検索装置の処理を説明するための図である。 図2は、本実施例に係る符号化装置の構成を示す機能ブロック図である。 図3は、テキストファイルのデータ構造の一例を示す図である。 図4は、静的辞書情報のデータ構造の一例を示す図である。 図5は、動的辞書情報のデータ構造の一例を示す図である。 図6は、コード化テキストファイルのデータ構造の一例を示す図である。 図7は、動的符号化部の処理の一例を説明するための図である。 図8は、本実施例に係るデータ検索装置の構成を示す機能ブロック図である。 図9は、第1オートマトンのデータ構造の一例を示す図である。 図10は、第2オートマトンのデータ構造の一例を示す図である。 図11は、第3オートマトンのデータ構造の一例を示す図である。 図12は、本実施例に係るデータ検索装置の処理手順を示すフローチャートである。 図13は、コンピュータのハードウェア構成例を示す図である。 図14は、コンピュータで動作するプログラムの構成例を示す図である。 図15は、実施形態のシステムにおける装置の構成例を示す図である。
以下に、本願の開示する符号化データ検索プログラム、符号化データ検索方法および符号化データ検索装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
図1は、本実施例に係るデータ検索装置の処理を説明するための図である。データ検索装置は、符号化データ検索装置の一例である。図1に示すように、データ検索装置は、検索対象となる検索文字列5の入力を受け付けと、後述するように、検索文字列5に関連する単語を、コード化されたテキストファイル10aから検索する処理を実行する。
データ検索装置の設定部150aは、静的辞書(または動的辞書)110bに含まれる関連情報50を参照し、検索文字列5の基本形単語のコードおよび基本形単語に関連する関連単語のコードを取得する。
関連情報50は、基本形単語と、関連単語とを対応付ける情報であり、基本形単語および関連単語のコードの情報も保持する。ここで、基本形単語は、単語の基本形に相当する単語であり、関連単語は、基本単語に関連する単語である。例えば、基本形単語を「go」とすると、関連単語は「goes、went、gone」となる。また、基本単語を「apple」とすると、関連単語は「apples」となる。
例えば、設定部150aは、検索文字列5として「accessories」を受け付けると、関連情報50との比較により、基本形単語「accessory」のコード「6034h」と、関連単語「accessories」のコード「6033h」を取得する。
設定部150aは、取得した複数のコードを検索対象としてオートマトン110に設定する。例えば、取得した複数のコードが、基本形単語「accessory」のコード「6034h」と、関連単語「accessories」のコード「6033h」であるすると、コード「6034h」およびコード「6033h」に対応する照合フラグを「オン」に設定する。
データ検索装置の検索処理部150bは、コード化されたテキストファイル10aを受け付けると、コード化されたままの状態で、テキストファイル10aと、オートマトン110とを比較し、検索文字列5に関連する単語を検索する。例えば、検索処理部150bは、テキストファイル10aのコードをオートマトン110に入力し、入力したコードが、照合フラグがオンとなるコードにヒットした場合には、ヒットしたコードが、検索文字列5に関連する単語であると判定する。検索文字列5に関連する単語は、検索文字列5の基本形単語および関連単語である。
検索処理部150bは、上記の処理を繰り返し実行することで、テキストファイル10aに存在する検索文字列5の基本形単語および関連単語のコードを特定し、特定したコードを強調表示した検索結果を出力する。
上記のように、本実施例に係るデータ検索装置は、検索文字列5の基本形単語および関連単語のコードを特定し、特定した各コードが照合対象となるように、オートマトン110の照合フラグを設定し、利用する。このため、類義語検索を行う場合であっても、基本形の検索と同様に、一走査で検索を行うことができる。
続いて、本実施例に係るデータ検索装置の構成の説明を行う前に、静的辞書および動的辞書を用いて、テキストファイルをコード化する符号化装置について説明する。
図2は、本実施例に係る符号化装置の構成を示す機能ブロック図である。図2に示すように、この符号化装置200は、記憶部210と、ファイルリード部220と、静的符号化部230と、動的符号化部240と、ファイルライト部250と、出力部260とを有する。
記憶部210は、テキストファイル210aと、静的辞書情報210bと、動的辞書情報210cと、コード化テキストファイル210dとを有する。例えば、記憶部210は、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子や、HDD(Hard Disk Drive)などの記憶装置に対応する。
テキストファイル210aは、コード化の対象となる文書の情報である。図3は、テキストファイルのデータ構造の一例を示す図である。例えば、図3に示すように、テキストファイル210aには、テキストの開始位置を示すSTXと、テキストの終了位置を示すETXが含まれる。テキストファイル210aには、STXに続いて、文書が格納されている。図3に示す例では、文書「She△has△many△accessories・・・」が格納される。文書に含まれる「△」は、スペースを示す記号である。
静的辞書情報210bは、単語と、この単語の出現頻度に応じた符号長の静的符号とを対応付ける辞書の情報である。図4は、静的辞書情報のデータ構造の一例を示す図である。図4に示すように、この静的辞書情報210bは、ビットフィルタC1と、静的辞書C2とを有する。
ビットフィルタC1は、2グラム、ビットマップ、ポインタ、英単語を含む。静的辞書C2は、英単語、静的コード、動的コード、基本コード、基本形コードを含む。
2グラムは、2文字の文字列(あるいは単語)を示す情報である。ビットマップは、2グラムの文字列に対応するビットマップを示す。例えば、「aa」に対応するビットマップは「0_0_0_0_0」となる。ポインタは、ビットマップに対応する英単語の位置を示すポインタである。
英単語は、例えば、静的辞書C2に登録された高頻度の単語である。静的コードは、英単語に割り当てられたコードである。静的辞書情報210bを用いた静的符号化は、英単語を、静的コードに変換する処理に対応する。例えば、出現頻度が高頻度となる単語には、静的コードが事前に割り当てられる。出現頻度が低頻度となる単語には、後述する動的符号化時において、動的コードが割り当てられる。
動的コードは、後述する動的辞書情報210cを用いた動的符号化時において、ある英単語に動的コードが割り当てられたタイミングで、設定されるコードである。基本コードは、各英単語に対応するコードであり、英単語を一意に識別する場合等に利用される。また、後述する動的辞書情報210cのバッファには、英単語が基本コードにより格納される。
基本形コードは、基本形単語および関連単語を識別する場合に利用されるコードである。該当する英単語が、基本形単語である場合には、基本形コードに、自英単語の基本コードが設定される。該当する英単語が、ある基本形単語の関連単語である場合には、ある基本形単語の基本コードが、関連単語の基本形コードに設定される。
例えば、基本形単語を「accessory」とし、基本形単語「accessory」の関連単語を「accessories」とする。また、基本形単語「accessory」の基本コードを「A00068h」とする。この場合には、英単語「accessory」のレコードに格納される基本形コードは「A00068h」となる。英単語「accessories」のレコードに格納される基本形コードは「A00068h」となる。
このため、各英単語の基本コードと、基本形コードとを比較することで、英単語が基本形単語であるか否かを区別することが可能となる。例えば、英単語の基本形コードと、基本コードとが同じである場合には、かかる英単語が基本形単語であることがわかる。また、英単語が基本形単語でない場合には、かかる英単語は、基本形コードと同じ基本コードが割り当てられた英単語の関連単語であることがわかる。
動的辞書情報210cは、文書に複数回出現する文字列と動的符号とを対応付ける辞書の情報である。図5は、動的辞書情報のデータ構造の一例を示す図である。図5に示すように、この動的辞書情報210cは、動的辞書D1と、バッファD2とを有する。
動的辞書D1の動的コードは、バッファD2に格納された基本コードに割り当てられた符号である。基本形コードは、動的コードが割り当てられた単語に対応する基本形コードである。ポインタは、動的コードが割り当てられた単語の基本コードが格納されたバッファD2の位置を示す情報である。
例えば、動的符号化時において、英単語「abode」に動的コード「A000h」が割り当てられたものとする。英単語「abode」の基本コードを「A00030h」とし、基本形コードを「A0002Ch」とする。この場合には、動的辞書D1の動的コード「A000h」に対応付けて、基本形コードに「A0002Ch」が設定される。また、動的コード「A000h」に対応するポインタに示されるバッファD2の位置に、基本コード「A00030h」が格納される。
コード化テキストファイル210dは、テキストファイル210aがコード化されることにより生成されるファイルである。図6は、コード化テキストファイルのデータ構造の一例を示す図である。図6に示すように、コード化テキストファイル210dは、ヘッダと、コード化された文書と、トレーラとを含む。
例えば、ヘッダには、単語の出現頻度に関する情報や、コード化を行う場合に用いられたアルゴリズムを識別する情報が含まれる。トレーラには、静的辞書情報210bおよび動的辞書情報210c等が含まれる。
図2の説明に戻る。ファイルリード部220は、テキストファイル210aを読み出す処理部である。ファイルリード部220は、読み出したテキストファイル210aを、静的符号化部230に出力する。
静的符号化部230は、テキストファイル210aに含まれる文書の単語と、静的辞書情報210bのビットフィルタC1とを比較して、ビットフィルタC1にヒットした単語を静的コードに置換する処理を繰り返し実行する処理部である。以下の説明では適宜、静的符号化部230により、静的コードに変換されたテキストファイル210aを、静的符号化データと表記する。例えば、静的コードが割り当てられた英単語は、静的コードに変換されるが、静的コードが割り当てられていない英単語は、そのままの状態で、静的符号化データに残る。静的コードが割り当てられていない英単語は、後述する動的符号化により、動的コードが割り当てられ、コード化される。
動的符号化部240は、静的符号化データに対して、複数回出現する単語をコード化することで、コード化された文書を生成する処理部である。動的符号化部240は、コード化された文書のデータをファイルライト部250に出力する。
図7は、動的符号化部の処理の一例を説明するための図である。動的符号化部240は、文字列を静的符号化データf1から読み出して、符号化領域A1に格納し、符号化領域A1と参照領域A2とに同一の文字列が存在するか否かを照合する。動的符号化部240は、照合の結果、同一の文字列が存在する場合には、係る文字列を、複数回出現する文字列として特定する。動的符号化部240は、照合終了後、符号化領域A1に格納された文字列を、参照領域A2に追記する更新を行い、所定の長さの文字列を静的符号化データf1から読み出し、符号化領域A1に格納する。
図7について説明する。図7に示す例では、静的符号化データf1を「(1)abode・・・(2)abode・・・」とする。静的符号化データf1の(1)、(2)は、各文字列「abode」を区別するために便宜的に付与するものであり、実際には、静的符号化データf1に含まれていなくても良い。また、静的符号化データf1の「・・・」は、不特定な文字列、静的符号に対応する。
動的符号化部240は、静的符号化データf1から所定の長さの文字列「(1)abode・・・」を読み出して符号化領域A1に格納する。動的符号化部240は、符号化領域A1に格納された文字列と、参照領域A2に格納された文字列とを比較して、同一の文字列が存在するか否かを判定する。この場合には、同一の文字列が存在しないため、動的符号化部240は、符号化領域A1に格納された「(1)abode・・・」を、参照領域A2に格納することで、参照領域A2を更新する。
動的符号化部240は、静的符号化データf1から所定の長さの文字列「(2)abode・・・」を読み出して符号化領域A1に格納する。動的符号化部240は、符号化領域A1に格納された文字列と、参照領域A2に格納された文字列とを比較して、同一の文字列が存在するか否かを判定する。この場合には、同一の文字列「abode」が存在するため、動的符号化部240は、「abode」が複数回出現する文字列であると特定する。動的符号化部240は、符号化領域A1に格納された「(2)abode・・・」を、参照領域A2に格納することで、参照領域A2を更新する。
動的符号化部240は、複数回出現する「abode」に対応する基本コード「A00030h」を、静的辞書C2を基にして特定し、特定した基本コード「A00030h」を動的辞書情報210cのバッファD2に格納する。動的符号化部240は、動的辞書D1に含まれる未割当の動的コードのうち、先頭の動的コードを、複数回出現する文字列に割り当てる。例えば、動的符号化部240は、「abode」に対応する基本形コード「A0002Ch」を、動的コード「A000h」に対応付けて割り当て、ポインタの示す位置を、バッファD2の「A00030h」の先頭位置に設定する。これにより、文字列「abode」に動的コード「A000h」が割り当てられたことを意味し、動的符号化部240は、静的符号化データf1の「abode」を、動的コード「A000h」に変換することで、動的符号化を行う。
動的符号化部240は、上記のように、静的符号化データf1に対して、複数回出現する文字列を動的符号に符号化することで、コード化された文書のデータを生成する。動的符号化部240は、コード化された文書のデータを、ファイルライト部250に出力する。
ファイルライト部250は、動的符号化部240からコード化された文書のデータを取得した場合に、取得したコード化された文書のデータを、コード化テキストファイル210dに格納する処理部である。また、ファイルライト部250は、コード化テキストファイル210dのヘッダに、単語の出現頻度に関する情報や、コード化を行う場合に用いられたアルゴリズムを識別する情報を格納する。ファイルライト部250は、コード化テキストファイル210dのトレーラに、静的辞書情報210bおよび動的辞書情報210c等を格納する。
出力部260は、記憶部210に格納されたコード化テキストファイル210dを、後述するデータ検索装置に出力する処理部である。
続いて、図1で説明した処理を実行するデータ検索装置の構成について説明する。図8は、本実施例に係るデータ検索装置の構成を示す機能ブロック図である。図8に示すように、このデータ検索装置100は、記憶部105と、辞書情報リード部115と、オートマトン生成部116と、受付部120と、ファイルリード部130と、設定部150aと、検索処理部150bとを有する。
記憶部105は、コード化テキストファイル210dと、オートマトン110とを有する。記憶部105は、RAM、ROM、フラッシュメモリなどの半導体メモリ素子や、HDDなどの記憶装置に対応する。
コード化テキストファイル210dは、上述した符号化装置200によりコード化されたテキストファイルである。コード化テキストファイル210dのデータ構造は、図6で説明したコード化テキストファイル210dのデータ構造と同様である。
オートマトン110は、後述する検索文字列に関連するコードを検索する場合に用いられるオートマトンである。検索文字列に関連するコードは、検索文字列に対応する基本形単語のコードおよびこの基本形単語に関連する関連単語のコードである。例えば、オートマトン110は、第1オートマトン110a、第2オートマトン110b、第3オートマトン110cを含む。
第1オートマトン110aは、1バイトのコード(静的コード)にコード化された文字列または単語を照合する場合に用いられるオートマトンである。
図9は、第1オートマトンのデータ構造の一例を示す図である。図9に示すように、第1オートマトン110aは、1バイトの静的コードと、基本形コードと、文字列または単語と、照合フラグとが対応付けられる。
第1オートマトン110aの静的コードは、高頻度の単語や文字列に割り当てられた1バイトのコードである。基本形コードは、図4等で説明した基本形コードに対応するものである。ある単語の基本形単語および関連単語に対応する静的コードの基本形コードには全て、基本形単語の基本コードが設定される。文字列は、1バイトの静的コードに対応する文字列または単語である。照合フラグは、該当する静的コードが照合対象であるか否かを判定するための情報であり、照合対象の静的コードには、照合フラグに「オン」が設定される。
第2オートマトン110bは、2バイトのコード(静的コード)にコード化された文字列または単語を照合する場合に用いられるオートマトンである。
図10は、第2オートマトンのデータ構造の一例を示す図である。図10に示すように、第2オートマトン110bは、2バイトの静的コードと、基本形コードと、文字列または単語と、照合フラグとが対応付けられる。第2オートマトン110bの静的コードは、高頻度の単語や文字列に割り当てられた2バイトのコードである。文字列は、2バイトの静的コードに対応する文字列または単語である。基本形コード、照合フラグに関する説明は、第1オートマトン110aの基本形コード、照合フラグに関する説明に関する説明と同様である。
第3オートマトン110cは、動的辞書情報210cと関連づけられ、動的コードにコード化された文字列または単語を照合する場合に用いられるオートマトンである。
図11は、第3オートマトンのデータ構造の一例を示す図である。図11に示すように、第3オートマトン110cは、動的辞書情報210cと、オートマトンD3とを有する。動的辞書情報210cに関する説明は、図5で説明した動的辞書情報210cに関する説明と同様である。
オートマトンD3は、基本コードと、基本形コードと、文字列と、照合フラグとを対応付ける。基本コードは、3バイトの静的コードである。その他の基本コードに関する説明は、図4で説明した基本コードに関する説明と同様である。文字列は、動的コードが割り当てられた文字列に対応する。基本形コード、照合フラグに関する説明は、第1オートマトン110aの基本形コード、照合フラグに関する説明に関する説明と同様である。
例えば、コード化テキストファイル210dに格納される静的辞書情報210bおよび動的辞書情報210cの基本形コード、または、第1オートマトン110a〜110cに登録される基本形コードによって、ある単語の基本形単語、関連単語が特定可能となる。このため、コード化テキストファイル210dに格納される静的辞書情報210bおよび動的辞書情報210c、または、第1オートマトン110a〜110cには、図1で説明した関連情報50が含まれていると言える。
図8の説明に戻る。辞書情報リード部115は、コード化テキストファイル210dに格納された静的辞書情報210bおよび動的辞書情報210cを読み出す処理部である。辞書情報リード部115は、静的辞書情報210bおよび動的辞書情報210cを、オートマトン生成部116に出力する。
オートマトン生成部116は、静的辞書情報210bおよび動的辞書情報210cを基にして、オートマトン110を生成する処理部である。
オートマトン生成部116が、第1オートマトン110aを生成する処理の一例について説明する。オートマトン生成部116は、静的辞書情報210bの静的辞書C2を参照し、1バイトの静的コードと、この1バイトの静的コードが割り当てられた文字列または単語と、基本形コードとを特定する。オートマトン生成部116は、特定した1バイトの静的コードと、基本形コードと、文字列または単語とを対応付けて、第1オートマトン110aに設定する。オートマトン生成部116は、上記処理を繰り返し実行することで、第1オートマトン110aを生成する。
オートマトン生成部116が、第2オートマトン110bを生成する処理の一例について説明する。オートマトン生成部116は、静的辞書情報210bの静的辞書C2を参照し、2バイトの静的コードと、この2バイトの静的コードが割り当てられた文字列または単語と、基本形コードとを特定する。オートマトン生成部116は、特定した2バイトの静的コードと、基本形コードと、文字列または単語とを対応付けて、第2オートマトン110bに設定する。オートマトン生成部116は、上記処理を繰り返し実行することで、第2オートマトン110bを生成する。
オートマトン生成部116が、第3オートマトン110cを生成する処理の一例について説明する。オートマトン生成部116は、3バイトの基本コードを、第3オートマトン110cに設定する。オートマトン生成部116は、動的辞書情報210cのバッファD2を参照し、オートマトンD3の基本形コードと一致する基本形コードがバッファD2に存在するか否かを判定する。
オートマトン生成部116は、オートマトンD3の基本コードと同一の基本コードがバッファD2に存在する場合には、該当するバッファD2の基本コードと、オートマトンD3とを対応付ける。また、オートマトン生成部116は、動的辞書D1のポインタが示すバッファD2の基本コードを基にして、バッファD2の基本コードに対応する基本形コードを特定し、特定した基本形コードを、オートマトンD3の基本形コードに設定する。また、関連単語の基本コードに対応する基本形コードにも、同様の基本形コードを設定する。
例えば、図11に示すように、バッファD2に基本コード「A00030h」が登録されており、かかる基本コードに対応する基本形コードを「A0002Ch」とする。この場合には、オートマトン生成部116は、基本コード「A0002Ch」、「A0002Dh」、「A00030h」に対応する基本形コードに、「A0002Ch」を設定する。すなわち、基本コード「A0002Ch」の単語「abide」は基本形単語であり、基本コード「A0002Dh」の単語「abided」および「A00030h」の単語「abode」は、基本形単語の関連単語であることがわかる。
受付部120は、検索文字列の入力を受け付ける処理部である。受付部120は、受け付けた検索文字列の情報を、設定部150aに出力する。
設定部150aは、検索文字列と、コード化テキストファイル210dに格納された静的辞書情報210bおよび動的辞書情報210cとを比較し、基本形コードをキーにして、検索文字列の基本形単語および基本形単語のコードと、関連単語および関連単語のコードとを取得する。
設定部150aは、基本形単語のコードと、関連単語のコードとが照合対象となるように、基本形単語のコードおよび関連単語のコードと、オートマトン110の各静的コード各動的コードとを比較する。設定部150aは、ヒットした各静的コード各動的コードに対応する照合フラグをオンに設定する。
図10を用いて、設定部150aの処理を説明する。例えば、検索文字列として指定された単語を「accessories」とすると、単語を「accessories」に対応する基本形コードは「A00068h」となり、基本形単語の静的コードは「6034h」となり、関連単語の静的コードは「6033h」となる。このため、設定部150aは、第2オートマトン110bについて、静的コード「6033h」および「6034h」に対応する照合フラグをオンに設定する。
図11を用いて、設定部150aの処理を説明する。例えば、検索文字列として指定された単語を「abode」とし、この「abode」に割り当てられた動的コードを「A000h」とする。また、動的コード「A000h」の基本コードを「A00030h」とする。この場合には、基本形コードは「A0002Ch」となり、基本形コードに対応する基本コードは「A0002Ch」、「A0002Dh」、「A00030h」となる。このため、設定部150aは、第3オートマトン110cについて、基本コード「A0002Ch」、「A0002Dh」、「A00030h」に対応する照合フラグをオンに設定する。
なお、設定部150aは、検索文字列の基本形単語および関連単語を特定した場合に、基本形単語および関連単語の候補リストを、図示しない表示装置に表示し、検索対象とする基本形単語および関連単語を選択させても良い。この場合には、設定部150aは選択された基本形単語および関連単語のコードに対応する照合フラグをオンに設定する。
ファイルリード部130は、コード化テキストファイル210dに格納されたコード化された文書のデータを取得する処理部である。ファイルリード部130は、コード化された文書のデータを、検索処理部150bに出力する。
検索処理部150bは、オートマトン110とコード化された文書とを比較することで、検索文字列に対応する基本形単語のコードおよび関連単語のコードを検索する処理部である。検索処理部150bは、検索結果を表示装置などに表示させる。
例えば、検索処理部150bは、コード化された文書からコードを取得し、取得したコードと、第1、第2オートマトン110a,110bの静的コード、および、第3オートマトン110cの動的コードとを比較する。検索処理部150bは、取得したコードが、静的コードまたは動的コードにヒットし、かつ、対応する照合フラグがオンとなっている場合に、取得したコードを検索対象として特定する。検索処理部150bは、コード化された文書の先頭のコードから、最後のコードまで、上記処理を繰り返し実行する。検索処理部150bは、コード化された文書中において、照合対象として特定したコードを強調表示させた検索結果を、表示装置などに表示させる。
次に、本実施例に係るデータ検索装置100の処理手順について説明する。図12は、本実施例に係るデータ検索装置の処理手順を示すフローチャートである。図12に示すように、データ検索装置100の受付部120は、検索文字列の入力を受け付ける(ステップS101)。データ検索装置の設定部150aは、検索文字列の基本形コードを基にして、検索文字列に対応する、基本形単語のコード、関連単語のコードを取得する(ステップS102)。
設定部150aは、基本形単語および関連単語の候補リストを生成し、検索対象とする単語の選択を受け付ける(ステップS103)。設定部150aは、選択された単語のコードに対応したオートマトン110の照合フラグをオンにセットする(ステップS104)。
検索処理部150bは、選択された対象のファイル(コード化された文書)をコード化されたままの状態で、オートマトン110を用いて走査する(ステップS105)。検索処理部150bは、コードとオートマトン110とを比較し、コードに対応するオートマトン110の照合フラグがオンとなる場合には、該当するコードを検索対象として特定する(ステップS106)。
検索処理部150bは、ファイルのコードを全て走査したか否かを判定する(ステップS107)。検索処理部150bは、ファイルのコードを全て走査していない場合には(ステップS107,No)、ステップS106に移行する。
一方、検索処理部150bは、ファイルのコードを全て走査した場合には(ステップS107,Yes)、検索結果を出力する(ステップS108)。
次に、本実施例に係るデータ検索装置100の効果について説明する。データ検索装置100は、検索文字列の基本形単語および関連単語のコードを特定し、特定した各コードが照合対象となるように、オートマトン110の照合フラグを設定し、利用する。このため、データ検索装置100によれば、類義語検索を行う場合であっても、基本形の検索と同様に、一走査で検索を行うことができる。
ところで、上述した実施例では、基本形単語と関連単語との関係について、英単語の動詞の変化や、名詞の単数形と複数形に着目した関係について説明したが、これに限定されるものではない。
例えば、類義語に着目して、基本形単語と、関連単語との関係を定義し、基本形単語および関連単語に、同一の基本形コードを割り当てても良い。この場合には、類義語の関係となる複数の単語のうち、いずれか一つの単語を基本形単語に設定し、残りの単語を関連単語に設定する。例えば、類義語の関係となる複数の単語を「view、see、consider、regard」とする場合、基本形単語を「view」に設定し、残りの単語「see、consider、regard」を関連単語に設定する。
この場合には、設定部150aは、検索文字列に「view、see、consider、regard」のいずれか含まれる場合に、「view、see、consider、regard」のコードを特定し、特定したコードに対応するオートマトン110の照合フラグをオンに設定する。他の類義語についても同様である。このような処理を行うことによって、検索文字列の類義語となる単語も一走査で検索を行うことができる。
また、表記揺れに着目して、基本形単語と、関連単語との関係を定義し、基本形単語および関連単語に、同一の基本コードを割り当てても良い。この場合には、表記揺れに対応する複数の単語のうち、いずれか一つの単語を基本形単語に設定し、残りの単語を関連単語に設定する。例えば、表記揺れに対応する複数の単語を「振込、振り込み、振込み、ふりこみ」とする場合、基本形単語を「振込」に設定し、残りの単語「振り込み、振込み、ふりこみ」を関連単語に設定する。
この場合には、設定部150aは、検索文字列に「振込、振り込み、振込み、ふりこみ」のいずれか含まれる場合に、「振込、振り込み、振込み、ふりこみ」のコードを特定し、特定したコードに対応するオートマトン110の照合フラグをオンに設定する。他の表記揺れについても同様である。このような処理を行うことによって、検索文字列に表記揺れがあっても、検索文字列に関連する単語も一走査で検索を行うことができる。
更に、設定部150aは、類義語を検索対象とするのか、表記揺れ単語を検索対象とするのかを指示する指示情報を更に受け付け、受け付けた指示情報に基づいて、基本形単語、関連単語のコードを選択的に取得しても良い。この場合には、類義語に着目して、基本形単語と、関連単語との関係を定義した、第1静的辞書情報、第1動的辞書情報と、表記揺れに着目して、基本形単語と、関連単語との関係を定義した第2静的辞書情報、第2動的辞書情報を選択的に利用する。第1、2静的辞書情報、第1、2動的辞書情報は、記憶部105に格納されているものとする。
例えば、設定部150aは、類義語を検索対象とする指示情報を受け付けた場合には、第1静的辞書情報、第1動的辞書情報を参照して、検索文字列と類義語の関係にある基本形単語および関連単語のコードを特定し、特定したコードに対応するオートマトン110の照合フラグをオンに設定する。
設定部150aは、表記揺れ単語を検索対象とする指示情報を受け付けた場合には、第2静的辞書情報、第2動的辞書情報を参照して、検索文字列と表記揺れの関係にある基本形単語および関連単語のコードを特定し、特定したコードに対応するオートマトン110の照合フラグをオンに設定する。
また、設定部150aは、類義語および表記揺れ単語双方を検索対象とする指示情報を受け付けても良い。この場合には、設定部150aは、第1、2静的辞書情報、第1、2動的辞書情報を参照して、検索文字列と類義語の関係にある基本形単語および関連単語のコードと、検索文字列と表記揺れの関係にある基本形単語および関連単語のコードとを特定する。そして、設定部150aは、特定したコードに対応するオートマトン110の照合フラグをオンに設定する。
このように、設定部150aが、指示情報を基にして、類義語または表記揺れ単語に対応する基本形単語および関連単語のコードを選択的に取得してオートマトン110の照合フラグをセットすることで、類義語または表記揺れに対応した検索を効率的に実行できる。
下記に、本実施形態に用いられるハードウェア及びソフトウェアについて説明する。図13は、コンピュータのハードウェア構成例を示す図である。コンピュータ1は、例えば、プロセッサ301、RAM(Random Access Memory)302、ROM(Read Only Memory)303、ドライブ装置304、記憶媒体305、入力インターフェース(I/F)306、入力デバイス307、出力インターフェース(I/F)308、出力デバイス309、通信インターフェース(I/F)310、SAN(Storage Area Network)インターフェース(I/F)311およびバス312などを含む。それぞれのハードウェアはバス312を介して接続されている。
RAM302は読み書き可能なメモリ装置であって、例えば、SRAM(Static RAM)やDRAM(Dynamic RAM)などの半導体メモリ、またはRAMでなくてもフラッシュメモリなどが用いられる。ROM303は、PROM(Programmable ROM)なども含む。ドライブ装置304は、記憶媒体305に記録された情報の読み出しか書き込みかの少なくともいずれか一方を行なう装置である。記憶媒体305は、ドライブ装置304によって書き込まれた情報を記憶する。記憶媒体305は、例えば、ハードディスク、SSD(Solid State Drive)などのフラッシュメモリ、CD(Compact Disc)、DVD(Digital Versatile Disc)、ブルーレイディスクなどの記憶媒体である。また、例えば、コンピュータ1は、複数種類の記憶媒体それぞれについて、ドライブ装置304及び記憶媒体305を設ける。
入力インターフェース306は、入力デバイス307と接続されており、入力デバイス307から受信した入力信号をプロセッサ301に伝達する回路である。出力インターフェース308は、出力デバイス309と接続されており、出力デバイス309に、プロセッサ301の指示に応じた出力を実行させる回路である。通信インターフェース310はネットワーク3を介した通信の制御を行なう回路である。通信インターフェース310は、例えばネットワークインターフェースカード(NIC)などである。SANインターフェース311は、ストレージエリアネットワークによりコンピュータ1と接続された記憶装置との通信の制御を行なう回路である。SANインターフェース311は、例えばホストバスアダプタ(HBA)などである。
入力デバイス307は、操作に応じて入力信号を送信する装置である。入力信号は、例えば、キーボードやコンピュータ1の本体に取り付けられたボタンなどのキー装置や、マウスやタッチパネルなどのポインティングデバイスである。出力デバイス309は、コンピュータ1の制御に応じて情報を出力する装置である。出力デバイス309は、例えば、ディスプレイなどの画像出力装置(表示デバイス)や、スピーカーなどの音声出力装置などである。また、例えば、タッチスクリーンなどの入出力装置が、入力デバイス307及び出力デバイス309として用いられる。また、入力デバイス307及び出力デバイス309は、コンピュータ1と一体になっていてもよいし、コンピュータ1に含まれず、例えば、コンピュータ1に外部から接続する装置であってもよい。
例えば、プロセッサ301は、ROM303や記憶媒体305に記憶されたプログラムをRAM302に読み出し、読み出されたプログラムの手順に従って符号化装置200に対応する処理またはデータ検索装置100に対応する処理を行なう。その際にRAM302はプロセッサ301のワークエリアとして用いられる。記憶部105,210の機能は、ROM303および記憶媒体305がプログラムファイル(後述のアプリケーションプログラム24、ミドルウェア23およびOS22など)やデータファイル(テキストファイル210a、コード化テキストファイル210d等)を記憶し、RAM302がプロセッサ301のワークエリアとして用いられることによって実現される。プロセッサ301が読み出すプログラムについては、図14を用いて説明する。
図14は、コンピュータで動作するプログラムの構成例を示す図である。コンピュータ1において、図14に示すハードウェア群21(301〜312)の制御を行なうOS(オペレーティング・システム)22が動作する。OS22に従った手順でプロセッサ301が動作して、ハードウェア群21の制御・管理が行なわれることにより、アプリケーションプログラム24やミドルウェア23に従った処理がハードウェア群21で実行される。さらに、コンピュータ1において、ミドルウェア23またはアプリケーションプログラム24が、RAM302に読み出されてプロセッサ301により実行される。
プロセッサ301が、コード化機能が呼び出された場合に、ミドルウェア23またはアプリケーションプログラム24の少なくとも一部に基づく処理を行なうことにより、(それらの処理をOS22に基づいてハードウェア群21を制御して)符号化装置200の機能が実現される。また、プロセッサ301が、データ検索機能が呼び出された場合に、ミドルウェア23またはアプリケーションプログラム24の少なくとも一部に基づく処理を行なうことにより、(それらの処理をOS22に基づいてハードウェア群21を制御して)データ検索装置100の機能が実現される。コード化機能およびデータ検索機能は、それぞれアプリケーションプログラム24自体に含まれてもよいし、アプリケーションプログラム24に従って呼び出されることで実行されるミドルウェア23の一部であってもよい。
図15は、実施形態のシステムにおける装置の構成例を示す図である。図15のシステムは、コンピュータ1a、コンピュータ1b、基地局2およびネットワーク3を含む。コンピュータ1aは、無線または有線の少なくとも一方により、コンピュータ1bと接続されたネットワーク3に接続している。
図2に示す符号化装置200と図8に示すデータ検索装置100とは、図15に示すコンピュータ1aとコンピュータ1bとのいずれに含まれてもよい。コンピュータ1bが符号化装置200を含み、コンピュータ1aがデータ検索装置100を含んでもよいし、コンピュータ1bがデータ検索装置100を含み、コンピュータ1aが符号化装置200を含んでもよい。また、コンピュータ1aとコンピュータ1bとの双方が、符号化装置200およびデータ検索装置100を備えてもよい。
以下、上述の実施形態における変形例の一部を説明する。下記の変形例のみでなく、本発明の本旨を逸脱しない範囲の設計変更は適宜行われうる。コード化処理の対象は、ファイル内のデータ以外にも、システムから出力される監視メッセージなどでもよい。例えば、バッファに順次格納される監視メッセージを上述のコード化処理によりコード化し、ログファイルとして格納するなどの処理が行なわれる。また、例えば、データベース内のページ単位にコード化が行なわれてもよいし、複数のページをまとめた単位でコード化が行なわれてもよい。
以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)コンピュータに
符号化文書に対する検索文字列を受け付け、
複数の単語について、前記符号化文書の符号化規則による前記単語の符号化データと前記単語の基本形と前記基本形に関連する関連単語とを対応付けた関連情報を参照し、
前記検索文字列の基本形、および、前記基本形の関連単語に関する複数の符号を取得し、
前記複数の符号を検索対象に設定したオートマトンを利用して、前記符号化文書に対する検索を行う
処理を実行させる符号化データ検索プログラム。
(付記2)前記基本形に関連する関連単語は、前記基本形の類義語または前記基本形と同音・同意味の語句であり前記基本形と異なる文字表記の表記揺れ単語であることを特徴とする付記1に記載の符号化データ検索プログラム。
(付記3)前記類義語を検索対象とするのか、前記表記揺れ単語を検索対象とするのかを指示する指示情報を更に受け付け、前記符号を取得する処理は、前記指示情報を基にして、基本形の類義語または表記揺れ単語に対応する複数の符号を取得することを特徴とする付記2に記載の符号化データ検索プログラム。
(付記4)前記検索する処理は、前記符号化文書の符号と、前記オートマトンとを比較し、オートマトンにヒットした符号を検索対象の符号として特定することを特徴とする付記1、2または3に記載の符号化データ検索プログラム。
(付記5)コンピュータが実行する符号化データ検索方法であって、
符号化文書に対する検索文字列を受け付け、
複数の単語について、前記符号化文書の符号化規則による前記単語の符号化データと前記単語の基本形と前記基本形に関連する関連単語とを対応付けた関連情報を参照し、
前記検索文字列の基本形、および、前記基本形の関連単語に関する複数の符号を取得し、
前記複数の符号を検索対象に設定したオートマトンを利用して、前記符号化文書に対する検索を行う
処理を実行する符号化データ検索方法。
(付記6)前記基本形に関連する関連単語は、前記基本形の類義語または前記基本形と同音・同意味の語句であり前記基本形と異なる文字表記の表記揺れ単語であることを特徴とする付記5に記載の符号化データ検索方法。
(付記7)前記類義語を検索対象とするのか、前記表記揺れ単語を検索対象とするのかを指示する指示情報を更に受け付け、前記符号を取得する処理は、前記指示情報を基にして、基本形の類義語または表記揺れ単語に対応する複数の符号を取得することを特徴とする付記6に記載の符号化データ検索方法。
(付記8)前記検索する処理は、前記符号化文書の符号と、前記オートマトンとを比較し、オートマトンにヒットした符号を検索対象の符号として特定することを特徴とする付記5、6または7に記載の符号化データ検索方法。
(付記9)符号化文書に対する検索文字列を受け付ける受付部と、
複数の単語について、前記符号化文書の符号化規則による前記単語の符号化データと前記単語の基本形と前記基本形に関連する関連単語とを対応付けた関連情報を参照し、前記検索文字列の基本形、および、前記基本形の関連単語に関する複数の符号を取得し、前記複数の符号を検索対象としてオートマトンに設定する設定部と、
前記オートマトンを利用して、前記符号化文書に対する検索を行う検索部と
を有する符号化データ検索装置。
(付記10)前記基本形に関連する関連単語は、前記基本形の類義語または前記基本形と同音・同意味の語句であり前記基本形と異なる文字表記の表記揺れ単語であることを特徴とする付記9に記載の符号化データ検索装置。
(付記11)前記設定部は、前記類義語を検索対象とするのか、前記表記揺れ単語を検索対象とするのかを指示する指示情報を受け付け、前記指示情報を基にして、基本形の類義語または表記揺れ単語に対応する複数の符号を取得することを特徴とする付記10に記載の符号化データ検索装置。
(付記12)前記検索処理部は、前記符号化文書の符号と、前記オートマトンとを比較し、オートマトンにヒットした符号を検索対象の符号として特定することを特徴とする付記9、10または11に記載の符号化データ検索装置。
100 データ検索装置
105 記憶部
115 辞書情報リード部
116 オートマトン生成部
120 受付部
130 ファイルリード部
150a 設定部
150b 検索処理部

Claims (6)

  1. コンピュータに
    符号化文書に対する検索文字列を受け付け、
    複数の単語について、前記符号化文書の符号化規則による前記単語の符号化データと前記単語の基本形と前記基本形に関連する関連単語とを対応付けた関連情報を参照し、
    前記検索文字列の基本形、および、前記基本形の関連単語に関する複数の符号を取得し、
    検索対象であるか否かを示すフラグと第1符号長の符号とを対応付けた第1オートマトンと、検索対象であるか否かを示すフラグと第2符号長の符号とを対応付けた第2オートマトンと、前記複数の符号とを基にして、前記第1オートマトンのフラグおよび前記第2オートマトンのフラグを設定し、前記第1オートマトンおよび前記第2オートマトンを利用して、前記符号化文書に対する検索を行う
    処理を実行させる符号化データ検索プログラム。
  2. 前記基本形に関連する関連単語は、前記基本形の類義語または前記基本形と同音・同意味の語句であり前記基本形と異なる文字表記の表記揺れ単語であることを特徴とする請求項1に記載の符号化データ検索プログラム。
  3. 前記類義語を検索対象とするのか、前記表記揺れ単語を検索対象とするのかを指示する指示情報を更に受け付け、前記符号を取得する処理は、前記指示情報を基にして、基本形の類義語または表記揺れ単語に対応する複数の符号を取得することを特徴とする請求項2に記載の符号化データ検索プログラム。
  4. 前記検索する処理は、前記符号化文書の符号と、前記第1オートマトンおよび前記第2オートマトンとを比較し、前記第1オートマトンまたは前記第2オートマトンにヒットした符号を検索対象の符号として特定することを特徴とする請求項1、2または3に記載の符号化データ検索プログラム。
  5. コンピュータが実行する符号化データ検索方法であって、
    符号化文書に対する検索文字列を受け付け、
    複数の単語について、前記符号化文書の符号化規則による前記単語の符号化データと前記単語の基本形と前記基本形に関連する関連単語とを対応付けた関連情報を参照し、
    前記検索文字列の基本形、および、前記基本形の関連単語に関する複数の符号を取得し、
    検索対象であるか否かを示すフラグと第1符号長の符号とを対応付けた第1オートマトンと、検索対象であるか否かを示すフラグと第2符号長の符号とを対応付けた第2オートマトンと、前記複数の符号とを基にして、前記第1オートマトンのフラグおよび前記第2オートマトンのフラグを設定し、前記第1オートマトンおよび前記第2オートマトンを利用して、前記符号化文書に対する検索を行う
    処理を実行する符号化データ検索方法。
  6. 符号化文書に対する検索文字列を受け付ける受付部と、
    複数の単語について、前記符号化文書の符号化規則による前記単語の符号化データと前記単語の基本形と前記基本形に関連する関連単語とを対応付けた関連情報を参照し、前記検索文字列の基本形、および、前記基本形の関連単語に関する複数の符号を取得し、検索対象であるか否かを示すフラグと第1符号長の符号とを対応付けた第1オートマトンと、検索対象であるか否かを示すフラグと第2符号長の符号とを対応付けた第2オートマトンと、前記複数の符号とを基にして、前記第1オートマトンのフラグおよび前記第2オートマトンのフラグを設定する設定部と、
    前記第1オートマトンのフラグおよび前記第2オートマトンを利用して、前記符号化文書に対する検索を行う検索部と
    を有する符号化データ検索装置。
JP2016198914A 2016-10-07 2016-10-07 符号化データ検索プログラム、符号化データ検索方法および符号化データ検索装置 Active JP6737117B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016198914A JP6737117B2 (ja) 2016-10-07 2016-10-07 符号化データ検索プログラム、符号化データ検索方法および符号化データ検索装置
US15/705,917 US10942934B2 (en) 2016-10-07 2017-09-15 Non-transitory computer-readable recording medium, encoded data searching method, and encoded data searching apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016198914A JP6737117B2 (ja) 2016-10-07 2016-10-07 符号化データ検索プログラム、符号化データ検索方法および符号化データ検索装置

Publications (2)

Publication Number Publication Date
JP2018060443A JP2018060443A (ja) 2018-04-12
JP6737117B2 true JP6737117B2 (ja) 2020-08-05

Family

ID=61828405

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016198914A Active JP6737117B2 (ja) 2016-10-07 2016-10-07 符号化データ検索プログラム、符号化データ検索方法および符号化データ検索装置

Country Status (2)

Country Link
US (1) US10942934B2 (ja)
JP (1) JP6737117B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893337B (zh) * 2015-01-04 2020-07-10 伊姆西Ip控股有限责任公司 用于文本压缩和解压缩的方法和设备
EP3825896A4 (en) * 2018-07-19 2021-08-04 Fujitsu Limited LEARNING PROCEDURES, TRANSLATION PROCEDURES, LEARNING PROGRAM, TRANSLATION PROGRAM AND INFORMATION PROCESSING DEVICE

Family Cites Families (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60222960A (ja) 1984-04-19 1985-11-07 Brother Ind Ltd 電子辞書
JP3134204B2 (ja) 1991-07-19 2001-02-13 株式会社日立製作所 情報検索用端末装置及び情報検索用端末装置における情報表示・入出力方法
US5140644A (en) * 1990-07-23 1992-08-18 Hitachi, Ltd. Character string retrieving system and method
US5590317A (en) * 1992-05-27 1996-12-31 Hitachi, Ltd. Document information compression and retrieval system and document information registration and retrieval method
CA2125337A1 (en) * 1993-06-30 1994-12-31 Marlin Jay Eller Method and system for searching compressed data
US5606690A (en) * 1993-08-20 1997-02-25 Canon Inc. Non-literal textual search using fuzzy finite non-deterministic automata
US5704060A (en) * 1995-05-22 1997-12-30 Del Monte; Michael G. Text storage and retrieval system and method
JPH09198398A (ja) * 1996-01-16 1997-07-31 Fujitsu Ltd パターン検索装置
JPH11143877A (ja) * 1997-10-22 1999-05-28 Internatl Business Mach Corp <Ibm> 圧縮方法、辞書の見出し語インデックス・データを圧縮するための方法、及び機械翻訳システム
JPH11143893A (ja) 1997-11-07 1999-05-28 Matsushita Electric Ind Co Ltd 単語照合装置
US5991713A (en) * 1997-11-26 1999-11-23 International Business Machines Corp. Efficient method for compressing, storing, searching and transmitting natural language text
JP3457184B2 (ja) * 1998-06-25 2003-10-14 シャープ株式会社 検索装置及びその制御プログラムを記憶した媒体
US6269189B1 (en) * 1998-12-29 2001-07-31 Xerox Corporation Finding selected character strings in text and providing information relating to the selected character strings
AU2029601A (en) * 1999-12-17 2001-06-25 Si Han Kim Information coding and retrieval system and method thereof
AU2001293596A1 (en) * 2000-09-29 2002-04-08 Gavagai Technology Incorporated A method and system for adapting synonym resources to specific domains
JPWO2002035369A1 (ja) * 2000-10-13 2004-03-04 株式会社東芝 データ中継システム、データ中継方法、データ中継プログラム、情報処理方法及び情報処理プログラム
US6925460B2 (en) * 2001-03-23 2005-08-02 International Business Machines Corporation Clustering data including those with asymmetric relationships
US20020152219A1 (en) * 2001-04-16 2002-10-17 Singh Monmohan L. Data interexchange protocol
JP4047053B2 (ja) * 2002-04-16 2008-02-13 富士通株式会社 繰り返しを含む順序パターンを用いた検索装置および方法
JP4308676B2 (ja) * 2003-01-24 2009-08-05 株式会社リコー 文字列処理装置,文字列処理方法および画像形成装置
US20040225497A1 (en) * 2003-05-05 2004-11-11 Callahan James Patrick Compressed yet quickly searchable digital textual data format
JP4365162B2 (ja) * 2003-08-20 2009-11-18 富士通株式会社 構造化文書のデータを検索する装置および方法
JP4347264B2 (ja) * 2005-05-20 2009-10-21 キヤノン株式会社 文書管理システム
JP5169837B2 (ja) * 2006-12-28 2013-03-27 日本電気株式会社 文字列照合用有限オートマトン生成システム、その生成方法、及び生成プログラム
US20080208566A1 (en) * 2007-02-23 2008-08-28 Microsoft Corporation Automated word-form transformation and part of speech tag assignment
US8332209B2 (en) * 2007-04-24 2012-12-11 Zinovy D. Grinblat Method and system for text compression and decompression
US20090216911A1 (en) * 2008-02-21 2009-08-27 Larry Long Method and system for intuitive coding to enter text expansions
JP5155001B2 (ja) * 2008-04-01 2013-02-27 株式会社日立製作所 文書検索装置
JP5782214B2 (ja) * 2008-05-30 2015-09-24 富士通株式会社 情報検索プログラム、情報検索装置および情報検索方法
US8312104B2 (en) * 2008-07-01 2012-11-13 General Motors Llc Interactive information dissemination and retrieval system and method for generating action items
US8725671B2 (en) * 2009-03-19 2014-05-13 Nec Corporation Pattern matching appratus
US9160611B2 (en) * 2009-04-22 2015-10-13 Webroot Inc. System and method for performing longest common prefix strings searches
US9059851B2 (en) * 2010-02-23 2015-06-16 Salesforce.Com, Inc. Method and computer program product for order preserving symbol based encryption
US9111106B2 (en) * 2011-01-13 2015-08-18 Mitsubishi Electric Corporation Data processing apparatus and data storage apparatus
JP5678691B2 (ja) * 2011-01-28 2015-03-04 富士通株式会社 検索制御装置、検索制御プログラムおよび検索制御方法
JP5510563B2 (ja) * 2011-02-08 2014-06-04 富士通株式会社 検索プログラム、検索装置、および検索方法
US10176168B2 (en) * 2011-11-15 2019-01-08 Microsoft Technology Licensing, Llc Statistical machine translation based search query spelling correction
US8793199B2 (en) * 2012-02-29 2014-07-29 International Business Machines Corporation Extraction of information from clinical reports
JP5250709B1 (ja) * 2012-03-12 2013-07-31 楽天株式会社 情報処理装置、情報処理方法、情報処理装置用プログラム、および、記録媒体
JP6252489B2 (ja) * 2012-12-19 2017-12-27 富士通株式会社 圧縮装置、圧縮方法、圧縮プログラム、伸張装置、伸張方法、伸張プログラム、および圧縮伸張システム
KR20150119403A (ko) * 2013-03-22 2015-10-23 후지쯔 가부시끼가이샤 압축 장치, 압축 방법, 사전 생성 장치, 사전 생성 방법, 신장 장치, 신장 방법, 신장 프로그램 및 정보 처리 시스템
US20160300020A1 (en) * 2013-12-03 2016-10-13 3M Innovative Properties Company Constraint-based medical coding
US9483768B2 (en) * 2014-08-11 2016-11-01 24/7 Customer, Inc. Methods and apparatuses for modeling customer interaction experiences
JP6476647B2 (ja) * 2014-08-20 2019-03-06 富士通株式会社 圧縮プログラム、圧縮装置、圧縮方法、伸長プログラム、伸長装置および伸長方法
JP6543922B2 (ja) * 2014-12-10 2019-07-17 富士通株式会社 インデックス生成プログラム
CN105893337B (zh) * 2015-01-04 2020-07-10 伊姆西Ip控股有限责任公司 用于文本压缩和解压缩的方法和设备
JP6447161B2 (ja) * 2015-01-20 2019-01-09 富士通株式会社 意味構造検索プログラム、意味構造検索装置、及び意味構造検索方法
JP6467937B2 (ja) * 2015-01-21 2019-02-13 富士通株式会社 文書処理プログラム、情報処理装置および文書処理方法
JP6550765B2 (ja) * 2015-01-28 2019-07-31 富士通株式会社 文字データ変換プログラム、文字データ変換装置および文字データ変換方法
JP6507682B2 (ja) * 2015-01-30 2019-05-08 富士通株式会社 符号化プログラム、符号化方法および符号化装置
US10114955B2 (en) * 2015-02-11 2018-10-30 Visa International Service Association Increasing search ability of private, encrypted data
JP6648431B2 (ja) * 2015-07-13 2020-02-14 富士通株式会社 照合プログラム、照合方法および照合装置
JP6679874B2 (ja) * 2015-10-09 2020-04-15 富士通株式会社 符号化プログラム、符号化装置、符号化方法、復号化プログラム、復号化装置および復号化方法
JP2017126185A (ja) * 2016-01-13 2017-07-20 富士通株式会社 符号化プログラム、符号化方法、符号化装置、復号化プログラム、復号化方法および復号化装置
JP6728926B2 (ja) * 2016-04-18 2020-07-22 富士通株式会社 符号化処理プログラム、符号化処理装置、符号化処理方法、復号化処理プログラム、復号化処理装置および復号化処理方法
JP6737025B2 (ja) * 2016-07-19 2020-08-05 富士通株式会社 符号化プログラム、検索プログラム、符号化装置、検索装置、符号化方法、及び検索方法
JP6680126B2 (ja) * 2016-07-25 2020-04-15 富士通株式会社 符号化プログラム、符号化装置、符号化方法、及び検索方法

Also Published As

Publication number Publication date
US10942934B2 (en) 2021-03-09
US20180101580A1 (en) 2018-04-12
JP2018060443A (ja) 2018-04-12

Similar Documents

Publication Publication Date Title
US8117026B2 (en) String matching method and system using phonetic symbols and computer-readable recording medium storing computer program for executing the string matching method
US9208450B1 (en) Method and apparatus for template-based processing of electronic documents
CN107305586B (zh) 索引生成方法、索引生成装置及搜索方法
JP6447161B2 (ja) 意味構造検索プログラム、意味構造検索装置、及び意味構造検索方法
JP2017194803A (ja) 符号化プログラム、符号化装置および符号化方法
JP6737117B2 (ja) 符号化データ検索プログラム、符号化データ検索方法および符号化データ検索装置
JP6648431B2 (ja) 照合プログラム、照合方法および照合装置
US11055328B2 (en) Non-transitory computer readable medium, encode device, and encode method
JP6805720B2 (ja) データ検索プログラム、データ検索装置およびデータ検索方法
EP3306823B1 (en) Encoding program, encoding apparatus and encoding method
JP5342760B2 (ja) 訳語学習のためのデータを作成する装置、方法、およびプログラム
JP7003427B2 (ja) 検索プログラム、情報処理装置および検索方法
KR101694179B1 (ko) 모음 제거 기반 인덱스 생성 방법 및 장치
Gupta et al. Fast and effective searches of personal names in an international environment
JP2018190030A (ja) 情報処理サーバ、その制御方法、及びプログラム、並びに、情報処理システム、その制御方法、及びプログラム
JP2001243245A (ja) 類似文検索方法、装置、および類似文検索プログラムを記録した記録媒体
US20210357438A1 (en) Computer-readable recording medium, index creation device, index creation method, computer-readable recording medium, search device, and search method
JP4139805B2 (ja) 字句をデータに変換する装置、方法及びプログラム
JP4061283B2 (ja) 字句をデータに変換する装置、方法及びプログラム
JP2008293070A (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
JP2005275880A (ja) 字句をデータに変換する装置、方法及びプログラム
JP2016134754A (ja) 変換処理プログラム、情報処理装置および変換処理方法
JPH07160730A (ja) 全文検索装置
JPH0869455A (ja) 文書検索方法,文書検索装置及び文書記憶装置
JPH1166076A (ja) データ派生装置及び方法、並びに、データ派生プログラムを格納した記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190709

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200204

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200616

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200629

R150 Certificate of patent or registration of utility model

Ref document number: 6737117

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150