JP7006462B2 - データ生成プログラム、データ生成方法および情報処理装置 - Google Patents

データ生成プログラム、データ生成方法および情報処理装置 Download PDF

Info

Publication number
JP7006462B2
JP7006462B2 JP2018071191A JP2018071191A JP7006462B2 JP 7006462 B2 JP7006462 B2 JP 7006462B2 JP 2018071191 A JP2018071191 A JP 2018071191A JP 2018071191 A JP2018071191 A JP 2018071191A JP 7006462 B2 JP7006462 B2 JP 7006462B2
Authority
JP
Japan
Prior art keywords
bitmap
morpheme
index
word
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018071191A
Other languages
English (en)
Other versions
JP2019185145A (ja
Inventor
正弘 片岡
貴博 大久保
量 松村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2018071191A priority Critical patent/JP7006462B2/ja
Priority to US16/351,925 priority patent/US10803243B2/en
Publication of JP2019185145A publication Critical patent/JP2019185145A/ja
Application granted granted Critical
Publication of JP7006462B2 publication Critical patent/JP7006462B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/123Storage facilities
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/60General implementation details not specific to a particular type of compression
    • H03M7/6011Encoder aspects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、データ生成プログラム、データ生成方法および情報処理装置に関する。
データの圧縮や伸長において、LZ77やZIPなどでは、文字や最長一致文字列に対して短いビット長の符号を割り当てることで、符号化と復号化が行われる。また、Web検索では、単語に対応付けた転置インデックスを利用して、全文検索を高速化する技術が知られている。
一方、近年では、圧縮や伸長のために、単語に対して符号を割り当てることで、符号化と復号化を行い、かつ、検索の高速化のために、単語とその出現位置に対応付けた転置インデックスを生成し、内蔵する技術が知られている。
特開2016-046602号公報
ところで、単語の出現順に対応付けられた圧縮符号を基に元データを復元することは容易ではある。しかしながら、転置インデックスは、単語の符号の出現順では無く、単語(もしくは、単語を構成する文字列)の符号のコード順序で転置(並び替え)されているため、元のデータを復元するのに時間がかかる。特に、特定の部分だけのデータを復元したいときは、復元対象の特定や該当インデックスの検索に時間がかかる。
また、転置インデックスのサイズ増大を抑止するため、出現頻度の高い単語をインデックス対象より除外したり、転置インデックスの位置に関する情報の粒度を大きくしたりする等の処理が行われるため、転置インデックスを利用して元のデータを復元することはできない。
一つの側面では、転置インデックスから元データを復元し、その復元にかかる時間を短縮することができるデータ生成プログラム、データ生成方法および情報処理装置を提供することを目的とする。
第1の案では、データ生成プログラムは、テキストデータにより生成された、前記テキストデータに含まれる複数の形態素の位置を前記複数の形態素それぞれと対応付けたインデックスを参照して、第1の形態素の前記テキストデータにおける位置の順で前記第1の形態素を配置する処理をコンピュータに実行させる。データ生成プログラムは、形態素間の関係性を示す関係性情報を参照し、前記第1の形態素が第2の形態素と関係性を有する特定の種別である場合、前記インデックスを参照し、前記テキストデータにおける位置の順で前記第2の形態素を配置する処理をコンピュータに実行させる。
一実施形態によれば、元データを復元し、その復元にかかる時間を短縮することができる。
図1は、実施例1にかかる復元処理を説明する図である。 図2は、実施例1にかかる情報処理装置の機能構成を示す機能ブロック図である。 図3は、ビットマップ型転置インデックスに関するサイズ縮小について説明する図である。 図4、共起ビットマップを説明する図である。 図5は、静的辞書および動的辞書を説明する図である。 図6は、共起情報DBに記憶される情報の例を示す図である。 図7は、ハッシュ化ビットマップ型転置インデックスの展開について説明する図である。 図8は、ハッシュ化ビットマップ型転置インデックスのAND演算について説明する図である。 図9は、復元対象のインデックスを説明する図である。 図10は、全文検索を説明する図である。 図11は、タグ条件検索を説明する図である。 図12は、圧縮符号の転置を説明する図である。 図13は、圧縮データの生成および元の文書データの復元を説明する図である。 図14は、処理の流れを示すフローチャートである。 図15は、実施例1の情報処理装置のハードウェア構成を示す図である。 図16は、コンピュータで動作するプログラムの構成例を示す図である。 図17は、実施形態のシステムにおける装置の構成例を示す図である。
以下に、本願の開示するデータ生成プログラム、データ生成方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は矛盾のない範囲内で適宜組み合わせることができる。
[全体構成]
まず、実施例1にかかる情報処理装置10(図2を参照)が実行する処理について説明する。図1は、実施例1にかかる復元処理を説明する図である。ここでは、「医療・・・・<副作用>発熱</副作用>・・・である」のように、タグで囲まれた単語を含む文章を対象とする。なお、タグに限らず、カラムなどであっても同様に処理することができる。
図1に示すように、情報処理装置10は、対象文書データを符号化する際に、圧縮符号に対応するビットマップ型転置インデックス(以下では、単にビットマップまたはハッシュ化ビットマップなどと記載する場合がある)、共起ビットマップを生成する。
そして、情報処理装置10は、指定されたタグの位置や指定されたタグに囲まれる単語などを、共起ビットマップで特定した後、ビットマップ型転置インデックスを用いた圧縮符号の転置バッファリング処理を実行して、転置用バッファに圧縮符号を配置する。その後、情報処理装置10は、静的辞書および動的辞書を用いて、転置用バッファに圧縮符号を、格納されている順で変換することで、元のテキストデータのうち該当する一部分だけを復元する。
ここで、ビットマップ型転置インデックスは、符号化対象の文章データから生成されたインデックスであり、文章データに登場する各単語に対応する圧縮符号と文書データにおける出現位置とを対応付けたインデックスである。共起ビットマップは、文章データに出現する各タグと、タグで囲まれた単語とを関係づけた情報である。
また、静的辞書は、出現頻度の高い単語について、当該単語に予め割当てられた圧縮符号を記載する辞書であり、高頻度の単語と圧縮符号とを対応付けた表である。動的辞書は、出現頻度の低い単語について、当該単語に割当てられた圧縮符号を記載する辞書であり、低頻度の単語と圧縮符号とを対応付けた表である。すなわち、動的辞書は、文章データに登場する単語のうち、静的辞書に登録されていない各未登録単語に対して、文章データに登場したときに動的に割当てられる圧縮符号と未登録単語との対応付けを記憶する。また、転置用バッファは、3バイトの固定長で区切ったバッファであり、ビットマップ型転置インデックスと同じバイト数分の長さを有するバッファである。なお、各辞書における単語は、タグを含む。
このような状態において、情報処理装置10は、文書データに出現した単語1、単語2・・・単語nのそれぞれに対応する圧縮符号A、圧縮符号B・・・圧縮符号Nのそれぞれに対応する各ビットマップ型転置インデックスを取得する。同様に、情報処理装置10は、文書データに出現したタグa(例えば<副作用>)、タグbなどのそれぞれに対応する圧縮符号a、圧縮符号bのそれぞれに対応する共起ビットマップを取得する。さらに、情報処理装置10は、タグaに囲まれる単語1などのように特定して、共起ビットマップを生成する。
その後、情報処理装置10は、ユーザ等のクエリによってタグa(例えば<副作用>)で囲まれる単語を復元対象とする場合、検索対象をタグa(例えば<副作用>)とこれの対となるタグb(例えば</副作用?>)に決定する。なお、タグの関係性は、予め対応付けておいてもよく、一般的なタグ構成を利用して、検索対象として指定されたタグに「/(スラッシュ)」を付けることで、自動的に生成することもできる。
そして、情報処理装置10は、共起ビットマップを参照して、タグa<副作用>に対応する単語1(例えば発)と単語2(例えば熱)を特定し、単語1および単語2を転置対象や復元対象として絞り込む。続いて、情報処理装置10は、単語1と単語2のそれぞれに対応するビットマップ型転置インデックスを取得するとともに、タグa<副作用>とタグb</副作用>のそれぞれに対応する共起ビットマップを取得する。続いて、情報処理装置10は、3バイトずつで区切った転置用バッファを用意する。
そして、情報処理装置10は、タグa<副作用>に対応する共起ビットマップにしたがって、元データにおけるタグa<副作用>の位置を特定し、タグb</副作用>に対応する共起ビットマップにしたがって、元データにおけるタグb</副作用>の位置を特定する。同様に、情報処理装置10は、単語1に対応するビットマップ型転置インデックスにしたがって、元データにおける単語1と単語2の位置を特定する。このようにして、情報処理装置10は、元データにおけるタグ<副作用>で囲まれた文字「発」と文字「熱」の登場位置として、ビット6、7、8、9を特定する。
続いて、情報処理装置10は、対象文章データにおける出現位置に対応する転置用バッファに、出現した単語1(発)、単語2(熱)、タグa(<副作用>)、タグb(</副作用>)の圧縮符号を転置する。例えば、情報処理装置10は、タグa<副作用>(圧縮符号a)が6番目に出現し、タグb</副作用>(圧縮符号b)が9番目に出現し、単語1(圧縮符号A)が7番目に出現し、単語2(圧縮符号B)が8番目に出現する場合、転置用バッファの6番目に圧縮符号aを格納し、7番目に圧縮符号Aを格納し、8番目に圧縮符号Bを格納し、9番目に圧縮符号bを格納する。
その後、情報処理装置10は、静的辞書と動的辞書とを参照して、転置用バッファに格納される順で、格納される各圧縮符号を元の単語に変換する。上記例で説明すると、情報処理装置10は、転置バッファの6番目に格納される圧縮符号aをタグ<副作用>に変換し、7番目に格納される圧縮符号Aを単語1に変換し、8番目に格納される圧縮符号Bを単語2に変換し、9番目に格納される圧縮符号bをタグ</副作用>に変換し、これらを格納されている順で「<副作用>、発、熱、</副作用>」と配置することで、元の文章データのうち検索対象の部分だけを復元することができる。
このように、情報処理装置10は、テキストデータである文書データより生成された、文書データに含まれる単語やタグそれぞれを文書データにおける位置と対応づけたインデックスを参照し、文書データにおける位置の順でインデックスで対応づけられた該当単語を配置する。したがって、情報処理装置10は、ビットマップ型転置インデックス等から元データの一部分を生成することができる。なお、実施例では、単語の圧縮符号に対応するビットマップ型転置インデックスを例にして説明するが、これに限定されるものではなく、文書データから得られる形態素または単語そのものに対応するビットマップ型転置インデックスであっても、同様に処理することができる。なお、その場合は、転置バッファへの格納処理の前に、静的辞書や動的辞書を用いて形態素または単語を圧縮符号へ変換する。
[機能構成]
図2は、実施例1にかかる情報処理装置10の機能構成を示す機能ブロック図である。図2に示すように、情報処理装置10は、通信部11、記憶部12、制御部20を有する。
通信部11は、他の装置の間の通信を制御する処理部であり、例えばネットワークインタフェースカードなどである。例えば、通信部11は、他の情報処理装置10からビットマップ型転置インデックスなどを受信する。
記憶部12は、プログラムやデータを記憶する記憶装置の一例であり、例えばメモリやハードディスクなどである。この記憶部12は、転置インデックスDB13、静的辞書14、動的辞書15、共起情報DB16などを記憶する。
転置インデックスDB13は、符号化対象の文章データから生成されたインデックスであり、文章データに登場する各単語に対応する圧縮符号と文書データにおける出現位置とを対応付けた、オフセット付きのビットマップ型転置インデックスを記憶するデータベースである。
ここで、図3を用いて、オフセット付きのビットマップ型転置インデックスの生成例について説明する。図3は、ビットマップ型転置インデックスに関するサイズ縮小について説明する図である。なお、ここでは、ビットマップ型転置インデックスを生成する装置が、情報処理装置10とは異なるインデックス生成装置を例にして説明するが、情報処理装置10が生成することもできる。
図3を用いて、オフセット付きのビットマップ型転置インデックスの生成例について説明する。図3に示すように、オフセット付きのビットマップ型転置インデックスの生成処理は、ビットマップ型インデックスのサイズ縮小を実現するために、ビットマップ型インデックスからハッシュ化インデックスを生成する。すなわち、ビットマップ型転置インデックスは、隣接した複数のハッシュ値(底)を基に、2次元(単語の軸とファイルの軸)にハッシュ化を適用したハッシュ化インデックスを生成する。
ここでいうビットマップ型インデックスとは、テキストデータに含まれる単語について、ファイルごとの存否をインデックス化したビットマップのことをいう。図3に示すように、ビットマップ型インデックスのX軸はオフセットを表し、ビットマップ型インデックスのY軸は単語IDを表す。すなわち、ビットマップ型インデックスは、単語IDが示す単語のあるファイルにおける存否を表す。一例として、ある単語IDに対応するビットマップbi1が示されている。ある単語IDが示す単語がファイルに存在する場合には、当該単語のファイルの存否として2進数の「1」が設定され、当該単語がファイルに存在しない場合には、当該単語のファイルの存否として2進数の「0」が設定される。
例えば、図3に示すように、インデックス生成装置は、単語IDに対応するビットマップそれぞれについてハッシュ関数を適用した複数のハッシュ化ビットマップを生成する。ここでは、インデックス生成装置は、32ビットレジスタを想定し、一例として29と31のハッシュ値(底)を基に、各ビットマップをハッシュ化する。具体的には、インデックス生成装置は、1つの底のハッシュ化ビットマップについて、単語IDに対応するビットマップの各ビットの位置を底で割った余りの位置に、当該ビットマップの各ビットの値を設定する。
一例として、インデックス生成装置は、底29のハッシュ化ビットマップh11について、ビットマップbi1の各ビットの位置を底29で割った余りの位置に、ビットマップbi1の各ビットの値を設定する。ビットマップbi1の35ビット目の位置のビット値「1」は、ハッシュ化ビットマップh11の6ビット目に設定される。ビットマップbi1の42ビット目の位置のビット値「1」は、ハッシュ化ビットマップh11の13ビット目に設定される。インデックス生成装置は、底31のハッシュ化ビットマップh12について、ビットマップbi1の各ビットの位置を底31で割った余りの位置に、ビットマップbi1の各ビットの値を設定する。ビットマップbi1の35ビット目の位置のビット値「1」は、ハッシュ化ビットマップh12の4ビット目に設定される。ビットマップbi1の42ビット目の位置のビット値「1」は、ハッシュ化ビットマップh12の11ビット目に設定される。すなわち、インデックス生成装置は、ビットマップの0ビット目からの各ビットを順番にハッシュ化ビットマップの0ビット目から設定し、(底-1)ビット目まで設定する。そして、インデックス生成装置は、再度折り返してハッシュ化ビットマップの0ビット目から既にハッシュ化ビットマップに設定された値とOR演算した値を設定する。
より詳細に説明すると、一例として、インデックスにビットマップ50が含まれるものとし、かかるビットマップ50をハッシュ化する場合について説明する。インデックス生成装置は、ビットマップ50から、底29のビットマップ50aと、底31のビットマップ50bを生成する。ビットマップ50aは、ビットマップ50に対して、オフセット29毎に区切りを設定し、設定した区切りを先頭とするフラグ「1」のオフセットを、ビットマップ50aのオフセット0~28のフラグで表現する。
インデックス生成装置は、ビットマップ50のオフセット0~28までの情報を、ビットマップ50aにコピーする。インデックス生成装置は、ビットマップ50aの29以降のオフセットの情報を下記の様に処理する。
ビットマップ50のオフセット「35」にフラグ「1」が立っている。オフセット「35」は、オフセット「28+7」であるため、インデックス生成装置は、ビットマップ50aのオフセット「6」に「(1)」を立てる。なお、オフセットの1番目を0としている。ビットマップ50のオフセット「42」にフラグ「1」が立っている。オフセット「42」は、オフセット「28+14」であるため、インデックス生成装置は、ビットマップ50aのオフセット「13」にフラグ「(1)」を立てる。
ビットマップ50bは、ビットマップ50に対して、オフセット31毎に区切りを設定し、設定した区切りを先頭とするフラグ「1」のオフセットを、ビットマップ50bのオフセット0~30のフラグで表現する。
ビットマップ50のオフセット「35」にフラグ「1」が立っている。オフセット「35」は、オフセット「30+5」であるため、インデックス生成装置は、ビットマップ50bのオフセット「4」に「(1)」を立てる。なお、オフセットの1番目を0としている。ビットマップ50のオフセット「42」にフラグ「1」が立っている。オフセット「42」は、オフセット「30+12」であるため、インデックス生成装置は、ビットマップ50bのオフセット「11」にフラグ「(1)」を立てる。
インデックス生成装置は、上記処理を実行することで、ビットマップ50からビットマップ50a、50bを生成する。このビットマップ50a、50bが、ビットマップ50をハッシュ化した結果となる。ここでは、ビットマップ50の長さが0~43である場合について説明したが、ビットマップ50の長さが43以上になる場合でも、ビットマップ50に設定されたフラグ「1」を、ビットマップ50aおよびビットマップ50bで表現することができる。
このようにして、インデックス生成装置は、各単語について、上述した手法により生成されたハッシュ化ビットマップを生成する。そして、転置インデックスDB13は、単語ごとのハッシュ化ビットマップを記憶する。ただし、上述したように、サイズ縮小されたものではなく、通常のサイズのビットマップ型転置インデックスを用いることもできる。また、サイズ縮小の手法は、公知の手法を採用することができる。
また、転置インデックスDB13は、符号化対象の文章データから生成されたインデックスであり、文章データに登場する各タグに対応する圧縮符号と文書データにおける出現位置とを対応付けた、オフセット付きのビットマップ型転置インデックスである共起ビットマップを記憶する。図4、共起ビットマップを説明する図である。図4に示すように、共起ビットマップは、オフセット付きのビットマップ型転置インデックスと同様の構成を有するが、異なる点はオフセットではなく単語である点である。なお、共起ビットマップの生成手法は、オフセット付きのビットマップ型転置インデックスと同様なので、詳細な説明は省略する。また、ビットマップ型転置インデックスと共起ビットマップとをまとめてビットマップ型転置インデックスと記載する場合がある。
静的辞書14は、出現頻度の高い単語と、当該単語に予め割当てられた圧縮符号との対応付けを記憶するデータベースなどである。動的辞書15は、静的辞書14に登録されていない出現頻度の低い単語であって、符号化対象の文書データに登場した単語と、当該単語に割当てられた圧縮符号との対応付けを記憶するデータベースである。
図5は、静的辞書14および動的辞書15を説明する図である。図5に示す辞書は、静的辞書14および動的辞書15をあわせた辞書であり、圧縮符号とビットマップ型転置インデックスのY軸は、1対1に対応付けられている。図5に示す横軸の「0*h」から「9*h」までが静的辞書14に対応し、「A*h」から「F*h」までが動的辞書15に対応する。
図5の上部の横方向の項目は、最初の1バイト目を0~Fの16進数表記で示しており、「*」は、2バイト目を示している。例えば、「1*h」は、1バイト目が2進数表記で「00000001」であることを示す。左側の縦方向の項目は、2バイト目を0~Fの16進数表記で示しており、「*」は、1バイト目を示している。例えば、「*2h」は、2バイト目が2進数表記で「00000010」であることを示す。
「0*h」、「1*h」の符号については、1バイトの符号であり、各階層とも、共通の制御コードが対応付けられている。また、「2*h」~「3*h」の符号については、1バイトの符号であり、高頻度に出現する単語の中でも特に頻度の高い超高頻度単語(英単語)が予め対応付けられており、「4*h」~「5*h」の符号については、1バイトの符号であり、高頻度に出現する単語の中でも特に頻度の高い超高頻度単語(日本語)が予め対応付けられている。
また、「6*h」~「7*h」の符号については、2バイトの符号であり、高頻度に出現する単語(英単語)が予め対応付けられており、「8*h」~「9*h」の符号については、2バイトの符号であり、高頻度に出現する単語(日本語)が予め対応付けられている。「A*h」~「F*h」の符号については、2バイトまたは3バイトの符号であり、低頻度単語が出現した際に符号を動的に割り当てる。なお、「E*h」、「F*h」は、符号の不足に対応するため、3バイトの符号としている。
図2に戻り、共起情報DB16は、符号化対象の文章データに含まれるタグと単語の関係性を記憶するデータベースである。ここで記憶される情報は、符号化時に生成される。図6は、共起情報DB16に記憶される情報の例を示す図である。図6に示すように、共起情報DB16は、「タグ」と「単語」を関連付けて記憶する。図6の例では、単語1はタグaで囲まれており、単語2はタグcで囲まれていることを示す。
制御部20は、情報処理装置10全体を司る処理部であり、例えばプロセッサなどである。制御部20は、取得部21と復元部22を実行する。なお、取得部21と復元部22は、プロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例である。
取得部21は、インデックス生成装置などの他のコンピュータから、オフセット付きのビットマップ型転置インデックスや共起ビットマップを取得する処理部である。具体的には、取得部21は、図3で説明した手法で生成された上記ビットマップ型転置インデックスを取得して、転置インデックスDB13に格納する。また、取得部21は、図3で説明した手法で生成された上記共起ビットマップを取得して、転置インデックスDB13に格納する。なお、取得部21がオフセット付きのビットマップ型転置インデックスや共起ビットマップを生成することもできる。
復元部22は、検索部23と転置処理部24と復元処理部25を有し、ビットマップ型転置インデックス、共起ビットマップなどを用いて、元の文書データの復元を実行する処理部である。具体的には、復元部22によって、ハッシュ化されているビットマップ型転置インデックスや共起ビットマップを復元した後、検索部23と転置処理部24と復元処理部25を用いて、元の文書データの復元が実行される。なお、転置処理部24と復元処理部25は、第1配置部と第2配置部の一例である。
ここで、図7と図8を用いて、ハッシュ化されているビットマップ型転置インデックスの復元について説明する。図7は、ハッシュ化ビットマップ型転置インデックスの展開について説明する図であり、図8は、ハッシュ化ビットマップ型転置インデックスのAND演算について説明する図である。ここでは一例として、ビットマップ50aとビットマップ50bとを基にして、ビットマップ50を復元する処理について説明する。ビットマップ50、50a、50bは、図3で説明したものに対応する。
図7に示すように、復元部22は、底29のビットマップ50aを基にして、ビットマップ51aを生成する。ビットマップ51aのオフセット0~28のフラグの情報は、ビットマップ50aのオフセット0~28のフラグの情報と同様となる。ビットマップ51aのオフセット29以降のフラグの情報は、ビットマップ50aのオフセット0~28のフラグの情報の繰り返しとなる。
同様に、復元部22は、底31のビットマップ50bを基にして、ビットマップ51bを生成する。ビットマップ51bのオフセット0~30のフラグの情報は、ビットマップ50bのオフセット0~30のフラグの情報と同様となる。ビットマップ51bのオフセット31以降のフラグの情報は、ビットマップ50bのオフセット0~30のフラグの情報の繰り返しとなる。
その後、図8に示すように、復元部22は、ビットマップ51aとビットマップ51bとのAND演算を実行することで、ビットマップ50を生成する。図8に示す例では、オフセット「0、5、11、18、25、35、42」において、ビットマップ51aおよびビットマップ51bのフラグが「1」となっている。このため、ビットマップ50のオフセット「0、5、11、18、25、35、42」のフラグが「1」となる。このビットマップ50が、復元されたビットマップとなる。復元部22は、他のビットマップについても同様の処理を繰り返し実行することで、各ビットマップを復元し、インデックスを生成する。
図2に戻り、検索部23は、ユーザから受信した、検索対象のタグなどを含む検索クエリにしたがって、検索対象を検索する処理部である。具体的には、検索部23は、ハッシュ化によりサイズ縮小されたオフセット付きビットマップ型転置インデックスや共起ビットマップが復元された後、ビットマップのシフトとAND演算により、全文検索を実行する。図9から図11を用いて、検索部23が実行する検索処理について具体的に説明する。図9は、復元対象のインデックスを説明する図である。図10は、全文検索を説明する図である。図11は、タグ条件検索を説明する図である。
図9に示すように、元データに6ビットから9ビット目に「<副作用>発熱</副作用>」が含まれている場合、「発」に対応する復元後のビットマップ型転置インデックスでは7ビット目に「1」が格納されており、「熱」に対応する復元後のビットマップ型転置インデックスでは8ビット目に「1」が格納される。また、「<副作用>」に対応する復元後の共起ビットマップでは6ビット目に「1」が格納されており、「</副作用>」に対応する復元後の共起ビットマップでは9ビット目に「1」が格納される。
図10に示すように、検索部23による検索処理は、ビットマップ型インデックスに含まれるビットマップと、検索条件の文字列を構成する各文字の出現順序に対応づけて生成される検索ビットマップとの論理演算により、当該検索条件の文字列を検索する。検索部23が行う検索処理は、検索文字列を受け付ける。ここでは、検索文字列は、「発熱」である。
検索処理は、検索文字列「発熱」に含まれる先行する文字「発」に対応するビットマップをビットマップ型インデックスから抽出する。このビットマップの7ビット目に「1」が設定されている。検索処理は、このビットマップを1ビットだけ左シフトする。このビットマップの8ビット目に「1」が設定される。
続いて、検索処理は、検索文字列「発熱」に含まれる後続する2番目の文字「熱」に対応するビットマップをビットマップ型インデックスから抽出する。このビットマップの8ビット目に「1」が設定されている。検索処理は、先行する文字「発」に対応する、シフトした結果のビットマップと、後続する文字「熱」に対応するビットマップとをAND演算する。このAND演算した結果のビットマップが、検索文字列を構成する「発熱」における出現順序に対応づけて生成される検索ビットマップに対応する。そして、検索処理は、演算の結果、ビットマップの全てのビットが「0」であるか否かを判定する。ここでは、ビットマップの8ビット目が「1」として算出されるので、全てのビットが「0」であるとはいえないと判定される。すなわち、検索処理は、今回の文字と次の文字とを含む文字列「発熱」が存在すると判定する。
さらに、検索処理は、タグ「<副作用>」に対応するビットマップをビットマップ型インデックスから抽出し、このビットマップの6ビット目に「1」が設定されている。同様に、検索処理は、タグ「</副作用>」に対応するビットマップをビットマップ型インデックスから抽出し、このビットマップの9ビット目に「1」が設定されている。そして、検索処理では、開始タグ<副作用>と終了タグ</副作用>とに囲まれる6ビット目から9ビット目までに「1」が設定されるビットマップを生成する。
その後、検索処理は、ここで生成したタグ<副作用>に対応する6ビット目から9ビット目までに「1」が設定されるビットマップと、8ビット目に「1」が設定された上記「発熱」に対応するビットマップとのAND演算を実行する。そして、検索処理は、AND演算の結果、8ビット目に「1」が設定されたビットマップを生成する。ここで、検索処理は、演算の結果、ビットマップの全てのビットが「0」であるか否かを判定する。この例では、ビットマップの8ビット目が「1」として算出されるので、全てのビットが「0」であるとはいえないと判定される。すなわち、検索処理は、タグの間に文字列「発熱」が存在するととともに、6ビット目から9ビット目までが検索クエリに対応する復元箇所と判定することができる。
転置処理部24は、該当の単語の圧縮符号および該当のタグの圧縮符号を、ビットマップ型転置インデックスのビットマップや共起ビットマップをもとに、転置バッファに転置する処理部である。転置処理部24は、動的辞書15で管理される符号の最大バイト数である3バイトで区切った転置バッファをメモリ等に確保し、単語やタグが出現した位置に対応する転置バッファに、該当単語やタグの圧縮符号を格納する。
図12は、圧縮符号の転置を説明する図である。例えば、図12に示すように、転置処理部24は、単語「発」に対応する圧縮符号「20h」のオフセット(位置)の7の位置に「1」が格納されているので、転置バッファの8番目である(7)に圧縮符号「20h」を格納する。なお、圧縮符号「20h」が格納された領域内で、使用されていない領域はNULLとなる。同様に、転置処理部24は、単語「熱」に対応する圧縮符号「25h」のオフセット(位置)の8の位置に「1」が格納されているので、転置バッファの9番目である(8)に圧縮符号「25h」を格納する。なお、圧縮符号「25h」が格納された領域内で、使用されていない領域はNULLとなる。同様に、転置処理部24は、タグ<副作用>に対応する圧縮符号「A000h」のオフセット(位置)の6の位置に「1」が格納されているので、転置バッファの7番目である(6)に圧縮符号「A000h」を格納する。なお、圧縮符号「A000h」が格納された領域内で、使用されていない領域はNULLとなる。
このようにして、転置処理部24は、単語「発」、単語「熱」、タグ「<副作用>」、タグ</副作用>」の各圧縮符号のビットマップ型転置インデックスに基づいて、3バイト区切りの転置バッファの先頭から順に、文書データ内の出現順で該当単語等の圧縮符号を格納することができる。そして、転置処理部24は、圧縮符号が格納された転置バッファを復元処理部25に出力する。
復元処理部25は、圧縮符号が格納された転置バッファから、元の文書データの復元対象の部分を復元する処理部である。具体的には、復元処理部25は、転置バッファ内のNULLを削除して、圧縮符号だけを抽出した圧縮データを生成する。その後、復元処理部25は、各圧縮符号を、静的辞書14または動的辞書15を用いて元の単語に復元することで、文書データの復元を実行する。なお、圧縮データにNULLを挿入して、転置バッファの状態を復元することもできる。
図13は、圧縮データの生成および元の文書データの復元を説明する図である。図13に示すように、復元処理部25は、転置バッファの先頭である(0)のバッファから順に(n)のバッファまで、「NULL」を削除して、圧縮符号「A000h」、「20h」、「25h」、「A001h」を順に抽出する。そして、復元処理部25は、抽出した圧縮符号を連結させた圧縮データ「A000h,20h,25h,A001h」を生成する。
その後、復元処理部25は、静的辞書14および動的辞書15を参照して、圧縮データ「A000h,20h,25h,A001h」の各圧縮符号に対応する単語等を特定し、圧縮データを単語等に変換した「<副作用>、発、熱、</副作用>」を生成する。そして、復元処理部25は、変換して得られた単語等を連結させて、復元対象の「<副作用>発熱</副作用>」を復元する。
[処理の流れ]
図14は、処理の流れを示すフローチャートである。ここでは、静的辞書と動的辞書は、すでに記憶されているものとする。
図14に示すように、情報処理装置10の取得部21は、処理開始が指示されると(S101:Yes)、単語ごとのビットマップ型転置インデックスを取得する(S102)。また、取得部21は、タグごとの共起ビットマップを取得する(S103)。ここで、復元部22は、各ビットマップ型転置インデックスがハッシュ化されてサイズ縮小されている場合は、元のサイズに復元する。
続いて、検索部23は、検索対象のタグや単語などを含む検索クエリをユーザ端末などから受信すると(S104)、全文検索を実行し(S105)、タグ条件検索を実行して(S106)、検索クエリの検索対象が元の文書に含まれていることや復元対象である元文書の一部分を特定する(S107)。
続いて、転置処理部24は、圧縮符号の転置用バッファを確保する(S108)。そして、復元処理部25は、特定された単語とタグのそれぞれに該当するビットマップを用いて、復元対象の圧縮符号を特定し、特定した圧縮符号を転置用バッファの該当位置に格納し、NULLを削除して圧縮データを生成する(S109)。
その後、復元処理部25は、各辞書を用いて、圧縮データ内の各圧縮符号を単語等に復元し(S110)、復元された単語等を用いて、該当部分のみを復元する(S111)。
[効果]
上述したように、情報処理装置10は、オフセット付きのビットマップ型転置インデックス、共起ビットマップをもとに、圧縮符号の転置と置換、およびテキストを復元する。具体的には、情報処理装置10は、オフセット付きのビットマップ型転置インデックスのビット列の1ビットと圧縮符号のバイト列の固定3バイトを対応付け、復号対象の部分(タグ関連部分)についてのみ、該当単語の圧縮符号の転置を実行する。続いて、情報処理装置10は、各圧縮符号のNULLバイトをサプレスする。その後、情報処理装置10は、固定3バイトの圧縮符号のバイト列をもとに、静的辞書と動的辞書を用いて、復元対象のタグ関連部分のみを復元する。したがって、情報処理装置10は、共起ビットマップをもとに、復号対象の部分(タグ関連部分)のみを絞り込んで復元することで高速化を図ることができる。
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下に異なる実施例を説明する。
[検索対象]
実施例1にかかる情報処理装置10は、検索クエリとして単語またはタグなどを受け付けて上記検索処理を実行することができる。また、検索クエリに指定するタグは、開始タグと終了タグの両方であっても、いずれか一方であっても、実施例と同様の手法を用いて、処理することができる。また、情報処理装置10は、タグなどに限らずカラムなどについても同様に処理することができ、共起する形態素であれば、どのような形態素を採用することもできる。
また、実施例1では、「発」と「熱」を別々にして符号化する例を説明したが、これに限定されるものではなく、「発熱」として符号化することもできる。なお、実施例で説明した圧縮符号は、あくまで一例であり、値などを限定するものではない。また、単語やタグなどの形態素と圧縮符号との関係もあくまで一例であり、値などを限定するものではない。
また、ビットマップ型インデックス、共起ビットマップ、共起情報DB16などは、情報処理装置10が生成することもでき、インデックス生成装置が生成して情報処理装置10がインデックス生成装置から取得することもできる。
[システム]
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPU(Central Processing Unit)および当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[ハードウェア構成]
図15は、実施例1の情報処理装置10のハードウェア構成を示す図である。図15の例に示すように、コンピュータ400は、各種演算処理を実行するCPU401と、ユーザからのデータ入力を受け付ける入力装置402と、モニタ403とを有する。また、コンピュータ400は、記憶媒体からプログラム等を読み取る媒体読取装置404と、他の装置と接続するためのインターフェース装置405と、他の装置と無線により接続するための無線通信装置406とを有する。また、コンピュータ400は、各種情報を一時記憶するRAM(Random Access Memory)407と、ハードディスク装置408とを有する。また、各装置401~408は、バス409に接続される。
ハードディスク装置408には、例えば図2に示した取得部21と復元部22の各処理部と同様の機能を有する情報処理プログラムが記憶される。また、ハードディスク装置408には、情報処理プログラムを実現するための各種データが記憶される。
CPU401は、ハードディスク装置408に記憶された各プログラムを読み出して、RAM407に展開して実行することで各種の処理を行う。これらのプログラムは、コンピュータ400を、例えば図2に示した取得部21と復元部22として機能させることができる。
なお、上記の情報処理プログラムは、必ずしもハードディスク装置408に記憶されている必要はない。例えば、コンピュータ400が読み取り可能な記憶媒体に記憶されたプログラムを、コンピュータ400が読み出して実行するようにしてもよい。コンピュータ400が読み取り可能な記憶媒体は、例えば、CD-ROM(Compact Disc Read only memory)やDVD、USB(Universal Serial Bus)メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、LAN(Local Area Network)等に接続された装置にこのプログラムを記憶させておき、コンピュータ400がこれらからプログラムを読み出して実行するようにしてもよい。
図16は、コンピュータ400で動作するプログラムの構成例を示す図である。コンピュータ400において、図15に示すハードウェア群26(401~409)の制御を行なうOS(オペレーティング・システム)27が動作する。OS27に従った手順でCPU401が動作して、ハードウェア群26の制御・管理が行なわれることにより、アプリケーションプログラム29やミドルウェア28に従った処理がハードウェア群26で実行される。さらに、コンピュータ400において、ミドルウェア28またはアプリケーションプログラム29が、RAM407に読み出されてCPU401により実行される。
CPU401により検索機能が呼び出された場合、ミドルウェア28またはアプリケーションプログラム29の少なくとも一部に基づく処理を行なうことで、(それらの処理をOS27に基づいてハードウェア群26を制御して)、取得部21と復元部22の機能が実現される。取得部21と復元部22の各機能は、それぞれアプリケーションプログラム29自体に含まれてもよいし、アプリケーションプログラム29に従って呼び出されることで実行されるミドルウェア28の一部であってもよい。
図17は、実施形態のシステムにおける装置の構成例を示す図である。図17のシステムは、コンピュータ400a、コンピュータ400b、基地局30およびネットワーク40を含む。コンピュータ400aは、無線または有線の少なくとも一方により、コンピュータ400bと接続されたネットワーク40に接続している。
10 情報処理装置
11 通信部
12 記憶部
13 転置インデックスDB
14 静的辞書
15 動的辞書
16 共起情報DB
20 制御部
21 取得部
22 復元部
23 検索部
24 転置処理部
25 復元処理部

Claims (5)

  1. テキストデータにより生成された、前記テキストデータに含まれる複数の形態素の位置を前記複数の形態素それぞれと対応付けたインデックスを参照して、第1の形態素の前記テキストデータにおける位置の順で前記第1の形態素を配置し、
    形態素間の関係性を示す関係性情報を参照し、前記第1の形態素が第2の形態素と関係性を有する特定の種別である場合、前記インデックスを参照し、前記テキストデータにおける位置の順で前記第2の形態素を配置する、
    処理をコンピュータに実行させることを特徴とするデータ生成プログラム。
  2. 前記テキストデータに含まれる形態素それぞれを符号化した符号と、前記テキストデータにおける当該形態素を対応づけた前記インデックスを参照して、前記テキストデータを符号化した符号化データにおける前記第1の形態素の位置および前記第2の形態素の位置を特定し、
    前記符号化データの中から、前記第1の形態素および前記第2の形態素を前記テキストデータにおける位置の順で配置して復号することを特徴とする請求項1に記載のデータ生成プログラム。
  3. 前記符号化データの検索対象として、単語とタグ、または、単語とカラムを受け付けた場合に、前記インデックスを参照して前記単語に該当する第1の符号と前記タグまたは前記カラムに対応する第2の符号とを特定し、
    前記符号化データにおける前記第1の符号の位置および前記第2の符号の位置を特定し、
    前記符号化データの中から、前記第1の符号および前記第2の符号を前記テキストデータにおける位置の順で配置して復号することを特徴とする請求項2に記載のデータ生成プログラム。
  4. テキストデータにより生成された、前記テキストデータに含まれる複数の形態素の位置を前記複数の形態素それぞれと対応付けたインデックスを参照して、第1の形態素の前記テキストデータにおける位置の順で前記第1の形態素を配置し、
    形態素間の関係性を示す関係性情報を参照し、前記第1の形態素が第2の形態素と関係性を有する特定の種別である場合、前記インデックスを参照し、前記テキストデータにおける位置の順で前記第2の形態素を配置する、
    処理をコンピュータが実行することを特徴とするデータ生成方法。
  5. テキストデータにより生成された、前記テキストデータに含まれる複数の形態素の位置を前記複数の形態素それぞれと対応付けたインデックスを参照して、第1の形態素の前記テキストデータにおける位置の順で前記第1の形態素を配置する第1配置部と、
    形態素間の関係性を示す関係性情報を参照し、前記第1の形態素が第2の形態素と関係性を有する特定の種別である場合、前記インデックスを参照し、前記テキストデータにおける位置の順で前記第2の形態素を配置する第2配置部と
    を有することを特徴とする情報処理装置。
JP2018071191A 2018-04-02 2018-04-02 データ生成プログラム、データ生成方法および情報処理装置 Active JP7006462B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018071191A JP7006462B2 (ja) 2018-04-02 2018-04-02 データ生成プログラム、データ生成方法および情報処理装置
US16/351,925 US10803243B2 (en) 2018-04-02 2019-03-13 Method, device, and medium for restoring text using index which associates coded text and positions thereof in text data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018071191A JP7006462B2 (ja) 2018-04-02 2018-04-02 データ生成プログラム、データ生成方法および情報処理装置

Publications (2)

Publication Number Publication Date
JP2019185145A JP2019185145A (ja) 2019-10-24
JP7006462B2 true JP7006462B2 (ja) 2022-01-24

Family

ID=68057201

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018071191A Active JP7006462B2 (ja) 2018-04-02 2018-04-02 データ生成プログラム、データ生成方法および情報処理装置

Country Status (2)

Country Link
US (1) US10803243B2 (ja)
JP (1) JP7006462B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11086950B2 (en) * 2018-05-04 2021-08-10 Servicenow, Inc. System and method for task generation to address article feedback

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008140357A (ja) 2006-11-08 2008-06-19 Hitachi Ltd 転置インデックス作成装置、作成方法、及び検索方法
WO2009063925A1 (ja) 2007-11-15 2009-05-22 Nec Corporation 文書管理・検索システムおよび文書の管理・検索方法
JP2012038124A (ja) 2010-08-09 2012-02-23 Nec Corp 文書処理装置、文書処理方法、及び、プログラム
JP2017194762A (ja) 2016-04-18 2017-10-26 富士通株式会社 インデックス生成プログラム、インデックス生成装置、インデックス生成方法、検索プログラム、検索装置および検索方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6112208A (en) * 1997-08-25 2000-08-29 Fujitsu Limited Data compressing method and apparatus to generate bit maps in accordance with extracted data symbols
JPH11136135A (ja) * 1997-08-25 1999-05-21 Fujitsu Ltd データ圧縮方法、その装置、データ復元方法、及びその装置、記録媒体
JP2004102430A (ja) 2002-09-05 2004-04-02 Ntt Docomo Inc 構造化文書ファイル処理装置、構造化文書ファイル処理方法、プログラム及び記憶媒体
US7457940B2 (en) * 2004-11-16 2008-11-25 International Business Machines Corporation System and method for managing data
US8175875B1 (en) * 2006-05-19 2012-05-08 Google Inc. Efficient indexing of documents with similar content
US7853598B2 (en) * 2007-10-01 2010-12-14 Sap Ag Compressed storage of documents using inverted indexes
NO327653B1 (no) * 2007-12-20 2009-09-07 Fast Search & Transfer As Fremgangsmate for dynamisk oppdatering av en indeks og en sokemotor som implementerer samme
JP5193669B2 (ja) 2008-05-08 2013-05-08 株式会社野村総合研究所 検索システム
JP4734400B2 (ja) 2008-12-18 2011-07-27 株式会社東芝 文書検索装置およびプログラム
US9582486B2 (en) * 2014-05-13 2017-02-28 Lc Cns Co., Ltd. Apparatus and method for classifying and analyzing documents including text
JP6476647B2 (ja) 2014-08-20 2019-03-06 富士通株式会社 圧縮プログラム、圧縮装置、圧縮方法、伸長プログラム、伸長装置および伸長方法
JP6543922B2 (ja) * 2014-12-10 2019-07-17 富士通株式会社 インデックス生成プログラム
JP6550765B2 (ja) * 2015-01-28 2019-07-31 富士通株式会社 文字データ変換プログラム、文字データ変換装置および文字データ変換方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008140357A (ja) 2006-11-08 2008-06-19 Hitachi Ltd 転置インデックス作成装置、作成方法、及び検索方法
WO2009063925A1 (ja) 2007-11-15 2009-05-22 Nec Corporation 文書管理・検索システムおよび文書の管理・検索方法
JP2012038124A (ja) 2010-08-09 2012-02-23 Nec Corp 文書処理装置、文書処理方法、及び、プログラム
JP2017194762A (ja) 2016-04-18 2017-10-26 富士通株式会社 インデックス生成プログラム、インデックス生成装置、インデックス生成方法、検索プログラム、検索装置および検索方法

Also Published As

Publication number Publication date
US10803243B2 (en) 2020-10-13
JP2019185145A (ja) 2019-10-24
US20190303436A1 (en) 2019-10-03

Similar Documents

Publication Publication Date Title
TW312771B (ja)
US8988257B2 (en) Data compression utilizing variable and limited length codes
US9425821B2 (en) Converting device and converting method
JP5831298B2 (ja) プログラム、情報処理装置およびインデックス生成方法
JP3778087B2 (ja) データ符号化装置及びデータ復号装置
US9973206B2 (en) Computer-readable recording medium, encoding device, encoding method, decoding device, and decoding method
US20130262486A1 (en) Encoding and Decoding of Small Amounts of Text
JP6550765B2 (ja) 文字データ変換プログラム、文字データ変換装置および文字データ変換方法
US20220277139A1 (en) Computer-readable recording medium, encoding device, index generating device, search device, encoding method, index generating method, and search method
US9965448B2 (en) Encoding method and information processing device
JP7006462B2 (ja) データ生成プログラム、データ生成方法および情報処理装置
JP3342788B2 (ja) 圧縮データの伸張方法
JP6984321B2 (ja) データ生成プログラム、データ生成方法および情報処理装置
JP6907948B2 (ja) ファイル生成プログラム、ファイル生成方法及びファイル生成装置
JPH10261969A (ja) データ圧縮方法および装置
JP2016134808A (ja) データ圧縮プログラム、データ復元プログラム、データ圧縮装置、及びデータ復元装置
JP6512294B2 (ja) 圧縮プログラム、圧縮方法および圧縮装置
US20160210304A1 (en) Computer-readable recording medium, information processing apparatus, and conversion process method
Rincy et al. Preprocessed text compression method for Malayalam text files
JP2004013680A (ja) 文字コード圧縮・復元装置および同方法
JP6658908B2 (ja) 出力プログラム、出力方法および出力システム
JP2016019113A (ja) 伸長方法、伸長プログラムおよび伸長装置
JP3236747B2 (ja) データ伸長方式
Ong et al. Compressing Chinese text files using an adaptive Huffman coding scheme and a static dictionary of character pairs
JP4061283B2 (ja) 字句をデータに変換する装置、方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211220

R150 Certificate of patent or registration of utility model

Ref document number: 7006462

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150