JP6740845B2 - 文書符号化プログラム、情報処理装置および文書符号化方法 - Google Patents

文書符号化プログラム、情報処理装置および文書符号化方法 Download PDF

Info

Publication number
JP6740845B2
JP6740845B2 JP2016199255A JP2016199255A JP6740845B2 JP 6740845 B2 JP6740845 B2 JP 6740845B2 JP 2016199255 A JP2016199255 A JP 2016199255A JP 2016199255 A JP2016199255 A JP 2016199255A JP 6740845 B2 JP6740845 B2 JP 6740845B2
Authority
JP
Japan
Prior art keywords
document
word
data
substructure
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016199255A
Other languages
English (en)
Other versions
JP2018060463A (ja
Inventor
文昭 中村
文昭 中村
片岡 正弘
正弘 片岡
清司 大倉
清司 大倉
将夫 出内
将夫 出内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2016199255A priority Critical patent/JP6740845B2/ja
Priority to US15/714,205 priority patent/US20180101553A1/en
Publication of JP2018060463A publication Critical patent/JP2018060463A/ja
Application granted granted Critical
Publication of JP6740845B2 publication Critical patent/JP6740845B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書符号化プログラムなどに関する。
解析対象の文書に用いられている単語の頻度を集計し、頻度の集計結果に基づきクラスタ分析や文書間の距離測定(類似度の測定)を行う手法が存在する。文書間の類似度の測定では、ある文書に類似する文書を検索することができる。かかる検索では、類似する文書の有無や文書間の類似度と同様に、類似する文書が持つ複数のサブ構造のうち特に類似するサブ構造を検索することができる。
また、単語の頻度の集計は、文書単位で行われることが知られている。
特開2003−157271号公報 特開2001−249943号公報 特開平6−28403号公報
しかしながら、分析の対象を細分化し、文書のサブ構造の単位で分析を行う場合には、文書単位で処理された処理結果を利用できないという問題がある。例えば、分析の対象を細分化し、文書のサブ構造の単位で特定の検索クエリ(検索文)との類似度を測定する場合には、サブ構造の単位で、あらためて、単語の頻度の集計を行う必要がある。すなわち、文書単位で単語の頻度の集計が行われ、あらためて、細分化された集計単位であるサブ構造の単位で単語の頻度の集計が行われる。なお、サブ構造の単位には、例えば、章単位や節単位などが挙げられる。
ここで、文書のサブ構造の単位で分析を行う場合には、文書単位で処理された処理結果を利用できないという問題について、図1および図2を参照して説明する。
図1は、圧縮データを活用する文書処理の流れの一例を示す図である。図1に示すように、情報処理装置は、圧縮された文書の圧縮データを伸長し(a1)、伸長した文書データを字句解析する(a2)。そして、情報処理装置は、字句解析結果の単語の出現頻度を集計する(a3)。そして、情報処理装置は、集計結果を活用し、分析を行う(a4)。圧縮データは、例えば、ZIPにより圧縮されたデータである。そして、文書のサブ構造の単位で分析を行う場合には、情報処理装置は、あらためて、圧縮された文書の圧縮データを伸長し(a1)、伸長した文書データを字句解析する(a2)。そして、情報処理装置は、サブ構造に合わせて、字句解析結果の単語の出現頻度を集計する(a3)。そして、情報処理装置は、集計結果を活用し、分析を行う(a4)。すなわち、情報処理装置は、文書のサブ構造の単位で分析を行う場合には、圧縮データを伸長した際の文書データおよび字句解析した際の字句解析結果を利用できない。
図2は、圧縮データを活用する文書処理のフローチャートの一例を示す図である。なお、図2では、特定された検索クエリとサブ構造単位での文書との間の類似度の測定を活用とする場合を説明する。図2に示すように、情報処理装置は、文書のサブ構造の単位で分析を行う場合には、ZIP圧縮された文書を伸長する(S101)。伸長した文書データをサブ構造単位にユーザが分割する(S102)。そして、情報処理装置は、分割された文書と検索クエリとをそれぞれ字句解析する(S103)。情報処理装置は、字句解析結果の単語の出現数を集計する(S104)。そして、情報処理装置は、TF/IDF値の分析を使用するか否かを判定する(S105)。なお、TF/IDFとは、文書内の単語に関する重要度のことをいい、文書内の単語の出現頻度を表すTF(Term Frequency)値と単語がどれだけの文書内で共通して使われているかを表すIDF(Inverse Document Frequency)値とから表される。そして、このTF/IDF値を使用しない場合には(S105;No)、情報処理装置は、サブ構造ごとの単語の頻度集計結果を入力データとして、類似度を算出する(S106)。一方、TF/IDF値を使用する場合には(S105;Yes)、情報処理装置は、対象の文書および検索クエリの単語の出現数をTF/IDF値に変換し(S107)、TF/IDF値を入力データとして、類似度を算出する(S108)。類似度には、例えば、マハラノビス距離、jaccard距離またはコサイン距離が挙げられる。そして、情報処理装置は、例えば検索クエリと距離が近いサブ構造をランキング順に表示する(S109)。
このようにして、情報処理装置は、文書のサブ構造の単位で分析を行う場合には、文書単位で処理された処理結果を利用できない。
1つの側面では、文書のサブ構造の単位で分析を行う場合に、文書単位で処理された処理結果を利用することを目的とする。
第1の案では、コンピュータに、対象の文書データを単語単位で符号化する際に、前記文書データに出現する単語それぞれについて、出現位置をビットマップデータとして対応づけたインデックス情報を生成し、前記文書データに含まれる特定のサブ構造それぞれについて、前記インデックス情報に含まれる前記出現位置との関係をビットマップデータとして対応づけた文書構造情報を生成し、前記インデックス情報および前記文書構造情報を対応づけて記憶部に保持する処理を実行させる。
本発明の1実施態様によれば、文書のサブ構造の単位で分析を行う場合に、文書単位で処理された処理結果を利用できる。
図1は、圧縮データを活用する文書処理の流れの一例を示す図である。 図2は、圧縮データを活用する文書処理のフローチャートの一例を示す図である。 図3は、実施例1に係る文書処理の流れの一例を示す図である。 図4は、実施例1に係る情報処理装置の構成を示す機能ブロック図である。 図5は、実施例1に係るビットマップ型インデックスのデータ構造の一例を示す図である。 図6は、実施例1に係る集計粒度特定処理の一例を示す図である。 図7は、実施例1に係る頻度集計処理の一例を示す図である。 図8は、実施例1に係るインデックス生成処理のフローチャートの一例を示す図である。 図9は、実施例1に係る文書処理のフローチャートの一例を示す図である。 図10は、実施例1に係る頻度集計処理のフローチャートの一例を示す図である。 図11は、実施例2に係る情報処理装置の構成を示す機能ブロック図である。 図12は、実施例2に係る前処理の一例を示す図である。 図13は、実施例2に係る文書処理のフローチャートの一例を示す図である。 図14は、情報処理装置のハードウェアの構成の一例を示す図である。
以下に、本願の開示する文書符号化プログラム、情報処理装置および文書符号化方法の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
[実施例1に係る文書処理の流れの一例]
図3は、本実施例に係る文書処理の流れの一例を示す図である。なお、実施例1に係る文書処理では、圧縮伸長アルゴリズムがZIPであるとして説明する。
図3に示すように、情報処理装置は、ZIPにより圧縮された文書の圧縮データを伸長し(b1)、伸長した文書データを、字句解析用の辞書を用いて字句解析する(b2)。そして、情報処理装置は、字句解析結果の単語を、符号化用の辞書を用いて符号化する(b3)。すなわち、情報処理装置は、単語に対して単語コードを割り当てる。そして、情報処理装置は、文書データに出現する単語の単語コードそれぞれについて、出現位置をビットマップデータとして対応づけたインデックス情報を生成する。加えて、情報処理装置は、文書データに含まれる特定のサブ構造それぞれについて、インデックス情報に含まれる出現位置との関係をビットマップデータとして対応づけた文書構造情報を生成する(b4)。そして、情報処理装置は、生成したインデックス情報および文書構造情報を用いて、サブ構造に合わせて、字句解析結果の単語の出現頻度を集計する(b5)。そして、情報処理装置は、集計結果を活用し、分析を行う(b6)。なお、サブ構造とは、例えば、文書データの中の章や節などが挙げられるが、これに限定されない。すなわち、サブ構造は、文書データの中に明示的に現れているもの(段落、行区切り)であっても良いし、意味の上での区切りや、読み手が任意に設定した区切りでも構わない。また、符号化用の辞書は、後述する静的辞書および動的辞書に対応する。インデックス情報および文書構造情報は、後述するビットマップ型インデックスに対応する。
そして、文書のサブ構造の単位で分析を行う場合には、情報処理装置は、符号b4で生成されたインデックス情報および文書構造情報を用いて、サブ構造に合わせて、単語の出現頻度を集計する(b5)。そして、情報処理装置は、集計結果を活用し、分析を行う(b6)。
これにより、情報処理装置は、インデックス情報および文書構造情報を用いることで、文書のサブ構造の単位を替えて分析を行う場合でも、その都度、伸長と字句解析を繰り返さなくても良い。すなわち、情報処理装置は、文書のサブ構造の単位で分析を行う場合に、文書単位で処理された処理結果を利用することができる。
[実施例1に係る情報処理装置の構成]
図4は、実施例1に係る情報処理装置の構成を示す機能ブロック図である。図4に示すように、情報処理装置1は、インデックス生成処理部10、前処理部20、テキストマイニング部30および記憶部40を有する。
記憶部40は、例えばフラッシュメモリ(Flash Memory)やFRAM(登録商標)(Ferroelectric Random Access Memory)などの不揮発性の半導体メモリ素子などの記憶装置に対応する。記憶部40は、静的辞書41、動的辞書42およびビットマップ型インデックス43を有する。
静的辞書41は、一般的な英語辞典、国語辞典や教科書などを基にして、文書中に出現する単語の出現頻度を特定し、出現頻度のより高い単語に対して、より短い符号を割り当てた辞書である。例えば、超高頻度単語に対して、「20h」〜「3Fh」の1バイトの符号が割り当てられる。超高頻度単語は、一例として、「て」「に」「を」「は」などの助詞である。高頻度単語に対して、「8000h」〜「9FFFh」の2バイトの符号が割り当てられる。高頻度単語は、一例として、かな、かたかな、教育漢字などである。静的辞書41には、それぞれの単語に対応する符号である静的コードがあらかじめ登録されている。静的コードは、単語コード(単語ID)に対応する。
動的辞書42は、静的辞書41に登録されていない単語と、動的に付された動的コードとを対応付けた辞書である。静的辞書41に登録されていない単語は、一例として、出現頻度の低い単語(低頻度単語)である。例えば、低頻度単語に対して、「A000h」〜「DFFFh」の2バイトの符号や「F00000h」〜「FFFFFFh」の3バイトの符号が割り当てられる。ここでいう低頻度単語とは、専門単語、新語、未知語などがある。専門単語とは、ある特定の学問の分野や業界などの間で通用する単語であり、符号化する文書の中で繰り返し出現する特長がある単語のことをいう。新語とは、流行語などの新しく作られた単語であり、符号化する文書の中で繰り返し出現する特長がある単語のことをいう。未知語とは、専門単語でなく、新語でない単語であり、符号化する文書の中で繰り返し出現する特長がある単語のことをいう。なお、動的辞書42には、静的辞書41に登録されていない単語の出現順に、出現した単語が動的コードに対応付けられ、登録される。
ビットマップ型インデックス43は、インデックス情報および文書構造情報を含む。インデックス情報は、対象の文書データに含まれる単語を指定するポインタと、単語の文書データ内の各オフセット(出現位置)での存否を示すビットを連結したビット列である。すなわち、インデックス情報は、対象の文書データに含まれる単語について、オフセット(出現位置)ごとの存否をインデックス化したビットマップのことをいう。単語を指定するポインタとしては、例えば、単語の単語IDが採用される。なお、単語を指定するポインタとして、単語そのものであっても良い。文書構造情報は、対象の文書データに含まれる様々な粒度のサブ構造を指定するポインタと、サブ構造の文書データ内の各オフセット(出現位置)での存否を示すビットを連結したビット列である。すなわち、文書構造情報は、対象の文書データに含まれるサブ構造について、オフセット(出現位置)ごとの存否をインデックス化したビットマップのことをいう。
ここで、ビットマップ型インデックス43のデータ構造を、図5を参照して説明する。図5は、実施例1に係るビットマップ型インデックスのデータ構造の一例を示す図である。図5に示すように、ビットマップ型インデックス43は、X軸をオフセット(出現位置)とし、Y軸を単語IDまたはサブ構造IDとする。ビットマップ型インデックス43は、インデックス情報および文書構造情報を含む。インデックス情報に含まれるビットマップは、単語IDが示す単語の、オフセット(出現位置)ごとの存否を表わしている。単語IDが示す単語が文書データ内のある出現位置に存在する場合には、出現位置に対応するオフセット(出現位置)の存否としてON、すなわち2進数の「1」を示す出現ビットが設定される。単語IDが示す単語が文書データ内のある出現位置に存在しない場合には、出現位置に対応するオフセット(出現位置)の存否としてOFF、すなわち2進数の「0」が設定される。また、文書構造情報に含まれるビットマップは、サブ構造IDが示すサブ構造の、オフセット(出現位置)ごとの存否を表している。サブ構造IDが示すサブ構造が文書データ内に存在する場合には、サブ構造の先頭に出現する単語の出現位置に対応するオフセット(出現位置)の存否としてON、すなわち2進数の「1」を示す出現ビットが設定される。
一例として、単語が「微分」である場合に、出現位置「1」に対するビットに出現ビット「1」が設定されている。単語が「積分」である場合に、出現位置「1002」に対するビットに出現ビット「1」が設定されている。サブ構造の粒度が「章」である場合に、出現位置「0」および出現位置「5001」に対するそれぞれのビットに、出現ビット「1」が設定されている。例えば、「0」の出現位置から「1章」が始まり、「5001」の出現位置から「2章」が始まる。サブ構造が「節」である場合に、出現位置「0」、出現位置「1001」および出現位置「5001」に対するそれぞれのビットに、出現ビット「1」が設定されている。例えば、「0」の出現位置から「1章」の「1節」が始まり、「1001」の出現位置から「1章」の「2節」が始まり、「5001」の出現位置から「2章」の「1節」が始まる。
図4に戻って、インデックス生成処理部10は、圧縮された文書データを伸長し、伸長した文書データからビットマップ型インデックス43を生成する。インデックス生成処理部10は、伸長部11、符号化部12、インデックス情報生成部13および文書構造情報生成部14を有する。
伸長部11は、圧縮された文書データを伸長する。例えば、伸長部11は、圧縮された文書データを受け付ける。そして、伸長部11は、ZIPの伸長アルゴリズムに基づいて、受け付けた圧縮データに対して、スライド窓を用いて最長一致の文字列を判定し、伸長データを生成する。
符号化部12は、伸長された文書データに含まれる単語を符号化する。例えば、符号化部12は、伸長された文書データを字句解析用の辞書を用いて字句解析する。そして、符号化部12は、字句解析結果の先頭の単語から順番に、単語を静的辞書41および動的辞書42を用いて、単語IDに符号化する。一例として、符号化部12は、字句解析結果の単語が静的辞書41に登録されているか否かを判定する。符号化部12は、字句解析結果の単語が静的辞書41に登録されている場合には、静的辞書41を用いて、当該単語を静的コード(単語ID)に符号化する。符号化部12は、字句解析結果の単語が静的辞書41に登録されていない場合には、当該単語が動的辞書42に登録されているか否かを判定する。符号化部12は、字句解析結果の単語が動的辞書42に登録されている場合には、動的辞書42を用いて、当該単語を動的コード(単語ID)に符号化する。符号化部12は、字句解析結果の単語が動的辞書42に登録されていない場合には、当該単語を動的辞書42に登録し、当該単語を動的辞書42内の未使用の動的コード(単語ID)に符号化する。
インデックス情報生成部13は、文書データに出現する単語の単語IDそれぞれについて、出現位置(オフセット)をビットマップとして対応づけたインデックス情報を生成する。例えば、インデックス情報生成部13は、単語を符号化した結果である単語IDに対応するビットマップの出現位置に出現ビットを設定する。なお、インデックス情報生成部13は、インデックス情報に単語IDに対応するビットマップが存在しない場合には、インデックス情報に当該単語IDに対応するビットマップを追加し、追加したビットマップの出現位置に出現ビットを設定すれば良い。
文書構造情報生成部14は、文書データに含まれる特定のサブ構造それぞれについて、インデックス情報に含まれる出現位置との関係をビットマップとして対応づけた文書構造情報を生成する。例えば、文書構造情報生成部14は、単語IDについてインデックス情報が生成される際に、当該単語IDについて出現ビットが設定された出現位置がサブ構造の先頭であるか否かを判定する。文書構造情報生成部14は、当該単語IDについて出現ビットが設定された出現位置がサブ構造の先頭である場合には、当該サブ構造に対応するビットマップの当該出現位置に出現ビットを設定する。なお、サブ構造には、ファイル単位、ブロック単位、章単位、項単位、節単位などが挙げられる。
テキストマイニング部30は、頻度の集計結果に基づきテキストマイニングを行う。テキストマイニングとは、テキストデータを定量的に解析したり、有用な情報を取り出すことをいい、例えば、クラスタ分析をしたり、文書間の距離測定(類似度の測定)をしたりする。文書間の距離測定で用いられる類似度には、例えば、マハラノビス距離、jaccard距離またはコサイン距離が挙げられる。
前処理部20は、テキストマイニングを行うための前処理である。前処理部20は、集計粒度特定部21および頻度集計部22を有する。
集計粒度特定部21は、テキストマイニングの一例として文書データと検索クエリとの間の距離測定を行う場合に、頻度集計の集計粒度を特定する。例えば、集計粒度特定部21は、検索クエリを字句解析し、字句解析結果から単語の出現数を求める。集計粒度特定部21は、ビットマップ型インデックス43を用いて、検索クエリの単語の出現数に近い単語数を持つサブ構造を集計粒度として特定する。一例として、集計粒度特定部21は、ビットマップ型インデックス43の各種粒度のサブ構造に対して、出現ビットから次の出現ビットまでの単語数を求め、検索クエリの単語の出現数に近い単語数を持つサブ構造を集計粒度として特定する。
頻度集計部22は、ビットマップ型インデックス43を用いて、特定された集計粒度で単語の頻度を集計する。例えば、頻度集計部22は、ビットマップ型インデックス43から、集計粒度特定部21によって特定された集計粒度を示すサブ構造に対するビットマップを抽出し、抽出したビットマップ内のサブ構造の区間のビットをON(「1」)に設定する。一例として、頻度集計部22は、集計粒度を示すサブ構造が「章」である場合には、章ごとに各章の区間のビットをON(「1」)に設定する。そして、頻度集計部22は、ビットマップ型インデックス43から、集計対象の単語に対するビットマップを抽出する。そして、頻度集計部22は、サブ構造に対するビットマップと集計対象の単語に対するビットマップとをAND演算する。そして、頻度集計部22は、ONのビット数を合計することで、集計粒度を示すサブ構造に含まれる単語の頻度を集計する。なお、集計対象の単語は、検索クエリに含まれる全ての単語であるが、ビットマップ型インデックス43に含まれる単語IDが示す全ての単語であっても良い。
[集計粒度特定処理の一例]
ここで、実施例1に係る集計粒度特定処理の一例を、図6を参照して説明する。図6は、実施例1に係る集計粒度特定処理の一例を示す図である。なお、図6では、検索クエリの単語の出現数は1500である。また、ビットマップ型インデックス43には、第1章の単語の出現数として1700、第2章の単語の出現数として1300の情報が設定されている。第1章について第1節の単語の出現数として800、第2節の単語の出現数として700の情報が設定されている。第1節について第1項の単語の出現数として300、第2項の単語の出現数として250の情報が設定されている。
このような状況の下、集計粒度特定部21は、ビットマップ型インデックス43を用いて、検索クエリの単語の出現数に近い単語数を持つサブ構造を集計粒度として特定する。ここでは、集計粒度特定部21は、検索クエリの単語の出現数が1500であるので、検索クエリの単語の出現数に近いサブ構造「章」を集計粒度として特定する。
[頻度集計処理の一例]
ここで、実施例1に係る頻度集計処理の一例を、図7を参照して説明する。図7は、実施例1に係る頻度集計処理の一例を示す図である。なお、集計粒度特定部21によって集計粒度として「章」が特定されたとする。図7では、第1章に含まれる単語の頻度を集計する場合を説明する。
図7に示すように、頻度集計部22は、ビットマップ型インデックス43から、集計粒度特定部21によって特定された集計粒度を示すサブ構造「章」に対するビットマップs1を抽出する。そして、頻度集計部22は、抽出したビットマップs1内のサブ構造「第1章」の区間のビットを「1」に設定する。ここでは、s2のビットマップに示されるように、頻度集計部22は、「第1章」の区間として「章」に対するビットマップs1の最初の出現ビットから次の出現ビットの1つ前のビットまでを「1」に設定する。すなわち、オフセット(出現位置)について、「0」から「1001」の1つ前の「1000」までが「1」に設定される。
そして、頻度集計部22は、ビットマップ型インデックス43から、集計対象の単語「微分」に対するビットマップs3を抽出する。そして、頻度集計部22は、サブ構造「第1章」に対するビットマップs2と集計対象の単語に対するビットマップs3とをAND演算する。ここでは、AND演算結果は、ビットマップs4である。
そして、頻度集計部22は、「1」のビット数を合計することで、集計粒度を示すサブ構造「第1章」に含まれる単語の頻度を集計する。ここでは、頻度集計部22は、ビットマップs4に含まれるビットのうち「1」が立つビットの数を集計することで、サブ構造「第1章」に含まれる単語「微分」の頻度を集計できる。
同様に、頻度集計部22は、サブ構造「第1章」に含まれる集計対象の単語「積分」の頻度を集計できる。すなわち、頻度集計部22は、ビットマップ型インデックス43から、集計対象の単語「積分」に対するビットマップs5を抽出する。そして、頻度集計部22は、サブ構造「第1章」に対するビットマップs2と集計対象の単語に対するビットマップs5とをAND演算し、「1」のビット数を合計すれば良い。
なお、頻度集計部22は、「第1章」の場合と同様に、「第2章」に含まれる集計対象の単語の頻度を集計すれば良い。
[実施例1に係るインデックス生成処理のフローチャート]
図8は、実施例1に係るインデックス生成処理のフローチャートの一例を示す図である。
図8に示すように、インデックス生成処理部10は、圧縮された文書データを伸長する(ステップS11)。そして、インデックス生成処理部10は、伸長された文書データを字句解析する(ステップS12)。そして、インデックス生成処理部10は、字句解析結果から先頭の単語を選択する(ステップS13)。
続いて、インデックス生成処理部10は、選択された単語が静的辞書41に登録されているか否かを判定する(ステップS14)。選択された単語が静的辞書41に登録されていると判定した場合には(ステップS14;Yes)、インデックス生成処理部10は、ステップS17に移行する。
一方、選択された単語が静的辞書41に登録されていないと判定した場合には(ステップS14;No)、インデックス生成処理部10は、選択された単語が動的辞書42に登録されているか否かを判定する(ステップS15)。選択された単語が動的辞書42に登録されていると判定した場合には(ステップS15;Yes)、インデックス生成処理部10は、ステップS17に移行する。
一方、選択された単語が動的辞書42に登録されていないと判定した場合には(ステップS15;No)、インデックス生成処理部10は、選択された単語を動的辞書42に登録し(ステップS16)、ステップS17に移行する。
ステップS17において、インデックス生成処理部10は、選択された単語を単語IDに符号化する(ステップS17)。すなわち、インデックス生成処理部10は、選択された単語が静的辞書41に登録されていると判定した場合には、静的辞書41を用いて、当該単語を単語ID(静的コード)に符号化する。インデックス生成処理部10は、選択された単語が静的辞書41に登録されていないと判定した場合には、動的辞書42を用いて、当該単語を単語ID(動的コード)に符号化する。
続いて、インデックス生成処理部10は、対象の単語IDがビットマップ型インデックス43のインデックス情報の単語ID列(Y軸)にあるか否かを判定する(ステップS18)。対象の単語IDがインデックス情報の単語ID列(Y軸)にあると判定した場合には(ステップS18;Yes)、インデックス生成処理部10は、ステップS20に移行する。
一方、対象の単語IDがインデックス情報の単語ID列(Y軸)にないと判定した場合には(ステップS18;No)、インデックス生成処理部10は、対象の単語IDをインデックス情報の単語ID列(Y軸)に追加する(ステップS19)。そして、インデックス生成処理部10は、ステップS20に移行する。
ステップS20において、インデックス生成処理部10は、対象の単語ID行の対応するオフセットの列に「1」を立てる(ステップS20)。すなわち、インデックス生成処理部10は、対象の単語IDに対応するビットマップの出現位置に出現ビットを設定する。
インデックス生成処理部10は、「1」が立てられたオフセットの列はいずれかのサブ構造の先頭であるか否かを判定する(ステップS21)。ここでいうサブ構造とは、例えば、章であったり、項であったり、節であったりするがこれに限定されない。「1」が立てられたオフセットの列がいずれかのサブ構造の先頭であると判定した場合には(ステップS21;Yes)、インデックス生成処理部10は、対象のサブ構造行の対応するオフセットの列に「1」を立てる(ステップS22)。すなわち、インデックス生成処理部10は、対象のサブ構造に対応するビットマップの出現位置に出現ビットを設定する。そして、インデックス生成処理部10は、ステップS23に移行する。
一方、「1」が立てられたオフセットの列がいずれのサブ構造の先頭でないと判定した場合には(ステップS21;No)、インデックス生成処理部10は、ステップS23に移行する。
ステップS23において、インデックス生成処理部10は、選択された単語は文書の最後であるか否かを判定する(ステップS23)。選択された単語は文書の最後でないと判定した場合には(ステップS23;No)、インデックス生成処理部10は、次の単語を選択する(ステップS24)。そして、インデックス生成処理部10は、選択された単語の処理をすべく、ステップS14に移行する。
一方、選択された単語は文書の最後であると判定した場合には(ステップS23;Yes)、インデックス生成処理部10は、インデックス生成処理を終了する。
[実施例1に係る文書処理のフローチャート]
図9は、実施例1に係る文書処理のフローチャートの一例を示す図である。なお、図9の文書処理では、テキストマイニングの一例として、文書と検索クエリとの間の距離測定を行う場合を説明する。
図9に示すように、前処理部20は、検索クエリを字句解析する(ステップS31)。そして、前処理部20は、字句解析結果の単語の出現数を集計する(ステップS32)。
そして、前処理部20は、検索クエリの単語の出現数に合わせて、集計粒度を特定する(ステップS33)。例えば、前処理部20は、ビットマップ型インデックス43を用いて、検索クエリの単語の出現数に近い単語の数を持つサブ構造を集計粒度として特定する。
そして、前処理部20は、特定した集計粒度に応じて、サブ構造単位に単語の出現頻度を集計する頻度集計処理を実行する(ステップS34)。なお、頻度集計処理のフローチャートは、後述する。
続いて、テキストマイニング部30は、TF/IDF値の分析を使用するか否かを判定する(ステップS35)。TF/IDF値の分析を使用しないと判定した場合には(ステップS35;No)、テキストマイニング部30は、単語の集計結果を入力データとして、類似度を算出する(ステップS36)。そして、テキストマイニング部30は、ステップS39に移行する。
一方、TF/IDF値の分析を使用すると判定した場合には(ステップS35;Yes)、テキストマイニング部30は、対象の文書および検索クエリの単語の出現数をTF/IDF値に変換する(ステップS37)。そして、テキストマイニング部30は、TF/IDF値を入力データとして、類似度を算出する(ステップS38)。なお、類似度には、例えば、マハラノビス距離、jaccard距離またはコサイン距離が挙げられる。また、TF/IDFとは、文書内の単語に関する重要度のことをいい、文書内の単語の出現頻度を表すTF(Term Frequency)値と単語がいつかの文書内で共通して使われているかを表すIDF(Inverse Document Frequency)値とから表される。そして、テキストマイニング部30は、ステップS39に移行する。
ステップS39において、テキストマイニング部30は、検索クエリと距離が近いサブ構造をランキング順に表示する(ステップS39)。例えば、前処理部20が「章」を集計粒度として特定した場合には、テキストマイニング部30は、検索クエリと距離が近い、「章」のサブ構造(1章、2章、・・・)をランキング順に表示する。そして、テキストマイニング部30は、文書処理を終了する。
[実施例1に係る頻度集計処理のフローチャート]
図10は、実施例1に係る頻度集計処理のフローチャートの一例を示す図である。
図10に示すように、頻度集計部22は、特定された集計粒度内のサブ構造を選択する(ステップS40)。頻度集計部22は、ビットマップ型インデックス43から、集計粒度を示すサブ構造IDに対するビットマップを抽出する(ステップS41)。そして、頻度集計部22は、抽出したビットマップから、選択されたサブ構造に対するビットマップを生成する(ステップS42)。例えば、頻度集計部22は、抽出したビットマップ内の、選択されたサブ構造の区間のビットを「1」に設定する。
続いて、頻度集計部22は、ビットマップ型インデックス43から、集計対象の単語の単語IDに対するビットマップを抽出する(ステップS43)。そして、頻度集計部22は、選択されたサブ構造に対するビットマップと単語IDに対するビットマップとをAND演算する(ステップS44)。
頻度集計部22は、演算結果のビットマップについて、オフセット方向にビット列で「1」が立っている数を合計し、バッファに出力する(ステップS45)。例えば、頻度集計部22は、この合計した数を集計対象の単語および選択されたサブ構造に対応づけてバッファに出力する。
頻度集計部22は、集計対象の単語が全て集計済みであるか否かを判定する(ステップS46)。集計対象の単語が全て集計済みでないと判定した場合には(ステップS46;No)、頻度集計部22は、集計対象の次の単語へ遷移し(ステップS47)、ステップS43に移行する。
一方、集計対象の単語が全て集計済みであると判定した場合には(ステップS46;Yes)、頻度集計部22は、集計粒度内のサブ構造が全て集計済みであるか否かを判定する(ステップS48)。集計粒度内のサブ構造が全て集計済みでないと判定した場合には(ステップS48;No)、頻度集計部22は、集計粒度内の次のサブ構造へ遷移し(ステップS49)、ステップS40に移行する。
一方、集計粒度内のサブ構造が全て集計済みであると判定した場合には(ステップS48;Yes)、頻度集計部22は、頻度集計処理を終了する。
[実施例1の効果]
上記実施例1によれば、情報処理装置1は、対象の文書データを単語単位で符号化する際に、対象の文書データに出現する単語それぞれについて、出現位置をビットマップデータとして対応づけたインデックス情報を生成する。情報処理装置1は、文書データに含まれる特定のサブ構造それぞれについて、インデックス情報に含まれる出現位置との関係をビットマップデータとして対応づけた文書構造情報を生成する。そして、情報処理装置1は、インデックス情報および文書構造情報を対応づけて記憶部40に保持する。かかる構成によれば、情報処理装置1は、文書データのサブ構造の単位で分析を行う場合に、文書データ単位で処理された処理結果であるインデックス情報および文書構造情報を利用することができる。すなわち、情報処理装置1は、文書データのサブ構造の単位を替えて分析を行う場合でも、その都度、文書データの字句解析などの処理を繰り返さなくても良い。
また、上記実施例1によれば、情報処理装置1は、文書データに出現する単語ごとに、各単語に対応するビットマップデータの各単語の出現位置にビットを立てることで、インデックス情報を生成する。情報処理装置1は、文書データに含まれる特定のサブ構造ごとに、各サブ構造に対応するビットマップデータの各サブ構造の先頭の単語の出現位置にビットを立てることで、文書構造情報を生成する。かかる構成によれば、情報処理装置1は、インデックス情報および文書構造情報の出現位置のビットを利用することで、各単語の各種サブ構造における分析をすることが可能となる。
また、上記実施例1によれば、情報処理装置1は、インデックス情報に含まれる単語ごとのビットマップデータと、文書構造情報に含まれる特定のサブ構造のビットマップデータとを用いた論理演算をすることで、特定のサブ構造に出現する単語ごとの出現頻度を集計する。かかる構成によれば、情報処理装置1は、インデックス情報および文書構造情報を利用することで、サブ構造の単位を替えても、その都度、文書データの字句解析などの処理を繰り返さず、替えた単位で各単語の出現頻度を集計できる。
ところで、実施例1に係る情報処理装置1は、検索クエリの全ての単語を用いて、文書データにおける頻度集計の集計粒度を特定するようにした。そして、情報処理装置1は、ビットマップ型インデックス43を用いて、特定された集計粒度で、例えば検索クエリに含まれる全ての単語を集計対象として頻度を集計するようにした。しかしながら、情報処理装置1は、これに限定されず、検索クエリから抽出される特徴語を用いて、文書データにおける頻度集計の集計粒度を特定し、特定された集計粒度で、検索クエリから抽出される特徴語を集計対象として頻度を集計しても良い。
そこで、実施例2では、情報処理装置1が、検索クエリから抽出される特徴語を用いて、文書データにおける頻度集計の集計粒度を特定し、特定された集計粒度で、検索クエリから抽出される特徴語を集計対象として頻度を集計する場合を説明する。
[実施例2に係る情報処理装置の構成]
図11は、実施例2に係る情報処理装置の構成を示す機能ブロック図である。なお、実施例1の図4に示す情報処理装置1と同一の構成については同一符号を付すことで、その重複する構成および動作の説明については省略する。実施例1と実施例2とが異なるところは、集計単語抽出部51を追加した点である。
集計単語抽出部51は、検索クエリから集計対象の単語を抽出する。例えば、集計単語抽出部51は、検索クエリを字句解析し、字句解析結果から単語ごとの出現回数を集計する。そして、集計単語抽出部51は、集計結果と、予め定められた複数の文書データとから検索クエリに出現する単語ごとの特徴量を算出する。この単語の特徴量は、TF/IDF値を用いれば良い。そして、集計単語抽出部51は、特徴量が規定量より高いN(N:1より大きい自然数)個の単語を特徴語として抽出する。抽出された特徴語が、集計粒度特定部21によって集計粒度が特定される際に用いられる単語となり、頻度集計部22によって集計される対象の単語となる。なお、Nは、予めユーザによって設定されれば良い。
[前処理の一例]
ここで、実施例2に係る前処理の一例を、図12を参照して説明する。図12は、実施例2に係る前処理の一例を示す図である。なお、図12では、集計単語抽出部51は、検索クエリから、N個の特徴語を抽出したものとする。
このような状況の下、集計粒度特定部21は、ビットマップ型インデックス43を用いて、検索クエリのN個の特徴語の出現数に近い単語数を持つサブ構造を集計粒度として特定する。そして、ビットマップ型インデックス43を用いて、特定された集計粒度で特徴語の頻度を集計する。
[実施例2に係る文書処理のフローチャート]
図13は、実施例2に係る文書処理のフローチャートの一例を示す図である。なお、図13の文書処理では、テキストマイニングの一例として、文書と検索クエリとの間の距離測定を行う場合を説明する。
図13に示すように、前処理部20は、検索クエリを字句解析する(ステップS51)。そして、前処理部20は、字句解析結果の単語の出現数を集計する(ステップS52)。
そして、前処理部20は、検索クエリの集計結果と一般的なテキストとから検索クエリに出現する単語の特徴量(TF/IDF値)を算出する(ステップS53)。そして、前処理部20は、TF/IDF値が高い単語N語を特徴語として抽出する(ステップS54)。
そして、前処理部20は、検索クエリのN語の単語の出現数に合わせて、集計粒度を特定する(ステップS55)。例えば、前処理部20は、ビットマップ型インデックス43を用いて、検索クエリのN個の特徴語の出現数に近い単語数を持つサブ構造を集計粒度として特定する。
そして、前処理部20は、抽出したN語について、特定した集計粒度に応じて、サブ構造単位に単語の出現頻度を集計する頻度集計処理を実行する(ステップS56)。集計対象の単語は、抽出したN語となる。なお、頻度集計処理のフローチャートは、図10で説明したとおりであるので、その説明を省略する。
続いて、テキストマイニング部30は、TF/IDF値の分析を使用しない場合には、単語の集計結果を入力データとして、類似度を算出する(ステップS57)。類似度には、例えば、マハラノビス距離、jaccard距離またはコサイン距離が挙げられる。そして、テキストマイニング部30は、検索クエリと距離が近いサブ構造をランキング順に表示する(ステップS58)。例えば、前処理部20が「章」を集計粒度として特定した場合には、テキストマイニング部30は、検索クエリと距離が近い、「章」のサブ構造(1章、2章、・・・)をランキング順に表示する。そして、テキストマイニング部30は、文書処理を終了する。
[実施例2の効果]
上記実施例2によれば、情報処理装置1は、検索対象の文書データが対象の文書データと類似するか否かを判定する際に、検索対象の文書データに出現する単語の特徴量を算出し、特徴量に基づいて規定量より大きい特徴量を有する複数の単語を抽出する。そして、情報処理装置1は、インデックス情報および文書構造情報を用いて、該抽出した複数の単語それぞれの出現頻度を集計する。かかる構成によれば、情報処理装置1は、検索対象の文書データに含まれる複数の特徴語に対して、対象の文書データについて出現頻度を集計することで、対象の文書データのサブ構造の単位で分析を行う場合の出現頻度の集計処理をさらに高速化することができる。
[その他]
なお、実施例1に係る文書処理では、圧縮伸長アルゴリズムがZIPである場合に、伸長部11が、圧縮された文書データを伸長すると説明した。しかしながら、圧縮伸長アルゴリズムはZIPに限定されず、静的辞書41および動的辞書42を用いたアルゴリズムであっても良い。すなわち、伸長部11は、圧縮された文書データを静的辞書41および動的辞書42を用いて伸長しても良い。かかる場合には、符号化部12は、静的辞書41および圧縮処理で既に生成された動的辞書42を用いて符号化すれば良い。
また、実施例1では、符号化部12は、伸長された文書データを字句解析用の辞書を用いて字句解析すると説明した。しかしながら、符号化部12は、これに限定されず、伸長された文書データを字句解析用の辞書として静的辞書41および動的辞書42を用いて字句解析しても良い。
また、図示した装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、装置の分散・統合の具体的態様は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、符号化部12およびインデックス情報生成部13を併合しても良い。また、符号化部12を、静的コードに符号化する第1の符号化部と、動的コードに符号化する第2の符号化部とに分離しても良い。また、記憶部40を情報処理装置1の外部装置としてネットワーク経由で接続するようにしても良い。
図14は、情報処理装置のハードウェア構成の一例を示す図である。図14に示すように、コンピュータ500は、各種演算処理を実行するCPU501と、ユーザからのデータ入力を受け付ける入力装置502と、モニタ503とを有する。また、コンピュータ500は、記憶媒体からプログラムなどを読み取る媒体読取装置504と、他の装置と接続するためのインターフェース装置505と、他の装置と無線により接続するための無線通信装置506とを有する。また、コンピュータ500は、各種情報を一時記憶するRAM(Random Access Memory)507と、ハードディスク装置508とを有する。また、各装置501〜508は、バス509に接続される。
ハードディスク装置508には、図4に示したインデックス生成処理部10、前処理部20およびテキストマイニング部30と同様の機能を有する文書符号化プログラムが記憶される。また、ハードディスク装置508には、文書符号化プログラムを実現するための各種データが記憶される。各種データには、図4に示した記憶部40内のデータが含まれる。
CPU501は、ハードディスク装置508に記憶された各プログラムを読み出して、RAM507に展開して実行することで、各種の処理を行う。これらのプログラムは、コンピュータ500を図4に示した各機能部として機能させることができる。
なお、上記の文書符号化プログラムは、必ずしもハードディスク装置508に記憶されている必要はない。例えば、コンピュータ500が読み取り可能な記憶媒体に記憶されたプログラムを、コンピュータ500が読み出して実行するようにしても良い。コンピュータ500が読み取り可能な記憶媒体は、例えば、CD−ROMやDVDディスク、USB(Universal Serial Bus)メモリなどの可搬型記録媒体、フラッシュメモリなどの半導体メモリ、ハードディスクドライブなどが対応する。また、公衆回線、インターネット、LAN(Local Area Network)などに接続された装置にこのプログラムを記憶させておき、コンピュータ500がこれらからプログラムを読み出して実行するようにしても良い。
1 情報処理装置
10 インデックス生成処理部
11 伸長部
12 符号化部
13 インデックス情報生成部
14 文書構造情報生成部
20 前処理部
21 集計粒度特定部
22 頻度集計部
30 テキストマイニング部
40 記憶部
41 静的辞書
42 動的辞書
43 ビットマップ型インデックス
51 集計単語抽出部

Claims (8)

  1. コンピュータに、
    対象の文書データを単語単位で符号化する際に、前記文書データに出現する単語それぞれについて、出現位置をビットマップデータとして対応づけたインデックス情報を生成し、
    前記文書データに含まれる特定のサブ構造それぞれについて、前記インデックス情報に含まれる前記出現位置との関係をビットマップデータとして対応づけた文書構造情報を生成し、
    前記インデックス情報および前記文書構造情報を対応づけて記憶部に保持する
    処理を実行させる文書符号化プログラム。
  2. 前記インデックス情報を生成する処理は、前記文書データに出現する単語ごとに、各単語に対応するビットマップデータの各単語の出現位置にビットを立てることで、前記インデックス情報を生成し、
    前記文書構造情報を生成する処理は、前記文書データに含まれる特定のサブ構造ごとに、各サブ構造に対応するビットマップデータの各サブ構造の先頭の単語の出現位置にビットを立てることで、前記文書構造情報を生成する
    ことを特徴とする請求項1に記載の文書符号化プログラム。
  3. 前記記憶部に保持された前記インデックス情報に含まれる単語ごとのビットマップデータと、前記記憶部に保持された前記文書構造情報に含まれる特定のサブ構造のビットマップデータを用いた論理演算により、特定のサブ構造に出現する単語ごとの出現頻度を集計する
    ことを特徴とする請求項1に記載の文書符号化プログラム。
  4. 前記集計は、前記ビットマップデータを用いて前記特定のサブ構造に出現する単語それぞれのビットを立てて、前記特定のサブ構造に出現する単語ごとの出現頻度を集計する、ことを特徴とする請求項3に記載の文書符号化プログラム。
  5. 検索対象の文書データが前記対象の文書データと類似するか否かを判定する際に、前記インデックス情報および前記文書構造情報を用いて、前記検索対象の文書データに含まれる単語の数と近い数の単語を有するサブ構造を特定し、
    該集計する処理は、前記インデックス情報および前記文書構造情報を用いて、該特定したサブ構造に出現する単語ごとの出現頻度を集計する
    ことを特徴とする請求項3に記載の文書符号化プログラム。
  6. 検索対象の文書データが前記対象の文書データと類似するか否かを判定する際に、前記検索対象の文書データに出現する単語の特徴量を算出し、特徴量に基づいて規定量より大きい特徴量を有する複数の単語を抽出し、
    前記インデックス情報および前記文書構造情報を用いて、抽出した単語の数と近い数の単語を有するサブ構造を特定し、
    該集計する処理は、前記インデックス情報および前記文書構造情報を用いて、該特定したサブ構造に出現する複数の単語であって該抽出した複数の単語それぞれの出現頻度を集計する
    ことを特徴とする請求項に記載の文書符号化プログラム。
  7. 対象の文書データを単語単位で符号化する際に、前記文書データに出現する単語それぞれについて、出現位置をビットマップデータとして対応づけたインデックス情報を生成する第1の生成部と、
    前記文書データに含まれる特定のサブ構造それぞれについて、前記インデックス情報に含まれる前記出現位置との関係をビットマップデータとして対応づけた文書構造情報を生成する第2の生成部と、
    前記インデックス情報および前記文書構造情報を対応づけて記憶部に保持する保持部と
    を有することを特徴とする情報処理装置。
  8. コンピュータが、
    対象の文書データを単語単位で符号化する際に、前記文書データに出現する単語それぞれについて、出現位置をビットマップデータとして対応づけたインデックス情報を生成し、
    前記文書データに含まれる特定のサブ構造それぞれについて、前記インデックス情報に含まれる前記出現位置との関係をビットマップデータとして対応づけた文書構造情報を生成し、
    前記インデックス情報および前記文書構造情報を対応づけて記憶部に保持する
    各処理を実行することを特徴とする文書符号化方法。
JP2016199255A 2016-10-07 2016-10-07 文書符号化プログラム、情報処理装置および文書符号化方法 Expired - Fee Related JP6740845B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016199255A JP6740845B2 (ja) 2016-10-07 2016-10-07 文書符号化プログラム、情報処理装置および文書符号化方法
US15/714,205 US20180101553A1 (en) 2016-10-07 2017-09-25 Information processing apparatus, document encoding method, and computer-readable recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016199255A JP6740845B2 (ja) 2016-10-07 2016-10-07 文書符号化プログラム、情報処理装置および文書符号化方法

Publications (2)

Publication Number Publication Date
JP2018060463A JP2018060463A (ja) 2018-04-12
JP6740845B2 true JP6740845B2 (ja) 2020-08-19

Family

ID=61829382

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016199255A Expired - Fee Related JP6740845B2 (ja) 2016-10-07 2016-10-07 文書符号化プログラム、情報処理装置および文書符号化方法

Country Status (2)

Country Link
US (1) US20180101553A1 (ja)
JP (1) JP6740845B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6805720B2 (ja) 2016-10-21 2020-12-23 富士通株式会社 データ検索プログラム、データ検索装置およびデータ検索方法
JP7059516B2 (ja) * 2017-03-29 2022-04-26 富士通株式会社 符号化プログラム、符号化装置および符号化方法
US20190318118A1 (en) * 2018-04-16 2019-10-17 International Business Machines Corporation Secure encrypted document retrieval
JP7180132B2 (ja) * 2018-06-12 2022-11-30 富士通株式会社 処理プログラム、処理方法および情報処理装置
US11177824B2 (en) * 2018-07-23 2021-11-16 International Business Machines Corporation Dictionary embedded expansion procedure
CN111753057A (zh) * 2020-06-28 2020-10-09 青岛科技大学 一种提升句子相似度准确率判断的方法
JP7428252B2 (ja) * 2020-07-03 2024-02-06 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置
WO2022249478A1 (ja) 2021-05-28 2022-12-01 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置
US20230376687A1 (en) * 2022-05-17 2023-11-23 Adobe Inc. Multimodal extraction across multiple granularities

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5745745A (en) * 1994-06-29 1998-04-28 Hitachi, Ltd. Text search method and apparatus for structured documents
JP5116775B2 (ja) * 2007-11-19 2013-01-09 日本電信電話株式会社 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
US8972409B2 (en) * 2011-07-27 2015-03-03 Google Inc. Enabling search for conversations with two messages each having a query team

Also Published As

Publication number Publication date
US20180101553A1 (en) 2018-04-12
JP2018060463A (ja) 2018-04-12

Similar Documents

Publication Publication Date Title
JP6740845B2 (ja) 文書符号化プログラム、情報処理装置および文書符号化方法
EP3284029B1 (en) Recurrent neural networks for malware analysis
CN107862046B (zh) 一种基于短文本相似度的税务商品编码分类方法及系统
CN107305586B (zh) 索引生成方法、索引生成装置及搜索方法
US11763583B2 (en) Identifying matching fonts utilizing deep learning
JP6686639B2 (ja) 符号化プログラム、符号化装置、符号化方法、復号化プログラム、復号化装置および復号化方法
JP5812188B2 (ja) プログラム、圧縮データ生成方法、伸張方法、情報処理装置、および記録媒体
JP6834327B2 (ja) 符号化プログラム、符号化装置および符号化方法
US11055328B2 (en) Non-transitory computer readable medium, encode device, and encode method
JP2017195447A (ja) 符号化処理プログラム、符号化処理装置、符号化処理方法、復号化処理プログラム、復号化処理装置および復号化処理方法
JP6805720B2 (ja) データ検索プログラム、データ検索装置およびデータ検索方法
JP2017073093A (ja) インデックス生成プログラム、インデックス生成装置、インデックス生成方法、検索プログラム、検索装置および検索方法
JP2009295097A (ja) 情報分類装置、情報分類方法、情報処理プログラム及び記録媒体
KR102289395B1 (ko) 자카드 모델 기반의 문서 검색 장치 및 방법
KR20210153912A (ko) 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 시스템 및 방법
US11323132B2 (en) Encoding method and encoding apparatus
JP6931442B2 (ja) 符号化プログラム、インデックス生成プログラム、検索プログラム、符号化装置、インデックス生成装置、検索装置、符号化方法、インデックス生成方法および検索方法
JP2018200546A (ja) 分類用符号生成ソフトウェアを記録した記録媒体
JP2022045416A (ja) データ処理プログラム、データ処理装置、及びデータ処理方法
Nguyen et al. Decision tree algorithms for image data type identification
JP2018181121A (ja) 分析装置、分析プログラム及び分析方法
JP6485072B2 (ja) 画像探索装置、画像探索方法および画像探索プログラム
JP6485084B2 (ja) 画像探索装置、画像探索方法および画像探索プログラム
Nguyen et al. A New Approach to Compressed File Fragment Identification
US20240086438A1 (en) Non-transitory computer-readable recording medium storing information processing program, information processing method, and information processing apparatus

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190709

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200512

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200623

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200706

R150 Certificate of patent or registration of utility model

Ref document number: 6740845

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees