JP2015026350A - 情報処理システム、情報処理方法、および情報処理プログラム - Google Patents

情報処理システム、情報処理方法、および情報処理プログラム Download PDF

Info

Publication number
JP2015026350A
JP2015026350A JP2013157196A JP2013157196A JP2015026350A JP 2015026350 A JP2015026350 A JP 2015026350A JP 2013157196 A JP2013157196 A JP 2013157196A JP 2013157196 A JP2013157196 A JP 2013157196A JP 2015026350 A JP2015026350 A JP 2015026350A
Authority
JP
Japan
Prior art keywords
data
information processing
keyword
word
target data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013157196A
Other languages
English (en)
Other versions
JP6107513B2 (ja
Inventor
将夫 出内
Masao Ideuchi
将夫 出内
片岡 正弘
Masahiro Kataoka
正弘 片岡
古田 孝
Takashi Furuta
孝 古田
西澤 信一郎
Shinichiro Nishizawa
信一郎 西澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013157196A priority Critical patent/JP6107513B2/ja
Priority to US14/336,299 priority patent/US10614035B2/en
Priority to EP14177795.3A priority patent/EP2838037A3/en
Publication of JP2015026350A publication Critical patent/JP2015026350A/ja
Application granted granted Critical
Publication of JP6107513B2 publication Critical patent/JP6107513B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1744Redundancy elimination performed by the file system using compression, e.g. sparse files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】多様な入力キーワードに対処すること。【解決手段】情報処理装置100は、対象データ102をレコード単位で単語ごとに圧縮したときに、レコード単位の単語ごとの出現回数を表すカウントマップ105を作成し、対象データ102を圧縮した圧縮データ104に付与する。ここで、情報処理装置100は、第1のキーワード101の入力を受け付けると、圧縮データ104を伸長することなく、カウントマップ105に基づいて、第1のキーワード101に対応する第2のキーワード103を特定して、出力する。【選択図】図1

Description

本発明は、情報処理システム、情報処理方法、および情報処理プログラムに関する。
従来、キーワードの入力を受け付けて、対象データの中からキーワードに対応する他のキーワードを特定して出力することが行われている。関連する技術としては、例えば、最初の検索式により文書データベースを検索したときに該当文書数が多ければ、最初の検索式中の1つのキーワードをピックアップし、共起データベースを検索して1または複数の絞り込み候補のキーワードを特定するものがある。ここで、共起データベースは、文書データベースに登録されているすべての文書ファイルから抽出したキーワードに対し、1つのキーワードと当該キーワードと共起したキーワードおよび共起回数を記憶する。また、例えば、単語分割手段によって本文データの単語分割(形態素解析)を行ったのち、頻度検出手段によって単語の繰り返しを除き単語が頻度順に並んだ圧縮テキストを作成する技術がある。
特開2002−230037号公報 特開平6−348757号公報
しかしながら、上述した従来技術では、共起回数やキーワード出現回数を利用し入力キーワードに対して関連キーワードを探索(分析)する場合、十分な分析のためにまたは多様な入力キーワードへの対処のために十分なサイズのデータベースを準備することになる。例えば、ビッグデータ等で対象データのデータ量が増大するほど、データベースのサイズも増大することになる。一方で、データベースのサイズが十分でない場合、不完全な範囲での共起回数やキーワード出現回数の情報を用いることになり、不十分な分析になったり、限定的な入力キーワードにのみ対処することになる。
1つの側面では、本発明は、多様な入力キーワードに対処することができる情報処理システム、情報処理方法、および情報処理プログラムを提供することを目的とする。
本発明の一側面によれば、対象データをレコード単位で単語ごとに圧縮する際に、前記対象データのレコード単位で前記単語ごとの出現回数を表す回数データを作成して、前記対象データを圧縮した圧縮データに付与し、前記圧縮データに付与された前記回数データに基づいて、前記対象データに対する検索条件となる第1の文字列に対応する第2の文字列を特定する情報処理システム、情報処理方法、および情報処理プログラムが提案される。
本発明の一態様によれば、多様な入力キーワードに対処することができるという効果を奏する。
図1は、情報処理システムにおけるキーワードの特定処理の一例を示す説明図である。 図2は、実施の形態にかかる情報処理装置100のハードウェア構成例を示すブロック図である。 図3は、圧縮ファイル300のデータ構造の一例を示す説明図である。 図4は、静的辞書データ400のデータ構造の一例を示す説明図である。 図5は、カウントマップ105のデータ構造の一例を示す説明図である。 図6は、情報処理システムの機能的構成例を示すブロック図である。 図7は、情報処理装置100の圧縮処理の一例を示す説明図(その1)である。 図8は、情報処理装置100の圧縮処理の一例を示す説明図(その2)である。 図9は、情報処理装置100の特定処理の一例を示す説明図(その1)である。 図10は、情報処理装置100の特定処理の一例を示す説明図(その2)である。 図11は、情報処理装置100の出力結果の一例を示す説明図である。 図12は、情報処理装置100の圧縮処理手順の一例を示すフローチャートである。 図13は、情報処理装置100の特定処理手順の一例を示すフローチャートである。
以下に添付図面を参照して、本発明にかかる情報処理システム、情報処理方法、および情報処理プログラムの実施の形態を詳細に説明する。
(情報処理システムにおけるキーワードの特定処理の一例)
図1は、情報処理システムにおけるキーワードの特定処理の一例を示す説明図である。図1において、情報処理システムは、情報処理装置100によって実現される。
情報処理装置100は、第1のキーワード101の入力を受け付けて、対象データ102に含まれるキーワードの中から、第1のキーワード101に対応する第2のキーワード103を特定して出力するコンピュータである。ここで、第1のキーワード101とは、単語である。また、第1のキーワード101とは、連結基礎単語であってもよい。また、第1のキーワード101とは、文字列であってもよい。
対象データ102とは、文書や文書の集合である。対象データ102は、複数のレコードに分割されている。レコードとは、対象データ102が文書である場合は、文書に含まれるセクションである。また、レコードとは、対象データ102が文書の集合である場合は、文書の集合に含まれる文書である。また、レコードとは、対象データ102が文書の集合を複数含む場合は、文書の集合であってもよい。
第2のキーワード103とは、第1のキーワード101に対応する単語である。また、第2のキーワード103とは、第1のキーワード101が連結基礎単語である場合は、連結基礎単語に対応する単語であってもよいし、連結基礎単語のうちのいずれかの単語に対応する単語であってもよい。また、第2のキーワード103とは、第1のキーワード101が文字列である場合、文字列に含まれる単語に対応する単語であってもよい。以下の説明では、説明の簡略化のため、第1のキーワード101および第2のキーワード103は、単語であるとする。
図1の例では、情報処理装置100は、対象データ102をレコード単位で単語ごとに圧縮して、圧縮データ104として記憶する。情報処理装置100は、対象データ102をレコード単位で単語ごとに圧縮したときに、レコード単位の単語ごとの出現回数を表すカウントマップ105を作成し、圧縮データ104に付与して、まとめて圧縮ファイルとして記憶する。
ここで、情報処理装置100は、第1のキーワード101の入力を受け付けると、カウントマップ105に基づいて、第1のキーワード101に対応する第2のキーワード103を特定して、出力する。情報処理装置100は、具体的には、第1のキーワード101が出現するレコードにおいて、第1のキーワード101とともに所定回数以上出現するキーワードを、第2のキーワード103として特定して、出力する。
これにより、情報処理装置100は、圧縮データ104を伸長することなく、第1のキーワード101に対応する第2のキーワード103を特定することができ、多様なキーワードに対処することができる。そして、情報処理装置100は、圧縮データ104を伸長しなくても第2のキーワード103を特定することができ、第2のキーワード103の特定処理を効率化することができる。
また、情報処理装置100は、圧縮データ104を伸長しなくても第2のキーワード103を特定することができ、記憶装置のサイズに制限がある場合であっても第2のキーワード103の特定処理を行うことができる。また、情報処理装置100は、対象データ102を圧縮する際に、対象データ102の分析に用いるカウントマップ105などの情報を作成することにより、第1のキーワード101が入力されてから第2のキーワード103が特定されるまでの時間を短縮することができる。
また、情報処理装置100は、圧縮データ104にカウントマップ105を付与することにより、圧縮データ104とカウントマップ105とを対応付けて容易に管理することができる。また、情報処理装置100は、圧縮データ104にカウントマップ105を付与することにより、圧縮データ104とカウントマップ105とを別々に管理する場合に比べて、圧縮データ104とカウントマップ105とに用いる記憶領域のサイズを低減することができる。
また、情報処理装置100は、対象データ102をレコード単位で単語ごとに圧縮したときに、単語ごとの種類を表す分類情報を作成し、圧縮データ104に付与してもよい。そして、情報処理装置100は、第1のキーワード101の入力を受け付けると、カウントマップ105と分類情報とに基づいて、所定の種類のキーワードの中から、第1のキーワード101に対応する第2のキーワード103を特定して、出力してもよい。これにより、情報処理装置100は、第1のキーワード101の入力者に対して、単語の種類ごとに特定した第2のキーワード103を、分析支援データとして通知することができる。結果として、入力者は、出力結果に基づいて、第2のキーワード103を分析することができる。
また、情報処理装置100は、第2のキーワード103とともに、第2のキーワード103が出現するレコードの数を出力してもよい。これにより、情報処理装置100は、第1のキーワード101の入力者に対して、第2のキーワード103が出現するレコードの数を、分析支援データとして通知することができる。結果として、入力者は、出力結果に基づいて、第2のキーワード103を分析することができる。
また、情報処理装置100は、第2のキーワード103とともに、第1のキーワード101から所定個数の単語以内に第2のキーワード103が出現するレコードの数を出力してもよい。これにより、情報処理装置100は、第1のキーワード101の入力者に対して、第1のキーワード101から所定個数の単語以内に第2のキーワード103が出現するレコードの数を、分析支援データとして通知することができる。結果として、入力者は、出力結果に基づいて、第2のキーワード103を分析することができる。
また、情報処理装置100は、第2のキーワード103とともに、第2のキーワード103が所定回数以上出現するレコードの数を出力してもよい。これにより、情報処理装置100は、第1のキーワード101の入力者に対して、第2のキーワード103が所定回数以上出現するレコードの数を、分析支援データとして通知することができる。結果として、入力者は、出力結果に基づいて、第2のキーワード103を分析することができる。
また、情報処理装置100は、対象データ102を静的辞書データを用いて圧縮して、圧縮データ104に、静的辞書データと、カウントマップ105と、を付与してもよい。また、情報処理装置100は、圧縮に用いた静的辞書データを圧縮データ104を伸長するコンピュータも有している場合は、圧縮データ104に、静的辞書データのIDと、カウントマップ105と、を付与してもよい。
また、情報処理装置100は、対象データ102にも静的辞書データにも含まれる単語について静的辞書データから情報を抽出して動的辞書データを作成して、対象データ102を動的辞書データを用いて圧縮してもよい。この場合、情報処理装置100は、圧縮データ104に、動的辞書データと、カウントマップ105と、を付与することになる。これにより、情報処理装置100は、静的辞書データを付与する場合に比べて、データ使用量を低減することができる。
以上により、情報処理装置100は、具体的には、電子書籍の集合のうちの或る電子書籍を表示している場合に、利用者によって当該電子書籍に含まれるキーワードが選択されたときに、電子書籍の集合の中から関連するキーワードを高速に検索することができる。そして、情報処理装置100は、検索したキーワードを含む書籍の数を、キーワードの数ごとにランキング形式で出力して、利用者のキーワードの分析作業を支援することができる。
また、図1の例では、情報処理システムは、一つの装置によって実現されたが、これに限らない。例えば、情報処理システムは、複数の装置によって実現されてもよい。具体的には、情報処理システムは、対象データ102を圧縮して、カウントマップ105を作成して付与する装置と、第1のキーワード101を受け付けて第2のキーワード103を特定して出力する装置と、によって実現されてもよい。
また、図1の例では、対象データ102は一つであったが、これに限らない。例えば、情報処理装置100は、複数の対象データ102の各々の対象データ102における第1のキーワード101に対応する第2のキーワード103を特定して、特定した第2のキーワード103を統合して出力してもよい。また、情報処理装置100は、各々の対象データ102における第2のキーワード103を含むレコードの数を計数して、計数した数を統合して出力してもよい。
(情報処理装置100のハードウェア構成例)
図2は、実施の形態にかかる情報処理装置100のハードウェア構成例を示すブロック図である。図2において、情報処理装置100は、CPU(Central Processing Unit)201と、ROM(Read Only Memory)202と、RAM(Random Access Memory)203と、磁気ディスクドライブ(Hard Disk Drive)204と、磁気ディスク205と、光ディスクドライブ206と、光ディスク207と、ディスプレイ208と、インターフェース(I/F:Interface)209と、キーボード210と、マウス211と、スキャナ212と、プリンタ213と、を備えている。また、各構成部はバス200によってそれぞれ接続されている。
ここで、CPU201は、情報処理システムの全体の制御を司る。ROM202は、ブートプログラムなどのプログラムを記憶している。RAM203は、CPU201のワークエリアとして使用される。磁気ディスクドライブ204は、CPU201の制御にしたがって磁気ディスク205に対するデータのリード/ライトを制御する。磁気ディスク205は、磁気ディスクドライブ204の制御で書き込まれたデータを記憶する。
光ディスクドライブ206は、CPU201の制御にしたがって光ディスク207に対するデータのリード/ライトを制御する。光ディスク207は、光ディスクドライブ206の制御で書き込まれたデータを記憶したり、光ディスク207に記憶されたデータをコンピュータに読み取らせたりする。
ディスプレイ208は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。このディスプレイ208は、例えば、液晶ディスプレイ、プラズマディスプレイなどを採用することができる。
I/F209は、通信回線を通じてLAN(Local Area Network)、WAN(Wide Area Network)、インターネットなどのネットワーク214に接続され、このネットワーク214を介して他の装置に接続される。そして、I/F209は、ネットワーク214と内部のインターフェースを司り、外部装置からのデータの入出力を制御する。I/F209には、例えば、モデムやLANアダプタなどを採用することができる。
キーボード210は、文字、数字、各種指示などの入力のためのキーを備え、データの入力を行う。また、タッチパネル式の入力パッドやテンキーなどであってもよい。マウス211は、カーソルの移動や範囲選択、あるいはウィンドウの移動やサイズの変更などを行う。ポインティングデバイスとして同様に機能を備えるものであれば、トラックボールやジョイスティックなどであってもよい。
スキャナ212は、画像を光学的に読み取り、情報処理装置100内に画像データを取り込む。なお、スキャナ212は、OCR(Optical Character Reader)機能を持たせてもよい。また、プリンタ213は、画像データや文書データを印刷する。プリンタ213には、例えば、レーザプリンタやインクジェットプリンタを採用することができる。また、光ディスクドライブ206、光ディスク207、ディスプレイ208、キーボード210、マウス211、スキャナ212、およびプリンタ213の少なくともいずれか1つは、なくてもよい。
(圧縮ファイル300のデータ構造)
次に、図3を用いて、圧縮データ104と、カウントマップ105と、を含む圧縮ファイル300のデータ構造の一例について説明する。圧縮ファイル300は、例えば、図2に示したRAM203、磁気ディスク205、光ディスク207などの記憶領域に記憶される。
図3は、圧縮ファイル300のデータ構造の一例を示す説明図である。図3に示すように、圧縮ファイル300は、ヘッダ部301と、圧縮データ104と、トレーラ部302と、を含む。
ヘッダ部301には、対象データ102の圧縮に用いた静的辞書データの識別子が記憶される。ヘッダ部301には、対象データ102の圧縮に用いた静的辞書データが記憶されてもよい。トレーラ部302には、対象データ102の圧縮に動的辞書データを用いた場合、対象データ102の圧縮に用いた動的辞書データが記憶される。また、トレーラ部302には、カウントマップ105が記憶される。
圧縮データ104は、可変長符号化方式を用いて、対象データ102を単語単位で圧縮したデータである。換言すれば、圧縮データ104は、単語を圧縮して得られた可変長符号の集合を含むデータである。圧縮データ104は、単語以外の単位で圧縮された部分を含んでもよいし、圧縮されていない部分を含んでもよい。
単語を圧縮して得られた可変長符号は、圧縮元の単語が動的辞書データに含まれる場合は、圧縮元の単語の動的辞書データに対する登録番号を符号化した符号である。例えば、動的辞書データに対する登録番号は、有効桁と有効整数とに符号化される。また、単語を圧縮して得られた可変長符号は、圧縮元の単語が静的辞書データに含まれる場合は、圧縮元の単語に対応付けて静的辞書データに記憶された符号である。例えば、静的辞書データに記憶された符号は、単語の出現頻度が多い順に、短い符号を割り当てて符号化される。
(静的辞書データ400のデータ構造)
次に、図4を用いて、静的辞書データ400のデータ構造の一例について説明する。静的辞書データ400は、対象データ102の圧縮、および圧縮データ104の伸長に用いられるデータである。静的辞書データ400は、例えば、図2に示したRAM203、磁気ディスク205、光ディスク207などの記憶領域に記憶される。
図4は、静的辞書データ400のデータ構造の一例を示す説明図である。図4において、静的辞書データ400は、辞書情報として、基礎単語項目に対応付けて、文字列長項目と、出現頻度項目と、符号長項目と、圧縮符号項目と、分類情報項目と、を有する。基礎単語項目には、符号化対象の基礎単語が記憶される。文字列長項目には、基礎単語の文字列長が記憶される。出現頻度項目には、基礎単語の対象データ102における出現回数が記憶される。符号長項目には、基礎単語に対応する符号の符号長が記憶される。圧縮符号項目には、基礎単語に対応する符号が記憶される。分類情報項目には、基礎単語の種類を表す分類情報が記憶される。
図4の例では、静的辞書データ400には、基礎単語「able」に対応付けて、文字列長「4」と、出現頻度「785」と、符号長「9」と、符号「01011・・・」と、分類情報「形容詞」と、が記憶される。
また、静的辞書データ400は、フィルタ情報として、2グラム項目に対応付けて、ビットマップ項目と、ポインタ項目と、を有する。2グラム項目には、2文字を結合した文字列であって、基礎単語項目に記憶された単語の一部となる文字列が記憶される。ビットマップ項目には、2文字を結合した文字列が、基礎単語項目に記憶された単語の何文字目の部分となるかを表すデータが記憶される。ポインタ項目には、2グラム項目に記憶された2文字を結合した文字列を先頭部分に含む単語が記憶された基礎単語項目の場所を表すポインタが、単語の文字数ごとに記憶される。
図4の例では、静的辞書データ400には、基礎単語「able」が記憶されている。このため、静的辞書データ400には、2文字を連結した文字列「ab」に対応付けて、基礎単語「able」の1文字目と2文字目とに含まれることを表すビットマップ「1_0_0_0_0」が記憶される。また、静的辞書データ400には、2文字を連結した文字列「ab」に対応付けて、文字列「ab」を先頭部分に含む4文字の単語「able」が記憶された基礎単語項目の場所を表すポインタが記憶される。
また、静的辞書データ400には、情報処理装置100によって対象データ102を圧縮する際にカウントマップ105が結合される。カウントマップ105には、レコードごとの基礎単語単位の出現回数を表すマッピングデータが記憶される。
図4の例では、静的辞書データ400には、アルファベットが記憶されているが、これに限らない。例えば、静的辞書データ400には、アルファベット以外のひらがなや漢字が記憶されてもよい。また、図4の例では、静的辞書データ400には、基礎単語に対応する符号が記憶されているが、これに限らない。例えば、静的辞書データ400には、対象データ102の中で基礎単語が初めて出現した場所を表す情報が記憶されてもよい。
静的辞書データ400としては、例えば、一般的な文書において出現頻度が高くなる基礎単語を記憶したものがある。また、静的辞書データ400としては、例えば、特定の分野でのみ出現頻度が高くなる専門単語を記憶したものがあってもよい。また、静的辞書データ400としては、基礎単語を結合した連結基礎単語を記憶したものがあってもよい。
対象データ102の圧縮においては、例えば、いずれかの静的辞書データ400から対象データ102に出現する単語についての情報のみを抽出した動的辞書データを用いてもよい。また、対象データ102の圧縮においては、例えば、基礎単語を記憶した静的辞書データ400と、連結基礎単語を記憶した静的辞書データ400から対象データ102に出現する単語についての情報のみを抽出した動的辞書データと、を用いてもよい。
(カウントマップ105のデータ構造)
次に、図5を用いて、カウントマップ105のデータ構造の一例について説明する。カウントマップ105は、例えば、図2に示したRAM203、磁気ディスク205、光ディスク207などの記憶領域に記憶される。
図5は、カウントマップ105のデータ構造の一例を示す説明図である。図5に示すように、カウントマップ105は、各々の単語と、各々の単語に対応付けたレコードごとの出現回数を表すマッピングデータと、を含む。
マッピングデータは、例えば、レコードごとに4ビットのデータを割り振って、レコードごとの出現回数を2進数を用いて表現したデータである。図5の例では、単語「a」に対応付けたマッピングデータのうちの先頭4ビットのデータ「1011」は、単語「a」のレコード1における出現回数「11」を表す。
情報処理装置100は、カウントマップ105を参照することによって、第1のキーワード101とともに同一のレコードに所定回数以上出現する第2のキーワード103を特定することができる。また、情報処理装置100は、カウントマップ105を参照することによって、第1のキーワード101と第2のキーワード103とがともに出現するレコードを特定することができる。情報処理装置100は、例えば、第1のキーワード101の出現回数が1回以上であるレコードの各々のキーワードの出現回数に基づいて、第1のキーワード101とともに同一のレコードに所定回数以上出現する第2のキーワード103を特定することができる。
(動的辞書データのデータ構造)
次に、動的辞書データのデータ構造の一例について説明する。動的辞書データは、静的辞書データ400から対象データ102に出現する単語についての情報のみを抽出したものであって、対象データ102の圧縮、および圧縮データ104の伸長に用いられるデータである。動的辞書データは、例えば、図2に示したRAM203、磁気ディスク205、光ディスク207などの記憶領域に記憶される。
動的辞書データは、静的辞書データ400と同様に、辞書情報として、基礎単語項目に対応付けて、文字列長項目と、出現頻度項目と、符号長項目と、圧縮符号項目と、分類情報項目と、を有する。基礎単語項目には、符号化対象の連結基礎単語、または専門単語などが記憶される。文字列長項目には、連結基礎単語などの文字列長が記憶される。出現頻度項目には、連結基礎単語などの対象データ102における出現回数が記憶される。符号長項目には、連結基礎単語などに対応する符号の符号長が記憶される。圧縮符号項目には、連結基礎単語などに対応する符号が記憶される。分類情報項目には、連結基礎単語などの種類を表す分類情報が記憶される。
また、動的辞書データは、静的辞書データ400と同様に、フィルタ情報として、2グラム項目に対応付けて、ビットマップ項目と、ポインタ項目と、を有する。2グラム項目には、2文字を結合した文字列であって、基礎単語項目に記憶された単語の一部となる文字列が記憶される。ビットマップ項目には、2文字を結合した文字列が、基礎単語項目に記憶された単語の何文字目の部分となるかを表すデータが記憶される。ポインタ項目には、2グラム項目に記憶された2文字を結合した文字列を先頭部分に含む単語が記憶された基礎単語項目の場所を表すポインタが、単語の文字数ごとに記憶される。
また、動的辞書データには、静的辞書データ400と同様に、情報処理装置100によって対象データ102を圧縮する際にカウントマップ105が結合される。カウントマップ105には、レコードごとの連結基礎単語などの単位での出現回数を表すマッピングデータが記憶される。
(情報処理システムの機能的構成例)
次に、図6を用いて、情報処理システムの機能的構成例について説明する。図6は、情報処理システムの機能的構成例を示すブロック図である。情報処理システムは、抽出部601と、作成部602と、特定部603と、計数部604と、算出部605と、出力部606と、を含む。
抽出部601と、作成部602と、特定部603と、計数部604と、算出部605と、出力部606は、例えば、図2に示したROM202、RAM203、磁気ディスク205、光ディスク207などの記憶装置に記憶されたプログラムをCPU201に実行させることにより、または、I/F209により、その機能を実現する。
情報処理装置100は、対象データ102に基づいて、カウントマップ105を作成して、圧縮データ104に付与する動作を行うことができる。以下の説明では、カウントマップ105を作成して、圧縮データ104に付与する動作を、「第1の動作」と表記する場合がある。また、情報処理装置100は、第2のキーワード103を特定する動作を行うことができる。以下の説明では、第2のキーワード103を特定する動作を、「第2の動作」と表記する場合がある。
<第1の動作>
まず、第1の動作について説明する。第1の動作は、カウントマップ105を作成して、圧縮データ104に付与する動作である。第1の動作は、抽出部601と、作成部602と、によって実現される。
抽出部601は、対象データ102から所定の単語集合に含まれる単語と一致するものを抽出する。ここで、対象データ102とは、文書や文書の集合である。対象データ102は、複数のレコードに分割されている。レコードとは、対象データ102が文書である場合は、文書に含まれるセクションである。また、レコードとは、対象データ102が文書の集合である場合は、文書の集合に含まれる文書である。所定の単語集合とは、符号化対象として、静的辞書データ400に記憶された単語集合である。
抽出部601は、例えば、対象データ102に含まれる単語のうち、静的辞書データ400に記憶された単語集合に含まれる単語と一致するものを抽出する。ここで、静的辞書データ400とは、単語と、当該単語を符号化した符号と、を対応付けて記憶したデータである。これにより、抽出部601は、符号化対象の単語を抽出することができる。抽出されたデータは、例えば、RAM203、磁気ディスク205、光ディスク207などの記憶領域に記憶される。
作成部602は、対象データ102をレコード単位で単語ごとに圧縮する際に、対象データ102のレコード単位で単語ごとの出現回数を表す回数データを作成して、対象データ102を圧縮した圧縮データ104に付与する。ここで、回数データとは、上述したカウントマップ105である。作成部602は、例えば、対象データ102に含まれる単語を、静的辞書データ400に基づいて符号に置換して、圧縮データ104を作成する。この際、作成部602は、符号に置換した単語の出現回数を計数して、カウントマップ105を作成して、圧縮データ104に付与する。これにより、作成部602は、対象データ102を圧縮する際に、キーワードの特定に用いられる静的辞書データ400に含まれる単語ごとの出現回数を記憶したカウントマップ105を作成して、圧縮データ104とともに記憶することができる。
また、作成部602は、対象データ102をレコード単位で単語ごとに圧縮する際に、対象データ102のレコードごとに抽出部601によって抽出された単語単位の出現回数を表す回数データを作成してもよい。そして、作成部602は、作成した回数データを、対象データ102を圧縮した圧縮データ104に付与してもよい。作成部602は、例えば、対象データ102に含まれる単語を、動的辞書データに基づいて符号に置換して、圧縮データ104を作成する。この際、作成部602は、符号に置換した単語の出現回数を計数して、カウントマップ105を作成して、圧縮データ104に付与する。これにより、作成部602は、対象データ102を圧縮する際に、キーワードの特定に用いられる動的辞書データに含まれる単語ごとの出現回数を記憶したカウントマップ105を作成して、圧縮データ104とともに記憶することができる。
また、作成部602は、単語ごとの種類を表す分類データを作成して、圧縮データ104に付与してもよい。作成部602は、例えば、静的辞書データ400に単語ごとに対応付けて当該単語の種類が記憶されている場合、静的辞書データ400に基づいて、符号に置換した単語ごとの種類を記憶する分類データを作成して、圧縮データ104に付与する。これにより、作成部602は、対象データ102を圧縮する際に、キーワードの特定に用いられる分類データを作成して、圧縮データ104とともに記憶することができる。
また、作成部602は、単語ごとの圧縮結果を表す符号データを作成して、圧縮データ104に付与してもよい。作成部602は、例えば、圧縮データ104に、静的辞書データ400を付与してもよい。また、作成部602は、圧縮データ104に、静的辞書データ400の基礎単語項目と、圧縮符号項目と、分類情報項目と、の部分のみを付与してもよい。
また、作成部602は、圧縮データ104に、抽出部601によって抽出された静的辞書データ400の単語と一致するものを記憶する動的辞書データを作成して、圧縮データ104に動的辞書データを付与してもよい。また、作成部602は、圧縮データ104に、動的辞書データの基礎単語項目と、圧縮符号項目と、分類情報項目と、の部分のみを付与してもよい。
これにより、作成部602は、圧縮データ104の伸長に用いられる静的辞書データ400および動的辞書データを、圧縮データ104とともに記憶することができる。作成されたデータは、例えば、RAM203、磁気ディスク205、光ディスク207などの記憶領域に記憶される。
<第2の動作>
次に、第2の動作について説明する。第2の動作は、第2のキーワード103を特定する動作である。第2の動作は、特定部603と、計数部604と、算出部605と、出力部606と、によって実現される。
特定部603は、圧縮データ104に付与された回数データに基づいて、対象データ102に対する検索条件となる第1の文字列に対応する第2の文字列を特定する。第1の文字列とは、情報処理装置100の利用者によって入力されたキーワードである。特定部603は、例えば、第1のキーワード101の入力を受け付ける。次に、特定部603は、圧縮ファイル300からカウントマップ105を取得する。
そして、特定部603は、取得したカウントマップ105に基づいて、第1のキーワード101とともに、同一のレコードに所定回数以上出現する第2のキーワード103を特定する。また、特定部603は、取得したカウントマップ105に基づいて、第1のキーワード101に共起される第2のキーワード103を特定してもよい。
これにより、特定部603は、圧縮データ104を伸長することなく、第1のキーワード101に対応する第2のキーワード103を特定することができ、多様なキーワードに対処することができる。
また、特定部603は、圧縮データ104に付与された回数データおよび分類データに基づいて、対象データ102に対する検索条件となる分類と第1の文字列とに対応する第2の文字列を特定してもよい。特定部603は、例えば、情報処理装置100の利用者から検索条件となる特定の種類の入力を受け付ける。次に、特定部603は、カウントマップ105と分類データとに基づいて、特定の種類のキーワードのうち、第1のキーワード101とともに、同一のレコードに所定回数以上出現する第2のキーワード103を特定する。
また、特定部603は、カウントマップ105と分類データとに基づいて、特定の種類のキーワードのうち、第1のキーワード101に共起される第2のキーワード103を特定してもよい。これにより、特定部603は、第1のキーワード101の入力者に対して、単語の種類ごとに特定した第2のキーワード103を、分析支援データとして通知することができる。
計数部604は、特定部603によって特定された第2の文字列を含む対象データ102のうちのレコードの数を計数する。計数部604は、例えば、カウントマップ105に基づいて、第2のキーワード103を含む対象データ102のうちのレコードの数を計数する。これにより、計数部604は、第1のキーワード101の入力者に対して、第2のキーワード103が出現するレコードの数を、分析支援データとして通知することができる。
計数部604は、圧縮データ104と、圧縮データ104に付与された辞書データに基づいて、第1の文字列から所定個数の単語以内に特定部603によって特定された第2の文字列が出現する対象データ102のうちのレコードの数を計数する。計数部604は、例えば、静的辞書データ400と動的辞書データとに基づいて、第1のキーワード101に対応する第1の符号と、第2のキーワード103に対応する第2の符号と、を特定する。次に、計数部604は、第1の符号から所定個数の単語以内に第2の符号が出現するレコードの数を計数する。これにより、計数部604は、第1のキーワード101の入力者に対して、第1のキーワード101によって共起されて第2のキーワード103が出現するレコードの数を、分析支援データとして通知することができる。
計数部604は、圧縮データ104に付与された回数データに基づいて、特定部603によって特定された第2の文字列が所定回数以上出現する対象データ102のうちのレコードの数を計数する。計数部604は、例えば、カウントマップ105に基づいて、第2のキーワード103が所定回数以上出現する対象データ102のうちのレコードの数を計数する。これにより、計数部604は、第1のキーワード101の入力者に対して、第2のキーワード103が所定回数以上出現するレコードの数を、分析支援データとして通知することができる。
算出部605は、圧縮データ104に付与された回数データに基づいて、第2の文字列の重要度を算出する。算出部605は、例えば、カウントマップ105に基づいて、第2のキーワード103について、TF−IDFを算出する。算出結果は、例えば、RAM203、磁気ディスク205、光ディスク207などの記憶領域に記憶される。これにより、算出部605は、第1のキーワード101の入力者に対して、第2のキーワード103の特徴指数を、分析支援データとして通知することができる。
出力部606は、特定部603によって特定された第2のキーワード103を出力する。また、出力部606は、特定部603によって特定された第2のキーワード103と、計数部604によって計数されたレコードの数と、を対応付けて出力してもよい。また、出力部606は、特定部603によって特定された第2のキーワード103と、算出部605によって算出された第2のキーワード103の重要度と、を対応付けて出力してもよい。出力形式としては、例えば、ディスプレイ208への表示、プリンタ213への印刷出力、I/F209による外部装置への送信がある。また、RAM203、磁気ディスク205、光ディスク207などの記憶領域に記憶することとしてもよい。
(情報処理装置100の圧縮処理の一例)
次に、図7および図8を用いて、情報処理装置100の圧縮処理の一例について説明する。
図7および図8は、情報処理装置100の圧縮処理の一例を示す説明図である。図7に示すように、情報処理装置100は、木構造を有する基礎単語についての静的辞書データ400のうちのフィルタ情報をビットフィルタとして、対象データ102から記号を除外して、対象データ102のうちの基礎単語をレコードごとに圧縮する。ビットフィルタについては従来技術のため説明を省略する。
次に、情報処理装置100は、木構造を有する連結基礎単語についての静的辞書データ400のうちのフィルタ情報をビットフィルタとして、対象データから記号・基礎単語を除外して、対象データ102のうちの連結基礎単語についての動的辞書データを作成する。そして、情報処理装置100は、動的辞書データに基づいて、3面化スライド窓を用いて、対象データ102をレコード単位で単語ごとに圧縮する。3面化スライド窓については従来技術のため説明を省略する。これにより、情報処理装置100は、圧縮ファイル300を作成することができる。
図8に示すように、情報処理装置100は、動的辞書データ800を作成した場合、静的辞書データ400に動的辞書データ800を追加して記憶する。動的辞書データ800は、図4に示した静的辞書データ400と同様のデータ構造となる別の静的辞書データ400のうちの対象データ102に含まれる連結基礎単語についての情報を抽出したデータである。そして、情報処理装置100は、静的辞書データ400に動的辞書データ800を追加して、圧縮データ104に付与して、圧縮ファイル300を作成する。
また、情報処理装置100は、圧縮に用いた静的辞書データ400を圧縮データ104を伸長するコンピュータも有している場合は、圧縮データ104に、静的辞書データ400のIDのみを付与してもよい。この場合は、情報処理装置100は、静的辞書データ400とは別に動的辞書データ800を作成して、圧縮データ104に付与して、圧縮ファイル300を作成する。これにより、情報処理装置100は、圧縮ファイル300のサイズを低減することができる。
(情報処理装置100の特定処理の一例)
次に、図9および図10を用いて、情報処理装置100の特定処理の一例について説明する。
図9および図10は、情報処理装置100の特定処理の一例を示す説明図である。図9において、情報処理装置100は、所定の単語の種類であって対象データ102に対する検索条件となる第1のキーワード101に対応する第2のキーワード103を特定する。
情報処理装置100は、例えば、第1のキーワード101「インフルエンザ治療薬」の入力を受け付ける。次に、情報処理装置100は、単語の種類が「副作用」である単語のうち、第1のキーワード101「インフルエンザ治療薬」と同一のレコードに出現する第2のキーワード103「痙攣」、「異常行動」、および「幻覚」などを特定する。
そして、情報処理装置100は、各々のキーワードが含まれるレコードの数を計数して、各々のキーワードの特徴指数を算出して、各々のキーワードとともに出力する。特徴指数Wijは、例えば、TF−IDFであって、Wij=tfij・idfiによって算出される。ここで、tfij=文書Djの単語iの出現回数/文書Djの総単語数である。idfi=log(文書の総数/単語iを含む文書の数)である。これにより、情報処理装置100は、圧縮データ104を伸長することなく、第2のキーワード103の特徴指数を算出することができる。
図10において、情報処理装置100は、第1のキーワード101「インフルエンザ治療薬」に対応する第1の符号「0001」を取得する。次に、情報処理装置100は、第2のキーワード103「異常行動」に対応する第2の符号「0100」を取得する。そして、情報処理装置100は、カウントマップから第1のキーワード101と第2のキーワード103とが出現するレコード3を特定する。
次に、情報処理装置100は、レコード3における第1の符号から第2の符号までの単語の数「3」を計数して、第1の符号から所定個数の単語以内に第2の符号が出現するかを判定する。単語の数は、例えば、第1の符号から第2の符号までの圧縮符号の数を計数することにより計数される。また、単語の数は、例えば、第1の符号から第2の符号までの圧縮符号と圧縮されていない単語の数とを計数することにより計数されてもよい。そして、情報処理装置100は、同様にして、第1の符号から所定個数の単語以内に第2の符号が出現するレコードを計数する。これにより、情報処理装置100は、圧縮データ104を伸長することなく、第1のキーワード101に第2のキーワード103が共起されているレコードを特定することができる。
(情報処理装置100の出力結果の一例)
次に、図11を用いて、情報処理装置100の出力結果の一例について説明する。
図11は、情報処理装置100の出力結果の一例を示す説明図である。図11において、情報処理装置100は、第1のキーワード101の入力を受け付けると、第2のキーワード103を特定して、第2のキーワード103を含むレコードの数を計数し、および第2のキーワード103の特徴指数を算出して、出力する。
図11の例では、情報処理装置100は、第1のキーワード101「インフルエンザ治療薬」の入力を受け付ける。次に、情報処理装置100は、単語の種類が「副作用」であって、第1のキーワード101「インフルエンザ治療薬」に対応する第2のキーワード103「痙攣」、「異常行動」、および「幻覚」などを特定する。そして、情報処理装置100は、各々のキーワードが含まれるレコードの数を計数して、各々のキーワードの特徴指数を算出して、各々のキーワードとともに出力する。
また、情報処理装置100は、単語の種類が「症状」であって、第1のキーワード101に対応する第2のキーワード103を特定する。そして、情報処理装置100は、各々のキーワードが含まれるレコードの数を計数して、各々のキーワードの特徴指数を算出して、各々のキーワードとともに出力する。
また、情報処理装置100は、単語の種類が「薬名」であって、第1のキーワード101に対応する第2のキーワード103を特定する。そして、情報処理装置100は、各々のキーワードが含まれるレコードの数を計数して、各々のキーワードの特徴指数を算出して、各々のキーワードとともに出力する。
また、情報処理装置100は、各々のキーワードから、いずれかのキーワードが選択されると、選択されたキーワードについて、出現回数ごとのレコードの数を計数して、出現回数ごとのキーワードの特徴指数を算出して、出力する。
また、情報処理装置100は、各々のキーワードから、いずれかのキーワードが選択されると、選択されたキーワードについて、第1のキーワード101から第2のキーワード103までの単語の個数ごとのレコードの数を計数して、出力する。また、情報処理装置100は、選択されたキーワードについて、第1のキーワード101から第2のキーワード103までの単語の個数ごとのキーワードの特徴指数を算出して、出力する。
これにより、情報処理装置100は、第1のキーワード101の入力者に対して、第2のキーワード103に関するレコードの数や特徴指数を、分析支援データとして通知することができる。結果として、入力者は、出力結果に基づいて、第2のキーワード103を分析することができる。
(情報処理装置100の圧縮処理手順の一例)
次に、図12を用いて、情報処理装置100の圧縮処理手順の一例について説明する。
図12は、情報処理装置100の圧縮処理手順の一例を示すフローチャートである。図12において、情報処理装置100は、対象データ102に出現する単語と、当該単語の分類情報と、を静的辞書データ400から抽出する(ステップS1201)。
次に、情報処理装置100は、抽出した単語ごとに符号を割り当てる(ステップS1202)。そして、情報処理装置100は、抽出した単語と、単語に割り当てた符号と、抽出した単語の分類情報と、を対応付けた動的辞書データ800を作成する(ステップS1203)。
次に、情報処理装置100は、静的辞書データ400と、動的辞書データ800と、に基づいて、対象データ102をレコード単位で単語ごとに符号化して、対象データ102を圧縮する(ステップS1204)。そして、情報処理装置100は、静的辞書データ400のIDを含むヘッダ部301を作成する(ステップS1205)。
次に、情報処理装置100は、動的辞書データ800を含むトレーラ部302を作成する(ステップS1206)。そして、情報処理装置100は、ヘッダ部301と、圧縮データ104と、トレーラ部302と、を結合して、圧縮ファイル300を作成し(ステップS1207)、圧縮処理を終了する。
これにより、情報処理装置100は、対象データ102の圧縮の際に、対象データ102から第2のキーワード103を特定するために用いられるカウントマップ105を作成しておくことができる。
(情報処理装置100の特定処理手順の一例)
次に、図13を用いて、情報処理装置100の特定処理手順の一例について説明する。
図13は、情報処理装置100の特定処理手順の一例を示すフローチャートである。図13において、情報処理装置100は、対象データ102に対する検索ワードとなる第1のキーワード101の入力を受け付ける(ステップS1301)。次に、情報処理装置100は、検索条件を取得する(ステップS1302)。
そして、情報処理装置100は、圧縮データ104に付与されたカウントマップ105を取得する(ステップS1303)。次に、情報処理装置100は、検索条件と、カウントマップ105と、に基づいて、第1のキーワード101に対応する第2のキーワード103を特定する(ステップS1304)。
そして、情報処理装置100は、第2のキーワード103が所定回数以上出現するレコードの数を計数する(ステップS1305)。次に、情報処理装置100は、第1のキーワード101から所定個数の単語以内に第2のキーワード103が出現するレコードの数を計数する(ステップS1306)。
そして、情報処理装置100は、第2のキーワード103の特徴指数を算出する(ステップS1307)。次に、情報処理装置100は、第2のキーワード103と、計数したレコードの数と、算出した特徴指数と、を出力する(ステップS1308)。
そして、情報処理装置100は、特定処理を終了する。これにより、情報処理装置100は、圧縮データ104を伸長することなく、第1のキーワード101に対応する第2のキーワード103を特定することができ、キーワードの特定処理を効率化することができる。
以上説明したように、情報処理システムによれば、対象データ102をレコード単位で単語ごとに圧縮する際にカウントマップ105を作成して圧縮データ104に付与することができる。これにより、情報処理システムは、圧縮データ104を伸長することなく、第1のキーワード101に対応する第2のキーワード103を特定することができ、多様なキーワードに対処することができる。そして、情報処理システムは、圧縮データ104を伸長しなくても第2のキーワード103を特定することができ、第2のキーワード103の特定処理を効率化することができる。
また、情報処理システムは、圧縮データ104を伸長しなくても第2のキーワード103を特定することができ、記憶装置のサイズに制限がある場合であっても第2のキーワード103の特定処理を行うことができる。また、情報処理システムは、対象データ102を圧縮する際に、対象データ102の分析に用いるカウントマップ105などの情報を作成することにより、第1のキーワード101が入力されてから第2のキーワード103が特定されるまでの時間を短縮することができる。
また、情報処理システムは、圧縮データ104にカウントマップ105を付与することにより、圧縮データ104とカウントマップ105とを対応付けて容易に管理することができる。また、情報処理システムは、圧縮データ104にカウントマップ105を付与することにより、圧縮データ104とカウントマップ105とを別々に管理する場合に比べて、圧縮データ104とカウントマップ105とに用いる記憶領域のサイズを低減することができる。
また、情報処理システムによれば、単語ごとの種類を表す分類データを作成して、圧縮データ104に付与することができる。これにより、情報処理システムは、第1のキーワード101の入力者に対して、単語の種類ごとに特定した第2のキーワード103を、分析支援データとして通知することができる。結果として、入力者は、出力結果に基づいて、第2のキーワード103を分析することができる。
また、情報処理システムによれば、第2のキーワード103とともに、第2のキーワード103が出現するレコードの数を出力することができる。これにより、情報処理システムは、第1のキーワード101の入力者に対して、第2のキーワード103が出現するレコードの数を、分析支援データとして通知することができる。結果として、入力者は、出力結果に基づいて、第2のキーワード103を分析することができる。
また、情報処理システムによれば、第2のキーワード103とともに、第1のキーワード101から所定個数の単語以内に第2のキーワード103が出現するレコードの数を出力することができる。これにより、情報処理システムは、第1のキーワード101の入力者に対して、第1のキーワード101から所定個数の単語以内に第2のキーワード103が出現するレコードの数を、分析支援データとして通知することができる。結果として、入力者は、出力結果に基づいて、第2のキーワード103を分析することができる。
また、情報処理システムによれば、第2のキーワード103とともに、第2のキーワード103が所定回数以上出現するレコードの数を出力することができる。これにより、情報処理システムは、第1のキーワード101の入力者に対して、第2のキーワード103が所定回数以上出現するレコードの数を、分析支援データとして通知することができる。結果として、入力者は、出力結果に基づいて、第2のキーワード103を分析することができる。
また、情報処理システムによれば、対象データ102を静的辞書データ400を用いて圧縮して、圧縮データ104に、静的辞書データ400と、カウントマップ105と、を付与することができる。また、情報処理システムによれば、対象データ102を静的辞書データ400と動的辞書データ800とを用いて圧縮して、圧縮データ104に、静的辞書データ400と、動的辞書データ800と、カウントマップ105と、を付与してもよい。これにより、情報処理システムは、データ使用量を低減することができる。
また、情報処理システムによれば、第2のキーワード103についての特徴指数を算出することができる。これにより、情報処理システムは、第1のキーワード101の入力者に対して、第2のキーワード103についての特徴指数を、分析支援データとして通知することができる。結果として、入力者は、出力結果に基づいて、第2のキーワード103を分析することができる。
ここで、同時に入力されたキーワードの組み合わせを蓄積するデータベースを参照して、第1のキーワード101と同時に入力された他のキーワードを第2のキーワード103として特定する場合が考えられる。しかしながら、この場合、対象データ102の内容とは関係のないキーワードが特定されてしてしまうことがある。一方で、情報処理システムによれば、対象データ102の内容に応じたカウントマップ105を作成して圧縮データ104に付与することにより、対象データ102の内容に則した第2のキーワード103を特定することができる。
なお、本実施の形態で説明した情報処理方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本情報処理プログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また本情報処理プログラムは、インターネット等のネットワークを介して配布してもよい。
上述した実施の形態に関し、さらに以下の付記を開示する。
(付記1)対象データをレコード単位で単語ごとに圧縮する際に、前記対象データのレコード単位で前記単語ごとの出現回数を表す回数データを作成して、前記対象データを圧縮した圧縮データに付与する作成部と、
前記圧縮データに付与された前記回数データに基づいて、前記対象データに対する検索条件となる第1の文字列に対応する第2の文字列を特定する特定部と、
を有することを特徴とする情報処理システム。
(付記2)前記作成部は、
前記単語ごとの種類を表す分類データを作成して、前記圧縮データに付与し、
前記特定部は、
前記圧縮データに付与された前記回数データおよび前記分類データに基づいて、前記対象データに対する検索条件となる分類と前記第1の文字列とに対応する第2の文字列を特定することを特徴とする付記1に記載の情報処理システム。
(付記3)前記特定部によって特定された前記第2の文字列を含む前記対象データのうちのレコードの数を計数する計数部を有することを特徴とする付記1または2に記載の情報処理システム。
(付記4)前記作成部は、
前記単語ごとの圧縮結果を表す符号データを作成して、前記圧縮データに付与し、
前記計数部は、
前記圧縮データと、前記圧縮データに付与された前記符号データに基づいて、前記第1の文字列から所定個数の単語以内に前記特定部によって特定された前記第2の文字列が出現する前記対象データのうちのレコードの数を計数することを特徴とする付記3に記載の情報処理システム。
(付記5)前記計数部は、
前記圧縮データに付与された前記回数データに基づいて、前記特定部によって特定された前記第2の文字列が所定回数以上出現する前記対象データのうちのレコードの数を計数することを特徴とする付記3または4に記載の情報処理システム。
(付記6)前記対象データから所定の単語集合に含まれる単語と一致するものを抽出する抽出部を有し、
前記作成部は、
前記対象データをレコード単位で単語ごとに圧縮する際に、前記対象データのレコードごとに前記抽出部によって抽出された前記単語単位の出現回数を表す回数データを作成して、前記対象データを圧縮した圧縮データに付与することを特徴とする付記1〜5のいずれか一つに記載の情報処理システム。
(付記7)前記圧縮データに付与された前記回数データに基づいて、前記第2の文字列の重要度を算出する算出部を有することを特徴とする付記1〜6のいずれか一つに記載の情報処理システム。
(付記8)コンピュータが、
対象データをレコード単位で単語ごとに圧縮する際に、前記対象データのレコード単位で前記単語ごとの出現回数を表す回数データを作成して、前記対象データを圧縮した圧縮データに付与し、
前記圧縮データに付与された前記回数データに基づいて、前記対象データに対する検索条件となる第1の文字列に対応する第2の文字列を特定する、
処理を実行することを特徴とする情報処理方法。
(付記9)コンピュータに、
対象データをレコード単位で単語ごとに圧縮する際に、前記対象データのレコード単位で前記単語ごとの出現回数を表す回数データを作成して、前記対象データを圧縮した圧縮データに付与し、
前記圧縮データに付与された前記回数データに基づいて、前記対象データに対する検索条件となる第1の文字列に対応する第2の文字列を特定する、
処理を実行させることを特徴とする情報処理プログラム。
100 情報処理装置
601 抽出部
602 作成部
603 特定部
604 計数部
605 算出部
606 出力部

Claims (7)

  1. 対象データをレコード単位で単語ごとに圧縮する際に、前記対象データのレコード単位で前記単語ごとの出現回数を表す回数データを作成して、前記対象データを圧縮した圧縮データに付与する作成部と、
    前記圧縮データに付与された前記回数データに基づいて、前記対象データに対する検索条件となる第1の文字列に対応する第2の文字列を特定する特定部と、
    を有することを特徴とする情報処理システム。
  2. 前記作成部は、
    前記単語ごとの種類を表す分類データを作成して、前記圧縮データに付与し、
    前記特定部は、
    前記圧縮データに付与された前記回数データおよび前記分類データに基づいて、前記対象データに対する検索条件となる分類と前記第1の文字列とに対応する第2の文字列を特定することを特徴とする請求項1に記載の情報処理システム。
  3. 前記特定部によって特定された前記第2の文字列を含む前記対象データのうちのレコードの数を計数する計数部を有することを特徴とする請求項1または2に記載の情報処理システム。
  4. 前記対象データから所定の単語集合に含まれる単語と一致するものを抽出する抽出部を有し、
    前記作成部は、
    前記対象データをレコード単位で単語ごとに圧縮する際に、前記対象データのレコードごとに前記抽出部によって抽出された前記単語単位の出現回数を表す回数データを作成して、前記対象データを圧縮した圧縮データに付与することを特徴とする請求項1〜3のいずれか一つに記載の情報処理システム。
  5. 前記圧縮データに付与された前記回数データに基づいて、前記第2の文字列の重要度を算出する算出部を有することを特徴とする請求項1〜4のいずれか一つに記載の情報処理システム。
  6. コンピュータが、
    対象データをレコード単位で単語ごとに圧縮する際に、前記対象データのレコード単位で前記単語ごとの出現回数を表す回数データを作成して、前記対象データを圧縮した圧縮データに付与し、
    前記圧縮データに付与された前記回数データに基づいて、前記対象データに対する検索条件となる第1の文字列に対応する第2の文字列を特定する、
    処理を実行することを特徴とする情報処理方法。
  7. コンピュータに、
    対象データをレコード単位で単語ごとに圧縮する際に、前記対象データのレコード単位で前記単語ごとの出現回数を表す回数データを作成して、前記対象データを圧縮した圧縮データに付与し、
    前記圧縮データに付与された前記回数データに基づいて、前記対象データに対する検索条件となる第1の文字列に対応する第2の文字列を特定する、
    処理を実行させることを特徴とする情報処理プログラム。
JP2013157196A 2013-07-29 2013-07-29 情報処理システム、情報処理方法、および情報処理プログラム Expired - Fee Related JP6107513B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2013157196A JP6107513B2 (ja) 2013-07-29 2013-07-29 情報処理システム、情報処理方法、および情報処理プログラム
US14/336,299 US10614035B2 (en) 2013-07-29 2014-07-21 Information processing system, information processing method, and computer product
EP14177795.3A EP2838037A3 (en) 2013-07-29 2014-07-21 Information processing system, information processing method, and information processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013157196A JP6107513B2 (ja) 2013-07-29 2013-07-29 情報処理システム、情報処理方法、および情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2015026350A true JP2015026350A (ja) 2015-02-05
JP6107513B2 JP6107513B2 (ja) 2017-04-05

Family

ID=51224739

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013157196A Expired - Fee Related JP6107513B2 (ja) 2013-07-29 2013-07-29 情報処理システム、情報処理方法、および情報処理プログラム

Country Status (3)

Country Link
US (1) US10614035B2 (ja)
EP (1) EP2838037A3 (ja)
JP (1) JP6107513B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016527650A (ja) * 2013-08-06 2016-09-08 インテル・コーポレーション ベクトルポピュレーションカウント機能性を提供する方法、装置、命令、およびロジック
JP2016170750A (ja) * 2015-03-16 2016-09-23 富士通株式会社 データ管理プログラム、情報処理装置およびデータ管理方法
JP2016529617A (ja) * 2013-08-06 2016-09-23 インテル・コーポレーション ゲノム配列決定および配列比較のためのポピュレーションカウント機能性を提供する方法、装置、命令、およびロジック
JP2017073094A (ja) * 2015-10-09 2017-04-13 富士通株式会社 符号化プログラム、符号化装置、符号化方法、復号化プログラム、復号化装置および復号化方法
JP2017073615A (ja) * 2015-10-05 2017-04-13 富士通株式会社 符号化プログラム、符号化方法、符号化装置、復号化プログラム、復号化方法および復号化装置
JP2018061171A (ja) * 2016-10-06 2018-04-12 富士通株式会社 暗号化システム、暗号化方法、暗号化装置および暗号化プログラム
JP2018182466A (ja) * 2017-04-07 2018-11-15 富士通株式会社 符号化プログラム、符号化方法および符号化装置
CN115391495A (zh) * 2022-10-28 2022-11-25 强企宝典(山东)信息科技有限公司 在中文语境中检索关键词的方法、装置及设备

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11044495B1 (en) * 2018-02-13 2021-06-22 Cyborg Inc. Systems and methods for variable length codeword based data encoding and decoding using dynamic memory allocation
US11070231B2 (en) * 2018-12-31 2021-07-20 Palo Alto Research Center Incorporated Reducing storage of blockchain metadata via dictionary-style compression
US10491240B1 (en) 2019-01-17 2019-11-26 Cyborg Inc. Systems and methods for variable length codeword based, hybrid data encoding and decoding using dynamic memory allocation

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1125108A (ja) * 1997-07-02 1999-01-29 Matsushita Electric Ind Co Ltd 関連キーワード自動抽出装置、文書検索装置及びこれらを用いた文書検索システム
JP2002108914A (ja) * 2000-10-03 2002-04-12 Canon Inc 情報検索装置及び情報検索方法及びコンピュータ読み取り可能な記憶媒体
JP2004334341A (ja) * 2003-04-30 2004-11-25 Canon Inc 文書検索装置、文書検索方法及び記録媒体
JP2009086772A (ja) * 2007-09-27 2009-04-23 Nomura Research Institute Ltd 検索サービス装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0554077A (ja) 1991-08-29 1993-03-05 Nec Corp 単語辞書検索装置
US5590317A (en) * 1992-05-27 1996-12-31 Hitachi, Ltd. Document information compression and retrieval system and document information registration and retrieval method
JPH06348757A (ja) 1993-06-07 1994-12-22 Hitachi Ltd 文書検索装置および方法
JPH1049549A (ja) 1996-05-29 1998-02-20 Matsushita Electric Ind Co Ltd 文書検索装置
US5999949A (en) 1997-03-14 1999-12-07 Crandall; Gary E. Text file compression system utilizing word terminators
JPH1185764A (ja) 1997-09-05 1999-03-30 Nippon Telegr & Teleph Corp <Ntt> 検索結果件数の統計的推定方法及び装置及び検索結果件数の統計的推定プログラムを格納した記憶媒体
JPH11161658A (ja) 1997-11-27 1999-06-18 Nippon Telegr & Teleph Corp <Ntt> 追加検索語の優先度計算方法及び装置及び追加検索語の優先度計算プログラムを格納した記憶媒体
JP3337633B2 (ja) * 1997-12-03 2002-10-21 富士通株式会社 データ圧縮方法及びデータ復元方法並びにデータ圧縮プログラム又はデータ復元プログラムを記録したコンピュータ読み取り可能な記録媒体
CA2387653C (en) * 1999-08-13 2006-11-14 Fujitsu Limited File processing method, data processing device and storage medium
JP2002230037A (ja) 2001-01-31 2002-08-16 Kddi Corp 検索システム、方法及びプログラム
US20040225497A1 (en) 2003-05-05 2004-11-11 Callahan James Patrick Compressed yet quickly searchable digital textual data format
WO2006123429A1 (ja) * 2005-05-20 2006-11-23 Fujitsu Limited 情報検索方法、装置、プログラム、該プログラムを記録した記録媒体
WO2008047432A1 (fr) * 2006-10-19 2008-04-24 Fujitsu Limited Programme de recherche d'informations, supports d'enregistrement comprenant un tel programme enregistré, procédé de recherche d'informations, dispositif de recherche d'informations
WO2008142799A1 (ja) * 2007-05-24 2008-11-27 Fujitsu Limited 情報検索プログラム、該プログラムを記録した記録媒体、情報検索方法、および情報検索装置
JP5391583B2 (ja) * 2008-05-29 2014-01-15 富士通株式会社 検索装置、生成装置、プログラム、検索方法および生成方法
JPWO2012150637A1 (ja) * 2011-05-02 2014-07-28 富士通株式会社 抽出方法、情報処理方法、抽出プログラム、情報処理プログラム、抽出装置、および情報処理装置
JP5775466B2 (ja) * 2012-01-13 2015-09-09 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 会話から雑談部分を抽出するための雑談抽出システム、方法、およびプログラム
KR20150119403A (ko) * 2013-03-22 2015-10-23 후지쯔 가부시끼가이샤 압축 장치, 압축 방법, 사전 생성 장치, 사전 생성 방법, 신장 장치, 신장 방법, 신장 프로그램 및 정보 처리 시스템

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1125108A (ja) * 1997-07-02 1999-01-29 Matsushita Electric Ind Co Ltd 関連キーワード自動抽出装置、文書検索装置及びこれらを用いた文書検索システム
JP2002108914A (ja) * 2000-10-03 2002-04-12 Canon Inc 情報検索装置及び情報検索方法及びコンピュータ読み取り可能な記憶媒体
JP2004334341A (ja) * 2003-04-30 2004-11-25 Canon Inc 文書検索装置、文書検索方法及び記録媒体
JP2009086772A (ja) * 2007-09-27 2009-04-23 Nomura Research Institute Ltd 検索サービス装置

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019050039A (ja) * 2013-08-06 2019-03-28 インテル・コーポレーション ゲノム配列決定および配列比較のためのポピュレーションカウント機能性を提供する方法、装置、命令、およびロジック
JP2016529617A (ja) * 2013-08-06 2016-09-23 インテル・コーポレーション ゲノム配列決定および配列比較のためのポピュレーションカウント機能性を提供する方法、装置、命令、およびロジック
JP2016527650A (ja) * 2013-08-06 2016-09-08 インテル・コーポレーション ベクトルポピュレーションカウント機能性を提供する方法、装置、命令、およびロジック
US10678546B2 (en) 2013-08-06 2020-06-09 Intel Corporation Methods, apparatus, instructions and logic to provide population count functionality for genome sequencing and alignment
US10223120B2 (en) 2013-08-06 2019-03-05 Intel Corporation Methods, apparatus, instructions and logic to provide population count functionality for genome sequencing and alignment
JP2016170750A (ja) * 2015-03-16 2016-09-23 富士通株式会社 データ管理プログラム、情報処理装置およびデータ管理方法
KR101842420B1 (ko) 2015-03-16 2018-03-26 후지쯔 가부시끼가이샤 정보 처리 장치 및 데이터 관리 방법
US10380240B2 (en) 2015-03-16 2019-08-13 Fujitsu Limited Apparatus and method for data compression extension
JP2017073615A (ja) * 2015-10-05 2017-04-13 富士通株式会社 符号化プログラム、符号化方法、符号化装置、復号化プログラム、復号化方法および復号化装置
JP2017073094A (ja) * 2015-10-09 2017-04-13 富士通株式会社 符号化プログラム、符号化装置、符号化方法、復号化プログラム、復号化装置および復号化方法
US10360183B2 (en) 2015-10-09 2019-07-23 Fujitsu Limited Encoding device, encoding method, decoding device, decoding method, and computer-readable recording medium
JP2018061171A (ja) * 2016-10-06 2018-04-12 富士通株式会社 暗号化システム、暗号化方法、暗号化装置および暗号化プログラム
JP2018182466A (ja) * 2017-04-07 2018-11-15 富士通株式会社 符号化プログラム、符号化方法および符号化装置
CN115391495A (zh) * 2022-10-28 2022-11-25 强企宝典(山东)信息科技有限公司 在中文语境中检索关键词的方法、装置及设备
CN115391495B (zh) * 2022-10-28 2023-01-24 强企宝典(山东)信息科技有限公司 在中文语境中检索关键词的方法、装置及设备

Also Published As

Publication number Publication date
US10614035B2 (en) 2020-04-07
EP2838037A2 (en) 2015-02-18
JP6107513B2 (ja) 2017-04-05
EP2838037A3 (en) 2015-04-01
US20150032705A1 (en) 2015-01-29

Similar Documents

Publication Publication Date Title
JP6107513B2 (ja) 情報処理システム、情報処理方法、および情報処理プログラム
JP5138046B2 (ja) 検索システム、検索方法およびプログラム
US10366154B2 (en) Information processing device, information processing method, and computer program product
JP5924339B2 (ja) 数値範囲検索装置、数値範囲検索方法、および数値範囲検索プログラム
JP5141560B2 (ja) 情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法
JP2012093927A (ja) ファイル管理装置及びファイル管理方法
US20110109485A1 (en) Computer product, information processing apparatus, and information search apparatus
KR102373884B1 (ko) 텍스트 기반 이미지 검색을 위한 이미지 데이터 처리 방법
Xu et al. Using SVM to extract acronyms from text
JP2006065477A (ja) 文字認識装置
US20140358522A1 (en) Information search apparatus and information search method
JP7104390B2 (ja) 文書作成装置、文書作成方法、データベース構築装置、データベース構築方法、およびプログラム
JP2007128224A (ja) 文書インデキシング装置、文書インデキシング方法及び文書インデキシングプログラム
JP4362492B2 (ja) 文書インデキシング装置、文書検索装置、文書分類装置、並びにその方法及びプログラム
JP2004206391A (ja) 文書情報分析装置
JP2016018279A (ja) 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法
JP2005258592A (ja) フォーマット変換装置およびファイル検索装置
JP5184987B2 (ja) 索引情報作成装置、索引情報作成方法及びプログラム
JP2012043258A (ja) 検索システム、検索装置、検索プログラム、記録媒体及び検索方法
JP4985096B2 (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
Taghva et al. Farsi searching and display technologies
JP2009093405A (ja) データ検索のためのシステム、方法及びコンピュータプログラム
JP5648360B2 (ja) 文字列検索装置、文字列検索方法および文字列検索プログラム
JP3771047B2 (ja) 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP6752705B2 (ja) サーバ装置、情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160405

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170131

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170220

R150 Certificate of patent or registration of utility model

Ref document number: 6107513

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees