JP2011081516A - 情報処理装置、情報処理方法、及びプログラム - Google Patents
情報処理装置、情報処理方法、及びプログラム Download PDFInfo
- Publication number
- JP2011081516A JP2011081516A JP2009231905A JP2009231905A JP2011081516A JP 2011081516 A JP2011081516 A JP 2011081516A JP 2009231905 A JP2009231905 A JP 2009231905A JP 2009231905 A JP2009231905 A JP 2009231905A JP 2011081516 A JP2011081516 A JP 2011081516A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- information
- fragment data
- data
- fragment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
【解決手段】情報処理装置が、文字列データが含まれる複数のオブジェクトに係る文書データから、複数のオブジェクトの各々に含まれる文字列データと、複数のオブジェクトの各々を解析して得る解析結果情報とを抽出し、抽出した文字列データの各々を文の区切り毎に分割する処理を行い、分割する処理を行った後のデータを断片データとして抽出し、抽出した解析結果情報に基づいて抽出した断片データの各々を結合するか否かを判別し、結合すると判別した断片データの各々を結合することによって課題を解決する。
【選択図】図2
Description
近年、文書データに含まれている文章構成上不要な空白文字コード及び改行コードを適切・確実に削除して、論理的に連続する段落を生成する技術が開示されている(特許文献1を参照のこと。)。
ここで、「第1の抽出手段」は、例えば、後述するファイル解析部に対応する。「第2の抽出手段」は、例えば、後述する文字列分割部に対応する。「結合手段」は、例えば、後述する文字列結合部に対応する。
したがって、本実施形態では、係る入力の形式に関わらず、文書情報を解析して文の単位に情報を出力する構成について説明する。
情報処理装置は、CPU(Central Processing Unit)1、記憶装置2、入力装置3、及び出力装置4を含んで構成される。CPU1、記憶装置2、入力装置3、及び出力装置4は、バス5を介して通信可能に接続されている。
CPU1は、必要に応じて、記憶装置2よりプログラムを読み出して、プログラムを実行する。プログラムが実行されることで、情報処理装置における機能、及び後述するフローチャートに係る処理が実現される。
記憶装置2は、ROM(Read Only Memory)、RAM(Random Access Memory)、HD(Hard Disk)等で構成され、各種の情報を記憶する。記憶装置2(例えば、ROM)は、情報処理装置の電源投入時に最初に読み込まれるプログラム等を記憶する。また、記憶装置2(例えば、RAM)は、情報処理装置のメインメモリとして機能する。また、記憶装置2(例えば、HD)は、プログラム以外にCPU1により算出された数値データ等を記憶する。
なお、情報処理装置は、自装置(すなわち、情報処理装置)を外部記憶装置(例えば、CD−ROMドライブ)、ネットワーク等に接続するインターフェースを備えてもよい。すなわち、情報処理装置は、記憶装置2に記憶される各種の情報を、CD−ROM等の記録媒体から取得してもよいし、ネットワーク等を通じてダウンロードしてもよい。
なお、ファイル解析部11が解析する文書情報は、表計算アプリケーションで作成された文書情報に限られるものではない。上述の通り、ファイル解析部11は、文字列情報を含むオブジェクトに係る文書情報を解析し、オブジェクト毎に、オブジェクトに含まれる文字列情報、オブジェクトの位置情報、及びオブジェクトの書式情報を抽出する機能を有するので、例えば、プレゼンテーションソフトに係るアプリケーションやワープロソフトに係るアプリケーションで作成された文書情報に対しても、同様に解析等が可能である。
また、ファイル解析部11は、文字列情報及び位置情報を含む解析結果情報21を文字列分割部12に渡す。更に、ファイル解析部11は、位置情報及び書式情報を含む解析結果情報31を文字列結合部14に渡す。
まず、ファイル解析部11は、ユーザにより入力装置3を介して指定された文書情報についてファイル解析処理を行う(ステップS2)。より具体的には、ファイル解析部11は、文書情報を解析し、オブジェクト毎に、文字列情報、位置情報、及び書式情報を抽出する。
ここで、位置情報は、オブジェクトの位置を表す情報である。オブジェクトがセルである場合は、位置情報は、「F21(F列21行)」等である。また、例えば、文書情報がCSV(Comma-Separated Values)形式のファイルである場合は、ファイル解析部11は、フィールドを区切る文字(コンマ等)に基づいて位置情報を抽出する。
また、書式情報は、オブジェクトの書式を表す情報である。例えば、オブジェクトがセルである場合は、書式情報は、「表示形式(例えば、数値、通貨等の分類)、配置(例えば、左詰め、上詰め等の文字列の配置、折り返して全体を表示する等の文字列の制御)、フォント(例えば、斜体、太字等のスタイル、サイズ、下線、取り消し線等の文字飾り)、罫線、塗りつぶし」等である。
ステップS6では、非解析表現除去部13は、非解析表現除去処理を行う。より具体的には、非解析表現除去部13は、文字列分割部12で抽出された分割後文字列情報から非解析表現情報を除去して文字列断片情報を抽出する。非解析表現除去部13による除去は、正規表現(正則表現)等を利用して実現することができる。
ステップS10では、文字列結合部14は、結合処理を行う。より具体的には、文字列結合部14は、マーキング処理でマーキングした結合候補を結合し、結合した結果を出力装置4に出力する。例えば、最終的な結果(文単位の情報)は、出力装置4の一例であるディスプレイに表示される。また、例えば、最終的な結果は、出力装置4を介してファイルとして出力される。
まず、文字列結合部14は、結合候補抽出処理を行う(ステップS22)。結合候補抽出処理では、文字列結合部14は、全ての結合候補を抽出する。なお、結合候補抽出処理の詳細については、図5を参照して説明する。
ステップS24では、文字列結合部14は、未処理の結合候補があるか否かを判別する。未処理の結合候補がある場合には、文字列結合部14は、続いて、ステップS26に係る処理を行う。他方、未処理の結合候補がない場合には、文字列結合部14は、マーキング処理を終了する。
ステップS26では、文字列結合部14は、ステップS22で抽出した未処理の結合候補から結合候補を1つ取り出す。
・前文字列断片情報が句点で終わっている場合は、結合しない
・前文字列断片情報が読点で終わっている場合は、結合する
・各文字列断片情報が英数字で構成されている場合は、結合しない
・各文字列断片情報が名詞のみで構成されている場合は、結合しない
ここで、ヒューリスティクスなルールは、上述したルールに限られるものではない。例えば、ユーザが必要に応じて、ヒューリスティクスなルールを変更(追加、修正、削除)することができる。例えば、ユーザは、出力装置4に表示された操作画面を介して、入力装置3を操作し、記憶装置2に記憶されているルールに、「・各文字列断片情報が含まれるページが異なる場合は、結合しない」を追加することができる。
なお、文字列結合部14は、各文字列断片情報が名詞のみで構成されているか否かについては、形態素解析を行って判別する。
より具体的には、文字列結合部14は、結合候補として識別された一対の文字列断片情報の各々について形態素解析をし、各々の文字列断片情報のコストを算出する。また、文字列結合部14は、一対の文字列断片情報を結合した仮の結合情報について形態素解析をし、結合情報のコストを算出する。そして、文字列結合部14は、各々の文字列断片情報のコストの和と結合情報のコストとを比較し、各々の文字列断片情報のコストの和の方が結合情報のコストよりも大きい場合(或いは、コストの和が結合情報のコスト以上である場合)には、一対の文字列断片情報を結合すると判別する。
本実施形態では、文字列結合部14は、文として不自然な文(文頭が助詞から始まる文、等)ほどコストが高くなる一般的な性質を利用してステップS30に係る判別をしている。故に、結合候補に係るコストに基づいて結合候補を結合するか否かを判別する方法は、これに限られるものではない。例えば、文字列結合部14は、各々の文字列断片情報のコストの和と結合情報のコストとの差が閾値を超える場合は、一対の文字列断片情報を結合すると判別してもよい。なお、形態素解析では、文字列結合部14は、文を構成する形態素の組み合わせから、動的計画法(Viterbi algorithm等)を使用して、最もコストが低くなる組み合わせを選択する。
しかしながら、文字列結合部14がステップS28に係る判別をした後に、ステップS30に係る判別をする構成に限られるものではない。例えば、文字列結合部14は、ステップS30に係る判別をした後に、ステップS28に係る判別をしてもよい。また、例えば、文字列結合部14は、ステップS28に係る判別だけをしてもよいし、ステップS30に係る判別だけを判別してもよい。すなわち、ステップS28に係る判別及びステップS30に係る判別については、必要に応じて適宜採用することができる。よって、オブジェクトの位置情報のみに基づいて断片データの各々を結合するか否かが判別されることもあり得る。
ステップS32では、文字列結合部14は、マーキングを行い、続いて、ステップS24に係る処理を行う。
まず、文字列結合部14は、前文字列断片情報を取得する(ステップS42)。より具体的には、文字列結合部14は、前文字列断片情報として未処理の文字列断片情報から最も前に位置する文字列断片情報を解析結果情報31と分割結果情報32と除去結果情報33とに基づいて取得する。
続いて、文字列結合部14は、後文字列断片情報を取得する(ステップS44)。より具体的には、文字列結合部14は、後文字列断片情報として未処理の文字列断片情報から、ステップS42で取得した前文字列断片情報よりも後に位置する文字列断片情報を解析結果情報31と分割結果情報32と除去結果情報33とに基づいて取得する。
ステップS48では、文字列結合部14は、前文字列断片情報と後文字列断片情報とが隣接しているか否かを判別する。より具体的には、文字列結合部14は、前文字列断片情報と後文字列断片情報とが同一のセルに含まれる場合、一の文字列情報が分割されていることになるので、文字列結合部14は、前文字列断片情報と後文字列断片情報とに係る解析結果情報31と分割結果情報32と除去結果情報33とに基づいて、分割される前の位置関係を特定して、前文字列断片情報と後文字列断片情報とが隣接しているか否かを判別する。前文字列断片情報と後文字列断片情報とが隣接していると判別した場合、文字列結合部14は、続いて、ステップS50に係る処理を行う。他方、前文字列断片情報と後文字列断片情報とが隣接していないと判別した場合、文字列結合部14は、続いて、ステップS52に係る処理を行う。
ステップS54では、文字列結合部14は、現在の前文字列断片情報を処理済みとし、前文字列断片情報として未処理の文字列断片情報があるか否かを判別する。前文字列断片情報として未処理の文字列断片情報があると判別した場合、文字列結合部14は、続いて、ステップS42に係る処理を行う。他方、前文字列断片情報として未処理の文字列断片情報がないと判別した場合、文字列結合部14は、結合候補抽出処理を終了する。
ステップS58では、文字列結合部14は、前文字列断片情報がオブジェクトの末尾の文字列断片情報であるか否かを解析結果情報31と分割結果情報32と除去結果情報33とに基づいて判別する。より具体的には、文字列結合部14は、前文字列断片情報に係るオブジェクトの位置情報と同一の位置情報があるか否かにより、当該オブジェクトに含まれる全ての文字列断片情報を特定し、他の文字列断片情報が当該オブジェクトに含まれていると特定した場合、当該オブジェクトに含まれる全ての文字列断片情報の分割結果情報32と除去結果情報33とに基づいて、前文字列断片情報が当該オブジェクトの末尾にあるか否かを判別する。
前文字列断片情報がオブジェクトの末尾の文字列断片情報であると判別した場合、文字列結合部14は、続いて、ステップS60に係る処理を行う。他方、前文字列断片情報がオブジェクトの末尾の文字列断片情報でないと判別した場合、文字列結合部14は、続いて、ステップS52に係る処理を行う。
後文字列断片情報がオブジェクトの先頭の文字列断片情報であると判別した場合、文字列結合部14は、続いて、ステップS62に係る処理を行う。他方、後文字列断片情報がオブジェクトの先頭の文字列断片情報でないと判別した場合、文字列結合部14は、続いて、ステップS52に係る処理を行う。
ステップS62では、文字列結合部14は、前文字列断片情報が含まれるオブジェクトに係る書式情報と後文字列断片情報が含まれるオブジェクトに係る書式情報とにより両オブジェクトが区別(識別)されているか否かを判別する。例えば、前文字列断片情報が含まれるオブジェクトの色が青色で、後文字列断片情報が含まれるオブジェクトの色が緑色であり、オブジェクトの色が異なる場合、文字列結合部14は、両オブジェクトが区別されていると判別する。両オブジェクトが区別されていると判別した場合、文字列結合部14は、続いて、ステップS52に係る処理を行う。他方、両オブジェクトが区別されていないと判別した場合、文字列結合部14は、続いて、ステップS64に係る処理を行う。
ステップS64では、文字列結合部14は、前文字列断片情報及び後文字列断片情報を結合候補に設定し、続いて、ステップS52に係る処理を行う。
図6は、文書情報の例を示す図である。文書情報は、オブジェクトの一例であるセル51及びセル52を含んで構成される。セル51及びセル52の各々には、文字列情報が含まれている。また、セル51及びセル52には、書式情報の一例である罫線及びテキストの折り返しが設定されている。
図7は、図6に示した文書情報についてのファイル解析処理後のデータ、文字列分割処理後のデータ、及び非解析表現除去処理後のデータの例を示す図である。ここで、図中のAは、「個別業務システムで利用されている職員情報のうち、共通的に使用されている職員情報について保管や更新など一元管理を行う」を簡略化した表現であり、Bは、「データベースは各業務アプリケーションで共通に利用できる情報を持つこと」を簡略化した表現である。また、図中のCは、「上記、職員情報一元化を何らかの方法でシステム化したい」を簡略化した表現であり、Dは、「案としては、間にサーバをおき、中間ファイル(マスタではない)を置いて、実装する」を簡略化した表現である。
ファイル解析部11は、図6に示した文書情報を解析し、セル毎に、文字列情報、位置情報、及び書式情報を抽出する(ステップS2を参照のこと。)。
より具体的には、ファイル解析部11は、セル51に含まれる文字列情報70、セル51の位置情報「F21」、セル51の書式情報「罫線:上下左右」、セル52に含まれる文字列情報71、セル52の位置情報「F22」、及びセル52の書式情報「罫線:上下左右」を抽出する。
文字列分割部12は、文の区切りを表すデリミタ情報を用いて文字列情報を分割し、分割後文字列情報等を抽出する(ステップS4を参照のこと。)。
より具体的には、文字列分割部12は、文字列情報70を「改行」毎に分割して、分割後文字列情報80と分割後文字列情報81とを抽出する。また、文字列分割部12は、文字列情報71を「改行」毎に分割して、分割後文字列情報82と分割後文字列情報83とを抽出する。
文字列分割部12は、分割後文字列情報が文字列情報において占める範囲を表す(換言するならば、オブジェクトにおける位置を表す)範囲情報及びデリミタ情報を抽出する。より具体的には、文字列分割部12は、文字列情報70については、分割後文字列情報80についての範囲情報「範囲:1〜59」、分割後文字列情報81についての範囲情報「範囲:61〜96」、及びデリミタ情報「改行」を抽出する。また、文字列分割部12は、文字列情報71については、分割後文字列情報82についての範囲情報「範囲:1〜27」、分割後文字列情報83についての範囲情報「範囲:29〜68」、及びデリミタ情報「改行」を抽出する。
非解析表現除去部13は、非解析表現情報を分割後文字列情報から除去し、文字列断片情報等を抽出する(ステップS6を参照のこと。)。
より具体的には、非解析表現除去部13は、先頭にある記号情報「・」を分割後文字列情報80から除去し、文字列断片情報90を抽出する。また、非解析表現除去部13は、先頭にある記号情報「・」を分割後文字列情報81から除去し、文字列断片情報91を抽出する。また、非解析表現除去部13は、分割後文字列情報82には記号情報等が含まれていないことを確認し、分割後文字列情報82を文字列断片情報92として抽出する。また、非解析表現除去部13は、分割後文字列情報83には記号情報等が含まれていないことを確認し、分割後文字列情報83を文字列断片情報93として抽出する。
より具体的には、非解析表現除去部13は、分割後文字列情報80から記号情報「・」を除去したので、分割後文字列情報80についての範囲情報「範囲:2〜59」及び記号情報「・」を抽出する。付言するならば、非解析表現除去部13は、記号情報「・」を抜き出した分だけ範囲情報を狭めるので、この例では、先頭に位置する記号情報「・」を除去したので、範囲情報を「範囲:1〜59」を「範囲:2〜59」に変更している。非解析表現除去部13は、分割後文字列情報81から記号情報「・」を除去したので、分割後文字列情報81についての範囲情報「範囲:62〜96」及び記号情報「・」を抽出する。非解析表現除去部13は、分割後文字列情報82については、範囲情報「範囲:1〜27」及び記号情報「(なし)」を抽出する。非解析表現除去部13は、分割後文字列情報83については、範囲情報「範囲:29〜68」及び記号情報「(なし)」を抽出する。
(結合候補抽出処理)
文字列結合部14は、位置情報及び範囲情報に基づいて特定する先頭の文字列断片情報から順次、結合候補があるか否かを判別する。
この例では、文字列結合部14は、初めに、先頭の文字列断片情報90について、文字列断片情報91が結合候補となるか否かを判別し、続いて、文字列断片情報92が結合候補となるか否かを判別し、続いて、文字列断片情報93が結合候補となるか否かを判別する(処理A)。次に、文字列結合部14は、文字列断片情報91について、文字列断片情報92が結合候補となるか否かを判別し、続いて、文字列断片情報93が結合候補となるか否かを判別する(処理B)。最後に、文字列結合部14は、文字列断片情報92について、文字列断片情報93が結合候補となるか否かを判別する(処理C)。
まず、文字列断片情報90について文字列断片情報91が結合候補になるか否かを判別する方法についてより詳細に説明する。文字列結合部14は、文字列断片情報90が含まれるセル51と文字列断片情報91が含まれるセル51とが同一のセルであるので、文字列断片情報90と文字列断片情報91とが隣接するか否かを判別する(ステップS48を参照のこと。)。このとき、文字列結合部14は、文字列断片情報90の範囲情報「範囲:2〜59」及びデリミタ情報「改行」と文字列断片情報91の範囲情報「範囲:62〜96」及び記号情報「・」とに基づいて、デリミタ情報「改行」が60番目の情報であり、記号情報「・」が61番目の情報であると解釈し、文字列断片情報90と文字列断片情報91とが隣接する文字列断片情報であると判別する。しかしながら、文字列断片情報90よりも後に位置する文字列断片情報91に係る分割後文字列情報81から記号情報「・」が除去されていることから、文字列結合部14は、文字列断片情報90について文字列断片情報91を結合候補ではないと判別する(ステップS50を参照のこと。)。
なお、文字列断片情報90について文字列断片情報93が結合候補になるか否かの判別の方法については、文字列断片情報90について文字列断片情報92が結合候補になるか否かの判別の方法と同様であるので、説明を省略する。
まず、文字列断片情報91について文字列断片情報92が結合候補になるか否かを判別する方法についてより詳細に説明する。文字列結合部14は、文字列断片情報91が含まれるセル51と文字列断片情報92が含まれるセル52とが隣接するセルであるので、セル間で書式情報が異なるか否かを判別する(ステップS62を参照のこと。)。なお、説明の便宜上、ステップS58及びステップS60に関するここでの説明については省略している。このとき、文字列結合部14は、セル51の書式情報「罫線:上下左右」とセル52の書式情報「罫線:上下左右」とに基づいて、セル51とセル52との間に意味の切れ目を示す罫線があると判別し、文字列断片情報91について文字列断片情報92を結合候補ではないと判別する。
文字列断片情報92について文字列断片情報93が結合候補になるか否かを判別する方法についてより詳細に説明する。文字列結合部14は、文字列断片情報92が含まれるセル52と文字列断片情報93が含まれるセル52とが同一のセルであるので、文字列断片情報92と文字列断片情報93とが隣接するか否かを判別する(ステップS48を参照のこと。)。このとき、文字列結合部14は、文字列断片情報92の範囲情報「範囲:1〜27」及びデリミタ情報「改行」と文字列断片情報91の範囲情報「範囲:29〜68」及び記号情報「(なし)」とに基づいて、デリミタ情報「改行」が28番目の情報であると解釈し、文字列断片情報92と文字列断片情報93とが隣接する文字列断片情報であると判別する。そして、文字列断片情報92よりも後に位置する文字列断片情報93に係る分割後文字列情報83から記号情報等が除去されていないことから、文字列結合部14は、文字列断片情報92について文字列断片情報93を結合候補であると判別する(ステップS50を参照のこと。)。
(結合判定処理)
文字列結合部14は、結合候補として識別した一対の文字列断片情報を結合するか否かを順次判別する。より具体的には、文字列結合部14は、解析結果情報31、分割結果情報32、及び除去結果情報33に基づいて、文字列断片情報92及び文字列断片情報93がヒューリスティクスなルールによる条件に基づいて文字列断片情報92及び文字列断片情報93を結合するか否かを判別する(ステップS28を参照のこと。)。この例では、文字列断片情報93よりも前に位置する文字列断片情報92が句点で終わっているので、文字列結合部14は、結合しないと判別し、結合候補である文字列断片情報92及び文字列断片情報93を結合しないと判定する。
文字列結合部14は、結合判定処理の結果に基づいて、文字列断片情報を結合する(ステップS10を参照のこと。)。この例では、文字列結合部14は、文字列断片情報90〜文字列断片情報93の何れの組み合わせについても結合しないと判定したので、文字列断片情報90〜文字列断片情報93の各々を一文として出力装置4に出力する。
図10は、文書情報の例を示す図である。文書情報は、オブジェクトの一例であるセル54、セル55、セル56、セル57、及びセル58を含んで構成される。セル54〜セル58の各々には、文字列情報が含まれている。なお、セル54〜セル58には、書式情報が設定されていない。
図11は、図10に示した文書情報についてのファイル解析処理後のデータ、文字列分割処理後のデータ、及び非解析表現除去処理後のデータの例を示す図である。ここで、図中のUは、「組織変更がある場合、事前に予備系側で新組織変更後の」を簡略化した表現であり、Vは、「フォルダ構成を構築ならびにテストを行うことが可能であり、」を簡略化した表現である。また、図中のWは、「組織変更実施にリンク先を切り替えるだけで、新組織構成」を簡略化した表現であり、Xは、「に対応可能」を簡略化した表現であり、Yは、「このとき、旧組織構成のフォルダならびにファイル」を簡略化した表現であり、Zは、「のアクセスも可能」を簡略化した表現である。また、V等の先頭にある四角の記号は、先頭の位置を合わせるために用いられている空白を表現している。
ファイル解析部11は、図10に示した文書情報を解析し、セル毎に、文字列情報、位置情報、及び書式情報を抽出する(ステップS2を参照のこと。)。
より具体的には、ファイル解析部11は、セル54に含まれる文字列情報74、セル54の位置情報「J22」、セル54の書式情報「(なし)」、セル55に含まれる文字列情報75、セル55の位置情報「J23」、及びセル55の書式情報「(なし)」を抽出する。更に、ファイル解析部11は、セル56に含まれる文字列情報76、セル56の位置情報「J24」、セル56の書式情報「(なし)」、セル57に含まれる文字列情報77、セル57の位置情報「J25」、セル57の書式情報「(なし)」、セル58に含まれる文字列情報78、セル58の位置情報「J26」、及びセル58の書式情報「(なし)」を抽出する。
文字列分割部12は、デリミタ情報を用いて文字列情報を分割し、分割後文字列情報等を抽出する(ステップS4を参照のこと。)。
より具体的には、文字列分割部12は、文字列情報74についてデリミタ情報毎に分割を試みるが、文字列情報74にはデリミタ情報が含まれていないので、文字列情報74を分割後文字列情報84として抽出する。そして、文字列分割部12は、文字列情報74については、分割後文字列情報84についての範囲情報「範囲:1〜26」及びデリミタ情報「(なし)」を抽出する。
また、文字列分割部12は、文字列情報75についてデリミタ情報毎に分割を試みるが、文字列情報75にはデリミタ情報が含まれていないので、文字列情報75を分割後文字列情報85として抽出する。そして、文字列分割部12は、文字列情報75については、分割後文字列情報85についての範囲情報「範囲:1〜29」及びデリミタ情報「(なし)」を抽出する。
また、文字列分割部12は、文字列情報77をデリミタ情報「句点」毎に分割して、分割後文字列情報87と分割後文字列情報88とを抽出する。文字列分割部12は、文字列情報77については、分割後文字列情報87についての範囲情報「範囲:1〜7」、分割後文字列情報88についての範囲情報「範囲:8〜30」、及びデリミタ情報「。」を抽出する。
また、文字列分割部12は、文字列情報78についてデリミタ情報毎に分割を試みるが、文字列情報78にはデリミタ情報が含まれていないので、文字列情報78を分割後文字列情報89として抽出する。そして、文字列分割部12は、文字列情報78については、分割後文字列情報89についての範囲情報「範囲:1〜10」及びデリミタ情報「(なし)」を抽出する。
非解析表現除去部13は、非解析表現情報を分割後文字列情報から除去し、文字列断片情報等を抽出する(ステップS6を参照のこと。)。
より具体的には、非解析表現除去部13は、先頭にある記号情報「・」を分割後文字列情報84から除去し、文字列断片情報94を抽出する。また、非解析表現除去部13は、分割後文字列情報84から記号情報「・」を除去したので、文字列断片情報94についての範囲情報「範囲:2〜26」及び記号情報「・」を抽出する。
非解析表現除去部13は、先頭にある装飾表現情報「□(空白)」を分割後文字列情報85から除去し、文字列断片情報95を抽出する。また、非解析表現除去部13は、分割後文字列情報85から装飾表現情報「□(空白)」を除去したので、文字列断片情報95についての範囲情報「範囲:2〜29」及び装飾表現情報「□(空白)」を抽出する。
非解析表現除去部13は、先頭にある装飾表現情報「□(空白)」を分割後文字列情報86から除去し、文字列断片情報96を抽出する。また、非解析表現除去部13は、分割後文字列情報86から装飾表現情報「□(空白)」を除去したので、文字列断片情報96についての範囲情報「範囲:2〜27」及び装飾表現情報「□(空白)」を抽出する。
非解析表現除去部13は、分割後文字列情報88には装飾表現情報等が含まれていないことを確認し、分割後文字列情報88を文字列断片情報98として抽出する。また、非解析表現除去部13は、文字列断片情報98についての範囲情報「範囲:8〜30」及び装飾表現情報「(なし)」を抽出する。
非解析表現除去部13は、先頭にある装飾表現情報「□(空白)」を分割後文字列情報89から除去し、文字列断片情報99を抽出する。また、非解析表現除去部13は、分割後文字列情報89から装飾表現情報「□(空白)」を除去したので、文字列断片情報99についての範囲情報「範囲:2〜10」及び装飾表現情報「□(空白)」を抽出する。
(結合候補抽出処理)
文字列結合部14は、初めに、先頭の文字列断片情報94について、文字列断片情報95が結合候補となるか否かを判別し、続いて、文字列断片情報96が結合候補となるか否かを判別し、続いて、文字列断片情報97が結合候補となるか否かを判別し、続いて、文字列断片情報98が結合候補となるか否かを判別し、続いて、文字列断片情報99が結合候補となるか否かを判別する(処理U)。
次に、文字列結合部14は、文字列断片情報95について、文字列断片情報96が結合候補となるか否かを判別し、続いて、文字列断片情報97が結合候補となるか否かを判別し、続いて、文字列断片情報98が結合候補となるか否かを判別し、続いて、文字列断片情報99が結合候補となるか否かを判別する(処理V)。
次に、文字列結合部14は、文字列断片情報97について、文字列断片情報98が結合候補となるか否かを判別し、続いて、文字列断片情報99が結合候補となるか否かを判別する(処理X)。
最後に、文字列結合部14は、文字列断片情報98について、文字列断片情報99が結合候補となるか否かを判別する(処理Y)。
まず、文字列断片情報94について文字列断片情報95が結合候補になるか否かを判別する方法についてより詳細に説明する。文字列断片情報94が含まれるセル54と文字列断片情報95が含まれるセル55とが隣接するセルであり、文字列断片情報95よりも前に位置する文字列断片情報94がセル54の末尾にあり、文字列断片情報94よりも後に位置する文字列断片情報95がセル55の先頭にあり、セルに書式情報が設定されていないので、文字列結合部14は、文字列断片情報94について文字列断片情報95を結合候補であると判別する(ステップS62を参照のこと。)。
次に、文字列断片情報94について文字列断片情報96が結合候補になるか否かを判別する方法についてより詳細に説明する。文字列断片情報94が含まれるセル54と文字列断片情報96が含まれるセル56とは、同一のセルでなく隣接するセルでもないので、文字列結合部14は、文字列断片情報94について文字列断片情報96を結合候補ではないと判別する(ステップS56を参照のこと。)。
なお、文字列断片情報94について文字列断片情報97〜文字列断片情報99の各々が結合候補になるか否かを判別する方法については、文字列断片情報94について文字列断片情報96が結合候補になるか否かを判別する方法と同様であるので、説明を省略する。
文字列断片情報95について文字列断片情報96が結合候補になるか否かを判別する方法については、文字列断片情報94について文字列断片情報95が結合候補になるか否かを判別する方法と同様であり、文字列結合部14は、文字列断片情報95について文字列断片情報96を結合候補であると判別する。
また、文字列断片情報95について文字列断片情報97〜文字列断片情報99の各々が結合候補になるか否かを判別する方法については、文字列断片情報94について文字列断片情報96が結合候補になるか否かを判別する方法と同様であり、文字列結合部14は、文字列断片情報95について文字列断片情報97〜文字列断片情報99の何れもが結合候補ではないと判別する。
まず、文字列断片情報96について文字列断片情報97が結合候補になるか否かを判別する方法については、文字列断片情報94について文字列断片情報95が結合候補になるか否かを判別する方法と同様であり、文字列結合部14は、文字列断片情報96について文字列断片情報97を結合候補であると判別する。
次に、文字列断片情報96について文字列断片情報98が結合候補になるか否かを判別する方法についてより詳細に説明する。文字列断片情報96が含まれるセル56と文字列断片情報98が含まれるセル57とは隣接するセルであるが、文字列断片情報96よりも後に位置する文字列断片情報98がセル57の先頭にないので、文字列結合部14は、文字列断片情報96について文字列断片情報98を結合候補ではないと判別する(ステップS60を参照のこと。)。なお、説明の便宜上、ステップS58に関するここでの説明については省略している。
また、文字列断片情報96について文字列断片情報99が結合候補になるか否かを判別する方法については、文字列断片情報94について文字列断片情報96が結合候補になるか否かを判別する方法と同様であり、文字列結合部14は、文字列断片情報96について文字列断片情報99を結合候補ではないと判別する。
まず、文字列断片情報97について文字列断片情報98が結合候補になるか否かを判別する方法についてより詳細に説明する。文字列断片情報97が含まれるセル57と文字列断片情報98が含まれるセル57とが同一のセルであるので、文字列結合部14は、文字列断片情報97の範囲情報と文字列断片情報98の範囲情報とに基づいて両文字列断片情報が隣接しているか否かを判別する。そして、文字列結合部14は、両文字列断片情報が隣接していると判別し、文字列断片情報98に分割後文字列情報88から非解析表現情報が除去されていないので、文字列断片情報97について文字列断片情報98を結合候補であると判別する(ステップS50を参照のこと。)。
次に、文字列断片情報97について文字列断片情報99が結合候補になるか否かを判別する方法についてより詳細に説明する。文字列断片情報97が含まれるセル57と文字列断片情報99が含まれるセル58とは隣接するセルであるが、文字列断片情報99よりも前に位置する文字列断片情報97がセル57の末尾にないので、文字列結合部14は、文字列断片情報97について文字列断片情報99を結合候補ではないと判別する(ステップS58を参照のこと。)。
文字列断片情報98について文字列断片情報99が結合候補になるか否かを判別する方法については、文字列断片情報94について文字列断片情報95が結合候補になるか否かを判別する方法と同様であり、文字列結合部14は、文字列断片情報98について文字列断片情報99を結合候補であると判別する。
(結合判定処理)
文字列結合部14は、結合候補として識別した文字列断片情報94及び文字列断片情報95を結合するか否かを判定する(処理UV)。また、文字列結合部14は、結合候補として識別した文字列断片情報95及び文字列断片情報96を結合するか否かを判定する(処理VW)。また、文字列結合部14は、結合候補として識別した文字列断片情報96及び文字列断片情報97を結合するか否かを判定する(処理WX)。また、文字列結合部14は、結合候補として識別した文字列断片情報97及び文字列断片情報98を結合するか否かを判定する(処理XY)。また、文字列結合部14は、結合候補として識別した文字列断片情報98及び文字列断片情報99を結合するか否かを判定する(処理YZ)。
文字列結合部14は、文字列断片情報94と文字列断片情報95とがヒューリスティクスなルールによる条件に基づいて結合するか否かを判別する。この例では、文字列結合部14は、ヒューリスティクスなルールによる条件の何れにも該当しないので、文字列断片情報94及び文字列断片情報95を結合し得ると判別する。
続いて、文字列結合部14は、文字列断片情報94及び文字列断片情報95について形態素解析をして算出したコストに基づいて文字列断片情報94及び文字列断片情報95を結合するか否かを判定する。より具体的には、文字列結合部14は、文字列断片情報94について形態素解析をしてコスト「35372」を算出し、文字列断片情報95について形態素解析をしてコスト「51387」を算出し、文字列断片情報94と文字列断片情報95とを結合した仮の結合情報について形態素解析をしてコスト「86177」を算出する。そして、文字列結合部14は、文字列断片情報94に係るコストと文字列断片情報95に係るコストとの和「86759」が、仮の結合情報に係るコスト「86177」よりも大きいので、文字列断片情報94及び文字列断片情報95を結合すると判定する。
文字列結合部14は、文字列断片情報95と文字列断片情報96とがヒューリスティクスなルールによる条件に基づいて結合するか否かを判別する。この例では、文字列断片情報96よりも前に位置する文字列断片情報95が読点で終わっているので、文字列結合部14は、文字列断片情報95及び文字列断片情報96を結合すると判定する。
文字列結合部14は、文字列断片情報96と文字列断片情報97とがヒューリスティクスなルールによる条件に基づいて結合するか否かを判別する。この例では、文字列結合部14は、ヒューリスティクスなルールによる条件の何れにも該当しないので、文字列断片情報96及び文字列断片情報97を結合し得ると判別する。
続いて、文字列結合部14は、文字列断片情報96及び文字列断片情報97について形態素解析をして算出したコストに基づいて文字列断片情報96及び文字列断片情報97を結合するか否かを判定する。より具体的には、文字列結合部14は、文字列断片情報96について形態素解析をしてコスト「29173」を算出し、文字列断片情報97について形態素解析をしてコスト「10033」を算出し、文字列断片情報96と文字列断片情報97とを結合した仮の結合情報について形態素解析をしてコスト「36982」を算出する。そして、文字列結合部14は、文字列断片情報96に係るコストと文字列断片情報97に係るコストとの和「39206」が、仮の結合情報に係るコスト「36982」よりも大きいので、文字列断片情報96及び文字列断片情報97を結合すると判定する。
文字列結合部14は、文字列断片情報97及び文字列断片情報98がヒューリスティクスなルールによる条件に基づいて文字列断片情報97及び文字列断片情報98を結合するか否かを判別する。この例では、文字列断片情報98よりも前に位置する文字列断片情報97が句点で終わっているので、文字列結合部14は、文字列断片情報97及び文字列断片情報98を結合しないと判定する。
文字列結合部14は、文字列断片情報98と文字列断片情報99とがヒューリスティクスなルールによる条件に基づいて結合するか否かを判別する。この例では、文字列結合部14は、ヒューリスティクスなルールによる条件の何れにも該当しないので、文字列断片情報98及び文字列断片情報99を結合し得ると判別する。
続いて、文字列結合部14は、文字列断片情報98及び文字列断片情報99について形態素解析をして算出したコストに基づいて文字列断片情報98及び文字列断片情報99を結合するか否かを判定する。より具体的には、文字列結合部14は、文字列断片情報98について形態素解析をしてコスト「50468」を算出し、文字列断片情報99について形態素解析をしてコスト「11662」を算出し、文字列断片情報98と文字列断片情報99とを結合した仮の結合情報について形態素解析をしてコスト「59170」を算出する。そして、文字列結合部14は、文字列断片情報98に係るコストと文字列断片情報99に係るコストとの和「62130」が、仮の結合情報に係るコスト「59170」よりも大きいので、文字列断片情報98及び文字列断片情報99を結合すると判定する。
文字列結合部14は、結合判定処理の結果に基づいて、文字列断片情報を結合する。この例では、文字列結合部14は、文字列断片情報94及び文字列断片情報95、文字列断片情報95及び文字列断片情報96、ならびに文字列断片情報96及び文字列断片情報97を夫々結合すると判定したので、文字列断片情報94〜文字列断片情報97を結合して一文として出力装置4に出力する。また、文字列結合部14は、文字列断片情報98及び文字列断片情報99を結合すると判定したので、文字列断片情報98及び文字列断片情報99を結合して一文として出力装置4に出力する。
更に、本実施形態では、複数の文を構成する複数の断片情報がユーザによって一のオブジェクトに記述がなされている場合であっても、断片情報に係る範囲情報及びデリミタ情報に基づいて断片情報がどの文に属するのかを判別することができる。また、本実施形態では、断片情報がどの文に属するのかを装飾情報に基づいてより正確に判別することができるようになる。
したがって、本実施形態に係る構成によれば、入力の形式が特定されていない文書情報であっても、文書情報から文をより適切に抽出することができる。
2 記憶装置
3 入力装置
4 出力装置
5 バス
Claims (11)
- 文字列データが含まれる複数のオブジェクトに係る文書データから、前記複数のオブジェクトの各々に含まれる文字列データと、前記複数のオブジェクトの各々を解析して得る解析結果情報とを抽出する第1の抽出手段と、
前記第1の抽出手段で抽出された文字列データの各々を文の区切り毎に分割する処理を行い、前記分割する処理を行った後のデータを断片データとして抽出する第2の抽出手段と、
前記第1の抽出手段で抽出された解析結果情報に基づいて前記第2の抽出手段で抽出された断片データの各々を結合するか否かを判別し、結合すると判別した断片データの各々を結合する結合手段と、
を有する情報処理装置。 - 前記結合手段は、前記第2の抽出手段で抽出された断片データの各々から前記第1の抽出手段で抽出された解析結果情報に含まれるオブジェクトの位置情報に基づいて結合候補を識別し、結合候補であると識別した断片データを結合するか否かを判別し、結合すると判別した前記断片データの各々を結合する、
請求項1記載の情報処理装置。 - 前記結合手段は、記憶装置に記憶されている、断片データを結合するか否かについての判定の基準が予め定められた条件情報に基づいて、前記結合候補であると識別した前記断片データを結合するか否かを判別する、
請求項2記載の情報処理装置。 - 前記結合手段は、結合候補であると識別した断片データについて形態素解析を行い、形態素解析の結果に基づいて、前記結合候補であると識別した前記断片データを結合するか否かを判別する、
請求項2又は3記載の情報処理装置。 - 前記結合手段は、前記結合候補であると識別した一対の断片データのうちの一方の断片データについて形態素解析をして算出されたコストと他方の断片データについて形態素解析をして算出されたコストとの和が、前記一方の断片データと前記他方の断片データとを結合したデータについて形態素解析をして算出されたコストよりも大きいと判別した場合或いは前記コスト以上であると判別した場合、前記一方の断片データと前記他方の断片データを結合する、
請求項4記載の情報処理装置。 - 前記結合手段は、前記第2の抽出手段で抽出された断片データのうちの一の断片データが含まれるオブジェクトの位置情報と前記一の断片データとは異なる他の断片データが含まれるオブジェクトの位置情報とに基づいて、前記一の断片データが含まれるオブジェクトと前記他の断片データが含まれるオブジェクトとが同一のオブジェクトでないと判別し、かつ隣接するオブジェクトでもないと判別した場合、前記一の断片データ及び前記他の断片データについては結合候補でないと識別する、
請求項2乃至5の何れか1項記載の情報処理装置。 - 前記第2の抽出手段は、前記分割する処理で前記第1の抽出手段で抽出された文字列データを分割した場合、分割したことを表す分割情報を抽出し、
前記結合手段は、前記第2の抽出手段で抽出された断片データのうちの一の断片データが含まれるオブジェクトの位置情報と前記一の断片データとは異なる他の断片データが含まれるオブジェクトの位置情報とに基づいて、前記一の断片データが含まれるオブジェクトと前記他の断片データが含まれるオブジェクトとが同一のオブジェクトであると判別し、前記第2の抽出手段で抽出された分割情報に基づいて、前記一の断片データと前記他の断片データとが隣接しないと判別した場合、前記一の断片データ及び前記他の断片データについては結合候補でないと識別する、
請求項2乃至6の何れか1項記載の情報処理装置。 - 前記第2の手段で抽出された断片データの各々から、文に係る装飾を表す装飾情報を除去する除去手段を更に有し、
前記第2の抽出手段は、前記分割する処理で前記第1の抽出手段で抽出された文字列データを分割した場合、分割したことを表す分割情報を抽出し、
前記結合手段は、前記第2の抽出手段で抽出された断片データのうちの一の断片データが含まれるオブジェクトの位置情報と前記一の断片データとは異なる他の断片データが含まれるオブジェクトの位置情報とに基づいて、前記一の断片データが含まれるオブジェクトと前記他の断片データが含まれるオブジェクトとが同一のオブジェクトであると判別し、前記第2の抽出手段で抽出された分割情報に基づいて前記一の断片データ及び前記他の断片データのうち後ろに位置する断片データを特定し、後ろに位置する断片データから前記除去手段により装飾情報が除去されていると判別した場合、前記一の断片データ及び前記他の断片データについては結合候補でないと識別する、
請求項2乃至7の何れか1項記載の情報処理装置。 - 前記第1の抽出手段は、前記複数のオブジェクトの各々の書式情報を抽出し、
前記結合手段は、前記第2の抽出手段で抽出された断片データのうちの一の断片データが含まれるオブジェクトの位置情報と前記一の断片データとは異なる他の断片データが含まれるオブジェクトの位置情報とに基づいて、前記一の断片データが含まれるオブジェクトと前記他の断片データが含まれるオブジェクトとが隣接するオブジェクトであると判別し、前記第1の抽出手段で抽出された前記一の断片データの書式情報及び前記他の断片データの書式情報に基づいて前記一の断片データが含まれるオブジェクトと前記他の断片データが含まれるオブジェクトとが区別されていると判別した場合、前記一の断片データ及び前記他の断片データについては結合候補でないと識別する、
請求項2乃至8の何れか1項記載の情報処理装置。 - 文字列データが含まれる複数のオブジェクトに係る文書データから、前記複数のオブジェクトの各々に含まれる文字列データと、前記複数のオブジェクトの各々を解析して得る解析結果情報とを抽出する第1の抽出工程と、
前記第1の抽出工程で抽出された文字列データの各々を文の区切り毎に分割する処理を行い、前記分割する処理を行った後のデータを断片データとして抽出する第2の抽出工程と、
前記第1の抽出工程で抽出された解析結果情報に基づいて前記第2の抽出工程で抽出された断片データの各々を結合するか否かを判別し、結合すると判別した断片データの各々を結合する結合工程と、
を有する情報処理方法。 - コンピュータを、
文字列データが含まれる複数のオブジェクトに係る文書データから、前記複数のオブジェクトの各々に含まれる文字列データと、前記複数のオブジェクトの各々を解析して得る解析結果情報とを抽出する第1の抽出手段と、
前記第1の抽出手段で抽出された文字列データの各々を文の区切り毎に分割する処理を行い、前記分割する処理を行った後のデータを断片データとして抽出する第2の抽出手段と、
前記第1の抽出手段で抽出された解析結果情報に基づいて前記第2の抽出手段で抽出された断片データの各々を結合するか否かを判別し、結合すると判別した断片データの各々を結合する結合手段と、
して機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009231905A JP5647779B2 (ja) | 2009-10-05 | 2009-10-05 | 情報処理装置、情報処理方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009231905A JP5647779B2 (ja) | 2009-10-05 | 2009-10-05 | 情報処理装置、情報処理方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011081516A true JP2011081516A (ja) | 2011-04-21 |
JP5647779B2 JP5647779B2 (ja) | 2015-01-07 |
Family
ID=44075526
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009231905A Active JP5647779B2 (ja) | 2009-10-05 | 2009-10-05 | 情報処理装置、情報処理方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5647779B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9824086B2 (en) | 2013-11-28 | 2017-11-21 | Sharp Kabushiki Kaisha | Translation device that determines whether two consecutive lines in an image should be translated together or separately |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06290209A (ja) * | 1993-03-31 | 1994-10-18 | Nec Corp | 文切り装置 |
JPH1040248A (ja) * | 1996-07-26 | 1998-02-13 | Toshiba Corp | 文書処理装置及び文書管理方法 |
JPH11250041A (ja) * | 1998-02-27 | 1999-09-17 | Toshiba Corp | 文書処理装置および文書処理方法 |
JP2000293521A (ja) * | 1999-04-09 | 2000-10-20 | Canon Inc | 画像処理方法、装置及び記憶媒体 |
-
2009
- 2009-10-05 JP JP2009231905A patent/JP5647779B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06290209A (ja) * | 1993-03-31 | 1994-10-18 | Nec Corp | 文切り装置 |
JPH1040248A (ja) * | 1996-07-26 | 1998-02-13 | Toshiba Corp | 文書処理装置及び文書管理方法 |
JPH11250041A (ja) * | 1998-02-27 | 1999-09-17 | Toshiba Corp | 文書処理装置および文書処理方法 |
JP2000293521A (ja) * | 1999-04-09 | 2000-10-20 | Canon Inc | 画像処理方法、装置及び記憶媒体 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9824086B2 (en) | 2013-11-28 | 2017-11-21 | Sharp Kabushiki Kaisha | Translation device that determines whether two consecutive lines in an image should be translated together or separately |
Also Published As
Publication number | Publication date |
---|---|
JP5647779B2 (ja) | 2015-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10360294B2 (en) | Methods and systems for efficient and accurate text extraction from unstructured documents | |
US10042880B1 (en) | Automated identification of start-of-reading location for ebooks | |
JPH1153384A (ja) | キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体 | |
SG188435A1 (en) | Orthographical variant detection apparatus and orthographical variant detection program | |
JP7040227B2 (ja) | 情報処理プログラム、情報処理方法、および情報処理装置 | |
JP5647779B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP2015162004A (ja) | 開発ドキュメント間トレースリンク生成支援装置及び方法及びプログラム | |
KR101835994B1 (ko) | 키워드 맵을 이용한 전자책 검색 서비스 제공 방법 및 장치 | |
JP2024033667A (ja) | 明細書入力支援方法、およびプログラム | |
JP2000040085A (ja) | 日本語形態素解析処理の後処理方法および装置 | |
JP2009134378A (ja) | 文書群提示装置および文書群提示プログラム | |
JP4734400B2 (ja) | 文書検索装置およびプログラム | |
JP5733285B2 (ja) | 検索装置、検索方法及びプログラム | |
US20210073258A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
JP5803481B2 (ja) | 情報処理装置及び情報処理プログラム | |
Bauer et al. | Fiasco: Filtering the internet by automatic subtree classification, osnabruck | |
JP2008225566A (ja) | 関係情報抽出装置及びその方法 | |
JP5123350B2 (ja) | テストケース作成システム、方法およびプログラム | |
JP6807201B2 (ja) | 情報処理装置 | |
JP5142395B2 (ja) | 関係情報抽出装置、その方法、プログラム及び記録媒体 | |
JP5564932B2 (ja) | 文書校正支援装置、プログラム及び方法 | |
WO2024047997A1 (ja) | 文書分析装置、及び文書分析用プログラム | |
JP5367099B2 (ja) | 差異箇所抽出装置及びプログラム | |
JP4256841B2 (ja) | 情報処理装置、情報処理方法、情報処理プログラム | |
JP2016206751A (ja) | 検索プログラムおよび検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120829 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130827 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130924 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140408 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140527 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141021 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141110 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5647779 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |