JP5430312B2 - データ処理装置、データ名生成方法及びコンピュータプログラム - Google Patents

データ処理装置、データ名生成方法及びコンピュータプログラム Download PDF

Info

Publication number
JP5430312B2
JP5430312B2 JP2009213422A JP2009213422A JP5430312B2 JP 5430312 B2 JP5430312 B2 JP 5430312B2 JP 2009213422 A JP2009213422 A JP 2009213422A JP 2009213422 A JP2009213422 A JP 2009213422A JP 5430312 B2 JP5430312 B2 JP 5430312B2
Authority
JP
Japan
Prior art keywords
character string
document
condition
extracted
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009213422A
Other languages
English (en)
Other versions
JP2011065255A (ja
Inventor
いち子 佐田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2009213422A priority Critical patent/JP5430312B2/ja
Publication of JP2011065255A publication Critical patent/JP2011065255A/ja
Application granted granted Critical
Publication of JP5430312B2 publication Critical patent/JP5430312B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Facsimiles In General (AREA)

Description

本発明は、文書原稿をスキャンすることにより生成した画像データを管理する方法に関し、より詳しくは、画像データのデータ名を自動で生成するデータ処理装置、データ名生成方法、及びコンピュータプログラムに関する。
各種の文書を保管する方法として、スキャナで文書の画像読み取りを行うことによって、文書の内容を記録した画像データを生成し、生成した画像データをサーバ装置等の記憶装置で記憶する方法がある。記憶してある画像データからは、必要時に文書を作成することができる。このように文書から生成した画像データを記憶する際には、画像データのデータ名を自動的に生成し、生成したデータ名を画像データに付与する処理が行われることがある。特許文献1には、文書中で余白に囲まれた文字列、定型文書向けに予め登録されたタイトル名、又は文書中から抽出された文字列から使用者が指定した文字列を用いてデータ名を生成する技術が開示されている。また特許文献2には、所定の文字に後続する文字列、相対的に大きいサイズの文字列、又は所定の色を有する文字列を用いてデータ名を生成する技術が開示されている。
特開2006−252455号公報 特開2005−56315号公報
特許文献1及び2に開示された技術では、データ名に用いる文字列を抽出するための条件を満たしていない画像データからは、文字列を抽出することができず、データ名を生成することが困難であるという問題がある。また特許文献1及び2に開示された技術では、データ名として画一的又は形式的な語句が選定され易く、文書の内容を反映したデータ名が得られ難い。このため、データ名の一覧から文書を選ぶ際に、画一的又は形式的なデータ名からは文書の内容を推測し難く、適切な文書を選ぶことが困難であるという問題がある。
本発明は、斯かる事情に鑑みてなされたものであって、その目的とするところは、文書の内容に応じた語句を用いてデータ名を生成することにより、文書の内容を推測し易いデータ名を任意の画像データに対して生成することができるデータ処理装置、データ名生成方法及びコンピュータプログラムを提供することにある。
本発明に係るデータ処理装置は、画像データのデータ名を生成する処理を行うデータ処理装置において、画像データにより表現される画像に含まれる文字の認識を行う手段と、認識した文字で構成される文書中から、文書の内容を表す語句を抽出する語句抽出手段と、前記画像データのデータ名として、抽出した語句を含んだデータ名を生成する手段と、文書の内容を表す語句が文書中で配置されている位置を示す位置条件を記憶する手段と、文書の内容を表す語句に付随して文書中に含まれるキーワード、及び文書中における前記キーワードに対する前記語句の相対位置を記憶する手段と、一又は複数の形態素からなる文字列が名詞句であるための形態素の種類及び順番の条件を定めた文字列条件を記憶する手段とを備え、前記語句抽出手段は、画像データにより表現される画像から、他の文字から離隔した文字列が含まれる領域を抽出する手段と、該手段が抽出した領域の前記画像内における位置が、記憶してある前記位置条件に該当するか否かを判定する手段と、前記領域の位置が前記位置条件に該当する場合に、前記領域に含まれる文字列が意味する語句を抽出する手段と、前記領域の位置が前記位置条件に該当しない場合に、前記画像データから得られた文書の形態素解析を行う手段と、形態素解析を行った前記文書中から、記憶してある前記キーワードを特定する手段と、前記キーワードが特定できた場合に、特定した前記キーワードについて記憶してある相対位置に前記文書中で配置されている文字列を抽出する手段と、抽出した文字列が、記憶してある前記文字列条件に該当するか否かを判定する手段と、抽出した文字列が前記文字列条件に該当する場合に、前記文字列が意味する語句を抽出する手段と、前記文書中から前記キーワードが特定できない場合、又は抽出した文字列が前記文字列条件に該当しない場合に、形態素解析を行った前記文書に含まれる各形態素の前記文書中での使用頻度を求める手段と、求めた使用頻度が低い順に形態素を選択する手段と、選択した形態素を含んだ文字列を前記文書中から抽出する手段と、抽出した文字列が前記文字列条件に該当するか否かを判定する手段と、抽出した文字列が前記文字列条件に該当する場合に、前記文字列が意味する語句を抽出する手段とを有することを特徴とする。
本発明に係るデータ名生成方法は、画像データのデータ名を生成するデータ名生成方法において、文書の内容を表す語句が文書中で配置されている位置を示す位置条件を予め定めておき、文書の内容を表す語句に付随して文書中に含まれるキーワード、及び文書中における前記キーワードに対する前記語句の相対位置を予め定めておき、一又は複数の形態素からなる文字列が名詞句であるための形態素の種類及び順番の条件を定めた文字列条件を予め定めておき、画像データにより表現される画像に含まれる文字を認識し、前記画像から、他の文字から離隔した文字列が含まれる領域を抽出し、抽出した領域の前記画像内における位置が、予め定めてある前記位置条件に該当するか否かを判定し、前記領域の位置が前記位置条件に該当する場合に、前記領域に含まれる文字列が意味する語句を抽出することによって、認識した文字で構成される文書の内容を表す語句を抽出し、前記領域の位置が前記位置条件に該当しない場合に、前記画像データから得られた文書の形態素解析を行い、形態素解析を行った前記文書中から、予め定めてある前記キーワードを特定し、前記キーワードが特定できた場合に、特定した前記キーワードについて予め定めてある相対位置に前記文書中で配置されている文字列を抽出し、抽出した文字列が、予め定めてある前記文字列条件に該当するか否かを判定し、抽出した文字列が前記文字列条件に該当する場合に、前記文字列が意味する語句を抽出し、前記文書中から前記キーワードが特定できない場合、又は抽出した文字列が前記文字列条件に該当しない場合に、形態素解析を行った前記文書に含まれる各形態素の前記文書中での使用頻度を求め、求めた使用頻度が低い順に形態素を選択し、選択した形態素を含んだ文字列を前記文書中から抽出し、抽出した文字列が前記文字列条件に該当するか否かを判定し、抽出した文字列が前記文字列条件に該当する場合に、前記文字列が意味する語句を抽出し、抽出した語句を含んだデータ名を生成することを特徴とする。
本発明に係るコンピュータプログラムは、コンピュータに、画像データのデータ名を生成する処理を実行させるためのコンピュータプログラムにおいて、コンピュータに、画像データにより表現される画像に含まれる文字の認識を行わせる手順と、コンピュータに、前記画像から、他の文字から離隔した文字列が含まれる領域を抽出させる手順と、コンピュータに、抽出した領域の前記画像内における位置が、文書の内容を表す語句が文書中で配置されている位置を示す所定の位置条件に該当するか否かを判定させる手順と、コンピュータに、前記領域の位置が前記位置条件に該当する場合に、前記領域に含まれる文字列が意味する語句を抽出させる手順と、コンピュータに、前記領域の位置が前記位置条件に該当しない場合に、前記画像データから得られた文書の形態素解析を行わせる手順と、コンピュータに、形態素解析を行った前記文書中から、任意の文書の内容を表す語句に付随して前記任意の文書中に含まれる所定のキーワードを特定させる手順と、コンピュータに、前記キーワードが特定できた場合に、特定した前記キーワードについて定められた特定の相対位置に、形態素解析を行った文書中で配置されている文字列を抽出させる手順と、コンピュータに、抽出した文字列が、一又は複数の形態素からなる文字列が名詞句であるための形態素の種類及び順番の条件を定めた特定の文字列条件に該当するか否かを判定させる手順と、コンピュータに、抽出した文字列が前記文字列条件に該当する場合に、前記文字列が意味する語句を抽出させる手順と、コンピュータに、前記文書中から前記キーワードが特定できない場合、又は抽出した文字列が前記文字列条件に該当しない場合に、形態素解析を行った文書に含まれる各形態素の前記文書中での使用頻度を求めさせる手順と、コンピュータに、求めた使用頻度が低い順に形態素を選択させる手順と、コンピュータに、選択した形態素を含んだ文字列を前記文書中から抽出させる手順と、コンピュータに、抽出した文字列が前記文字列条件に該当するか否かを判定させる手順と、コンピュータに、抽出した文字列が前記文字列条件に該当する場合に、前記文字列が意味する語句を抽出させる手順と、コンピュータに、前記画像データのデータ名として、抽出した語句を含んだデータ名を生成させる手順とを含むことを特徴とする。
本発明においては、データ処理装置は、画像データにより表現される画像に含まれる文字で構成される文書中から、文書の内容を表した語句を抽出し、抽出した語句を含むデータ名を生成する。これにより、画像データには、文書の内容に応じたデータ名が付与される。
また本発明においては、データ処理装置は、文字列を含む領域の画像中での位置が、タイトル等の文書の内容を表す語句が文書中で配置されている位置を示す位置条件に該当するか否かを判定し、位置条件に該当する領域に含まれる文字列が意味する語句を抽出することにより、文書の内容を表した語句を抽出する。
また本発明においては、データ処理装置は、文書の形態素解析を行い、文書の内容を表す語句に付随するキーワードを文書中で特定し、特定したキーワードに連接した文字列を抽出し、名詞句として認識できる文字列に含まれる形態素の種類及び順番の条件を定めた文字列条件に、抽出した文字列が該当するか否かを判定し、文字列条件に該当する文字列が意味する語句を抽出することにより、文書の内容を表した語句を抽出する。
また本発明においては、データ処理装置は、文書の形態素解析を行い、文書中での各形態素の使用頻度を求め、使用頻度の低い形態素を含む文字列を抽出し、抽出した文字列が文字列条件に該当するか否かを判定し、文字列条件に該当する文字列が意味する語句を抽出することにより、文書の内容を表した語句を抽出する。
また本発明においては、データ処理装置は、文字列を含む領域の画像中での位置が位置条件に該当する場合に、文字列が意味する語句を抽出し、前記位置が位置条件に該当しない場合に、文書の形態素解析を行い、文書中のキーワードに連接した文字列が文字列条件に該当する場合に、文字列が意味する語句を抽出し、キーワードがない場合又は文字列が文字列条件に該当しない場合に、文書中での各形態素の使用頻度を求め、使用頻度が低い形態素を含む文字列が文字列条件に該当する場合に、文字列が意味する語句を抽出することにより、文書の内容を表した語句を抽出する。
本発明にあっては、文書原稿の読取により生成した画像データから、文書の内容に応じたデータ名が生成され、生成したデータ名が画像データに付与されるので、以後に画像データを使用する際には、画像データから再生できる文書の内容をデータ名から推測し易くなり、使用者は用途に応じた適切な文書を容易に選択することが可能となる等、本発明は優れた効果を奏する。
実施の形態1に係る本発明のデータ処理装置の内部の機能構成を示すブロック図である。 位置条件テーブルの内容例を示す概念図である。 キーワードテーブルの内容例を示す概念図である。 形態素連接テーブルの内容例を示す概念図である。 実施の形態1に係るデータ処理装置が実行する処理の手順を示すフローチャートである。 実施の形態1に係るデータ処理装置が実行する処理の手順を示すフローチャートである。 位置条件判定処理のサブルーチンの処理手順を示すフローチャートである。 キーワード連接文字列抽出処理のサブルーチンの処理手順を示すフローチャートである。 文字列判定処理のサブルーチンの処理手順を示すフローチャートである。 実施の形態2に係る本発明のデータ処理装置の内部構成を示すブロック図である。
以下本発明をその実施の形態を示す図面に基づき具体的に説明する。
(実施の形態1)
図1は、実施の形態1に係る本発明のデータ処理装置の内部の機能構成を示すブロック図である。データ処理装置1は、演算を行うCPU、データ処理装置1の動作に必要な制御プログラムを記憶するROM、及び演算に伴う一時的なデータを記憶するRAM等からなる制御部11を備えている。制御部11には、データ名生成の処理を行うために必要なデータを記憶するROM12と、ハードディスク又は不揮発性のメモリ等で構成された不揮発性の記憶部13とが接続されている。ROM12は、後述する位置条件テーブル121、キーワードテーブル122、及び形態素連接テーブル123を記憶している。なお、ROM12はデータ処理装置1の動作に必要な制御プログラムを記憶している形態であってもよく、またROM12は制御部11の内部に組み込まれた形態であってもよい。記憶部13は、データ名生成の処理によって生成されたデータ名が付与された画像データを記憶する。
制御部11には、文書原稿に記録された画像を光学的に読み取って画像データを生成する画像読取部14、画像読取部14が生成した画像データを一時的に記憶する画像メモリ15、及び記録用紙等の記録担体上に画像データに基づいた画像を形成する画像形成部16が接続されている。また制御部11には、画像読取開始の指示等の各種の指示を使用者の操作によって受け付ける操作部17、及び各種のデータを外部との間で送受信する通信部18が接続されている。操作部17は、情報を表示するための液晶パネル等の表示部と、使用者の操作を受け付けるテンキー等の受付部とから構成されている。データ処理装置1は、スキャナ装置として機能し、画像読取部14で生成した画像データを記憶部13で記憶する処理を行う。またデータ処理装置1は、画像データの記憶装置として機能し、記憶部13に記憶した画像データを読み出し、読み出した画像データに基づいて画像形成部16で画像を形成する処理、又は読み出した画像データを通信部18から外部へ送信する処理を行うことができる。
ROM12が記憶するデータは、画像データにより表現される画像に記録された文書の内容を表す語句を抽出するために必要なデータである。位置条件テーブル121は、文書中に含まれる文字列の内、データ名に使用するために文書の内容を表した語句として抽出するべき特定の文字列の条件を記録したものであり、条件として、抽出するべき文字列の文書中における位置の条件を記録している。図2は、位置条件テーブル121の内容例を示す概念図である。位置条件テーブル121は、論文、手紙、報告書、又は申請書等の定型文書において、文書のタイトル等の文書の内容の趣旨を表した語句が文書中で配置される位置を示す位置条件を複数個記録している。複数の位置条件の夫々には優先度の順に連番が付せられている。位置条件の優先度は、位置条件が示す位置に配置される文字列が文書の内容の趣旨を表した語句である確率の大きさに応じて定められている。各位置条件は、図2に示すように、文書が記録された一枚の画像上における文字列の縦軸方向の位置及び横軸方向の位置を指定している。
図2に示す例では、画像上の縦軸方向の位置として上部を指定し、横軸方向の位置としてセンターを指定した位置条件が連番1に関連付けられている。この位置条件は、文書中で上よりの位置に文書のタイトルがセンタリングして記載されることが多いことを根拠として、文書のタイトルを、文書の内容の趣旨を表した語句として抽出することを意図したものである。また、縦軸方向の位置として最上段を指定し、横軸方向の位置として左を指定した位置条件が連番2に関連付けられている。この位置条件は、手紙等のレターにおいて、最上段左側の位置にレターの宛名が記載されることが多いことを根拠として、レターの宛名を、文書の内容の趣旨を表した語句として抽出することを意図したものである。ROM12が記憶する位置条件テーブル121に記録された各位置条件では、縦軸方向及び横軸方向の位置を座標で指定してある。例えば、縦軸方向の上部を指定する座標として、絶対座標又は相対座標で、一枚の画像の上半分の範囲を示す座標が記録されている。また例えば、横軸方向のセンターを指定する座標として、横方向の中央を中心とした左右対称の範囲を示す座標が記録されている。最上段又は左等のその他の位置についても、同様に絶対座標又は相対座標で位置を示す座標が記録されている。
キーワードテーブル122は、文書の内容を表した語句に付随して文書中に記載されることがあるキーワードを記録している。図3は、キーワードテーブル122の内容例を示す概念図である。図3中の/は形態素の区切りを示している。形態素とは、言語学において意味を持つ最小の単位を指し、自然言語中でそれ以上分解したら意味をなさなくなるところまで分割した音素である。キーワードテーブル122は、単一の形態素又は複数の形態素でなるキーワードを複数個記録してある。複数のキーワードの夫々には、優先度の順に連番が付せられており、更に、文書の内容を表した語句として抽出するべき文字列がキーワードの前又は後のいずれの位置に連接するのかを示す文字列連接位置が関連付けられている。キーワードの優先度は、位置条件が示す位置に配置される文字列が文書の内容の趣旨を表した語句である確率の大きさに応じて定められている。
図3に示す例では、連番1にキーワード「が関連付けられ、連番2にキーワード『が関連付けられ、共に文字列連接位置として後が関連付けられている。これは、文書のタイトル等の文書の内容の趣旨を表した語句が鉤括弧で囲われることがあることを根拠とし、鉤括弧で囲われた語句を抽出することを意図したものである。また連番2にキーワード「の/件」が関連付けられ、文字列連接位置として前が関連付けられている。文書の内容を説明した語句が文書中でキーワード「の/件」の直前の位置に記載されることがあることを根拠とし、文書の内容を説明した語句を抽出することを意図したものである。
形態素連接テーブル123は、文字列が、文書の内容を表した語句として抽出することができるような名詞句であるための、文字列の構成の条件を記録したものである。図4は、形態素連接テーブル123の内容例を示す概念図である。形態素連接テーブル123は、一又は複数の形態素からなる名詞句が、どの種類の形態素がどのような順番で連接した構造を有するものであるのかを定めた形態素連接条件を複数個記録してある。文字列に含まれる形態素の種類及び順番が形態素連接条件を満たしている場合は、文字列は名詞句であると判定することができる。文字列が名詞句である場合は、文字列が意味する語句は画像データのデータ名として利用するのに有用であり、逆に、名詞句ではない文字列はデータ名には不適当である。形態素連接テーブル123が記録する複数の形態素連接条件の夫々には、優先度の順に連番が付せられている。形態素連接条件の優先度は、文書の内容を表した名詞句が形態素連接条件に該当する構成をとる頻度の大きさに応じて定められている。形態素連接条件は本発明における文字列条件に対応する。
図4に示す例では、カタカナで表記される複数の形態素が連続した構成でなる文字列がキーワードに連接していることを条件とする形態素連接条件が連番1に関連付けられている。この形態素連接条件は、文書の内容を表すような多くの語句が、カタカナで表記される複数の形態素が連続した構成となっていることを根拠としている。また図4に示す例では、品詞が名詞である複数の形態素が連続した後で格助詞の形態素が続き更に複数の名詞の形態素が連続した構成でなる文字列がキーワードに連接していることを条件とする形態素連接条件が、連番2に関連付けられている。また複数の名詞が連続した後で格助詞が続き更に一つの名詞が続いた構成でなる文字列がキーワードに連接していることを条件とする形態素連接条件が連番3に関連付けられている。これらの形態素連接条件は、文書の内容を表すような多くの語句が、名詞が連続した後で格助詞を挟んで名詞が続くような構成となっていることを根拠としている。
次に、以上の構成でなる本発明のデータ処理装置1が実行する本発明のデータ名生成方法を説明する。データ処理装置1は、本発明のデータ名生成方法により、画像を読み取る際に文書の内容に応じたデータ名を生成する処理と、文書の内容に応じたデータ名の生成を行わない処理との何れかの処理を実行する。データ処理装置1は、使用者が操作部17を操作することにより、文書の内容に応じたデータ名を生成するデータ名生成モードの設定の指示を受け付けることが可能であり、制御部11は、指示に応じた情報を記憶することにより、データ名生成モードの設定を行う。
図5及び図6は、実施の形態1に係るデータ処理装置1が実行する処理の手順を示すフローチャートである。データ処理装置1は、画像読取部14で、文書原稿に記録された画像を光学的に読み取ることによって画像データを生成する(S1)。画像読取部14が生成した画像データは一旦画像メモリ15が記憶する。制御部11は、次に、データ名生成モードが設定されているか否かを判定する(S2)。データ名生成モードが設定されていない場合は(S2:NO)、制御部11は、現在の日時等に基づいて形式的にユニークなデータ名を生成する(S3)。ステップS3では、日時をデータ名とする処理、現在の年月日、時刻及び画像データの拡張子を列記したデータ名を生成する処理、又は画像データを生成した順にデータ名として連番を付す処理等、画像データの内容とは無関係にユニークなデータ名を生成する。ステップS3が終了した後は、制御部11は、後述するステップS12へ処理を進める。
ステップS3でデータ名生成モードが設定されている場合は(S2:YES)、制御部11は、画像データにより表現される画像から、文字列が記録されたテキストオブジェクトを認識する処理を行う(S4)。ステップS4では、制御部11は、既存の文字認識技術を用い、画像中で文字列が認識できた領域をテキストオブジェクトであると認識する。またステップS4では、制御部11は、他の文字から所定の距離以上離隔している文字列を含む領域を一つのテキストオブジェクトであると認識することにより、画像データにより表現される画像中から、一又は複数のテキストオブジェクトを認識する。なお、制御部11は、文字列一行単位又は一文単位でテキストオブジェクトを認識する処理を行ってもよい。制御部11は、次に、ステップS4で画像からテキストオブジェクトを認識できたか否かを判定する(S5)。テキストオブジェクトを認識できなかった場合は(S5:NO)、制御部11は、処理をステップS3へ進める。
ステップS5でテキストオブジェクトを認識できたと判定した場合は(S5:YES)、制御部11は、画像中の予め定められている所定範囲内にテキストオブジェクトが含まれているか否かを判定する(S6)。所定範囲としては、例えば、文書原稿の1ページ目に対応する画像中の上半分とする。これは、文書の1ページ目の上半分に、文書のタイトル又は宛名等の文書の内容の趣旨を表した語句が記載されていることが多いことに基づいている。またこの画像中の所定範囲は、ROM12が記憶する位置条件テーブル121の記録内容と対応した範囲である必要がある。即ち、所定範囲として、位置条件テーブル121に記録された位置条件が示す位置に文書の内容の趣旨を表した語句が記載されることが多い範囲を定めておく必要がある。制御部11は、所定範囲を設定した情報を予め記憶している。なお、所定範囲を示す情報は位置条件テーブル121に記録されており、ステップS6で制御部11が位置条件テーブル121から必要な情報を読み出す形態であってもよい。また、この画像中の所定範囲としては、文書原稿の最終ページに対応する画像の全体とする等、その他の範囲を設定してもよく、その場合は、位置条件テーブル121の内容を設定した範囲に応じた内容としておく必要がある。
ステップS6で所定範囲内にテキストオブジェクトがある場合は(S6:YES)、制御部11は、画像中の所定範囲内にある一又は複数のテキストオブジェクトを抽出する(S7)。ステップS7では、制御部11は、各テキストオブジェクトを抽出すると共に、画像中でのテキストオブジェクトの位置を座標で示す位置情報を生成し、テキストオブジェクトに位置情報を付加してバッファメモリに記憶する。制御部11は、次に、抽出したテキストオブジェクトが位置条件テーブル121に記録された位置条件に該当するか否かを判定する位置条件判定処理を行う(S8)。
図7は、位置条件判定処理のサブルーチンの処理手順を示すフローチャートである。制御部11は、ROM12から位置条件テーブル121を読み出し(S81)、抽出してバッファメモリに記憶したテキストオブジェクトの中から、第1のテキストオブジェクトを選択する(S82)。テキストオブジェクトは、画像中に占める面積が大きい順、又は画像中でより上側に位置する順等、文書の内容の趣旨を表した語句を意味する文字列がテキストオブジェクトに含まれる可能性が高い順に選択される。制御部11は、位置条件テーブル121に記録された位置条件を、テキストオブジェクトの画像中での位置情報と優先度の順に照合する(S83)。ステップS83では、制御部11は、選択したテキストオブジェクトの位置情報と位置条件テーブル121に記録された各位置条件が示す縦軸方向の位置及び横軸方向の位置とを連番の順に比較することにより、照合を行う。制御部11は、照合の結果、選択したテキストオブジェクトの位置が、優先度の順に照合した何れかの位置条件に該当したか否かを判定する(S84)。テキストオブジェクトの位置が何れかの位置条件に該当した場合は(S84:YES)、制御部11は、位置条件に該当するテキストオブジェクトを特定のバッファメモリに記憶することにより、テキストオブジェクトを抽出し(S85)、処理をメインの処理へ戻す。
ステップS84で選択したテキストオブジェクトの位置が何れの位置条件にも該当しない場合は(S84:NO)、制御部11は、まだ位置条件の判定を行っていない次のテキストオブジェクトがあるか否かを判定する(S86)。まだ位置条件の判定を行っていない次のテキストオブジェクトがある場合は(S86:YES)、制御部11は、次のテキストオブジェクトを選択し(S87)、処理をステップS83へ戻す。ステップS86でまだ位置条件の判定を行っていない次のテキストオブジェクトがない場合は(S86:NO)、制御部11は、テキストオブジェクトを抽出することなく、ステップ8の位置条件判定処理を終了し、処理をメインの処理へ戻す。
制御部11は、次に、ステップS8の位置条件判定処理により位置条件に該当するテキストオブジェクトが抽出できたか否かを判定する(S9)。位置条件に該当するテキストオブジェクトが抽出できた場合は(S9:YES)、制御部11は、抽出したテキストオブジェクトに対する文字認識を行うことにより、抽出したテキストオブジェクトに含まれる文字列を認識する処理を行う(S10)。制御部11は、次に、認識した文字列が意味する語句に、画像データに関するユニークな情報を付加して、画像データのデータ名を生成する(S11)。画像データに関するユニークな情報とは、現在の年月日、日時、画像データの拡張子、又は画像データを生成した順に付した連番等、形式的に得られた、画像データの内容とは無関係でユニークな情報である。ステップS11により、文書の内容の趣旨を表した語句を含むデータ名が生成される。また形式的に得られたユニークな情報をデータ名に含ませることにより、画像データのデータ名が重複することを防止し、また画像データの形式的な整理又は検索にデータ名を利用することが可能となる。ステップS3又はS11データ名を生成した後、制御部11は、画像メモリ15に記憶する画像データに、生成したデータ名を付し、データ名を付した画像データを記憶部13に記憶させ(S12)、処理を終了する。
ステップS6で画像中の予め定められている所定範囲内にテキストオブジェクトが含まれていない場合(S6:NO)、又はステップS9で位置条件に該当するテキストオブジェクトが抽出できなかった場合は(S9:NO)、制御部11は、画像全体に含まれる文字を認識する処理を行う(S13)。ステップS13では、文字の量が膨大になる可能性があるが、制御部11は、認識した文字の量が予め設定してある設定量を超えた場合に、画像中で文字を認識する範囲を限定する処理を行ってもよい。ステップS13で認識した文字はメモリに記憶される。制御部11は、次に、文字認識により認識された文字で構成される文書の形態素解析を行う(S14)。ステップS14では、制御部11は、予め内部又はROM12に記憶してある形態素のデータベースを用いて、文書を個々の形態素に分割し、各形態素の品詞を判別する処理を行う。各形態素は一文字又は文字列でなる。制御部11は、形態素解析により、各形態素について、形態素の内容、形態素の標準形、品詞、及び活用情報等の形態素情報を取得し、取得した形態素情報を、文書中に形態素が登場する順番に連番を付してバッファメモリに記憶する。
制御部11は、次に、形態素解析を行った文書中から、キーワードテーブル122に記録したキーワードに連接した文字列を抽出するキーワード連接文字列抽出処理を行う(S15)。図8は、キーワード連接文字列抽出処理のサブルーチンの処理手順を示すフローチャートである。制御部11は、ROM12からキーワードテーブル122を読み出し(S151)、キーワードテーブル122に記録されたキーワードを、優先度の順に文書中から検索する(S152)。ステップS152では、制御部11は、優先度の順にキーワードを選択し、文書の先頭から選択したキーワードの検索を行い、キーワードが見つからなかった場合は優先度で次のキーワードを選択し、キーワードの検索を繰り返す処理を行う。検索の結果、ステップS152で文書中からキーワードを発見した場合は(S153:YES)、制御部11は、文書中から、キーワードテーブル122で発見したキーワードに関連付けられている連接位置にある最大N個の形態素からなる文字列を抽出し、抽出した文字列を構成する各形態素の形態素情報を抽出する(S154)。
ここで、Nは、名詞句として認識できる文字列に含まれる形態素の最大数であり、ROM12が記憶する形態素連接テーブル123に記録された形態素連接条件で構造を定められた文字列に含まれる形態素数以上の数である。制御部11は、Nの値を予め記憶している。なお、Nの値は形態素連接テーブル123に記録されており、ステップS154で制御部11が形態素連接テーブル123からNの値を読み出す形態であってもよい。また、キーワードに連接する文字列の中に句読点が含まれている場合、句読点を含んだ語句は、データ名に用いるべき文書の内容を表した語句としては適切ではないので、句読点を含まない連続した形態素がキーワードに連接した文字列を抽出する。この場合は、ステップS154で抽出される文字列は、Nより小さい数の形態素でなる。制御部11は、抽出した文字列及び形態素情報をバッファメモリに記憶し、処理をメインの処理へ戻す。ステップS153で、キーワードを発見できなかった場合は(S153:NO)、制御部11は、文字列及び形態素情報を抽出することなく、処理をメインの処理へ戻す。
制御部11は、次に、ステップS15のキーワード連接文字列抽出処理により、キーワードに連接する文字列が抽出できたか否かを判定する(S16)。キーワードに連接する文字列が抽出できた場合は(S16:YES)、制御部11は、抽出した文字列が形態素連接テーブル123に記録された形態素連接条件に該当するか否かを判定する文字列判定処理を行う(S17)。
図9は、文字列判定処理のサブルーチンの処理手順を示すフローチャートである。制御部11は、ROM12から形態素連接テーブル123を読み出し(S171)、形態素連接テーブル123に記録された形態素連接条件を、ステップS15で抽出した文字列と優先度の順に照合する(S172)。ステップS172では、制御部11は、抽出した文字列を構成する各形態素の形態素情報と形態素連接テーブル123に記録された各形態素連接条件とを連番の順に比較することにより、照合を行う。照合時には、最大N個の形態素からなる文字列の内、キーワードに連接している部分に含まれる形態素の種類及び順番が、形態素連接条件で定めてある形態素の種類及び順番に該当するか否かを判定する。制御部11は、照合の結果、抽出した文字列が、優先度の順に照合した何れかの形態素連接条件に該当したか否かを判定する(S173)。文字列が何れかの形態素連接条件に該当した場合は(S173:YES)、制御部11は、文字列を特定のバッファメモリに記憶することにより、形態素連接条件に該当する文字列として文字列を抽出し(S174)、処理をメインの処理へ戻す。文字列が形態素連接条件に該当する場合、文字列は名詞句である。ステップS173で、文字列が何れかの形態素連接条件にも該当しなかった場合は(S173:NO)、制御部11は、文字列を抽出することなく、処理をメインの処理へ戻す。
制御部11は、次に、ステップS17の文字列判定処理により、形態素連接条件に該当する文字列が抽出できたか否かを判定する(S18)。形態素連接条件に該当する文字列が抽出できた場合は(S18:YES)、制御部11は、処理をステップS11へ進め、ステップS11及びS12の処理を行う。以上のステップS13以降の処理により、キーワードに連接する名詞句である文字列が、文書の内容の趣旨を表した語句を意味する文字列として文書から抽出され、抽出した文字列に基づき、文書の内容の趣旨を表した語句を含むデータ名が生成される。
ステップS16でキーワードに連接する文字列が抽出できなかった場合(S16:NO)、又はステップS18で形態素連接条件に該当する文字列が抽出できなかった場合は(S18:NO)、制御部11は、形態素解析を行った文書中に含まれる各形態素の使用頻度を解析する(S19)。ステップS19では、制御部11は、各形態素について文書中における使用回数を数えることにより、各形態素の使用頻度を求める。制御部11は、次に、文書中に含まれる形態素の内で使用頻度が最低頻度である形態素を選択し(S20)、選択した形態素を含んだ最大N個の形態素からなる文字列を抽出する(S21)。ステップS21では、選択した形態素と該形態素の前後に連接する形態素とからなる文字列から、選択した形態素を含んで句読点を含まない連続した最大N個の形態素でなる文字列を抽出する。制御部11は、抽出した文字列を構成する各形態素の形態素情報を抽出し、抽出した文字列及び形態素情報をバッファメモリに記憶する。文書中で使用される形態素の内、文書中で使用頻度の低い形態素の方が文書の特徴を表している傾向があるので、使用頻度の低い形態素を含む文字列を抽出することにより、文書の内容の趣旨を表した語句の抽出を試みることができる。
制御部11は、次に、ステップS21で抽出した文字列について、文字列判定処理を行う(S22)。ステップS22の文字列判定処理の処理内容は、ステップS17の文字列判定処理と同様であり、制御部11は、使用頻度の低い形態素を含む連続した形態素の種類及び順番が、形態素連接条件で定めてある形態素の種類及び順番に該当するか否かを判定する。制御部11は、次に、ステップS22の文字列判定処理により、形態素連接条件に該当する文字列が抽出できたか否かを判定する(S23)。形態素連接条件に該当する文字列が抽出できた場合は(S23:YES)、制御部11は、処理をステップS11へ進め、ステップS11及びS12の処理を行う。以上のステップS19以降の処理により、使用頻度の低い形態素を含む名詞句である文字列が、文書の内容の趣旨を表した語句を意味する文字列として文書から抽出され、抽出した文字列に基づき、文書の内容の趣旨を表した語句を含むデータ名が生成される。
ステップS23で形態素連接条件に該当する文字列が抽出できなかった場合は(S23:NO)、制御部11は、形態素解析を行った文書中に含まれる形態素の内、次に使用頻度が低い形態素を選択し(S24)、処理をステップS21へ戻す。ステップS21〜S24の処理を繰り返すことにより、文書中で使用頻度の低い形態素を含み、文書の内容の趣旨を表した語句を抽出することができる。
以上詳述した如く、本実施の形態に係るデータ処理装置1は、画像データを生成し、生成した画像データにより表現される画像に含まれる文字で構成される文書中から、文書の内容の趣旨を表した語句を抽出し、抽出した語句を含むデータ名を生成する。従って、文書原稿の読取により生成した画像データは、文書の内容がどのような内容であっても、文書の内容に応じたデータ名が付与されてデータ処理装置1に記憶される。画像データのデータ名は、画一的又は形式的ではなく、文書の内容に応じたデータ名となるので、データ処理装置1に記憶された画像データを使用する際には、画像データから再生できる文書の内容をデータ名から推測し易くなり、使用者は用途に応じた適切な文書を容易に選択することが可能となる。
なお、本実施の形態においては、文書の内容の趣旨を表した語句を抽出するために、位置条件に該当する文字列を抽出する処理、キーワードに連接する文字列を抽出する処理、及び使用頻度の低い形態素を含む文字列を抽出する処理を行う形態を示したが、本発明のデータ処理装置1は、全ての処理を実行できる形態に限るものではない。例えば、データ処理装置1は、ステップS1〜S12の処理を実行することにより、位置条件に該当する文字列を抽出することでデータ名を生成する形態であってもよい。またデータ処理装置1は、ステップS1〜S3、S13〜S18、S11及びS12の処理を実行することにより、キーワードに連接する文字列を抽出することでデータ名を生成する形態であってもよい。またデータ処理装置1は、ステップS1〜S3、S13、S14、S19〜S24、S11及びS12の処理を実行することにより、使用頻度の低い形態素を含む文字列を抽出することでデータ名を生成する形態であってもよい。
また本実施の形態においては、画像読取部14で生成した画像データに対してデータ名を生成する形態を示したが、本発明のデータ処理装置1は、ファクシミリ通信等により外部から送信された画像データを受信し、受信した画像データに対してデータ名を生成する形態であってもよい。また本実施の形態においては、データ処理装置1として、画像形成部16を備えた形態を示したが、本発明のデータ処理装置1は、画像形成部16を備えておらず、スキャナ装置として機能する形態であってもよい。また本実施の形態においては、データ名を付した画像データを記憶部13に記憶する形態を示したが、本発明のデータ処理装置1は、データ名を付した画像データを通信部18から外部へ送信し、外部の記憶装置に画像データを記憶させる形態であってもよい。また本実施の形態においては、主に情報処理を制御部11で実行する形態を示したが、データ処理装置1は、データ処理装置1に必要な情報処理の一部を夫々に実行する複数の情報処理回路を備え、各情報処理回路で情報処理を分散して実行する形態であってもよい。
(実施の形態2)
実施の形態2では、汎用のコンピュータを用いて本発明のデータ処理装置を実現した形態を示す。図10は、実施の形態2に係る本発明のデータ処理装置2の内部構成を示すブロック図である。本実施の形態に係るデータ処理装置2は、PC又はサーバ装置等の汎用コンピュータを用いて構成されており、演算を行うCPU21と、演算に伴って発生する一時的な情報を記憶するRAM22と、光ディスク又はメモリカード等の記録媒体3から情報を読み取るCD−ROMドライブ等のドライブ部23と、ハードディスク等の記憶部24とを備えている。CPU21は、記録媒体3から本発明のコンピュータプログラム31をドライブ部23に読み取らせ、読み取ったコンピュータプログラム31を記憶部24に記憶させる。コンピュータプログラム31は必要に応じて記憶部24からRAM22へロードされ、ロードされたコンピュータプログラム31に基づいてCPU21はデータ処理装置2に必要な処理を実行する。また記録媒体3には、位置条件テーブル、キーワードテーブル及び形態素連接テーブルが記録されており、位置条件テーブル、キーワードテーブル及び形態素連接テーブルは、ドライブ部23で記録媒体3から読み取られ、記憶部24に記憶される。CPU21は、位置条件テーブル、キーワードテーブル及び形態素連接テーブルを必要に応じて記憶部24からRAM22へ読み出す処理を行う。
またデータ処理装置2は、使用者が操作することによる各種の処理指示等の情報が入力されるキーボード又はポインティングデバイス等の入力部25と、各種の情報を表示する液晶ディスプレイ等の表示部26とを備えている。更にデータ処理装置2は、図示しない外部の通信ネットワークに接続可能な送信部27と、画像データを入力する外部の入力装置4に接続された受信部28とを備えている。送信部27は、ネットワークカード又はモデム等であり、入力装置4は、フラットベッドスキャナ又はフィルムスキャナ等のスキャナ装置である。入力装置4は、文書原稿に記録された画像を光学的に読み取って画像データを生成し、生成した画像データをデータ処理装置2へ送信し、受信部28は、入力装置4から送信された画像データを受信する。また送信部27は、図示しない通信ネットワークを介して、ファクシミリ又は電子メール等の通信方法により外部へデータを送信することができる。
CPU21は、本発明のコンピュータプログラム31をRAM22にロードし、ロードしたコンピュータプログラム31に従って、本発明のデータ名生成方法に係る処理を実行する。即ち、受信部28で入力装置4から画像データが入力された場合に、CPU21は、入力された画像データをRAM22に記憶し、コンピュータプログラム31に従って、実施の形態1で説明したステップS2〜S23の処理と同様の情報処理を実行することにより、画像データのデータ名を生成し、データ名を付した画像データを記憶部24に記憶させる処理を行う。
以上のように、本実施の形態においても、実施の形態1と同様に、データ処理装置2は、画像データにより表現される画像に含まれる文字で構成される文書中から、文書の内容の趣旨を表した語句を抽出し、抽出した語句を含むデータ名を生成する。なお、本発明のコンピュータプログラム31は、インターネット又はLAN等の通信ネットワークを介して図示しない外部のサーバ装置からデータ処理装置2へダウンロードされて記憶部24に記憶される形態であってもよい。
1、2 データ処理装置
11 制御部
12 ROM
121 位置条件テーブル
122 キーワードテーブル
123 形態素連接テーブル
13、24 記憶部
14 画像読取部
3 記録媒体
31 コンピュータプログラム

Claims (3)

  1. 画像データのデータ名を生成する処理を行うデータ処理装置において、
    画像データにより表現される画像に含まれる文字の認識を行う手段と、
    認識した文字で構成される文書中から、文書の内容を表す語句を抽出する語句抽出手段と、
    前記画像データのデータ名として、抽出した語句を含んだデータ名を生成する手段と、
    文書の内容を表す語句が文書中で配置されている位置を示す位置条件を記憶する手段と
    文書の内容を表す語句に付随して文書中に含まれるキーワード、及び文書中における前記キーワードに対する前記語句の相対位置を記憶する手段と、
    一又は複数の形態素からなる文字列が名詞句であるための形態素の種類及び順番の条件を定めた文字列条件を記憶する手段とを備え、
    前記語句抽出手段は、
    画像データにより表現される画像から、他の文字から離隔した文字列が含まれる領域を抽出する手段と、
    該手段が抽出した領域の前記画像内における位置が、記憶してある前記位置条件に該当するか否かを判定する手段と、
    前記領域の位置が前記位置条件に該当する場合に、前記領域に含まれる文字列が意味する語句を抽出する手段と
    前記領域の位置が前記位置条件に該当しない場合に、前記画像データから得られた文書の形態素解析を行う手段と、
    形態素解析を行った前記文書中から、記憶してある前記キーワードを特定する手段と、
    前記キーワードが特定できた場合に、特定した前記キーワードについて記憶してある相対位置に前記文書中で配置されている文字列を抽出する手段と、
    抽出した文字列が、記憶してある前記文字列条件に該当するか否かを判定する手段と、
    抽出した文字列が前記文字列条件に該当する場合に、前記文字列が意味する語句を抽出する手段と、
    前記文書中から前記キーワードが特定できない場合、又は抽出した文字列が前記文字列条件に該当しない場合に、形態素解析を行った前記文書に含まれる各形態素の前記文書中での使用頻度を求める手段と、
    求めた使用頻度が低い順に形態素を選択する手段と、
    選択した形態素を含んだ文字列を前記文書中から抽出する手段と、
    抽出した文字列が前記文字列条件に該当するか否かを判定する手段と、
    抽出した文字列が前記文字列条件に該当する場合に、前記文字列が意味する語句を抽出する手段と
    を有することを特徴とするデータ処理装置。
  2. 画像データのデータ名を生成するデータ名生成方法において、
    文書の内容を表す語句が文書中で配置されている位置を示す位置条件を予め定めておき、
    文書の内容を表す語句に付随して文書中に含まれるキーワード、及び文書中における前記キーワードに対する前記語句の相対位置を予め定めておき、
    一又は複数の形態素からなる文字列が名詞句であるための形態素の種類及び順番の条件を定めた文字列条件を予め定めておき、
    画像データにより表現される画像に含まれる文字を認識し、
    前記画像から、他の文字から離隔した文字列が含まれる領域を抽出し、
    抽出した領域の前記画像内における位置が、予め定めてある前記位置条件に該当するか否かを判定し、
    前記領域の位置が前記位置条件に該当する場合に、前記領域に含まれる文字列が意味する語句を抽出することによって、認識した文字で構成される文書の内容を表す語句を抽出し、
    前記領域の位置が前記位置条件に該当しない場合に、前記画像データから得られた文書の形態素解析を行い、
    形態素解析を行った前記文書中から、予め定めてある前記キーワードを特定し、
    前記キーワードが特定できた場合に、特定した前記キーワードについて予め定めてある相対位置に前記文書中で配置されている文字列を抽出し、
    抽出した文字列が、予め定めてある前記文字列条件に該当するか否かを判定し、
    抽出した文字列が前記文字列条件に該当する場合に、前記文字列が意味する語句を抽出し、
    前記文書中から前記キーワードが特定できない場合、又は抽出した文字列が前記文字列条件に該当しない場合に、形態素解析を行った前記文書に含まれる各形態素の前記文書中での使用頻度を求め、
    求めた使用頻度が低い順に形態素を選択し、
    選択した形態素を含んだ文字列を前記文書中から抽出し、
    抽出した文字列が前記文字列条件に該当するか否かを判定し、
    抽出した文字列が前記文字列条件に該当する場合に、前記文字列が意味する語句を抽出し、
    抽出した語句を含んだデータ名を生成すること
    を特徴とするデータ名生成方法。
  3. コンピュータに、画像データのデータ名を生成する処理を実行させるためのコンピュータプログラムにおいて、
    コンピュータに、画像データにより表現される画像に含まれる文字の認識を行わせる手順と、
    コンピュータに、前記画像から、他の文字から離隔した文字列が含まれる領域を抽出させる手順と、
    コンピュータに、抽出した領域の前記画像内における位置が、文書の内容を表す語句が文書中で配置されている位置を示す所定の位置条件に該当するか否かを判定させる手順と、
    コンピュータに、前記領域の位置が前記位置条件に該当する場合に、前記領域に含まれる文字列が意味する語句を抽出させる手順と、
    コンピュータに、前記領域の位置が前記位置条件に該当しない場合に、前記画像データから得られた文書の形態素解析を行わせる手順と、
    コンピュータに、形態素解析を行った前記文書中から、任意の文書の内容を表す語句に付随して前記任意の文書中に含まれる所定のキーワードを特定させる手順と、
    コンピュータに、前記キーワードが特定できた場合に、特定した前記キーワードについて定められた特定の相対位置に、形態素解析を行った文書中で配置されている文字列を抽出させる手順と、
    コンピュータに、抽出した文字列が、一又は複数の形態素からなる文字列が名詞句であるための形態素の種類及び順番の条件を定めた特定の文字列条件に該当するか否かを判定させる手順と、
    コンピュータに、抽出した文字列が前記文字列条件に該当する場合に、前記文字列が意味する語句を抽出させる手順と、
    コンピュータに、前記文書中から前記キーワードが特定できない場合、又は抽出した文字列が前記文字列条件に該当しない場合に、形態素解析を行った文書に含まれる各形態素の前記文書中での使用頻度を求めさせる手順と、
    コンピュータに、求めた使用頻度が低い順に形態素を選択させる手順と、
    コンピュータに、選択した形態素を含んだ文字列を前記文書中から抽出させる手順と、
    コンピュータに、抽出した文字列が前記文字列条件に該当するか否かを判定させる手順と、
    コンピュータに、抽出した文字列が前記文字列条件に該当する場合に、前記文字列が意味する語句を抽出させる手順と、
    コンピュータに、前記画像データのデータ名として、抽出した語句を含んだデータ名を生成させる手順と
    を含むことを特徴とするコンピュータプログラム。
JP2009213422A 2009-09-15 2009-09-15 データ処理装置、データ名生成方法及びコンピュータプログラム Active JP5430312B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009213422A JP5430312B2 (ja) 2009-09-15 2009-09-15 データ処理装置、データ名生成方法及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009213422A JP5430312B2 (ja) 2009-09-15 2009-09-15 データ処理装置、データ名生成方法及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2011065255A JP2011065255A (ja) 2011-03-31
JP5430312B2 true JP5430312B2 (ja) 2014-02-26

Family

ID=43951463

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009213422A Active JP5430312B2 (ja) 2009-09-15 2009-09-15 データ処理装置、データ名生成方法及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP5430312B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2013157293A1 (ja) 2012-04-19 2015-12-21 日本碍子株式会社 膜型圧電/電歪素子
JP6470071B2 (ja) * 2015-03-06 2019-02-13 シャープ株式会社 画像処理装置
JP6699627B2 (ja) * 2017-06-06 2020-05-27 京セラドキュメントソリューションズ株式会社 画像形成装置、及び画像形成装置が実行する認証方法
JP6891073B2 (ja) * 2017-08-22 2021-06-18 キヤノン株式会社 スキャン画像にファイル名等を設定するための装置、その制御方法及びプログラム
CN110413802A (zh) * 2018-04-27 2019-11-05 中兴通讯股份有限公司 媒体文件备注方法、装置、移动终端和存储介质
JP7400548B2 (ja) * 2020-03-03 2023-12-19 富士フイルムビジネスイノベーション株式会社 情報処理装置、画像処理装置、情報処理システム、及びプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0561903A (ja) * 1991-09-03 1993-03-12 Mitsubishi Electric Corp 意味マーカ付与装置
JPH11328206A (ja) * 1998-05-18 1999-11-30 Ricoh Co Ltd キーワード抽出装置および方法ならびに記憶媒体
JP2000181936A (ja) * 1998-12-17 2000-06-30 Nippon Telegr & Teleph Corp <Ntt> 文書特徴抽出装置および文書分類装置
JP3768738B2 (ja) * 1999-07-14 2006-04-19 富士通株式会社 電子ファイリングシステム,表紙識別処理装置およびそれらのプログラム記録媒体
JP2002297638A (ja) * 2001-03-29 2002-10-11 Ricoh Co Ltd 文書画像からのタイトル抽出方法
JP2005293243A (ja) * 2004-03-31 2005-10-20 Just Syst Corp 文書処理装置
JP2006092346A (ja) * 2004-09-24 2006-04-06 Fuji Xerox Co Ltd 文字認識装置、文字認識方法および文字認識プログラム
JP2008176624A (ja) * 2007-01-19 2008-07-31 Seiko Epson Corp 文字認識結果の管理装置およびその方法並びにコンピュータプログラム
JP5178077B2 (ja) * 2007-07-20 2013-04-10 株式会社東芝 議論状況把握支援装置および方法

Also Published As

Publication number Publication date
JP2011065255A (ja) 2011-03-31

Similar Documents

Publication Publication Date Title
US7752032B2 (en) Apparatus and method for translating Japanese into Chinese using a thesaurus and similarity measurements, and computer program therefor
US7647303B2 (en) Document processing apparatus for searching documents, control method therefor, program for implementing the method, and storage medium storing the program
JP5430312B2 (ja) データ処理装置、データ名生成方法及びコンピュータプログラム
JP2004348591A (ja) 文書検索方法及び装置
US20110231411A1 (en) Topic Word Generation Method and System
US9881001B2 (en) Image processing device, image processing method and non-transitory computer readable recording medium
JP7493937B2 (ja) 文書における見出しのシーケンスの識別方法、プログラム及びシステム
US7684975B2 (en) Morphological analyzer, natural language processor, morphological analysis method and program
JP2006065477A (ja) 文字認識装置
JP2005038395A (ja) データベース検索装置
US8135573B2 (en) Apparatus, method, and computer program product for creating data for learning word translation
JP2009199302A (ja) ドキュメントを解析するためのプログラム,装置および方法
JP2006343925A (ja) 関連語辞書作成装置、および関連語辞書作成方法、並びにコンピュータ・プログラム
JP5179564B2 (ja) クエリセグメント位置決定装置
JP2004334341A (ja) 文書検索装置、文書検索方法及び記録媒体
CN115203445A (zh) 多媒体资源搜索方法、装置、设备及介质
JP5025603B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
CN106250354A (zh) 处理文书的信息处理装置、信息处理方法以及程序
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
JP5326781B2 (ja) 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム
JP5379416B2 (ja) 言語処理装置および言語処理方法
JP2005092229A5 (ja)
JP2004206521A (ja) 文書検索装置および文書検索プログラム
US11206335B2 (en) Information processing apparatus, method and non-transitory computer readable medium
JP2010134766A (ja) 文書データ処理装置およびそのプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110824

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130315

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130326

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130517

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130709

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131007

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20131015

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131112

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131203

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5430312

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150