JP2012216059A - 検出プログラム、検出装置、および検出方法 - Google Patents

検出プログラム、検出装置、および検出方法 Download PDF

Info

Publication number
JP2012216059A
JP2012216059A JP2011080724A JP2011080724A JP2012216059A JP 2012216059 A JP2012216059 A JP 2012216059A JP 2011080724 A JP2011080724 A JP 2011080724A JP 2011080724 A JP2011080724 A JP 2011080724A JP 2012216059 A JP2012216059 A JP 2012216059A
Authority
JP
Japan
Prior art keywords
sentence
character string
missing
result
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011080724A
Other languages
English (en)
Other versions
JP5655670B2 (ja
Inventor
Takashi Ito
孝 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2011080724A priority Critical patent/JP5655670B2/ja
Publication of JP2012216059A publication Critical patent/JP2012216059A/ja
Application granted granted Critical
Publication of JP5655670B2 publication Critical patent/JP5655670B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】領域内に出力された文章の欠落を高速に検出する。
【解決手段】検出装置100は、印刷された健康診断結果報告書101を、スキャナ102を用いて取り込み、画像データ103を生成する。なお、健康診断結果報告書101は、“〜〜〜〜癌である疑いがあります。”という文章のうち、“疑いがあります。”という“〜〜〜〜癌である”以降の後続文章が領域104からはみ出してしまった状態である。検出装置100は、OCRを用いて、画像データ103から領域104内に存在する検出対象文字列“〜〜〜〜癌である”を読み取る。読み取り後、検出装置100は、検出対象文字列の末尾文字を検出し、続けて末尾文字が句点でない場合、検出対象文字列の後続文章の欠落を検出する。
【選択図】図1

Description

本発明は、欠落した文章を検出する検出プログラム、検出装置、および検出方法に関する。
従来から、検診施設は、健康診断の検診結果を当人に通知するため、健康診断結果報告書を作成し、当人に通知していた。近年では、検診施設のシステム化が図られており、システムが健康診断結果報告書を出力している。しかし、システムは、健康診断結果報告書の予め限られた領域内に担当医等が入力した健康診断の結果を出力するため、出力する文字数が多い場合、途中で文章が切れた状態で出力してしまうことがあった。
このような、出力された文章の欠落の有無を検出する技術として、たとえば、印刷された帳票をOCR(Optical Character Reader)で文字認識した後、読み取った文章がマスタに存在するかを検索することで、文章の欠落を検出する技術が開示されている(たとえば、下記特許文献1、2を参照。)。また、文章の欠落を検出する他の技術として、たとえば、対象文章から対比文章を作成し、対象文章と対比文章の単語数、単語種類などの特徴から作成される特徴ベクトルを用いて、対象文章に句読点が欠落していたことを検出する開示されている(たとえば、下記特許文献3を参照。)。
特開平8−030700号公報 特開平2−158863号公報 特開2010−218318号公報
上述した従来技術1〜3を適用することで、OCRで読み取った文章が欠落したことを検出することができる。しかしながら、従来技術1〜3にかかる技術では、マスタに登録されている文章を検索したり、または、特徴を取得したりするために、欠落した文章を検出する処理に時間を要するという問題があった。たとえば、健康診断結果報告書が大量にある場合、従来技術1〜3にかかる技術では欠落した文章の検出に時間がかかってしまっていた。
本発明は、上述した従来技術による問題点を解消するため、領域内に出力された文章の欠落を高速に検出できる検出プログラム、検出装置、および検出方法を提供することを目的とする。
上述した課題を解決し、目的を達成するため、本発明の一側面によれば、画像化された文章が含まれた画像データから文字を読み取る読取部から、画像データの所定の領域内に存在する文字列を取得し、続けて、文字列の末尾文字を検出し、末尾文字が句点であるか否かを判断し、判断の結果に基づいて、文章に対する後続文章の欠落可能性の結果を出力する検出プログラム、検出装置、および検出方法が提案される。
本発明の一側面によれば、領域内に出力された文章の欠落を高速に検出できるという効果を奏する。
図1は、実施の形態にかかる検出装置100の動作例を示す説明図である。 図2は、検出装置100のハードウェア例を示すブロック図である。 図3は、検出装置100の機能例を示すブロック図である。 図4は、健康診断結果報告書101の一例を示す説明図である。 図5は、語尾チェックテーブル311の記憶内容を示す説明図である。 図6は、文字列フィールド定義テーブル312の記憶内容を示す説明図である。 図7は、欠落の結果の一例を示す説明図である。 図8は、欠落文章検出処理の一例を示すフローチャートである。
以下に添付図面を参照して、開示の検出プログラム、検出装置、および検出方法の実施の形態を詳細に説明する。
図1は、実施の形態にかかる検出装置100の動作例を示す説明図である。検出装置100は、印刷された健康診断結果報告書101を、スキャナ102を用いて取り込み、健康診断結果報告書101の画像データ(以下、単に画像データと称する)103を生成する。
なお、健康診断結果報告書101は、印刷される際に、“〜〜〜〜癌である疑いがあります。”という対象文章のうち、“〜〜〜〜癌である”文章以降の“疑いがあります。”という後続文章が健康診断結果報告書101の領域104からはみ出してしまった状態である。報告書の内容が「癌である疑いがあります。」という可能性を示す表現である場合と、「癌である」という断定を示す表現である場合とでは、この報告書を見たユーザが健康診断の結果として認識する結果が全く異なってしまう。画像データ103は、領域104内に存在した“〜〜〜〜癌である”という文章が画像化された状態で含まれている。なお、本実施の形態では、印刷された健康診断結果報告書101を文章の欠落の検出対象としているが、文章が入力されたファイルを印刷した印刷物を検出対象としてもよい。
続けて、検出装置100は、OCRを用いて、画像データ103から予め決められた領域104内に存在する文字列を読み取る。以下、予め決められていた領域104内に存在する文字列を検出対象文字列と呼称する。検出対象文字列は、図1の例では、領域104内に存在する“〜〜〜〜癌である”となる。読み取り後、検出装置100は、検出対象文字列の末尾文字を検出し、続けて末尾文字が句点であるかを判断する。図1の例では、末尾文字“る”となり、句点ではないため、検出装置100は、画像化された文章に対する後続文章の欠落を検出する。
これにより、検出装置100は、全文登録済のデータベースを検索せずに検出対象文字列の欠落の有無を検出するため、画像化された文章に対する後続文章の欠落の検出を高速に行える。以下、図2〜図8を用いて、図1で示した動作を行う検出装置100のハードウェア、機能、フローチャートを説明する。
(検出装置100のハードウェア)
図2は、検出装置100のハードウェア例を示すブロック図である。図2において、検出装置100は、CPU(Central Processing Unit)201と、ROM(Read‐Only Memory)202と、RAM(Random Access Memory)203と、を含む。また、記憶装置として検出装置100は、磁気ディスクドライブ204と、磁気ディスク205と、光ディスクドライブ206と、光ディスク207と、を含む。また、ユーザやその他の機器との入出力装置として検出装置100は、ディスプレイ208と、I/F(Interface)209と、キーボード210と、マウス211と、スキャナ102と、プリンタ212と、を含む。また、各部はバス213によってそれぞれ接続されている。
ここで、CPU201は、検出装置100の全体の制御を司る。ROM202は、ブートプログラムなどのプログラムを記憶している。RAM203は、CPU201のワークエリアとして使用される。磁気ディスクドライブ204は、CPU201の制御にしたがって磁気ディスク205に対するデータのリード/ライトを制御する。磁気ディスク205は、磁気ディスクドライブ204の制御で書き込まれたデータを記憶する。
光ディスクドライブ206は、CPU201の制御にしたがって光ディスク207に対するデータのリード/ライトを制御する。光ディスク207は、光ディスクドライブ206の制御で書き込まれたデータを記憶したり、光ディスク207に記憶されたデータをコンピュータに読み取らせたりする。なお、ROM202、磁気ディスク205、光ディスク207のいずれかの記憶装置に、本実施の形態にかかる検出プログラムが格納されていてもよい。
ディスプレイ208は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。たとえば、ディスプレイ208は、CRT、TFT液晶ディスプレイ、プラズマディスプレイなどを採用することができる。
I/F209は、通信回線を通じてLAN(Local Area Network)、WAN(Wide Area Network)、インターネットなどのネットワーク214に接続され、ネットワーク214を介して他の装置に接続される。そして、I/F209は、ネットワーク214と内部のインターフェースを司り、外部装置からのデータの入出力を制御する。I/F209には、たとえばモデムやLANアダプタなどを採用することができる。
キーボード210は、文字、数字、各種指示などの入力のためのキーを有し、データの入力を行う。また、キーボード210は、タッチパネル式の入力パッドやテンキーなどであってもよい。マウス211は、カーソルの移動や範囲選択、あるいはウィンドウの移動やサイズの変更などを行う。また、検出装置100は、マウス211の代わりとして、ポインティングデバイスとして同様の機能を有していれば、トラックボールやジョイスティックなどを含んでいてもよい。
スキャナ102は、画像を光学的に読み取り、検出装置100内に画像データを取り込む。なお、スキャナ102は、OCR機能を持たせてもよい。たとえば、本実施の形態にかかる検出装置100は、健康診断結果報告書を読み取り、OCR機能によって文字列を読み取っている。また、プリンタ212は、画像データや文書データを印刷する。プリンタ212には、たとえば、レーザプリンタやインクジェットプリンタを採用することができる。
(検出装置100の機能)
次に、検出装置100の機能について説明する。図3は、検出装置100の機能例を示すブロック図である。検出装置100は、読取部301と、取得部302と、検出部303と、判断部304と、出力部305と、検索部306と、を含む。この制御部となる機能(読取部301〜検索部306)は、記憶装置310に記憶されたプログラムをCPU201が実行することにより、その機能を実現する。記憶装置310は、具体的には、たとえば、図2に示したROM202、RAM203、磁気ディスク205、光ディスク207などである。または、I/F209を経由して他のCPUが実行することにより、その機能を実現してもよい。
また、検出装置100は、記憶装置310に含まれる語尾チェックテーブル311と、文字列フィールド定義テーブル312、画像データ103にアクセス可能である。なお、画像データ103は、健康診断結果報告書101がスキャナ102によって読み取られることで生成されたデータであることを想定している。また、画像データ103は、I/F209を経由して取得されたデータであってもよい。
語尾チェックテーブル311は、検出対象文字列の末尾文字列として設定可能な文字列が格納されているテーブルである。なお、語尾チェックテーブル311の具体的なデータの格納例は、図5にて後述する。文字列フィールド定義テーブル312は、健康診断結果報告書101内の検出対象文字列が印刷されている領域を格納するテーブルである。なお、文字列フィールド定義テーブル312の具体的な格納例は、図6にて後述する。
読取部301は、画像化された文章が含まれた画像データ103から文字を読み取る機能を有する。たとえば、読取部301は、画像データ103と、前もって記憶されたパターンとの照合により文字を特定し、文字を読み取る。読取部301の機能は、スキャナ102にあってもよい。なお、読み取った文字は、CPU201のレジスタ、RAM203などの書き込み可能な記憶領域に格納される。
取得部302は、読取部301から、画像データ103の所定の領域内に存在する検出対象となる検出対象文字列を取得する機能を有する。なお、所定の領域とは、文字列フィールド定義テーブル312にて定義されている領域である。たとえば、取得部302は、画像データ103内の左上の座標が(10、40)となり、右下の座標が(300、150)となる矩形領域内に存在する検出対象文字列を取得する。なお、取得した検出対象文字列は、CPU201のレジスタ、RAM203などの書き込み可能な記憶領域に格納される。
検出部303は、検出対象文字列の末尾文字を検出する。たとえば、取得部302によって取得された検出対象文字列が、“〜〜〜〜癌である”である場合を想定する。このとき、検出部303は、末尾文字として“る”を検出する。なお、検出された末尾文字は、CPU201のレジスタ、RAM203などの書き込み可能な記憶領域に格納される。また、格納される情報は、取得部302にて記憶された検出対象文字列内の、末尾文字の位置を示すポインタであってもよい。
判断部304は、末尾文字が句点であるか否かを判断する機能を有する。たとえば、検出部303によって末尾文字“る”が検出された場合を想定する。このとき、判断部304は、“る”が句点であるか否かを判断する。なお、判断結果は、CPU201のレジスタ、RAM203などの書き込み可能な記憶領域に格納される。
出力部305は、判断部304による判断結果に基づいて、画像化された文章に対する後続文章の欠落可能性の結果を出力する機能を有する。たとえば、出力部305は、句点でない場合、後続文章が欠落していることを出力する。
また、出力部305は、末尾文字が句点でない場合、後続文章の欠落可能性の結果として後続文章が欠落している可能性があることを出力してもよい。また、出力部305は、末尾文字が句点である場合、後続文章の欠落可能性の結果として後続文章が欠落していないことを出力してもよい。また、出力部305は、検索部306による検索の結果、末尾文字列に一致する語尾がない場合、後続文章の欠落可能性の結果として後続文章が欠落していることを出力してもよい。
また、出力部305は、判断部304による判断結果に基づいて、後続文章の欠落可能性の結果と末尾文字を出力してもよい。たとえば、出力部305は、後続文章の欠落可能性の結果が、後続文章が欠落しており、末尾文字が“る”であることを出力する。なお、出力形式としては、たとえば、ディスプレイ208への表示、プリンタ212への印刷出力、I/F209による外部装置への送信がある。また、出力部305は、出力結果をRAM203、磁気ディスク205、光ディスク207などの記憶領域に記憶することとしてもよい。
検索部306は、判断部304によって末尾文字が句点でないと判断された場合、語尾に関する文字列群が格納された語尾チェックテーブル311を参照して、検出対象文字列の末尾文字列に一致する語尾を検索する機能を有する。
たとえば、検出対象文字列が、“〜〜〜〜癌である”である場合を想定する。このとき、判断部304は、末尾文字“る”が句点でないと判断し、続けて、検索部306が、検出対象文字列の末尾文字列に一致する語尾を検索する。たとえば、語尾チェックテーブル311に”ある”という語尾がある場合、検索部306は、検索結果を発見できたとして出力し、ない場合、検索結果を発見できなかったとして出力する。なお、検索結果は、CPU201のレジスタ、RAM203などの書き込み可能な記憶領域に格納される。
図4は、健康診断結果報告書101の一例を示す説明図である。健康診断結果報告書101内には、たとえば、報告書の名称を表示する領域401、健康診断の対象者の個人情報を表示する領域402、判定結果を表示する領域403、担当医によって入力された総合所見を表示する領域404が含まれる。さらに、健康診断結果報告書101内には、総合所見以外のメッセージを表示する領域405、診断結果の詳細を表示する領域406が含まれる。たとえば、検出装置100は、総合所見を表示する領域404を、検出対象文字列が含まれる領域104として文字列フィールド定義テーブル312に予め記憶しておく。
図5は、語尾チェックテーブル311の記憶内容を示す説明図である。語尾チェックテーブル311は、語尾というフィールドを含む。語尾フィールドには、検出対象文字列の末尾文字列として設定可能な文字列が格納される。たとえば、図5に示す語尾チェックテーブル311は、“です”、“ます”、“します”が格納されている。
図6は、文字列フィールド定義テーブル312の記憶内容を示す説明図である。文字列フィールド定義テーブル312は、ファイル名称、領域名称、領域という3つのフィールドを含む。ファイル名称フィールドには、欠落した文章の検出対象となるファイルの名称が格納される。また、ファイル名称フィールドには、ファイルを一意に特定する識別情報が格納されていてもよい。領域名称フィールドには、検索対象文字列を含んでいる領域の名称が格納される。領域フィールドには、領域名称の具体的な範囲が格納される。具体的に、領域フィールドは、領域内の左上のX座標、左上のY座標、右下のX座標、右下のY座標が格納されている。
たとえば、図6で示す文字列フィールド定義テーブル312には、健康診断結果報告書の総合所見の領域が、左上の座標が(10、40)となり、右下の座標が(300、150)となる矩形領域であることを示している。なお、領域フィールドの設定方法としては、たとえば、健康診断結果報告書の印刷元のデータから、システムの設計者によって設定されてもよい。
図7は、欠落の結果の一例を示す説明図である。図7では、検出対象文字列に応じた欠落の結果の例を4つ示している。符号701で示す説明図は、健康診断結果報告書101−1の領域104−1内に示される検出対象文字列が“〜〜〜〜癌である疑いがあります。”となった場合の欠落を判定した結果を示している。符号702で示す説明図は、健康診断結果報告書101−2の領域104−2内に示される検出対象文字列が“〜〜〜〜癌である”となった場合の欠落を判定した結果を示している。
符号703で示す説明図は、健康診断結果報告書101−3の領域104−3内に示される検出対象文字列が“〜〜〜〜癌である”となり、さらに、語尾チェックテーブル311による検索を追加した場合の欠落を判定した結果を示している。符号704で示す説明図は、健康診断結果報告書101−4の領域104−4内に示される検出対象文字列が”〜〜〜〜癌である疑いがあります”となり、さらに、語尾チェックテーブル311による検索を追加した場合の欠落を判定した結果を示している。
符号701の説明図では、検出対象文字列の末尾文字が“。”であり、句点であるため、検出装置100は、欠落可能性の結果として後続文章が欠落していないことを出力する。また、検出装置100は、末尾文字“。”を出力してもよい。符号702の説明図では、検出対象文字列の末尾文字が“る”であり、句点でないため、検出装置100は、欠落可能性の結果として後続文章の欠落の可能性があることを出力する。また、検出装置100は、末尾文字“る”を出力してもよい。なお、符号702の状態で、欠落の可能性ありと出力するのは、領域104に入力された文章が句点のない文章である可能性が存在するためである。
符号703の説明図では、検出対象文字列の末尾文字が“る”であり、句点でないため、検出装置100は、続けて、語尾チェックテーブル311を参照して、検出対象文字列の末尾文字列に一致する語尾を検索する。このとき、語尾チェックテーブル311に登録されている語尾が、図5で示した状態であると想定すると、検出装置100は、末尾文字列に一致する語尾がないと判断し、欠落可能性の結果として後続文章が欠落していることを出力する。また、検出装置100は、末尾文字“る”を出力してもよい。
符号704の説明図では、検出対象文字列の末尾文字が“す”であり、句点でないため、検出装置100は、続けて、語尾チェックテーブル311を参照して、検出対象文字列の末尾文字列に一致する語尾を検索する。このとき、語尾チェックテーブル311に登録されている語尾が、図5で示した状態であると想定すると、検出装置100は、末尾文字列に一致する語尾“ます”があると判断し、欠落可能性の結果として後続文章が欠落していないことを出力する。また、検出装置100は、末尾文字“す”を出力してもよい。なお、符号704の状態では、入力ミスの可能性があることから、入力ミスの可能性ありと出力してもよい。
図8は、欠落文章検出処理の一例を示すフローチャートである。検出装置100は、健康診断結果報告書101群のうち、先頭の健康診断結果報告書101を選択する(ステップS801)。選択後、検出装置100は、選択された健康診断結果報告書101を、スキャナ102を用いて取り込み、画像データ103を生成する(ステップS802)。生成後、検出装置100は、画像データ103から、文字列フィールド定義テーブル312の領域フィールド内の検出対象文字列を、OCRを用いて取得する(ステップS803)。
取得後、検出装置100は、検出対象文字列の末尾文字を検出する(ステップS804)。検出後、検出装置100は、末尾文字が句点か否かを判断する(ステップS805)。末尾文字が句点である場合(ステップS805:Yes)、検出装置100は、画像化された文章に対する後続文章が欠落していないことを出力する(ステップS806)。
末尾文字が句点でない場合(ステップS805:No)、検出装置100は、語尾チェックテーブル311を参照して、検出対象文字列の末尾文字列に一致する語尾を検索する(ステップS807)。検索後、検出装置100は、一致する語尾を発見したか否かを判断する(ステップS808)。発見しなかった場合(ステップS808:No)、検出装置100は、画像化された文章に対する後続文章が欠落していることを出力する(ステップS809)。発見した場合(ステップS808:Yes)、検出装置100は、画像化された文章に対する後続文章が入力ミスの可能性ありを出力する(ステップS810)。
ステップS806、ステップS809、ステップS810による出力後、検出装置100は、全ての健康診断結果報告書101を選択したか否かを判断する(ステップS811)。全ての健康診断結果報告書101を選択していない場合(ステップS811:No)、検出装置100は、次の健康診断結果報告書101を選択し(ステップS812)、ステップS802の処理に移行する。全ての健康診断結果報告書101を選択している場合(ステップS811:Yes)、検出装置100は、欠落文章検出処理を終了する。
なお、ステップS806にて、検出装置100は、検出結果が正常であるとして、ステップS806で行っていた出力を行わなくてもよい。もし、出力を行う際に、欠落文章検出の健康診断結果報告書101が大量に存在する場合、出力先のログが、“欠落していない”という情報で埋め尽くされてしまう。結果、ログの確認者が、“欠落している”健康診断結果報告書101を探し出すのが困難になる可能性がある。出力を行わないことで、ログの確認者が、“欠落している”健康診断結果報告書101を探し出すのが容易になる。
また、ステップS805:Noのルートにて、検出装置100は、ステップS807、S808の処理を行わず、ステップS809:Noのルートにて“欠落している可能性がある”ことを出力し、ステップS811の処理に移行してもよい。これにより、検出装置100は、より少ない処理で画像化された文章に対する後続文章が欠落していることを検出することができる。
なお、ステップS806、ステップS809、ステップS810の処理にて行われる出力処理にて、検出装置100は、画像化された文章に対する後続文章が欠落したか否かの結果と、検出対象文字列の末尾文字を出力してもよい。
以上説明したように、検出プログラム、検出装置、および検出方法によれば、印刷されたファイルの印字領域からはみ出た後続文章の欠落を検出する処理において、画像化された報告書から読み取った文字列の末尾が句点か否かにより、後続文章の欠落を判断する。これにより、検出装置は、欠落した文章を検出するために、報告書に印字される全文を登録したデータベースを検索する必要が無いので、欠落の有無を判断する処理を高速に行える。従来では、たとえば、出力された健康診断結果報告書に矛盾がないかどうかを検診スタッフが目視で確認していた。このように、確認作業を自動化することにより、検診スタッフの負荷を軽減することができる。
また、検出装置は、末尾文字が句点でない場合、画像化された文章に対する後続文章の欠落可能性の結果として後続文章が欠落している可能性があることを出力してもよい。これにより、検出装置は、帳票内の印字領域からはみ出た文章を検出することができる。また、検出装置は、末尾文字が句点である場合、画像化された文章に対する後続文章の欠落可能性の結果として後続文章が欠落していないことを出力してもよい。これにより、検診スタッフは、後続文章が欠落していないと出力された帳票に関して確認を行わなくてよくなるため、検診スタッフの負荷を軽減することができる。
また、検出装置は、末尾文字が句点でない場合、語尾に関する文字列群が格納されたテーブルを参照して、検出対象文字列の末尾文字列に一致する語尾を検索し、末尾文字列に一致する語尾がない場合、結果として後続文章が欠落していることを出力してもよい。これにより、検出装置は、末尾文字が句点でないが、元々入力されていた文章に句点がない状態であった場合、入力された文章が誤っているため、入力ミスの可能性ありとして検出することができる。
また、検出装置は、画像化された文章に対する後続文章の欠落可能性の結果と末尾文字を出力してもよい。これにより、検診スタッフは、健康診断結果報告書を確認せずに、出力結果を確認することで、末尾文字を確認することができる。
また、本実施の形態にかかる検出プログラムは、欠落した文章を検出する対象を、健康診断結果報告書を例に挙げて説明を行ったが、出力領域の限られた帳票のチェックプログラムとしても活用することもできる。
なお、本実施の形態で説明した検出方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本検出プログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また本検出プログラムは、インターネット等のネットワークを介して配布してもよい。
上述した実施の形態に関し、さらに以下の付記を開示する。
(付記1)コンピュータに、
画像化された文章が含まれた画像データから文字を読み取る読取部から、前記画像データの所定の領域内に存在する文字列を取得し、
前記文字列の末尾文字を検出し、
前記末尾文字が句点であるか否かを判断し、
判断の結果に基づいて、前記文章に対する後続文章の欠落可能性の結果を出力する、
処理を実行させる検出プログラム。
(付記2)前記出力する処理は、
前記末尾文字が前記句点でない場合、前記結果として前記後続文章が欠落している可能性があることを出力する、
ことを特徴とする付記1に記載の検出プログラム。
(付記3)前記出力する処理は、
前記末尾文字が前記句点である場合、前記結果として前記後続文章が欠落していないことを出力する、
ことを特徴とする付記1に記載の検出プログラム。
(付記4)前記末尾文字が前記句点でない場合、語尾に関する文字列群が格納されたテーブルを参照して、前記文字列の末尾文字列に一致する前記語尾を検索し、
前記出力する処理は、
前記末尾文字列に一致する前記語尾がない場合、前記結果として前記後続文章が欠落していることを出力する、
ことを特徴とする付記2に記載の検出プログラム。
(付記5)前記出力する処理は、
前記判断の結果に基づいて、前記結果と前記末尾文字とを出力する、
ことを特徴とする付記1〜4のいずれか一つに記載の検出プログラム。
(付記6)画像化された文章が含まれた画像データから文字を読み取る読取部から、前記画像データの所定の領域内に存在する文字列を取得する取得部と、
前記文字列の末尾文字を検出する検出部と、
前記末尾文字が句点であるか否かを判断する判断部と、
前記判断部による判断の結果に基づいて、前記文章に対する後続文章の欠落可能性の結果を出力する出力部と、
を備えることを特徴とする検出装置。
(付記7)コンピュータが、
画像化された文章が含まれた画像データから文字を読み取る読取部から、前記画像データの所定の領域内に存在する文字列を取得し、
前記文字列の末尾文字を検出し、
前記末尾文字が句点であるか否かを判断し、
判断の結果に基づいて、前記文章に対する後続文章の欠落可能性の結果を出力する、
処理を実行する検出方法。
100 検出装置
101 健康診断結果報告書
102 スキャナ
103 画像データ
201 CPU
213 バス
301 読取部
302 取得部
303 検出部
304 判断部
305 出力部
306 検索部
310 記憶装置
311 語尾チェックテーブル
312 文字列フィールド定義テーブル

Claims (6)

  1. コンピュータに、
    画像化された文章が含まれた画像データから文字を読み取る読取部から、前記画像データの所定の領域内に存在する文字列を取得し、
    前記文字列の末尾文字を検出し、
    前記末尾文字が句点であるか否かを判断し、
    判断の結果に基づいて、前記文章に対する後続文章の欠落可能性の結果を出力する、
    処理を実行させる検出プログラム。
  2. 前記出力する処理は、
    前記末尾文字が前記句点でない場合、前記結果として前記後続文章が欠落している可能性があることを出力する、
    ことを特徴とする請求項1に記載の検出プログラム。
  3. 前記出力する処理は、
    前記末尾文字が前記句点である場合、前記結果として前記後続文章が欠落していないことを出力する、
    ことを特徴とする請求項1に記載の検出プログラム。
  4. 前記末尾文字が前記句点でない場合、語尾に関する文字列群が格納されたテーブルを参照して、前記文字列の末尾文字列に一致する前記語尾を検索し、
    前記出力する処理は、
    前記末尾文字列に一致する前記語尾がない場合、前記結果として前記後続文章が欠落していることを出力する、
    ことを特徴とする請求項2に記載の検出プログラム。
  5. 画像化された文章が含まれた画像データから文字を読み取る読取部から、前記画像データの所定の領域内に存在する文字列を取得する取得部と、
    前記文字列の末尾文字を検出する検出部と、
    前記末尾文字が句点であるか否かを判断する判断部と、
    前記判断部による判断の結果に基づいて、前記文章に対する後続文章の欠落可能性の結果を出力する出力部と、
    を備えることを特徴とする検出装置。
  6. コンピュータが、
    画像化された文章が含まれた画像データから文字を読み取る読取部から、前記画像データの所定の領域内に存在する文字列を取得し、
    前記文字列の末尾文字を検出し、
    前記末尾文字が句点であるか否かを判断し、
    判断の結果に基づいて、前記文章に対する後続文章の欠落可能性の結果を出力する、
    処理を実行する検出方法。
JP2011080724A 2011-03-31 2011-03-31 検出プログラム、検出装置、および検出方法 Expired - Fee Related JP5655670B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011080724A JP5655670B2 (ja) 2011-03-31 2011-03-31 検出プログラム、検出装置、および検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011080724A JP5655670B2 (ja) 2011-03-31 2011-03-31 検出プログラム、検出装置、および検出方法

Publications (2)

Publication Number Publication Date
JP2012216059A true JP2012216059A (ja) 2012-11-08
JP5655670B2 JP5655670B2 (ja) 2015-01-21

Family

ID=47268772

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011080724A Expired - Fee Related JP5655670B2 (ja) 2011-03-31 2011-03-31 検出プログラム、検出装置、および検出方法

Country Status (1)

Country Link
JP (1) JP5655670B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018147083A (ja) * 2017-03-02 2018-09-20 キヤノンメディカルシステムズ株式会社 レポート作成装置、レポート作成システム、及び印刷確認プログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63311559A (ja) * 1987-06-15 1988-12-20 Canon Inc 文書作成装置
JP2004094972A (ja) * 2003-10-31 2004-03-25 A I Soft Inc 文章校正装置およびその方法
JP2004240643A (ja) * 2003-02-05 2004-08-26 Toshiba Corp 文字認識システム、文字認識方法およびプログラム
JP2004272822A (ja) * 2003-03-12 2004-09-30 Seiko Epson Corp 文字認識装置および文字認識方法並びにコンピュータプログラム
JP2010044644A (ja) * 2008-08-14 2010-02-25 Fuji Xerox Co Ltd 定型媒体処理装置、定型媒体処理プログラムおよび定型媒体処理システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63311559A (ja) * 1987-06-15 1988-12-20 Canon Inc 文書作成装置
JP2004240643A (ja) * 2003-02-05 2004-08-26 Toshiba Corp 文字認識システム、文字認識方法およびプログラム
JP2004272822A (ja) * 2003-03-12 2004-09-30 Seiko Epson Corp 文字認識装置および文字認識方法並びにコンピュータプログラム
JP2004094972A (ja) * 2003-10-31 2004-03-25 A I Soft Inc 文章校正装置およびその方法
JP2010044644A (ja) * 2008-08-14 2010-02-25 Fuji Xerox Co Ltd 定型媒体処理装置、定型媒体処理プログラムおよび定型媒体処理システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018147083A (ja) * 2017-03-02 2018-09-20 キヤノンメディカルシステムズ株式会社 レポート作成装置、レポート作成システム、及び印刷確認プログラム

Also Published As

Publication number Publication date
JP5655670B2 (ja) 2015-01-21

Similar Documents

Publication Publication Date Title
CN109658999B (zh) 慢病检查报告生成方法、装置、设备及存储介质
US20020138476A1 (en) Document managing apparatus
JP2006260318A (ja) 読影レポート入力支援方法及び読影レポート入力支援システム
US11379536B2 (en) Classification device, classification method, generation method, classification program, and generation program
JP5204244B2 (ja) 誤訳の検出を支援する装置及び方法
JP5845888B2 (ja) ソフトウェア修正装置、ソフトウェア修正システム、ソフトウェア修正方法、及び、ソフトウェア修正プログラム
JP2011141749A (ja) 文書画像生成装置、文書画像生成方法及びコンピュータプログラム
JP5151412B2 (ja) 表記ゆれ解析装置
JP5655670B2 (ja) 検出プログラム、検出装置、および検出方法
CN112948880A (zh) 文件签名方法、装置、电子设备和计算机可读存储介质
JP5776539B2 (ja) 抽出装置、抽出プログラム、および抽出方法
JP2016057715A (ja) 図形式プログラム解析装置
JP6655745B1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2010003097A (ja) 文書作成支援装置及び文書作成支援プログラム
JP6777445B2 (ja) 引用マップ生成装置、引用マップ生成方法およびコンピュータプログラム
JP2010140262A (ja) 語句入力支援装置及びプログラム
JP2008210229A (ja) 知的財産情報検索装置、知的財産情報検索方法及び知的財産情報検索プログラム
JP2008108078A (ja) 検査支援システム、検査支援処理方法及び検査支援処理プログラム
JP2009211639A (ja) 文書処理装置
JP6235373B2 (ja) 言語解析方法及びシステム
JP2006031129A (ja) 文書処理手法及び文書処理装置
JP7355303B2 (ja) レセプトデータ有意性判定プログラム、レセプトデータ有意性判定方法、及び、情報処理装置
JP2005050175A (ja) イメージデータ文書検索システム
JP2010211315A (ja) レイアウト検証方法、およびレイアウト検証装置
CN114283914A (zh) 一种医学数据转换方法、装置、电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140204

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140731

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140805

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141006

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141028

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141110

R150 Certificate of patent or registration of utility model

Ref document number: 5655670

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees