JP2009266232A - キーワード識別方法及装置 - Google Patents
キーワード識別方法及装置 Download PDFInfo
- Publication number
- JP2009266232A JP2009266232A JP2009106923A JP2009106923A JP2009266232A JP 2009266232 A JP2009266232 A JP 2009266232A JP 2009106923 A JP2009106923 A JP 2009106923A JP 2009106923 A JP2009106923 A JP 2009106923A JP 2009266232 A JP2009266232 A JP 2009266232A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- key character
- character
- key
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
【解決手段】 共有キーワードを有する領域の階調値に基づいて2値前景累積図を生成し、可能なキー文字分割セグメントを決定し、可能なキー文字分割セグメントのそれぞれに応じた識別文字を識別し、標準キーワードに含まれるキー文字からなるキー文字組合せ対と、前記識別文字からなるキー文字マッチング対との対応関係によって、キーワードの中心の位置を推定し、前記キーワードの中心の位置に応じたキー文字マッチング対によって1つの図を生成し、図のうちの最大完全部分グラフに基づいて識別文字のうちの的確なキー文字を決定し、脱落キー文字と結合キー文字を識別し、前記共有キーワードに最大の識別比率を有するキーワードを含んだと判定する。
【選択図】 図1
Description
式(3)によって、前景累積階調図より図4中の4cに示すような2値前景累積図が得られる。
1.当該可能なキー文字分割セグメントは、識別されたキー文字と、位置が重なっていない。
2.推定されたキー文字の中心位置は当該可能なキー文字分割セグメントの範囲内にある。
3.当該可能なキー文字分割セグメントの識別結果には識別されるキー文字が含まれる。
脱落キー文字の判断によって、「O」は脱落した的確なキー文字であると決定できる。あらゆる脱落キー文字が識別された後、結合で的確に識別されないキー文字もあるので、最後は結合キー文字識別部8によって結合キー文字を識別する。
1.上記6枚の画像の垂直方向における投影ヒストグラムの幅を標準キーワード辞書における「CONFIDENTIAL」というキーワードのヒストグラムと同じような幅まで伸縮する。
2.上記6枚の画像の垂直方向における投影ヒストグラムと、キーワード辞書における「CONFIDENTIAL」というキーワードのヒストグラムの1次元のデータの関連値を求めることによって、6枚の画像の垂直方向における投影ヒストグラムと標準投影ヒストグラムとの最適のマッチングオフセット量を求め、このオフセット量によって、6枚の画像の垂直方向における投影ヒストグラムを、標準投影ヒストグラムと合わせる。
3.最後に、標準キーワード辞書における「CONFIDENTIAL」に関する理想投影ヒストグラムの各キー文字の分割点(表2−1で示している)によって、上記6枚の画像の垂直方向における投影ヒストグラムにおける結合部分の分割位置を決定する。
前記複数の画像又はファイルにおける前記共有キーワードを含む領域の階調値に基づいて2値前景累積図を生成する装置と、
前記2値前景累積図の分割点を決定する分割部と、
前記分割点に基づいてあらゆる可能なキー文字分割セグメントを決定するキー文字分割可能セグメント決定部と、
前記あらゆる可能なキー文字分割セグメントにおける対象に対して文字識別を行って、前記あらゆる可能なキー文字分割セグメントに対応した識別文字を取得する文字識別部と、
標準キーワード辞書に含まれる少なくとも1つの標準キーワードに対して、当該標準キーワードのキー文字組合せ対と、当該キー文字組合せ対に対応した標準キーワードに含まれるキー文字からなり、且つ、前記識別文字に含まれる、前記キー文字組合せ対の文字と同一な文字からなるキー文字マッチング対との間の対応関係によって、前記共有キーワードの中心の位置を推定するキーワード中心位置推定部と、
推定されたキーワードの中心の位置に対応した複数の前記キー文字マッチング対に含まれる識別文字を頂点とし、前記キー文字マッチング対に含まれたキー文字を2つずつ連結してなる図において頂点の数が最も多い最大完全部分グラフに含まれたあらゆる頂点により表されるキー文字を決定する最大完全部分グラフ・キー文字抽出部と、
前記推定されたキーワードの中心の位置と前記最大完全部分グラフ・キー文字抽出部により決定されたキー文字と前記それぞれの標準キーワードとに基づいて、脱落キー文字を決定する脱落キー文字識別部と、
前記推定されたキーワードの中心の位置と、前記最大完全部分グラフ・キー文字抽出部により決定されたキー文字と、前記脱落キー文字識別部により決定された脱落キー文字と、前記標準キーワードとに基づいて、結合キー文字を識別する結合キー文字識別部と、
前記最大完全部分グラフ・キー文字抽出部により決定されたキー文字と、前記前記脱落キー文字識別部により決定された脱落キー文字及び前記結合キー文字識別部により識別された結合キー文字とに基づいて、前記共有キーワードに前記標準キーワード辞書におけるどの標準キーワードを含むかを判定するキーワード決定部と、
を備えたことを特徴とするキーワード識別装置。
前記コンピュータが、
前記複数の画像又はファイルにおける前記共有キーワードを含む領域の階調値に基づいて2値前景累積図を生成するステップと、
前記2値前景累積図に基づいて当該2値前景累積図の分割点を決定し、可能なキー文字分割セグメントを決定するステップと、
あらゆる前記可能なキー文字分割セグメントに対して文字識別を行って、当該あらゆる可能なキー文字分割セグメントに対応した識別文字を取得するステップと、
標準キーワード辞書に含まれる少なくとも1つの標準キーワードに対して、当該標準キーワードのキー文字組合せ対と、当該キー文字組合せ対に対応した標準キーワードに含まれるキー文字からなり、且つ、前記識別文字に含まれる前記キー文字組合せ対の文字と同一な文字からなるキー文字マッチング対との間の対応関係によって、前記共有キーワードの中心の位置を推定するステップと、
推定されたキーワードの中心の位置に対応した複数の前記キー文字マッチング対に含まれる識別文字を頂点とし、前記キー文字マッチング対に含まれたキー文字を2つずつ連結してなる図において頂点の数が最も多い最大完全部分グラフに含まれたあらゆる頂点により表されるキー文字を決定するステップと、
前記推定されたキーワードの中心の位置と決定された前記キー文字と前記標準キーワードとに基づいて、脱落キー文字を決定するステップと、
前記推定されたキーワードの中心の位置と決定された前記キー文字と決定された前記脱落キー文字と前記標準キーワードとに基づいて、結合キー文字を識別するステップと、
前記標準キーワードに対して識別された、決定された前記キー文字と、決定された前記脱落キー文字及び結合キー文字とに基づいて、前記共有キーワードがどの標準キーワードを含むかを判定するステップと、
を含んだことを特徴とするキーワード識別方法。
2 キー文字分割可能セグメント決定部
3 文字識別部
4 キーワード辞書生成部
5 キーワード中心位置推定部
6 最大完全部分グラフ・キー文字抽出部
7 脱落キー文字識別部
8 結合キー文字識別部
9 キーワード決定部
10 キー文字マッチング対選別部
20 コンピュータ
21 入力装置
22 モニタ
23 RAM
24 ROM
25 ネットワークインターフェース
26 記憶媒体から情報を読み取る媒体読取装置
27 CPU
28 HDD
29 バス
Claims (6)
- 共有キーワードを有する複数の画像又はファイルから前記共有キーワードを識別するキーワード識別装置であって、
前記複数の画像又はファイルにおける前記共有キーワードを含む領域の階調値に基づいて2値前景累積図を生成する装置と、
前記2値前景累積図の分割点を決定する分割部と、
前記分割点に基づいてあらゆる可能なキー文字分割セグメントを決定するキー文字分割可能セグメント決定部と、
前記あらゆる可能なキー文字分割セグメントにおける対象に対して文字識別を行って、前記あらゆる可能なキー文字分割セグメントに対応した識別文字を取得する文字識別部と、
標準キーワード辞書に含まれる少なくとも1つの標準キーワードに対して、当該標準キーワードのキー文字組合せ対と、当該キー文字組合せ対に対応した標準キーワードに含まれるキー文字からなり、且つ、前記識別文字に含まれる、前記キー文字組合せ対の文字と同一な文字からなるキー文字マッチング対との間の対応関係によって、前記共有キーワードの中心の位置を推定するキーワード中心位置推定部と、
推定されたキーワードの中心の位置に対応した複数の前記キー文字マッチング対に含まれる識別文字を頂点とし、前記キー文字マッチング対に含まれたキー文字を2つずつ連結してなる図において頂点の数が最も多い最大完全部分グラフに含まれたあらゆる頂点により表されるキー文字を決定する最大完全部分グラフ・キー文字抽出部と、
前記推定されたキーワードの中心の位置と前記最大完全部分グラフ・キー文字抽出部により決定されたキー文字と前記それぞれの標準キーワードとに基づいて、脱落キー文字を決定する脱落キー文字識別部と、
前記推定されたキーワードの中心の位置と、前記最大完全部分グラフ・キー文字抽出部により決定されたキー文字と、前記脱落キー文字識別部により決定された脱落キー文字と、前記標準キーワードとに基づいて、結合キー文字を識別する結合キー文字識別部と、
前記最大完全部分グラフ・キー文字抽出部により決定されたキー文字と、前記前記脱落キー文字識別部により決定された脱落キー文字及び前記結合キー文字識別部により識別された結合キー文字とに基づいて、前記共有キーワードに前記標準キーワード辞書におけるどの標準キーワードを含むかを判定するキーワード決定部と、
を備えたことを特徴とするキーワード識別装置。 - 前記キーワード中心位置推定部により前記共有キーワードの中心の位置を推定する前に、同一の文字からなり、位置が重なる複数のキー文字マッチング対においてキー文字識別距離の和が最小でないキー文字マッチング対を削除するキー文字マッチング対選別部を更に備えたことを特徴とする請求項1に記載のキーワード識別装置。
- 前記標準キーワードに含まれるあらゆるキー文字の2つずつの組合せから前記キー文字組合せ対を構成する標準キーワード辞書生成部を更に備えたことを特徴とする請求項1又は2に記載のキーワード識別装置。
- 前記分割部は継承可能な分割方法によって前記可能なキー文字分割セグメントを決定することを特徴とする請求項1又は2に記載のキーワード識別装置。
- 前記キーワード中心位置推定部は、前記キー文字組合せ対におけるキー文字間の距離と当該キー文字組合せ対に対応した前記キー文字マッチング対における文字間の距離との対応比例関係、及び前記キー文字組合せ対における少なくとも1つのキー文字から前記それぞれの標準キーワードの中心までの距離によって、前記共有キーワードの中心の位置を推定することを特徴とする請求項1又は2に記載のキーワード識別装置。
- コンピュータが共有キーワードを有する複数の画像又はファイルから前記共有キーワードを識別するキーワード識別方法であって、
前記コンピュータが、
前記複数の画像又はファイルにおける前記共有キーワードを含む領域の階調値に基づいて2値前景累積図を生成するステップと、
前記2値前景累積図に基づいて当該2値前景累積図の分割点を決定し、可能なキー文字分割セグメントを決定するステップと、
あらゆる前記可能なキー文字分割セグメントに対して文字識別を行って、当該あらゆる可能なキー文字分割セグメントに対応した識別文字を取得するステップと、
標準キーワード辞書に含まれる少なくとも1つの標準キーワードに対して、当該標準キーワードのキー文字組合せ対と、当該キー文字組合せ対に対応した標準キーワードに含まれるキー文字からなり、且つ、前記識別文字に含まれる前記キー文字組合せ対の文字と同一な文字からなるキー文字マッチング対との間の対応関係によって、前記共有キーワードの中心の位置を推定するステップと、
推定されたキーワードの中心の位置に対応した複数の前記キー文字マッチング対に含まれる識別文字を頂点とし、前記キー文字マッチング対に含まれたキー文字を2つずつ連結してなる図において頂点の数が最も多い最大完全部分グラフに含まれたあらゆる頂点により表されるキー文字を決定するステップと、
前記推定されたキーワードの中心の位置と決定された前記キー文字と前記標準キーワードとに基づいて、脱落キー文字を決定するステップと、
前記推定されたキーワードの中心の位置と決定された前記キー文字と決定された前記脱落キー文字と前記標準キーワードとに基づいて、結合キー文字を識別するステップと、
前記標準キーワードに対して識別された、決定された前記キー文字と、決定された前記脱落キー文字及び結合キー文字とに基づいて、前記共有キーワードがどの標準キーワードを含むかを判定するステップと、
を含んだことを特徴とするキーワード識別方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810091299.0 | 2008-04-28 | ||
CN2008100912990A CN101571921B (zh) | 2008-04-28 | 2008-04-28 | 关键字识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009266232A true JP2009266232A (ja) | 2009-11-12 |
JP5240047B2 JP5240047B2 (ja) | 2013-07-17 |
Family
ID=41231276
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009106923A Expired - Fee Related JP5240047B2 (ja) | 2008-04-28 | 2009-04-24 | キーワード識別方法及装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5240047B2 (ja) |
CN (1) | CN101571921B (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202086A (zh) * | 2015-05-04 | 2016-12-07 | 阿里巴巴集团控股有限公司 | 一种图片处理、获取方法、装置及系统 |
CN106586135A (zh) * | 2016-12-28 | 2017-04-26 | 天津普达软件技术有限公司 | 一种产品包装盒生产日期喷印不良品剔除方法 |
CN113657330A (zh) * | 2021-08-24 | 2021-11-16 | 深圳市快易典教育科技有限公司 | 一种字体书写笔顺生成方法、系统及其应用方法 |
CN116072274A (zh) * | 2023-03-06 | 2023-05-05 | 四川互慧软件有限公司 | 一种救护车医护自动调派系统 |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5647919B2 (ja) * | 2011-03-07 | 2015-01-07 | 株式会社Nttドコモ | 文字認識装置、文字認識方法、文字認識システム、および文字認識プログラム |
US8331670B2 (en) * | 2011-03-22 | 2012-12-11 | Konica Minolta Laboratory U.S.A., Inc. | Method of detection document alteration by comparing characters using shape features of characters |
US9087039B2 (en) * | 2012-02-07 | 2015-07-21 | Microsoft Technology Licensing, Llc | Language independent probabilistic content matching |
CN103577414B (zh) * | 2012-07-20 | 2017-04-12 | 富士通株式会社 | 数据处理方法和设备 |
CN103345481B (zh) * | 2013-06-19 | 2016-08-24 | 新疆大学 | 一种维吾尔文图像文件的标注方法 |
CN103886096A (zh) * | 2014-04-03 | 2014-06-25 | 江苏物联网研究发展中心 | 基于图片的远程虫害识别方法 |
JP6342298B2 (ja) * | 2014-10-31 | 2018-06-13 | 株式会社東芝 | 文字認識装置、画像表示装置、画像検索装置、文字認識方法およびプログラム |
JP6341059B2 (ja) * | 2014-10-31 | 2018-06-13 | オムロン株式会社 | 文字認識装置、文字認識方法、およびプログラム |
CN105518712B (zh) * | 2015-05-28 | 2021-05-11 | 北京旷视科技有限公司 | 基于字符识别的关键词通知方法及设备 |
CN106485246B (zh) * | 2016-09-19 | 2019-07-16 | 北京小米移动软件有限公司 | 字符识别方法及装置 |
CN106682671A (zh) * | 2016-12-29 | 2017-05-17 | 成都数联铭品科技有限公司 | 图像文字识别系统 |
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
CN107766826B (zh) * | 2017-10-30 | 2020-11-03 | 广东小天才科技有限公司 | 一种查找单词释义的方法及电子设备 |
CN108540629B (zh) * | 2018-04-20 | 2020-10-27 | 蚌埠翰邦知识产权服务有限公司 | 一种儿童用终端保护外壳 |
CN110059572B (zh) * | 2019-03-22 | 2021-08-10 | 中国科学院自动化研究所 | 基于单字匹配的文档图像中文关键词检测方法、系统 |
CN113191343A (zh) * | 2021-03-31 | 2021-07-30 | 成都飞机工业(集团)有限责任公司 | 一种基于卷积神经网络的航空线材识别码自动识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03218567A (ja) * | 1989-09-11 | 1991-09-26 | Oki Electric Ind Co Ltd | 電子辞書 |
JP2001285716A (ja) * | 2000-01-24 | 2001-10-12 | Toshiba Corp | テロップ情報処理装置及びテロップ情報表示装置 |
JP2005173696A (ja) * | 2003-12-08 | 2005-06-30 | Ricoh Co Ltd | 画像表示構造 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5850476A (en) * | 1995-12-14 | 1998-12-15 | Xerox Corporation | Automatic method of identifying drop words in a document image without performing character recognition |
JP4136316B2 (ja) * | 2001-01-24 | 2008-08-20 | 富士通株式会社 | 文字列認識装置 |
CN100478979C (zh) * | 2002-11-26 | 2009-04-15 | 中国科学院计算技术研究所 | 利用身材信息辅助人脸信息的身份识别方法 |
CN100485711C (zh) * | 2003-05-16 | 2009-05-06 | 中国地质大学(武汉) | 手写字体的计算机识别与自动输入方法 |
-
2008
- 2008-04-28 CN CN2008100912990A patent/CN101571921B/zh not_active Expired - Fee Related
-
2009
- 2009-04-24 JP JP2009106923A patent/JP5240047B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03218567A (ja) * | 1989-09-11 | 1991-09-26 | Oki Electric Ind Co Ltd | 電子辞書 |
JP2001285716A (ja) * | 2000-01-24 | 2001-10-12 | Toshiba Corp | テロップ情報処理装置及びテロップ情報表示装置 |
JP2005173696A (ja) * | 2003-12-08 | 2005-06-30 | Ricoh Co Ltd | 画像表示構造 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202086A (zh) * | 2015-05-04 | 2016-12-07 | 阿里巴巴集团控股有限公司 | 一种图片处理、获取方法、装置及系统 |
CN106202086B (zh) * | 2015-05-04 | 2020-02-28 | 阿里巴巴集团控股有限公司 | 一种图片处理、获取方法、装置及系统 |
CN106586135A (zh) * | 2016-12-28 | 2017-04-26 | 天津普达软件技术有限公司 | 一种产品包装盒生产日期喷印不良品剔除方法 |
CN113657330A (zh) * | 2021-08-24 | 2021-11-16 | 深圳市快易典教育科技有限公司 | 一种字体书写笔顺生成方法、系统及其应用方法 |
CN113657330B (zh) * | 2021-08-24 | 2024-02-09 | 深圳市快易典教育科技有限公司 | 一种字体书写笔顺生成方法、系统及其应用方法 |
CN116072274A (zh) * | 2023-03-06 | 2023-05-05 | 四川互慧软件有限公司 | 一种救护车医护自动调派系统 |
Also Published As
Publication number | Publication date |
---|---|
CN101571921A (zh) | 2009-11-04 |
JP5240047B2 (ja) | 2013-07-17 |
CN101571921B (zh) | 2012-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5240047B2 (ja) | キーワード識別方法及装置 | |
JP3308032B2 (ja) | スキュー補正方法およびスキュー角検出方法およびスキュー補正装置およびスキュー角検出装置 | |
KR101185712B1 (ko) | 화상 처리 장치, 화상 처리 방법 및 프로그램을 기억하는 컴퓨터 판독 기억 매체 | |
US8351691B2 (en) | Object extraction in colour compound documents | |
US10885325B2 (en) | Information processing apparatus, control method, and storage medium | |
Bhowmick et al. | Fast polygonal approximation of digital curves using relaxed straightness properties | |
US8418050B2 (en) | Computer readable recording medium on which form data extracting program is recorded, form data extracting apparatus, and form data extracting method | |
JPH08305803A (ja) | 文字テンプレートセット学習マシン動作方法 | |
JP3943638B2 (ja) | Ocrを利用しない文書画像中のドロップワードの自動認識方法 | |
JPH09179937A (ja) | 文書画像のセンテンスの境界の自動識別方法 | |
CN105719243A (zh) | 图像处理装置和方法 | |
US20150055866A1 (en) | Optical character recognition by iterative re-segmentation of text images using high-level cues | |
KR20140102589A (ko) | 정보 처리 장치, 정보 처리 방법, 및 기억 매체 | |
KR20210081267A (ko) | 화상 처리 장치, 저장 매체, 및 화상 처리 방법 | |
US20130050765A1 (en) | Method and apparatus for document authentication using image comparison on a block-by-block basis | |
RU2597163C2 (ru) | Сравнение документов с использованием достоверного источника | |
EP3151159A1 (en) | Information processing apparatus, information processing method and program | |
JP2011238119A (ja) | 文字読取結果確認装置および文字読取結果確認方法 | |
JP4706764B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP2018055256A (ja) | 情報処理装置、情報処理方法及びプログラム | |
US9437020B2 (en) | System and method to check the correct rendering of a font | |
JP2010211470A (ja) | 文書データ生成装置と文書データ生成方法 | |
JP2020047138A (ja) | 情報処理装置 | |
US20220406083A1 (en) | Image processing apparatus, control method thereof, and storage medium | |
JP5298830B2 (ja) | 画像処理プログラム、画像処理装置及び画像処理システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111205 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130226 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130305 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130318 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160412 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |