JP2002279349A - 自動文字認識に用いる辞書の提供方法 - Google Patents
自動文字認識に用いる辞書の提供方法Info
- Publication number
- JP2002279349A JP2002279349A JP2001080173A JP2001080173A JP2002279349A JP 2002279349 A JP2002279349 A JP 2002279349A JP 2001080173 A JP2001080173 A JP 2001080173A JP 2001080173 A JP2001080173 A JP 2001080173A JP 2002279349 A JP2002279349 A JP 2002279349A
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- character recognition
- automatic character
- user
- ocr
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
れた自動文字認識対象物についての自動文字認識サービ
スを提供する自動文字認識サービス提供サイトを介し
て、ユーザから送信された自動文字認識対象物を受信し
たら、自動文字認識処理を実行するに際して参照可能な
辞書のリストをユーザに選択可能に提供する。そして、
ユーザが選択した辞書を参照し、受信した自動文字認識
対象物についての自動文字認識処理を実行する。
Description
の通信ネットワークを介して自動文字認識を提供する技
術に係り、特に、認識精度向上や処理速度向上のために
自動文字認識処理に際して参照される辞書を提供する自
動文字認識に用いる辞書の提供方法に関する。
ク技術の発展は、目覚しいものがある。自動文字認識
(以下、OCRと略称する)の分野においても、その利
用形態として、ネットワーク等を利用する方法が提案さ
れている。
は、「OCRシステム」として、ネットワークを通じて
OCR処理の負荷分散を図ることにより、処理効率を高
めることを目的とした技術が開示されている。
は、「辞書分散システム及び辞書分散管理方法」とし
て、ネットワークを通じて辞書の分散を図り、辞書管理
に工夫を凝らすことで辞書の検索効率を高めることを目
的とした技術が開示されている。
ーク上で利用する幾つかの手法は提案されているもの
の、そのほとんどは処理効率を高めることを目的として
おり、処理精度を高めることを主眼とはしていない。
て、より良い辞書を用いることが考えられる。ここで辞
書と呼んでいるものは、主に二種類の辞書の総称であ
る。
状等に関する標準的な特徴量を蓄えたものであり、一般
にはパターン辞書と呼ばれるものである。
取捨選択してより正確に文字を認識するために、単語や
その接続に関する情報を蓄えたものであり、一般には言
語辞書と呼ばれるものである。
メータを蓄えた辞書などがありうるが、代表的なものは
上記の二つである。
ン・パッケージに同梱されており、OCR使用者の側で
は、未登録の文字パターンあるいは言語情報を追加して
利用することが可能になっているというのが現状であ
る。
の更新辞書は、各ユーザが個別に作成したものを個別に
利用するのみの形態である。したがって、各ユーザは、
それぞれ独立に辞書更新をするのであって、互いの辞書
更新による認識精度向上の恩恵を共有することができな
い。
・パッケージのバージョン・アップを機会として更新さ
れた辞書を提供してはいるものの、必ずしもすべての情
報を盛り込むことができないというのが現状である。
されたならば、医学関連の文献の認識精度は大幅に高ま
ると考えられるが、OCR提供者があらゆる分野の辞書
を用意することは困難なことである。
ことである。
ユーザ辞書を公開できる場を設け、各OCRユーザが自
分の要求にあった辞書を選択しうる仕組みを設けること
で、互いに精度向上という恩恵を共有できるような辞書
サービス方法を提供することである。
認識に用いる辞書の提供方法の発明は、通信ネットワー
クを介して送信された自動文字認識対象物についての自
動文字認識サービスを提供する自動文字認識サービス提
供サイトを介して、この自動文字認識サービス提供サイ
トに前記通信ネットワークを介してアクセスするユーザ
から送信された前記自動文字認識対象物を受信するステ
ップと、前記自動文字認識対象物の受信に応じて、自動
文字認識処理を実行するに際して参照可能な辞書のリス
トを前記ユーザに選択可能に提供するステップと、前記
ユーザが選択した辞書を参照し、受信した前記自動文字
認識対象物についての自動文字認識処理を実行するステ
ップと、を具備する。
動文字認識に用いる辞書の提供方法において、辞書の識
別情報を算出するステップと、前記ユーザに選択可能に
提供する前記参照可能な辞書のリストに、算出された前
記識別情報を伴わせるステップと、を具備する。
動文字認識に用いる辞書の提供方法において、前記辞書
の識別情報として、評価原稿に対する認識精度を数値化
した辞書の有効度を用いる。
動文字認識に用いる辞書の提供方法において、前記辞書
の識別情報として、ユーザの選択履歴を通値化した辞書
の選択頻度を用いる。
のいずれか一記載の自動文字認識に用いる辞書の提供方
法において、前記自動文字認識サービス提供サイトを介
してユーザからユーザ辞書を受信するステップと、前記
ユーザ辞書を、自動文字認識処理を実行するに際して参
照可能な辞書として扱うステップと、を具備する。
のいずれか一記載の自動文字認識に用いる辞書の提供方
法において、前記自動文字認識サービス提供サイトを介
してユーザからユーザ辞書に対するリンク情報を受信す
るステップと、前記ユーザ辞書を、自動文字認識処理を
実行するに際して参照可能な辞書として扱うステップ
と、を具備する。
ないし図3に基づいて説明する。
示す模式図である。本実施の形態のシステムは、通信ネ
ットワークとしてのインターネットやイントラネット等
のネットワーク101を介してブラウズソフトウエア等
の必要な閲覧環境を備えたユーザのクライアント端末で
あるOCRサービスクライアント102にOCRサービ
スを提供する。このようなサービスの提供は、ネットワ
ーク101を介してアクセス可能なOCRサーバ103
及び辞書サーバ104でのデータ処理によって実現可能
である。つまり、OCRサーバ103は、ユーザが提供
するOCR対象物である例えば画像データに基づいてO
CR処理を実行するためのコンピュータプログラムがイ
ンストールされたコンピュータであり、このようなOC
R処理に際しては、ネットワーク101等のネットワー
クを介して辞書サーバ104にアクセスし、辞書サーバ
104が保有する辞書を参照する。
ーバ103及び辞書サーバ104によってネットワーク
101上に提供されるサイトである。OCRサーバ10
3及び辞書サーバ104は、ここでは別なものとして図
示しているが、同一であっても構わない。また、OCR
サービスクライアント102は多数存在し、その数を特
定することはできない。
ートを参照しながら説明する。
られるHTTPプロトコルはステートレス(状態を保持
しない)であって、一つ一つの要求・応答の組み合わせ
が独立している。つまり、そのままではセッション管理
ができず、あるWebページの前にどのページを参照し
ていたかが判らないようになっている。これを補う工夫
として、クライアント側にクッキー(Cookie)と呼ばれ
る特殊な役割をもつ小さなファイルを置いたり、サーバ
側でセッション管理を行ったりなどの方法がある。ここ
では、それらの工夫を併用するものとして考える。
る。
ント102からOCRサービスを利用するために、文字
認識サービス提供サイトに接続要求を送信する。これ
は、セッション管理を開始するための接続要求という意
味である。
を受け付けたのち、OCR処理に用いる幾つかのパラメ
ータについての選択を促すコンテンツを送信する。パラ
メータとは、たとえば認識対象言語(日/英など)や認
識対象文字種、二値化方法・領域分割の自動化指定など
処理手続きに関するもの、及び読取対象となる画像ファ
イル名などである。
てパラメータを選択し、その結果を送信する。
たパラメータを受信したのち、既に蓄えられている辞書
へのリンクを適切な順に表示するための辞書選択コンテ
ンツを生成し、クライアントに送信する。
ービス提供者側(OCRサーバ103又は辞書サーバ1
04の側)に用意されていても良いし、他のサイトに公
開されているものであっても良い。このとき、辞書の数
が複数あると、ユーザが選択に悩むことになるので、辞
書を識別するための情報を算出し、その情報に基づいて
辞書選択コンテンツを生成することになる。このコンテ
ンツは、辞書の選択を促すような表示を行う(図3)。
ン番号を用いている。これは、主として文字認識サービ
ス提供サイト側で用意した辞書を用いてサービスする場
合に用いられる。この場合には、一般にはより新しいバ
ージョンのものほど認識精度が高いため、サービスを初
めて利用するユーザは、最も新しいバージョンを選択す
れば良い。
験的にどのバージョンがもっとも自分のドキュメントに
合うかを知っているため、そのバージョンを指定するこ
とができる。
書が指定されている。したがって、選択は必須ではな
く、選択がなければデフォルト辞書を適用することとな
る。
門辞書に分かれており、それらを取捨選択して組み合わ
せることにより、認識対象ドキュメントにもっともよく
合う言語辞書組を適用することができるようになる。
れた内容に基づいて所望の辞書を選択し、選択結果を文
字認識サービス提供サイトに送信する。
提供サイトでは、OCRサーバ103が辞書サーバ10
4を呼び出す形で対象辞書の取得が行われ、この辞書を
用いてOCRサーバ103によりOCR処理が実行され
る。この場合のOCR処理はOCRサーバ103側で行
われることを想定しており、OCRユーザは辞書そのも
のを入手することはできない。つまり、辞書コンテンツ
を保護してサービスのみを提供するという形となる。
てOCR結果コンテンツを生成し、それをOCRユーザ
(クライアント)に送信して、処理を終了する。
に基づいて説明する。
処理の流れは第1の実施の形態と同じである。異なるの
は、辞書選択コンテンツの内容である。これを、図4に
示す。同図では、パターン辞書、言語辞書ともに、各辞
書と辞書有効度とが組み合わされて、有効度の大きい順
に並ぶように辞書選択コンテンツが生成されている。有
効度とは、あらかじめ定められた評価原稿に対する認識
精度を表す値である。評価原稿は、OCRサーバ103
又は辞書サーバ104側にあっても良いし、場所が特定
されていればインターネット上のどこにあっても良い。
みでは不十分な情報、すなわちOCRユーザが認識精度
を高めるうえでいずれの辞書を選択すべきかを判断する
ための情報を、辞書有効度によって補い、それを辞書選
択コンテンツに反映させることにより、OCRユーザの
辞書選択を容易ならしめることができる。
に基づいて説明する。
処理の流れは第1の実施の形態と同じである。異なるの
は辞書選択コンテンツの内容である。これを、図5に示
す。同図では、パターン辞書、言語辞書ともに、各辞書
とユーザの適用数とがペアになり、適用数の大きい順に
並ぶように辞書選択コンテンツが生成されている。適用
数とはその辞書が選択された回数を示すものであり、ダ
ウンロード数のようなものである。
は、OCR処理をクライアント側で行うのみならず、O
CRサーバ103側で行うことをも想定しているため
に、ダウンロード数とは呼ばずに適用数と呼んでいる。
に基づいて説明する。
トをユーザ辞書共有の場とするためのものである。
が、OCRサービスクライアント101が辞書登録クラ
イアントの役割を果たす。
図6にタイミングチャートとして示す。以下、同図にし
たがって説明する。
・公開するために、OCRサービスクライアント101
から辞書文字認識サービス提供サイトに接続する。
受け付けると登録辞書入力コンテンツを配信する。
にしたがって、自分のもつユーザ辞書を選択すると、そ
の結果は登録辞書選択結果として文字認識サービス提供
サイトに送信される。
受信すると、その辞書を用いて第2の実施の形態に示し
た方法を流用して、辞書の有効度を算出する。これは、
でたらめな辞書が送られた場合にそれを排除するための
ものである。すなわち、辞書の有効度が所定値以上の場
合に限り、文字認識サービス提供サイトへの受信辞書の
登録を行う。
ンテンツをOCRサービスクライアントに配信して処理
を終了する。
実施の形態において辞書選択コンテンツを生成する際
に、動的に組み込まれることになる。すなわち、登録さ
れた辞書は、それがでたらめな辞書でなければ自動的に
文字認識サービス提供サイトで公開する辞書に自動的に
反映される仕組みとなっている。
では、人手によって辞書をチェックすることは不要にな
るとともに、辞書更新サービスの遅延を排除することが
できる。
て説明する。
本的に第4の実施の形態と同じである。
ービス提供サイトに送られるのが辞書そのものではな
く、たとえばOCRユーザ側のサイトのように、文字認
識サービス提供サイト以外のところに置かれた辞書への
参照情報(リンク)である点にある。
つのメリットが生じる。
ける辞書記憶容量の増大を抑制できることにある。
ザ側で独自の課金システムを適用することができること
にある。これによって、良い辞書を作るほど良い評価が
得られるということに関してオープンな仕組みとなるの
で、より優れた辞書の登録を促すことになり、最終的に
は他のOCRユーザに文字認識精度の向上という恩恵を
もたらすことが可能となる。
ることができる。また、各OCRユーザに自らのユーザ
辞書を公開できる場を設け、各OCRユーザが自分の要
求にあった辞書を選択しうる仕組みを設けることで、互
いに精度向上という恩恵を共有できるような辞書サービ
ス方法を提供することができる。
テム構成の概略を示す模式図である。
ある。
ンテンツを例示する模式図である。
ンテンツを例示する模式図である。
の流れを示すタイミングチャートである。
Claims (6)
- 【請求項1】 通信ネットワークを介して送信された自
動文字認識対象物についての自動文字認識サービスを提
供する自動文字認識サービス提供サイトを介して、この
自動文字認識サービス提供サイトに前記通信ネットワー
クを介してアクセスするユーザから送信された前記自動
文字認識対象物を受信するステップと、 前記自動文字認識対象物の受信に応じて、自動文字認識
処理を実行するに際して参照可能な辞書のリストを前記
ユーザに選択可能に提供するステップと、 前記ユーザが選択した辞書を参照し、受信した前記自動
文字認識対象物についての自動文字認識処理を実行する
ステップと、を具備する自動文字認識に用いる辞書の提
供方法。 - 【請求項2】 辞書の識別情報を算出するステップと、
前記ユーザに選択可能に提供する前記参照可能な辞書の
リストに、算出された前記識別情報を伴わせるステップ
と、を具備する請求項1記載の自動文字認識に用いる辞
書の提供方法。 - 【請求項3】 前記辞書の識別情報として、評価原稿に
対する認識精度を数値化した辞書の有効度を用いる請求
項2記載の自動文字認識に用いる辞書の提供方法。 - 【請求項4】 前記辞書の識別情報として、ユーザの選
択履歴を通値化した辞書の選択頻度を用いる請求項2記
載の自動文字認識に用いる辞書の提供方法。 - 【請求項5】 前記自動文字認識サービス提供サイトを
介してユーザからユーザ辞書を受信するステップと、 前記ユーザ辞書を、自動文字認識処理を実行するに際し
て参照可能な辞書として扱うステップと、を具備する請
求項1ないし4のいずれか一記載の自動文字認識に用い
る辞書の提供方法。 - 【請求項6】 前記自動文字認識サービス提供サイトを
介してユーザからユーザ辞書に対するリンク情報を受信
するステップと、 前記ユーザ辞書を、自動文字認識処理を実行するに際し
て参照可能な辞書として扱うステップと、を具備する請
求項1ないし4のいずれか一記載の自動文字認識に用い
る辞書の提供方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001080173A JP2002279349A (ja) | 2001-03-21 | 2001-03-21 | 自動文字認識に用いる辞書の提供方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001080173A JP2002279349A (ja) | 2001-03-21 | 2001-03-21 | 自動文字認識に用いる辞書の提供方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002279349A true JP2002279349A (ja) | 2002-09-27 |
Family
ID=18936496
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001080173A Pending JP2002279349A (ja) | 2001-03-21 | 2001-03-21 | 自動文字認識に用いる辞書の提供方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2002279349A (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04302070A (ja) * | 1991-03-29 | 1992-10-26 | Toshiba Corp | 文字認識装置及び方法 |
JPH087032A (ja) * | 1994-06-21 | 1996-01-12 | Canon Inc | 手書き情報認識装置及び方法 |
JPH10269201A (ja) * | 1997-03-25 | 1998-10-09 | Toshiba Corp | 辞書流通方法および辞書流通システム |
JPH10326277A (ja) * | 1997-03-26 | 1998-12-08 | Toshiba Corp | 翻訳サービス提供方法及び翻訳サービスシステム |
JP2000322414A (ja) * | 1999-05-07 | 2000-11-24 | Matsushita Electric Ind Co Ltd | 機械翻訳装置および方法 |
-
2001
- 2001-03-21 JP JP2001080173A patent/JP2002279349A/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04302070A (ja) * | 1991-03-29 | 1992-10-26 | Toshiba Corp | 文字認識装置及び方法 |
JPH087032A (ja) * | 1994-06-21 | 1996-01-12 | Canon Inc | 手書き情報認識装置及び方法 |
JPH10269201A (ja) * | 1997-03-25 | 1998-10-09 | Toshiba Corp | 辞書流通方法および辞書流通システム |
JPH10326277A (ja) * | 1997-03-26 | 1998-12-08 | Toshiba Corp | 翻訳サービス提供方法及び翻訳サービスシステム |
JP2000322414A (ja) * | 1999-05-07 | 2000-11-24 | Matsushita Electric Ind Co Ltd | 機械翻訳装置および方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7496497B2 (en) | Method and system for selecting web site home page by extracting site language cookie stored in an access device to identify directional information item | |
US7756903B2 (en) | Configuring a search engine results page with environment-specific information | |
US20140297848A1 (en) | Ensuring the quality of a service in a distributed computing environment | |
US20030018468A1 (en) | Universal search engine | |
US6272490B1 (en) | Document data linking apparatus | |
US20080140626A1 (en) | Method for enabling dynamic websites to be indexed within search engines | |
US7370036B2 (en) | Facilitating identification of entire web pages when each web page is rendered from multiple portions and interest is expressed based on content of the portions | |
US20020103820A1 (en) | Determining alternative textual identifiers, such as for registered domain names | |
US20050034065A1 (en) | Method and apparatus for processing content | |
JPH09319749A (ja) | インターネット・ベースのスペリング・チェッカ辞書システム | |
US20050203766A1 (en) | Affiliate manipulation system and method | |
AU9648298A (en) | Method and system for accessing information on a network | |
KR20140009483A (ko) | 원격 모듈용 메시지 목록 | |
US20090025086A1 (en) | Method for making contents public or private, information providing system, and information providing program | |
JP2006318373A (ja) | タスク選択支援サーバ、及び、タスク選択支援方法 | |
JP2011170757A (ja) | 個人情報入力用管理サーバ、クライアント端末、個人情報入力システムおよびプログラム | |
CN105939313A (zh) | 状态码重定向方法及装置 | |
AU2007201620B2 (en) | Information processing system, information processor, information processing method, and program | |
JPH1049354A (ja) | 情報処理システム | |
WO2002019172A9 (en) | Method and apparatus for providing information on search engine result pages | |
JP2002279349A (ja) | 自動文字認識に用いる辞書の提供方法 | |
US7835896B1 (en) | Apparatus for evaluating and demonstrating electronic circuits and components | |
JPH10269201A (ja) | 辞書流通方法および辞書流通システム | |
CN114125067A (zh) | 前后端分离的灰度发布方法、前端服务器和配置服务器 | |
JPH11232293A (ja) | 情報案内サービスシステムおよび方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20040930 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20051021 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060821 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20060905 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091001 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091027 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100302 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100430 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100824 |