JP2008040910A - Character string determining device, character string determining method, character string determination program and computer readable recording medium - Google Patents
Character string determining device, character string determining method, character string determination program and computer readable recording medium Download PDFInfo
- Publication number
- JP2008040910A JP2008040910A JP2006216188A JP2006216188A JP2008040910A JP 2008040910 A JP2008040910 A JP 2008040910A JP 2006216188 A JP2006216188 A JP 2006216188A JP 2006216188 A JP2006216188 A JP 2006216188A JP 2008040910 A JP2008040910 A JP 2008040910A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- character
- target
- type
- item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、対象となる文字列の種類を判定する文字列判定装置に関するものである。 The present invention relates to a character string determination device that determines the type of a target character string.
現在、光学式文字読取(OCR : Optical Character Reader)技術は、文書読取装置、帳票読取装置などのいろいろな文字読取装置として実現され、利用されている。その中には、名刺読取装置のように名刺に記載された氏名、住所、会社名など各々の文字列の項目が何であるかを判定する装置も多く存在する。 Currently, optical character reader (OCR) technology is realized and used as various character readers such as document readers and form readers. Among them, many devices, such as a business card reader, determine what each character string item such as a name, an address, and a company name written on a business card is.
一方、OCRは、近年小型化が進み、カメラで読取対象を撮影し、その認識を行なうカメラ付き携帯電話も発売されている。これらの携帯電話に搭載されたOCRは、認識対象を1行毎に撮影した後、認識するといった仕様が一般的であり、認識対象が、メールアドレス、URL(uniform resource locator)、電話番号等の英数字文字列のみのものや、氏名、住所等の日本語文字列を認識するものも存在する。 On the other hand, the OCR has been downsized in recent years, and a camera-equipped mobile phone that takes a picture of an object to be read by the camera and recognizes it has been released. The OCR mounted on these mobile phones generally has a specification that the recognition target is recognized after each line is photographed, and the recognition target is an email address, URL (uniform resource locator), telephone number, etc. Some of them are alphanumeric characters only, while others recognize Japanese character strings such as names and addresses.
これら、携帯電話に搭載されたOCRの主な用途は、名刺またはその他の文書に記載された、氏名、電話番号、メールアドレス、URL等を、当該携帯電話が有する電話帳へ登録するというものである。 The main use of these OCRs mounted on mobile phones is to register names, phone numbers, e-mail addresses, URLs, etc. described on business cards or other documents in the phone book of the mobile phone. is there.
上記カメラ付き携帯電話に搭載されたOCRが一般的に、名刺全体を一度に撮影し、名刺に記載された、氏名、住所、会社名の全項目を認識するのではなく、一行単位で撮影し、認識するという仕様になっている理由の一つとして、携帯電話の処理能力の問題があると考えられる。以下、その問題について述べる。 The OCR mounted on the camera-equipped mobile phone generally shoots the entire business card at once, and does not recognize all the items of name, address, and company name written on the business card. One of the reasons for the specification of recognition is that there is a problem with the processing capability of mobile phones. The problem will be described below.
特許文献1に、PC(パーソナルコンピュータ)と、携帯電話との処理速度の差が記されている。これによると、「http://www.kaisya.co.jp/index.html」という1行、33文字が書かれた画像(1枚)を認識する場合、携帯電話では、1.6秒の処理時間がかかっているのに対し、パーソナルコンピュータ(Pentium(登録商標)III搭載)では、0.1秒の処理時間で済む。
カメラの撮影範囲を広げ、例えば、名刺1枚を撮影し、名刺1枚に記載された全項目を認識するという仕様の場合、例えば、名刺1枚中に165文字の文字が記載されていたとすると、上述の処理速度の値から単純計算で8秒(1.6÷33×165)の処理時間がかかるといえる。 For example, in the case of a specification in which the shooting range of the camera is expanded and, for example, one business card is photographed and all items described on one business card are recognized, 165 characters are written in one business card. From the above processing speed value, it can be said that it takes 8 seconds (1.6 ÷ 33 × 165) processing time by simple calculation.
上記の計算は、認識対象を英文とした場合の推定値であり、日本語で記載された名刺を対象とする場合、氏名、住所などの日本語文字列を認識しなければならない。従って、一般的には、さらに認識処理時間は増大するものと推定される。 The above calculation is an estimated value when the recognition target is English, and when a business card written in Japanese is targeted, a Japanese character string such as name and address must be recognized. Therefore, in general, it is estimated that the recognition processing time further increases.
このように、携帯電話等の小型情報端末では、処理能力が低いため、名刺1枚程度の大きさの文書の認識でも処理時間が長いという問題が存在し、携帯電話等の小型情報端末にOCRを搭載するにあたり、解決すべき課題であるといえる。 As described above, since a small information terminal such as a mobile phone has a low processing capability, there is a problem that a processing time is long even when a document having a size of about one business card is recognized. It can be said that this is a problem to be solved when installing the.
この処理時間が長いという問題を解消する一つの方法として、認識対象を名刺の全項目ではなく、ユーザが所望する項目に限定するという方法が考えられる。 As one method for solving the problem that the processing time is long, a method of limiting the recognition target to the items desired by the user instead of all items of the business card is conceivable.
携帯電話を始めとするカメラ付き携帯情報端末のOCRの主な用途の一つは、読み取った情報(氏名、住所、会社名、電話、メールアドレス等)を、携帯情報端末が有する、電話帳等のデータベースに登録することと考えられるが、OCRが携帯電話等に搭載された場合には、氏名、電話、メールアドレスに限定した認識機能でも、十分役に立つと考えられる。 One of the main uses of OCR for camera-equipped personal digital assistants such as mobile phones is the phone book etc. that the personal digital assistant has the read information (name, address, company name, telephone, email address, etc.) However, if the OCR is installed in a mobile phone or the like, the recognition function limited to name, phone, and e-mail address is considered to be sufficiently useful.
従って、認識対象項目を必要な項目に限定し、認識対象から必要な項目のみを自動的に抽出し、認識するという方法は、有効な解決方法であるといえる。 Therefore, it can be said that the method of limiting the recognition target items to the necessary items, automatically extracting only the necessary items from the recognition target, and recognizing them is an effective solution.
以下、上記解決方法の具体的な例として、名刺から電話帳登録に必要な項目を抽出する方法について述べる。名刺から電話帳登録に用いられる、氏名、電話、メールアドレスを自動で抽出する方法として、次のような方法が考えられる。 Hereinafter, as a specific example of the above solution, a method for extracting items necessary for telephone directory registration from a business card will be described. The following methods can be considered as methods for automatically extracting a name, a phone number, and an e-mail address used for registering a phone book from a business card.
名刺から姓名行を取り出すには、例えば、特許文献2に記載されているように、名刺の中央に大きくレイアウトされている文字列を取り出せばよく、比較的容易に抽出できる。
In order to take out the first and last name line from the business card, for example, as described in
これに対して、名刺から電話行や、メールアドレス行をレイアウト情報のみで抽出するのは難しい。従って、例えば、文字列が、英数字文字列か、日本語文字列かを判定し、英数字文字列であれば電話行、または、メール行とする、といった判定、抽出方法が考えられる。 On the other hand, it is difficult to extract a telephone line and a mail address line from a business card with only layout information. Therefore, for example, a determination and extraction method can be considered in which it is determined whether a character string is an alphanumeric character string or a Japanese character string, and if the character string is an alphanumeric character string, it is a telephone line or a mail line.
文字列が、英数字文字列か、日本語文字列かを判定する技術の一例が、特許文献3に
記載されている。この特許文献3に記載の文字認識方法では、文字列内の文字の複雑度を測定し、英数字文字列か、日本語文字列かを判定する。この手法を用いて、最初に名刺に記載された文字列を抽出した後、文字列が日本語行か英語行かの判定を行い、英語行であれば、電話、メールの可能性があるので当該文字列をさらに詳細に認識し、日本語行であれば認識しないという処理を行うことが考えられる。
An example of a technique for determining whether a character string is an alphanumeric character string or a Japanese character string is described in
なお、文字を構成する点が連結した領域に外接する矩形を抽出し、抽出した矩形を用いて文字列を抽出する手法の一例として、特許文献4に記載の手法を挙げることができる。
ところが、特許文献3に記載の文字認識方法は、認識対象が一般的な日本語文字列であるか英語文字列であるかを判定するものであり、この方法では、英語文字列がどのような種類の文字列であるか、例えば、電話番号であるか、メールアドレスであるかなど、を一意的に判定することができない。また、対象文字列が予め定められた文字列の項目(種類)のうちのどれに相当するのかを絞り込むことも不可能である。
However, the character recognition method described in
それゆえ、対象文字列の種類を判定するためには、処理量の多い、パターンマッチング等の認識処理を行わなければならないという問題が生じる。 Therefore, in order to determine the type of the target character string, there arises a problem that recognition processing such as pattern matching, which requires a large amount of processing, must be performed.
本発明は、上記の問題点を解決するためになされたもので、その目的は、認識対象となる文字列が、予め定められた種類のどれに相当するものかを少ない処理量で判定することができる文字列判定装置を提供することにある。 The present invention has been made to solve the above-mentioned problems, and its purpose is to determine which of the predetermined types the character string to be recognized corresponds to with a small amount of processing. An object of the present invention is to provide a character string determination device capable of
本発明に係る文字列判定装置は、上記の課題を解決するために、対象文字列を構成する文字の形状を示す文字列情報を取得し、当該文字列情報によって示される文字の形状をもとに対象文字列の種類を判定する文字列判定装置であって、文字列の種類と対応付けられた、特定の形状を示す情報である文字列パターンが上記文字列情報に含まれているかどうかを検出する特定文字検出手段と、上記特定文字検出手段によって、上記文字列パターンが上記文字列情報内に検出された場合に、当該文字列パターンに対応する文字列の種類を、当該対象文字列の種類とする種類判定手段とを備えることを特徴としている。 In order to solve the above-described problem, the character string determination device according to the present invention acquires character string information indicating the shape of a character constituting the target character string, and based on the character shape indicated by the character string information. Whether or not the character string information includes a character string pattern that is information indicating a specific shape associated with the character string type. When the character string pattern is detected in the character string information by the specific character detection means to detect and the specific character detection means, the type of the character string corresponding to the character string pattern is It is characterized by comprising a type determining means for making a type.
本発明に係る文字列判定方法は、上記の課題を解決するために、対象文字列を構成する文字の形状を示す文字列情報を取得し、当該文字列情報によって示される文字の形状をもとに対象文字列の種類を判定する文字列判定装置における文字列判定方法であって、文字列の種類と対応付けられた、特定の形状を示す情報である文字列パターンが上記文字列情報に含まれているかどうかを検出する特定文字検出工程と、上記特定文字検出手段によって、上記文字列パターンが上記文字列情報内に検出された場合に、当該文字列パターンに対応する文字列の種類を、当該対象文字列の種類とする種類判定工程とを含むことを特徴としている。 In order to solve the above-described problem, the character string determination method according to the present invention acquires character string information indicating the shape of a character constituting the target character string, and based on the character shape indicated by the character string information. Is a character string determination method in a character string determination device that determines the type of a target character string, and the character string information includes a character string pattern that is associated with the character string type and indicates a specific shape When the character string pattern is detected in the character string information by the specific character detection step for detecting whether or not the character string is detected, the type of character string corresponding to the character string pattern is And a type determination step for setting the type of the target character string.
上記の構成によれば、特定文字検出手段は、文字列パターンが文字列情報内に含まれているかどうかを検出し、含まれている場合に、種類判定手段は、当該文字列パターンに対応する文字列の種類が、当該対象文字列の種類であると判定する。 According to said structure, a specific character detection means detects whether a character string pattern is contained in character string information, and when it is contained, a kind determination means respond | corresponds to the said character string pattern It is determined that the type of the character string is the type of the target character string.
それゆえ、文字列情報に文字列パターンが含まれているか否かを検出することにより、対象文字列の種類を判定することができ、対象文字列の各文字がどの文字であるかを認識する構成に比べて、対象文字列の種類の判定にかかる処理量を低減することができる。 Therefore, it is possible to determine the type of the target character string by detecting whether or not the character string information includes the character string pattern, and recognize which character each character of the target character string is. Compared to the configuration, it is possible to reduce the processing amount for determining the type of the target character string.
従って、携帯電話など、処理能力が低い小型携帯端末に組み込んだ場合でも、迅速に対象文字列の判定を行うことができる文字列判定装置を実現できる。 Therefore, even when incorporated in a small portable terminal having a low processing capability such as a mobile phone, it is possible to realize a character string determination device that can quickly determine a target character string.
なお、上記文字には、括弧、コンマ、コロン、セミコロン等、文書を表記する場合に用いる記号も含まれる。 Note that the above characters include symbols used when writing a document, such as parentheses, commas, colons, and semicolons.
また、上記文字列パターンは、特定の形状を有する文字の情報または特定の相対位置関係を有する構成部分を含む文字の情報、もしくはその両方を含むものであるであることが好ましい。 The character string pattern preferably includes information on a character having a specific shape, information on a character including a component having a specific relative positional relationship, or both.
上記の構成によれば、文字列パターンは、特定の形状を有する文字の情報または特定の相対位置関係を有する構成部分を含む文字の情報、もしくはその両方を含むものであるため、当該文字列パターンを検出するための処理量は、各文字を辞書を用いたマッチングにより識別する方法における処理量に比べて少なくてすむ。 According to the above configuration, since the character string pattern includes information on a character having a specific shape and / or information on a character including a component having a specific relative positional relationship, the character string pattern is detected. The amount of processing required to do this is smaller than the amount of processing in the method of identifying each character by matching using a dictionary.
それゆえ、対象文字列の種類の判定にかかる処理量をさらに低減することができる。 Therefore, the processing amount for determining the type of the target character string can be further reduced.
また、上記文字列判定装置は、上記種類判定手段によって上記種類の候補が複数挙げられた場合に、当該種類の候補にそれぞれ対応する複数の文字認識辞書を参照することにより、上記文字列情報に含まれる文字を識別する文字認識手段をさらに備えることが好ましい。 Further, the character string determination device refers to the character string information by referring to a plurality of character recognition dictionaries respectively corresponding to the type candidates when the type determination unit lists a plurality of types of candidates. It is preferable to further include character recognition means for identifying included characters.
上記の構成によれば、種類判定手段によって対象文字列の種類の候補が複数挙げられた場合に、文字認識手段は、複数の候補にそれぞれ対応する複数の文字認識辞書を参照することにより、文字列情報に含まれる文字を識別する。すなわち、上記の構成では、種類判定手段によって対象文字列の種類が絞り込まれ、絞り込まれた種類に関して文字認識手段が文字の識別を行う。 According to the above configuration, when a plurality of candidate types of the target character string are listed by the type determining unit, the character recognizing unit refers to the plurality of character recognition dictionaries respectively corresponding to the plurality of candidates. Identifies characters contained in column information. In other words, in the above configuration, the type of the target character string is narrowed down by the type determination unit, and the character recognition unit identifies the character with respect to the narrowed down type.
それゆえ、文字認識手段に容量の小さい文字認識辞書を利用させることができ、文字認識にかかる処理量を低減するとともに、その処理速度を速めることができる。 Therefore, the character recognition dictionary having a small capacity can be used by the character recognition means, the processing amount for character recognition can be reduced, and the processing speed can be increased.
また、上記文字列判定装置は、上記種類判定手段によって上記種類の候補が複数挙げられた場合、かつ、指定された対象文字列の種類である指定種類と一致する種類の対象文字列が、上記複数の候補の中に含まれている場合に、上記指定種類と対応する文字認識辞書を参照することにより、上記文字列情報に含まれる文字を識別する文字認識手段とをさらに備えることが好ましい。 Further, the character string determination device, when a plurality of the types of candidates are listed by the type determination means, and the target character string of the type that matches the specified type that is the type of the specified target character string, It is preferable to further include character recognition means for identifying a character included in the character string information by referring to a character recognition dictionary corresponding to the specified type when included in a plurality of candidates.
上記構成によれば、文字認識手段は、種類判定手段によって対象文字列の種類の候補が複数挙げられた場合、かつ、上記指定種類と一致する種類の対象文字列が、複数の候補の中に含まれる場合に、当該指定種類と対応する文字認識辞書を参照することにより、上記文字列情報に含まれる文字を識別する。すなわち、指定種類の情報を参照することによって対象文字列の種類が絞り込まれ、絞り込まれた種類に関して文字認識手段が文字の識別を行う。 According to the above configuration, the character recognizing unit may include a target character string of a type that matches the specified type when a plurality of candidates for the type of the target character string are listed by the type determining unit. If it is included, the character included in the character string information is identified by referring to the character recognition dictionary corresponding to the designated type. That is, the type of the target character string is narrowed down by referring to the designated type information, and the character recognition means identifies the character with respect to the narrowed down type.
それゆえ、文字認識手段に容量の小さい文字認識辞書を利用させることができ、文字認識にかかる処理量をさらに低減するとともに、その処理速度をさらに速めることができる。 Therefore, the character recognition dictionary having a small capacity can be used by the character recognition means, the processing amount for character recognition can be further reduced, and the processing speed can be further increased.
また、上記文字列判定装置は、上記文字認識手段の文字認識結果に基づいて上記対象文字列の種類を特定する文字列特定手段をさらに備えることが好ましい。 Moreover, it is preferable that the said character string determination apparatus is further provided with the character string specific | specification means which specifies the kind of the said object character string based on the character recognition result of the said character recognition means.
上記の構成によれば、文字列特定手段は、文字認識手段の文字認識結果を利用することにより、対象文字列の種類を特定する。文字認識手段の文字認識結果は、文字列情報に含まれる文字が何であるかを示すものであるため、対象文字列の種類をひとつに特定することができる。 According to the above configuration, the character string specifying unit specifies the type of the target character string by using the character recognition result of the character recognition unit. Since the character recognition result of the character recognition means indicates what character is included in the character string information, the type of the target character string can be specified as one.
また、上記文字列判定装置の上記各手段としてコンピュータを機能させるための文字列判定プログラムおよび当該文字列判定プログラムを記録したコンピュータ読み取り可能な記録媒体も本発明の技術的範囲に含まれる。 The technical scope of the present invention also includes a character string determination program for causing a computer to function as each means of the character string determination device and a computer-readable recording medium on which the character string determination program is recorded.
本発明に係る文字列判定装置は、以上のように、文字列の種類と対応付けられた、特定の形状を示す情報である文字列パターンが文字列情報に含まれているかどうかを検出する特定文字検出手段と、上記特定文字検出手段によって、上記文字列パターンが上記文字列情報内に検出された場合に、当該文字列パターンに対応する文字列の種類を、当該対象文字列の種類とする種類判定手段とを備える構成である。 As described above, the character string determination device according to the present invention is a specification that detects whether or not a character string pattern that is information indicating a specific shape associated with a character string type is included in the character string information. When the character string pattern is detected in the character string information by the character detection means and the specific character detection means, the type of the character string corresponding to the character string pattern is set as the type of the target character string. And a type determination unit.
本発明に係る文字列判定方法は、以上のように、文字列の種類と対応付けられた、特定の形状を示す情報である文字列パターンが文字列情報に含まれているかどうかを検出する特定文字検出工程と、上記特定文字検出手段によって、上記文字列パターンが上記文字列情報内に検出された場合に、当該文字列パターンに対応する文字列の種類を、当該対象文字列の種類とする種類判定工程とを含む構成である。 As described above, the character string determination method according to the present invention is a method for detecting whether or not a character string pattern, which is information indicating a specific shape and associated with a character string type, is included in the character string information. When the character string pattern is detected in the character string information by the character detection step and the specific character detection means, the type of the character string corresponding to the character string pattern is set as the type of the target character string. And a type determination step.
それゆえ、対象文字列の種類の判定にかかる処理量を低減することができるという効果を奏する。 Therefore, there is an effect that the processing amount for determining the type of the target character string can be reduced.
本発明の実施の一形態について図1〜図14に基づいて説明すれば、以下のとおりである。以下では、本発明の文字列判定装置の一例として、携帯電話1を挙げて説明するが、本発明の文字列判定装置は、携帯電話に限定されない。携帯電話1は、名刺等の認識対象文書の画像を撮像し、その撮像画像に含まれる複数または単数の文字列の情報(文字列情報)を取得し、当該文字列情報によって示される文字の形状をもとに対象文字列の種類を判定する。そして、携帯電話1は、対象文字列に含まれる、電話番号、メールアドレス等の情報をデータベースである電話帳に登録する機能を有するものである。
One embodiment of the present invention will be described below with reference to FIGS. Hereinafter, the
(携帯電話1の構成)
図2は、本実施形態の携帯電話1(文字列認識装置)の構成を示す機能ブロック図である。図2に示すように、携帯電話1は、主制御部2、一時記憶部3、記憶部4、入力制御部5、操作部6、出力制御部7、表示部8およびカメラ9を備えている。これら各部は、データバスで接続されている。
(Configuration of mobile phone 1)
FIG. 2 is a functional block diagram showing the configuration of the mobile phone 1 (character string recognition device) of the present embodiment. As shown in FIG. 2, the
なお、携帯電話1は、通信部、マイク、スピーカー等、携帯電話として機能するために必要な部材を備えているが、これらの部材は、図2では省略してある。
The
主制御部2は、携帯電話1を制御するものであり、文字列判定部2aおよび文字列判定制御部2bを備えている。
The
文字列判定部2aは、文字列抽出部21、特定文字判定部22、文字列認識部23(文字認識手段)および項目判定部24(文字列特定手段)を備えている。これら各部の詳細については後述する。
The character
文字列判定制御部2bは、文字列判定部2aの各部を制御する。
The character string determination control unit 2b controls each part of the character
一時記憶部3は、RAM(Random Access Memory)等の半導体メモリを具備しており、データを一時的に記憶する機能を有している。この一時記憶部3は、対象文書記憶部31、対象文字列記憶部32、対象項目記憶部33および認識結果記憶部34を備えている。
The
対象文書記憶部31は、認識対象の文書画像(以下、これを対象画像と称する)を一時的に記憶する。
The target
対象文字列記憶部32は、対象文書記憶部31に記憶された対象画像から文字列抽出部21によって抽出された文字列の情報(文字列情報)(以下、これを対象文字列と称する)を一時的に記憶する。
The target character
対象項目記憶部33は、ユーザが指定した、文字列の項目(以下、これを認識対象項目と称する)を記憶する。
The target
認識結果記憶部34は、文字列認識部23の認識結果を一時的に記憶する。
The recognition
記憶部4は、ROM(Read Only Memory)またはハードディスク等を具備しており、データを(恒常的に)記憶する機能を有している。この記憶部4は、文字判定ルールテーブル41、対応項目テーブル42、文字認識辞書43および電話帳44を備えている。
The
文字判定ルールテーブル41は、対象文字列記憶部32に記憶された対象文字列に特定の文字列パターン(以下、単に文字列パターンと称する)が含まれているか否かを判定するためのルールを規定するものであり、特定文字判定部22により利用されるテーブルである。この文字判定ルールテーブル41の詳細については後述する。また、後述するように、上記文字列パターンは、文字列の種類と対応付けられた、特定の形状を示す情報であり、特定の形状を有する文字の情報または特定の相対位置関係を有する構成部分を含む文字の情報、もしくはその両方を含むものである。
The character determination rule table 41 is a rule for determining whether or not a target character string stored in the target character
対応項目テーブル42は、対象文字列に含まれる文字列パターンと、対象文字列の項目との対応関係を示すものである。すなわち、文字列パターンは、対応項目テーブル42によって文字列の種類と対応付けられている。特定文字判定部22は、この対応項目テーブル42を参照し、対象文字列に含まれる文字列パターンを検出する。この対応項目テーブル42の詳細については後述する。
The corresponding item table 42 shows the correspondence between the character string pattern included in the target character string and the item of the target character string. That is, the character string pattern is associated with the type of character string by the corresponding item table 42. The specific
文字認識辞書43は、文字列認識部23が用いる文字パターンマッチング辞書である。
The
電話帳44は、ユーザによって使用されるデータベースであり、ユーザが登録した氏名、電話番号、FAX番号、メールアドレス、URL、住所等の情報を格納している。この電話帳44への書き込みは、主制御部2によって行われる。
The
入力制御部5は、ユーザによる操作部6の入力操作を検出し、主制御部2へ選択、指示、決定などの命令を送信する。特に、入力制御部5は、ユーザが指定した対象文字列の項目である認識対象項目(指定種類)の情報を受け付ける。この入力制御部5は、対象項目指示部51(受付手段)を備えている。
The
対象項目指示部51は、操作部6を介して入力された、ユーザからの認識対象項目の指示を受け取り、その指示情報を主制御部2へ送信する。
The target
操作部6は、ユーザの指示を受け付け、その指示を入力制御部5に出力するための入力装置である。例えば、入力キーなど、文字認識装置の形態によっていろいろな種類のものがあるが、例えば、いわゆるキーボードを構成するキー、十字キー、数字キーなどを、操作部6として用いることができる。
The
出力制御部7は、主制御部2から出力された各種の情報、例えば、対象文字列の認識結果を受け取り、その情報を表示部8を介して出力する。
The
表示部8は、液晶ディスプレイ(LCD(Liquid Crystal Display)等の画像表示方式の表示機器であり、出力制御部7から出力された情報を表示できる。
The
カメラ9は、例えば、CCD(Charge Coupled)カメラであり、認識対象となる文字列を撮像する。カメラ9が撮像した対象画像は、入力制御部5および主制御部2を介して、対象文書記憶部31に格納される。
The
(文字列判定部2aの各部の詳細)
次に、文字列判定部2aが備える機能ブロックについて詳細に説明する。
(Details of each part of the character
Next, functional blocks provided in the character
文字列抽出部21は、対象文書記憶部31に記憶された対象画像から、対象文字列を抽出し、抽出した対象文字列を対象文字列記憶部32に出力する。出力された対象文字列は、対象文字列記憶部32に一時記憶される。文字列を抽出する方法は、特に限定されず、従来用いられてきたどのような手法でもかまわない。本実施形態では、矩形(連結した文字ブロック)を抽出し、抽出した矩形を用いて文字列を抽出する手法を用いる。このような抽出手法の一例は、特許文献4に記載されている。文字列抽出部21から出力される文字列情報がどのようなものであるかについては、後述する。
The character
図1は、特定文字判定部22の構成を示す機能ブロック図である。
FIG. 1 is a functional block diagram illustrating a configuration of the specific
特定文字判定部22は、対象文字列記憶部32に記憶された対象文字列、すなわち、文字列抽出部21によって抽出された対象文字列の項目を判定する。
The specific
この特定文字判定部22は、図1に示すように、文字列パターン検出部22a(特定文字検出手段)、項目判定部22b(種類判定手段)および項目比較部22c(項目比較手段)を備えている。
As shown in FIG. 1, the specific
文字列パターン検出部22aは、対象文字列記憶部32に記憶された対象文字列に含まれる文字列パターンを検出する。具体的には、文字列パターン検出部22aは、対応項目テーブル42を参照し、文字列の項目と対応付けられた文字列パターンが対象文字列に含まれているかどうかを順に検出する。対象文字列に文字列パターンが含まれているか否かを判定する方法は、記憶部4の文字判定ルールテーブル41に記載されており、文字列パターン検出部22aは、この文字判定ルールテーブル41を参照しつつ、文字列パターンの検出を行う。
The character string
項目判定部22bは、対応項目テーブル42を参照して、文字列パターン検出部22aによって検出された文字列パターンに対応する項目を、対象文字列の項目として判定する。換言すれば、項目判定部22bは、文字列パターン検出部22aによって、文字列パターンが対象文字列内に検出された場合に、当該文字列パターンに対応する文字列の項目を、当該対象文字列の項目とする。
The
項目比較部22cは、項目判定部22bによって判定された項目と、対象項目記憶部33に記憶されている認識対象項目とを比較する。
The
文字列認識部23は、対象文字列記憶部32に記憶された対象文字列、すなわち、文字列抽出部21によって抽出された対象文字列に含まれる文字を、文字認識辞書43を参照することにより認識する。このとき、文字列認識部23は、項目判定部22bによって判定された項目の候補に対応する文字認識辞書または認識対象項目と対応する文字認識辞書を参照することにより、上記対象文字列に含まれる文字を識別する。
The character
文字列認識部23は、特に、項目判定部22bによって対象文字列の項目がひとつに決定されなかった場合(項目の候補が複数挙げられた場合)かつ、入力制御部5によって受け付けた認識対象項目と一致する項目の対象文字列が、上記複数の候補の中に含まれる場合に、認識処理を行う。なお、文字列認識部23は、上記項目の候補が1つの場合でも、対象文字列の内容(具体的には、文字コード)を認識するために認識処理を行う。
The character
文字列認識部23による文字識別の方法は、特に限定されず、従来用いられてきたどのような方法でもかまわない。文字列認識部23は、対象文字列に含まれる文字の認識結果を、認識結果記憶部34へ出力する。出力された認識結果は、認識結果記憶部34に記憶される。
The method of character identification by the character
項目判定部24は、認識結果記憶部34に記憶された、対象文字列に含まれる文字の認識結果、すなわち、文字列認識部23によって出力された当該文字の認識結果を用いて、対象文字列の項目をひとつに特定する。項目判定部24における項目判定の方法は、特に限定されず、従来用いられてきたどのような方法でもかまわない。項目判定部24は、判定結果を文字列判定制御部2bへ出力する。
The
(携帯電話1の認識対象文書)
次に、携帯電話1の認識対象文書について、図3を参照しつつ説明する。図3は、携帯電話1の認識対象文書の一例を示す図である。
(Documents to be recognized by the mobile phone 1)
Next, the recognition target document of the
携帯電話1の認識対象文書の一例として名刺を挙げることができる。図3に示すように、一例として挙げる名刺には氏名として「△山×男」が、所属部署として「総務部」が、会社名として「XYZ株式会社」が記載されている。さらに、名刺の下段部には電話番号、メールアドレス、ホームページのURLが記載されている。
A business card can be mentioned as an example of the recognition target document of the
携帯電話1の認識対象文書は、名刺に限定されず、手紙または広告等の文書であってもよい。
The recognition target document of the
(表示部8に表示される項目の例)
次に、表示部8に表示される対象文字列の項目の一例について、図4を参照しつつ説明する。図4は、表示部8に表示される対象文字列の項目の一例を示す図である。
(Examples of items displayed on the display unit 8)
Next, an example of the item of the target character string displayed on the
図4に示すように、携帯電話1は、表示部8に複数の項目(図4では、1〜5)を示し、どの項目の文字列を認識するのかに関してユーザからの指示を待つ。
As shown in FIG. 4, the
ユーザが操作部6の数字キー1から数字キー5のいずれかを押下することにより、1から5のうちのいずれかの対象項目の組が決定される。例えば、ユーザは、氏名、電話、メールという項目に限定した文字列の認識を望む場合、これらの項目の組み合わせ(認識対象項目)は、番号4で示されているため、数字キー4を押下すればよい。
When the user presses any one of the
複数の項目の組み合わせは、図4に示したものに限定されず、どのような組み合わせであってもよい。 The combination of a some item is not limited to what was shown in FIG. 4, What kind of combination may be sufficient.
(対応項目テーブル42の詳細)
次に、対応項目テーブル42について図5および図6を参照しつつ説明する。対応項目テーブル42は、対象文字列に含まれる文字列パターンと、対象文字列の項目との対応関係を示すものである。図5および図6は、対応項目テーブル42の一例を示す図である。
(Details of the corresponding item table 42)
Next, the correspondence item table 42 will be described with reference to FIGS. 5 and 6. The corresponding item table 42 shows the correspondence between the character string pattern included in the target character string and the item of the target character string. 5 and 6 are diagrams showing an example of the correspondence item table 42. FIG.
図5および図6に示すように、対応項目テーブル42は、文字列パターンとそれに対応する対象文字列の項目とが同一行に書かれており、対象文字列に或る文字列パターンが含まれていれば、その対象文字列は、その文字列パターンに対応する項目(項目群の一部)に相当するものであることを示している。文字列パターンにはそれぞれ通し番号(図5では、1〜6)がふられている。なお、図5および図6において、対応項目テーブル42の右側の破線で囲まれた列は、対象文字列の例を示したものであり、対応項目テーブル42内の情報ではない。 As shown in FIGS. 5 and 6, in the correspondence item table 42, the character string pattern and the corresponding item of the target character string are written on the same line, and the target character string includes a certain character string pattern. If so, it indicates that the target character string corresponds to an item (part of an item group) corresponding to the character string pattern. Each character string pattern is given a serial number (1 to 6 in FIG. 5). 5 and 6, the column surrounded by the broken line on the right side of the corresponding item table 42 shows an example of the target character string, and is not information in the corresponding item table 42.
また、対応項目テーブル42は、図5と図6とで区別しているように、文字列パターンの内容に応じて、2種類に大別できる。すなわち、一方は、含まれている文字列パターンに対応する項目が一つのもの(図5の対応項目テーブル42a)であり、他方は、文字列パターンに対応する項目が2つ以上のもの(図6の対応項目テーブル42b)である。 The correspondence item table 42 can be roughly divided into two types according to the contents of the character string pattern, as distinguished from FIGS. 5 and 6. That is, one has one item corresponding to the included character string pattern (corresponding item table 42a in FIG. 5), and the other has two or more items corresponding to the character string pattern (FIG. 5). 6 corresponding item table 42b).
対応項目テーブル42aは、対象文字列中に文字列パターンが存在する場合、対象文字列の項目が確定するテーブルである。 The corresponding item table 42a is a table in which the item of the target character string is determined when a character string pattern exists in the target character string.
例えば、図5に示すように、対象文字列に、「L」、「:」および括弧(( )の文字列パターンが含まれている場合、当該対象文字列の項目は、「電話」となる。 For example, as shown in FIG. 5, when the target character string includes character string patterns of “L”, “:” and parentheses ((), the item of the target character string is “phone”. .
対応項目テーブル42bは、対応項目テーブル42aを適用できない場合、すなわち、対象文字列の項目をひとつに特定できない場合に用いられるテーブルである。 The corresponding item table 42b is a table used when the corresponding item table 42a cannot be applied, that is, when the item of the target character string cannot be specified as one.
例えば、図6に示すように、対象文字列に、「L」および「:」の文字列パターンが含まれている場合、当該対象文字列の項目は、「電話」、「メール」、「URL」のいずれかとなる。 For example, as shown in FIG. 6, when the target character string includes character string patterns of “L” and “:”, the items of the target character string are “phone”, “mail”, “URL” It will be either.
このように、項目判定を行うときには、まず、項目が一つに特定できるか否かを対応項目テーブル42aを用いて調べ、項目が一つに特定できない場合に、対応項目テーブル42bを用いて項目を絞り込むようにすればよい。 As described above, when performing item determination, first, it is checked whether or not one item can be specified using the corresponding item table 42a. If one item cannot be specified, the item is determined using the corresponding item table 42b. You should narrow down.
なお、項目判定に用いる文字列パターンは、図5および図6に示したものに限定されない。 In addition, the character string pattern used for item determination is not limited to what was shown in FIG.5 and FIG.6.
(文字判定ルールテーブル41の詳細)
次に、文字判定ルールテーブル41について図7を参照しつつ説明する。図7は、文字判定ルールテーブル41の一例を示す図である。文字判定ルールテーブル41は、対象文字列に文字列パターンが含まれているか否かを判定するためのルールを規定するものである。文字列パターン検出部22aが以下に説明するルールに従って、文字列パターンの検出を行う。
(Details of character determination rule table 41)
Next, the character determination rule table 41 will be described with reference to FIG. FIG. 7 is a diagram illustrating an example of the character determination rule table 41. The character determination rule table 41 defines rules for determining whether or not a character string pattern is included in the target character string. The character string
なお、図7では、各ルールを理解しやすいように文章で表現しているが、実際には、各ルールは、コンピュータによって認識可能な形式で表現される。 In FIG. 7, each rule is expressed in a sentence so that it can be easily understood. However, each rule is actually expressed in a form that can be recognized by a computer.
図7に示すように、文字判定ルールテーブル41は、どのような形状(構成矩形数も含む)または文字列における文字の相対位置関係を有していれば、どの文字であると認識するのかという判定ルールを示すものである。すなわち、文字列パターンは、特定の形状を有する文字または特定の相対位置関係を有する構成部分を含む文字を含むものであり、文字判定ルールテーブル41は、文字の形状または位置関係と文字判定結果とを対応づけるものである。 As shown in FIG. 7, the character determination rule table 41 indicates what character (including the number of constituent rectangles) or character relative position in the character string is recognized as a character. It shows a judgment rule. That is, the character string pattern includes a character having a specific shape or a character including a component having a specific relative positional relationship. The character determination rule table 41 includes a character shape or positional relationship, a character determination result, Are associated with each other.
以下、各文字についてその判定方法を、図8〜図10を参照しつつ具体的に説明する。図8は、コロンの形状を示す図である。図9は、括弧の形状を示す図である。図10は、スラッシュの形状を示す図である。 Hereinafter, the determination method for each character will be specifically described with reference to FIGS. FIG. 8 is a diagram illustrating the shape of a colon. FIG. 9 is a diagram showing the shape of parentheses. FIG. 10 is a diagram showing the shape of the slash.
図8に示すように、コロンは、2個の矩形(構成部分)からなり、2個の矩形とも、小さい矩形である。実際には、文字を構成する2個の矩形の幅および高さが、((文字列の高さ)×(閾値1))未満であるという基準で判定すればよい。 As shown in FIG. 8, the colon is composed of two rectangles (components), and both the two rectangles are small rectangles. Actually, the determination may be made on the basis that the width and height of the two rectangles constituting the character are less than ((character string height) × (threshold 1)).
また、コロンの文字は、細長い。実際には、文字高>文字幅×(閾値2)という基準を用いて判定する。また、2個の矩形は、垂直方向走査線による走査にてほぼ重なっていることが必要である。 The colon character is elongated. Actually, the determination is made using a criterion of character height> character width × (threshold value 2). In addition, the two rectangles need to be substantially overlapped by scanning with the vertical scanning line.
これは、図8に示す例を用いて説明すれば、α1は、α2と比べて、それほど小さい値でないかどうかを調べればよい。実際には、閾値を用いて判定する。なお、α1は、コロンの上段部の左端と下段部の左端のうち、より右にある端から、上段部の右端と下段部の右端のうち、より左にある端までの距離であり、α2は、コロンの上段部の左端と下段部の左端のうち、より左にある端から、上段部の右端と下段部の右端のうち、より右にある端までの距離である。 If this is explained using the example shown in FIG. 8, it is only necessary to check whether α1 is not so small as compared to α2. Actually, the determination is made using a threshold value. Α1 is the distance from the more right end of the left upper end of the colon and the left end of the lower step to the more left end of the right end of the upper step and the right end of the lower step, α2 Is the distance from the left end of the upper step portion of the colon and the left end of the lower step portion to the more right end of the right end of the upper step portion and the right end of the lower step portion.
以下に説明する文字に関しても、実際は閾値等を用いた判定が適用されるが、判定ルールの概要のみを説明する。 Although the determination using a threshold value or the like is actually applied to the characters described below, only the outline of the determination rule will be described.
図9に示すように、左括弧(( )に関しては、左上隅、左下隅、右中程(図9の破線四角の部分)に、文字成分がないか否かを調べればよい。右括弧( ))についても同様である。 As shown in Fig. 9, regarding the left parenthesis ((), it is only necessary to check whether there is a character component in the upper left corner, lower left corner, and right middle (the dashed square portion in Fig. 9). The same applies to)).
スラッシュの連続「//」の判定は、左から右に走査線を走らせることで行う。図10に示すように、文字の左端から最初に文字成分にぶつかるまでの距離をβ1、最初の文字成分から2番目の文字成分までの距離をβ2、2番目の文字成分から文字右端までの距離を、β3とすると、
β1は、上部ラインから下部ラインに移るにつれ、ほぼ単調に減少していくが、逆に、
β3は、上部ラインから下部ラインに移るにつれ、ほぼ単調に増加していく。
β2は、走査線がどのライン上であるかにかかわらず、ほぼ一定である。
以上のような特徴を持てば、スラッシュの連続からなる文字と判定する。
The slash sequence “//” is determined by running a scanning line from left to right. As shown in FIG. 10, the distance from the left end of the character to the first character component is β1, the distance from the first character component to the second character component is β2, the distance from the second character component to the right end of the character Is β3,
As β1 moves from the upper line to the lower line, it decreases almost monotonously.
β3 increases almost monotonically as it moves from the upper line to the lower line.
β2 is substantially constant regardless of which line the scan line is on.
If it has the above characteristics, it will be determined as a character consisting of a series of slashes.
スラッシュは、スラッシュの連続「//」と同じように、左から右への走査線で左端から文字成分、文字成分から右端までの距離の増加、減少の状態によって判定可能である。 The slash can be determined by the state of increase or decrease in the distance from the left end to the character component and the distance from the character component to the right end in the scanning line from the left to the right as in the case of the slash sequence “//”.
「L」は、水平方向に文字成分ヒストグラムをとると、左端に大きな山があり、それ以降ほぼ一定である。また、垂直方向に文字成分ヒストグラムをとると、底辺を除きほぼ一定、底辺部分に大きな山がある。このようなヒストグラムをとることにより、「L」を判定する。 “L” has a large peak at the left end when the character component histogram is taken in the horizontal direction, and is almost constant thereafter. In addition, when the character component histogram is taken in the vertical direction, there is a large mountain at the base portion which is almost constant except for the base portion. By taking such a histogram, “L” is determined.
ピリオドは、1個の小さい矩形が文字列の下側に存在するという基準を用いて判定すればよい。 The period may be determined using a criterion that one small rectangle exists below the character string.
ハイフンは、1個の横に細長い矩形が文字列中程に存在するという基準を用いて判定すればよい。 The hyphen may be determined using the criterion that a single horizontally long rectangle exists in the middle of the character string.
数字、l(エル)は、1個の矩形からなり、縦幅が横幅に比べ大きいなどの基準によって容易に判定できる。 The number, l (el), consists of a single rectangle, and can be easily determined by criteria such as the vertical width being larger than the horizontal width.
実際には、「l(エル)」「1(壱)」は、「0」、「2」、「3」等に比べ、更に縦長であるため、個々の判定用閾値を設定することが好ましい。 Actually, “l (el)” and “1 (壱)” are further vertically longer than “0”, “2”, “3”, etc., and therefore it is preferable to set individual determination thresholds. .
また、「話」「舌」などは、形状、位置によって判定することは難しい。従って、「話」、「舌」のみの認識辞書を使って、文字認識を行い、信頼度が0.9以上(最大は1)あるとき、「話」、「舌」と判定することもできる。 Also, it is difficult to determine “story”, “tongue”, etc. by shape and position. Therefore, character recognition is performed using a recognition dictionary of only “story” and “tongue”, and when the reliability is 0.9 or more (maximum is 1), it can also be determined as “talk” or “tongue”. .
なお、各文字の判定ルールは、上記のものに限られず、判定対象文字自体も上記のものに限られない。 The determination rule for each character is not limited to the above, and the determination target character itself is not limited to the above.
なお、「話」の文字は、「言」と「舌」の2文字に分離されてしまう可能性がある。
その対策として、「舌」+「:」のルールを追加してもよい。
Note that there is a possibility that the characters of “story” are separated into two characters of “word” and “tongue”.
As a countermeasure, a rule of “tongue” + “:” may be added.
(文字列抽出部21によって抽出された文字列情報の構造)
次に、文字列抽出部21によって抽出された文字列の情報の一例について、図11を参照しつつ説明する。図11は、文字列抽出部21によって抽出された文字列情報60の構造の例を示す図である。図11には、1文字列分の文字列情報が示されている。
(Structure of character string information extracted by the character string extraction unit 21)
Next, an example of character string information extracted by the character
この文字列情報は、文字列が何文字から構成されるかを示す文字数情報61、
文字列の左上および右下の座標を示す文字列座標情報62、文字列に含まれる各文字に関する文字情報63から成る。
The character string information includes character number information 61 indicating how many characters are included in the character string.
It consists of character string coordinate information 62 indicating the upper left and lower right coordinates of the character string, and
さらに、文字情報63は、文字を構成する矩形の数である文字矩形数情報64、文字の左上および右下の座標を示す文字座標情報65、各文字ごとの文字矩形情報66から成る。文字矩形情報66には、文字を構成する矩形分だけ、矩形の座標が含まれている。
Further, the
なお、文字列の抽出には従来技術を用いればよいと上述したが、日本語には分離文字等があるため、文字パターンマッチングの結果の文字の信頼度(類似度等)を用いずに1文字を正しく確定することは難しい。従って、本実施形態では、垂直方向走査線による走査にてオーバーラップする文字矩形群を、1文字としている。 Although it has been described above that the conventional technique may be used for extracting the character string, since there are separated characters and the like in Japanese, 1 is used without using the reliability (similarity or the like) of characters as a result of character pattern matching. It is difficult to determine characters correctly. Therefore, in this embodiment, the character rectangle group which overlaps by the scanning by a vertical direction scanning line is made into one character.
この抽出方法を、名刺等に記載されたメールアドレスを抽出する例を用いて説明する。ここでは、
メール:sharp.taro@sharp.co.jp
の先頭5文字分を認識する。
This extraction method will be described using an example of extracting an e-mail address written on a business card or the like. here,
Email: sharp.taro@sharp.co.jp
Recognize the first 5 characters.
この文字列に含まれる文字のうち、「メ」、「ー」、「s」は、1文字1矩形として認識される。「ル」は、左側の「ノ」と、右側の「レ」との2矩形として認識されるが、これらの矩形は垂直方向走査線による走査にて重ならないので、別の文字として扱われる。 Of the characters included in this character string, “me”, “−”, “s” are recognized as one rectangle per character. “Le” is recognized as two rectangles, “No” on the left side and “Le” on the right side, but these rectangles are treated as different characters because they do not overlap when scanned by the vertical scanning line.
「:」は、上部の点と下部の点の2点から成るが、垂直方向走査線による走査にて重なっているので、上部の点と下部の点の2矩形で1文字として認識される。 “:” Is composed of two points, an upper point and a lower point, but is overlapped by scanning by a vertical scanning line, so that it is recognized as one character by two rectangles of the upper point and the lower point.
(文字認識辞書43を利用した文字認識方法)
次に、文字列認識部23による文字認識辞書43の利用方法の例について説明する。
(Character recognition method using the character recognition dictionary 43)
Next, an example of how to use the
例えば、対象文字列の項目が、「電話」であると判定された場合、0から9までの数字、ハイフン、括弧の他に、名刺で電話の前によく記載されているキー単語(電話、TEL、Tel: 等)内の文字、すなわち、
「電」、「話」、「T」、「E」、「L」、「t」、「e」、「l」、「:」
などの文字のみを辞書照合時に用いればよい。
For example, when it is determined that the item of the target character string is “phone”, in addition to
"Den", "Talk", "T", "E", "L", "t", "e", "l", ":"
Only characters such as can be used for dictionary matching.
対象文字列の項目が、「メール」であると判定されたときも同じく、英数字、@、ピリオド、ハイフン、アンダースコアの他に、よく使われるキー単語(メール: 等)内の文字、すなわち、
「メ」、「ー」、「ル」、「:」、
などの文字のみを辞書照合時に用いればよい。
Similarly, when it is determined that the item of the target string is “mail”, in addition to alphanumeric characters, @, period, hyphen, and underscore, characters in commonly used key words (email: etc.), that is, ,
"Email",":",
Only characters such as can be used for dictionary matching.
対象文字列の項目がひとつに特定された場合、項目の特定は不要であるが、対象文字列の内容(具体的には、文字コード)が不明であるため、通常、文字認識辞書を用いて、対象文字列の内容を決める(具体的には、文字列の認識を行う)ことが必要である。 When the target character string item is specified as one item, it is not necessary to specify the item, but since the content of the target character string (specifically, the character code) is unknown, the character recognition dictionary is usually used. It is necessary to determine the contents of the target character string (specifically, the character string is recognized).
このとき、必要な辞書カテゴリのみを使うことによりマッチングの高速化が可能となる。 At this time, it is possible to speed up matching by using only necessary dictionary categories.
対象文字列が一意に決まらなかった場合は、項目に対応した照合対象文字の和を用いればよい。例えば、項目が電話かFAXのいずれかで、一意に決まらない場合であれば、項目が電話のときに照合する辞書文字カテゴリと項目がFAXのときに照合する辞書文字カテゴリの両方を用いればよい。 If the target character string is not uniquely determined, the sum of characters to be matched corresponding to the item may be used. For example, if the item is either telephone or FAX and is not uniquely determined, both the dictionary character category to be checked when the item is a phone call and the dictionary character category to be checked when the item is FAX may be used. .
(携帯電話1における処理の流れ)
次に、携帯電話1において、対象画像から複数の文字列を抽出し、各文字列の項目を判定する処理の流れについて、図12を参照しつつ説明する。図12は、携帯電話1における処理の流れを示すフローチャートである。なお、以下では、特定文字判定部22において対象文字列の項目がひとつに決まらない場合の処理の流れについて説明する。
(Processing flow in the mobile phone 1)
Next, the flow of processing for extracting a plurality of character strings from the target image and determining the item of each character string in the
まず、ユーザが操作部6を介して認識対象項目の指示を入力すると、その指示は対象項目指示部51に伝達される(S1)。そして、対象項目指示部51は、当該指示(認識対象項目の情報)を主制御部2へ出力する(受付工程)。
First, when a user inputs an instruction for a recognition target item via the
上記指示を受け取ると、主制御部2は、認識対象項目の情報を対象項目記憶部34に格納する。
When receiving the above instruction, the
さらに、主制御部2は、カメラ9を制御することによって認識対象の文書を撮像し、その撮像画像である対象画像を対象文書記憶部31に格納する(S2)。
Further, the
対象画像の格納が終了すると、文字列判定制御部2bは、文字列抽出部21に文字列抽出命令を出力する。
When the storage of the target image is completed, the character string determination control unit 2b outputs a character string extraction command to the character
この文字列抽出命令を受け取ると、文字列抽出部21は、対象文書記憶部31に格納された対象画像から、対象文字列を抽出する(S3)。文字列抽出部21は、抽出した対象文字列を、対象文字列記憶部32に一時記憶させる。なお、抽出された対象文字列の個数をMとする。
Upon receiving this character string extraction command, the character
対象文字列の抽出が終了すると、文字列判定制御部2bは、自らが備えるカウンタ(不図示)を1に初期化する(m=1)(S4)。 When the extraction of the target character string is completed, the character string determination control unit 2b initializes a counter (not shown) provided therein to 1 (m = 1) (S4).
次に、文字列判定制御部2bは、カウンタの値(m)が文字列数M以下であるか否かを判定する(S5)。 Next, the character string determination control unit 2b determines whether or not the counter value (m) is equal to or less than the number M of character strings (S5).
カウンタの値(m)が文字列数M以下ではない場合(S5にてNO)、文字列判定制御部2bは、一連の処理を終了する。すなわち、文字列抽出部21が抽出した対象文字列のすべてについて判定を終えると、文字列判定制御部2bは、一連の処理を終了する。
If the value (m) of the counter is not less than or equal to the number M of character strings (NO in S5), the character string determination control unit 2b ends a series of processes. That is, when all the target character strings extracted by the character
カウンタの値(m)が文字列数M以下である場合(S5にてYES)、文字列判定制御部2bは、特定文字判定部22の文字列パターン検出部22aへ文字列パターン検出命令を出力する。
When the counter value (m) is equal to or less than the number M of character strings (YES in S5), character string determination control unit 2b outputs a character string pattern detection command to character string
文字列パターン検出命令を受け取ると、文字列パターン検出部22aは、m番目の対象文字列に文字列パターンが含まれているか否かを、文字判定ルールテーブル41および対応項目テーブル42を参照しつつ判定する(特定文字検出工程)。このとき、文字列パターン検出部22aは、項目対応テーブル42のn番目(nは、1から項目対応テーブル42に規定された文字列パターンの総数までの数)の文字列パターンが含まれているか否かを順に判定する。文字列パターン検出部22aは、この判定結果を文字列判定制御部2bへ出力する。なお、文字判定ルールテーブル41および項目対応テーブル42の参照方法の詳細については、後述する。
Upon receiving the character string pattern detection command, the character string
文字列パターンが含まれていない場合(S6にてNO)、文字列パターン検出部22aは、その旨を示す情報を文字列判定制御部2bへ出力する。この情報を受け取ると、文字列判定制御部2bは、カウンタの値(m)を1増やし(S10)、S6に戻る。
When the character string pattern is not included (NO in S6), the character string
文字列パターンが含まれている場合には(S6にてYES)、文字列パターン検出部22aは、検出した文字列パターンを項目判定部22bへ出力する(S7)。
If a character string pattern is included (YES in S6), character string
この文字列パターンを受け取ると、項目判定部22bは、対応項目テーブル42を参照して、当該文字列パターンに対応する文字列の項目の候補を判定し(種類判定工程)、判定結果を項目比較部22cへ出力する。
Upon receipt of this character string pattern, the
この判定結果を受け取ると、項目比較部22cは、判定された項目の複数の候補と、対象項目記憶部34に格納された認識対象項目(S1で選択された項目)とを比較し、複数の候補に認識対象項目が含まれているか否かを判定する(S8)。項目比較部22cは、その判定結果を文字列判定制御部2bへ出力する。
Upon receiving this determination result, the
複数の候補に認識対象項目が含まれていない場合(S8にてNO)、文字列判定制御部2bは、カウンタの値(m)を1増やし(S11)、S6に戻る。 When the recognition target item is not included in the plurality of candidates (NO in S8), the character string determination control unit 2b increases the counter value (m) by 1 (S11), and returns to S6.
一方、複数の候補に認識対象項目が含まれている場合(S7にてYES)、文字列判定制御部2bは、対象文字列を認識するよう命じる認識命令を文字列認識部23へ出力する。
On the other hand, when the recognition target item is included in the plurality of candidates (YES in S7), the character string determination control unit 2b outputs a recognition command instructing to recognize the target character string to the character
この認識命令を受け取ると、文字列認識部23は、上述したように、認識対象項目に対応する文字認識辞書を参照して、対象文字列記憶部32に記憶された対象文字列に特定の文字が含まれているか否かを判定する(文字認識工程)(S9)。文字列認識部23は、その判定結果(検出した特定の文字を含む)を認識結果記憶部34に格納するとともに、格納が完了したことを示す完了情報を項目判定部24へ出力する。
When this recognition command is received, the character
この完了情報を受け取ると、項目判定部24は、認識結果記憶部34に格納された対象文字列に特定の文字が含まれている場合には、当該特定文字に対応する項目を、対象文字列の項目とし(S10)、この判定結果を文字列判定制御部2bへ出力する。
Upon receipt of this completion information, the
文字列判定制御部2bは、当該判定結果を、出力制御部7を介して表示部8へ出力する。
The character string determination control unit 2 b outputs the determination result to the
一方、対象文字列に特定の文字が含まれていない場合には、項目判定部24は、その旨を示す情報を文字列判定制御部2bへ出力する。この情報を受けた文字列判定制御部2bは、判定結果を出力しないことが好ましい。
On the other hand, when a specific character is not included in the target character string, the
項目判定部24による項目判定が終了すると、文字列判定制御部2bは、カウンタの値(m)を1増やし(S11)、S6に戻る。
When the item determination by the
なお、項目判定部22bにおいて、対象文字列の項目が一意に決まっていればS10の項目判定処理を略すことも可能である。また、複数の項目から一意の項目に絞り込んだとき、その項目が認識対象項目に一致していなければ、認識結果を出力しない方が好ましい。
In the
また、表示部8に判定結果が表示された後に、ユーザによって所定の操作が行われた場合に、主制御部2は、文字コードから成る対象文字列のテキスト情報、すなわち、文字列認識部23によって得られた、対象文字列の認識結果を電話帳44に格納すればよい。
Further, when a predetermined operation is performed by the user after the determination result is displayed on the
(特定文字判定部22における処理の詳細)
次に、特定文字判定部22における処理の詳細について図13を参照しつつより詳細に説明する。図13は、特定文字判定部22における処理の流れを示すフローチャートである。
(Details of processing in specific character determination unit 22)
Next, details of processing in the specific
上記の文字列パターン検出命令を受け取ると、文字列パターン検出部22aは、まず、自らが備えるカウンタ(不図示)の値(n)を1に初期化する(n=1)(S21)。
When the character string pattern detection command is received, the character string
次に、文字列パターン検出部22aは、カウンタの値(n)を参照し、nがN1以下であるか否かを判定する(S22)。ここで、N1は、項目が一つに特定できる項目対応テーブル42aに示される、文字列パターンと項目との対の数(項目対応テーブル42aの行の数)である。図5に示された例では、N1は6である。
Next, the character string
nがN1以下であれば(S22にてYES)、文字列パターン検出部22aは、対象文字列が対応項目テーブル42aの第n番目の文字列パターンを含んでいるか否かの判定を行い(S23)、その判定結果および検出した文字列パターンを項目判定部22bへ出力する。
If n is N1 or less (YES in S22), the character string
対象文字列が対応項目テーブル42aの第n番目の文字列パターンを含んでいる場合(S23にてYES)、項目判定部22bは、当該文字列パターンに対応する項目が対象文字列の項目であると判定する。そして、項目判定部22bは、この判定結果を文字列判定制御部2bへ出力する。
When the target character string includes the nth character string pattern of the corresponding item table 42a (YES in S23), the
対象文字列が対応項目テーブル42aの第n番目の文字列パターンを含んでいない場合(S23にてNO)、項目判定部22bは、その判定結果を文字列パターン検出部22aへ出力する。そして、文字列パターン検出部22aは、nの値を1増やし(S24)、S22に戻る。
When the target character string does not include the nth character string pattern in the corresponding item table 42a (NO in S23), the
一方、nがN1以下でなければ、すなわち、項目対応テーブル42aに示されたすべての文字列パターンについての判定を終了すれば(S22にてNO)、特定文字判定部22は、項目対応テーブル42bに示された文字列パターンについて判定を行う(S25〜S29)。S25以降の処理は、S24までの処理とほぼ同様であるが、全文字列パターンに関して判定する点が異なっている。これは、項目が一つに限定できない文字列パターンを検出しているためである。
On the other hand, if n is not N1 or less, that is, if the determination for all the character string patterns shown in item correspondence table 42a is completed (NO in S22), specific
全ての文字列パターンの有無が判定された後、項目判定部22bは、これまでに検出できた文字列パターンに対応する項目群から、項目を絞り込むという処理を行う(S29)。
After the presence / absence of all the character string patterns is determined, the
(文字列パターン検出部22aにおける処理の流れ)
次に、対象文字列に文字列パターンが含まれているか否かを判定する処理の流れについて図14を参照しつつ説明する。図14は、文字列パターン検出部22aにおける処理の流れを示すフローチャートである。
(Processing flow in the character string
Next, a flow of processing for determining whether or not a character string pattern is included in the target character string will be described with reference to FIG. FIG. 14 is a flowchart showing the flow of processing in the character string
図14のフローチャートを用いた以下の説明では、文字列パターンがコロン「:」+「//」に合致するか否かを判定する処理について述べるが、その他の文字列パターンについてもほぼ同様の処理が行われる。 In the following description using the flowchart of FIG. 14, processing for determining whether or not the character string pattern matches the colon “:” + “//” will be described, but substantially the same processing is performed for other character string patterns. Is done.
上記の文字列パターン検出命令を受け取ると、文字列パターン検出部22aは、自らが備えるカウンタの値(t)を1に初期化する(S31)。
When the character string pattern detection command is received, the character string
次に、文字列パターン検出部22aは、tがT以下であるか否かを判定する(S32)。なお、上記Tは、対象文字列の文字数である。
Next, the character string
tがTより大きければ、すなわち、対象文字列に含まれるすべての文字について判定を行えば、処理を終了する。 If t is larger than T, that is, if all the characters included in the target character string are determined, the process ends.
tがT以下であれば、文字列パターン検出部22aは、t番目の文字が、コロン「:」であるか否かの判定を行う(S33)。コロンであるか否かの判定は、上述した通りである。
If t is equal to or smaller than T, the character string
t番目の文字が、コロンである場合(S33にてYES)、文字列パターン検出部22aは、t+1番目の文字が、スラッシュの連続からなる文字「//」であるか否かの判定を行う(S34)。スラッシュの連続であれば(S34にてYES)、文字列パターン検出部22aは、処理を終了し、そうでなければ(S34にてNO)、S35の処理を行う。
When the t-th character is a colon (YES in S33), the character string
一方、t番目の文字が、コロンでない場合(S33にてNO)、文字列パターン検出部22aは、カウンタtを1増やし(S35)、S32の処理に戻る。
On the other hand, if the t-th character is not a colon (NO in S33), character string
なお、図14に示す例は、2個のスラッシュが垂直方向走査線でオーバーラップして1文字に扱われる場合の例である。2個のスラッシュが重ならない場合は、t番目の文字が「:」、かつ、t+1番目の文字が「/」、かつ、t+2番目の文字が「/」 であるか否かを判定すればよい。 The example shown in FIG. 14 is an example in which two slashes are treated as one character by overlapping with a vertical scanning line. If the two slashes do not overlap, it can be determined whether the t-th character is “:”, the t + 1-th character is “/”, and the t + 2-th character is “/”. .
その他の文字列パターンが含まれているか否かの判定についても、図14のフローチャートと同様の方法にて容易に調べられる。 Whether or not other character string patterns are included can also be easily checked by the same method as in the flowchart of FIG.
(認識対象文書が名刺である場合の処理の例)
最後に、以上説明した処理によって、図3に示す名刺がどのように認識されるかについて述べる。なお、図12のS1において、氏名、電話、メールの項目が選択されたとものとする。
(Example of processing when the document to be recognized is a business card)
Finally, how the business card shown in FIG. 3 is recognized by the processing described above will be described. It is assumed that the items of name, telephone, and mail are selected in S1 of FIG.
氏名「△山×男」、所属「総務部」、会社名「XYZ株式会社」の各文字列に関しては、上述した特定の文字列パターンが含まれていない。これには次のように対処する。 The specific character string pattern described above is not included for each character string of the name “△ yama × m”, affiliation “general affairs department”, and company name “XYZ Corporation”. This is dealt with as follows.
まず、氏名については、上述したように、特許文献2等に述べられている方法にて、最初に氏名のみ抽出しておけばよい。
First, as described above, as described above, only the name may be extracted by the method described in
残りの所属、会社名については、特定の文字列パターンが存在しない。これについては、従来の手法(たとえば、特許文献3等)の手法を用いて、日本語文字列か英語文字列かの判定を行えばよい。所属、会社名は、日本語文字列と判定される(はずである)ので、これらの文字列に対しては認識処理を行わないようにすればよい。 There is no specific string pattern for the remaining affiliations and company names. For this, it is sufficient to determine whether the character string is a Japanese character string or an English character string by using a conventional method (for example, Patent Document 3). Since the affiliation and company name are determined to be Japanese character strings (should be), the recognition process should not be performed on these character strings.
残りの電話、メール、URLは、上述した特定の文字列パターンを検索する方法で、項目の特定が可能である。 The remaining telephones, mails, and URLs can be specified by the above-described method for searching for a specific character string pattern.
電話行の「TEL:0123-45-6789」は、
(1)文字列パターン(「L」+「:」)に合致することから、電話、メール、または、URLと判定され、
(2)文字列パターン(ハイフン+数字列+ハイフン)に合致することから、電話、または、FAXと判定されるが、
(1)および(2)に共通な項目は、電話しかないため、電話行の項目は、「電話」に特定される。従って、上記電話行は、文字列認識部23における文字認識処理の対象とならない。
"TEL: 0123-45-6789" on the telephone line is
(1) Since it matches the character string pattern (“L” + “:”), it is determined as a phone call, mail, or URL,
(2) Since it matches the character string pattern (hyphen + number string + hyphen), it is determined as a phone call or FAX.
Since the item common to (1) and (2) is only the telephone, the telephone line item is specified as “telephone”. Therefore, the telephone line is not subjected to character recognition processing in the character
メール行の「sankaku.batsu@sxyz.co.jp」は、ピリオドを3個含んでいるので、メール、または、URLの何れかと判定される。 Since “sankaku.batsu@sxyz.co.jp” in the mail line includes three periods, it is determined to be either mail or URL.
上述した本実施形態の説明では、どちらであるかを特定できるルールはないので、メール行は、メールまたはURLの何れかと判定されるため、文字列認識部23における文字認識処理の対象となる。
In the above description of the present embodiment, since there is no rule that can identify which one, the mail line is determined to be either mail or URL, and is therefore a character recognition process target in the character
文字列認識部23における文字列認識処理の後、項目判定部24における項目判定処理において、対象文字列が@を有すること等により、当該対象文字列はメール行と判定され、その結果が表示部8に表示される。
After the character string recognizing process in the character
URL行の「http://www.xyz.co.jp」は、文字列パターン(「:」+「//」)に合致しているので、URLと判定される。従って、上記URL行は、文字列認識部23における文字列認識処理の対象とならない。
Since “http://www.xyz.co.jp” in the URL line matches the character string pattern (“:” + “//”), it is determined as a URL. Therefore, the URL line is not subjected to character string recognition processing in the character
なお、なんらかの理由で文字列パターンが抽出できなかった場合には、同じく特許文献3等に記載の従来手法を用いて、日本語文字列か英語文字列かの判定を行った後、英語文字列であれば、電話、または、メール項目として認識すればよい。電話、FAX、メール、URLは、英語文字列と判定される(はずである)ので、電話、または、メール項目として認識すればよい。
If the character string pattern cannot be extracted for some reason, it is determined whether the character string pattern is a Japanese character string or an English character string using the conventional method described in
(携帯電話1の効果)
以上のように、本実施形態の携帯電話1(文字列判定装置)によれば、認識対象文書に記載された文字列に含まれる特定の文字列パターンに着目することにより、文字列の項目を絞り込むことができ、さらに特定の文字列については一意に決定することが可能である。
(Effect of mobile phone 1)
As described above, according to the mobile phone 1 (character string determination device) of the present embodiment, by focusing on the specific character string pattern included in the character string described in the recognition target document, the item of the character string is changed. It is possible to narrow down, and it is possible to uniquely determine a specific character string.
さらに、項目の判定は、主として、文字の形状、文字列中における文字の相対位置等の少なくともいずれか一つの特徴を用いるため、項目判定にかかる処理量が少ない。それゆえ、上記文字列判定装置は、小型の携帯情報端末等の処理能力が低い機器への搭載にも適している。 Furthermore, since the item determination mainly uses at least one of the characteristics such as the character shape and the relative position of the character in the character string, the processing amount for the item determination is small. Therefore, the character string determination device is also suitable for mounting on a device with low processing capability such as a small portable information terminal.
本発明の文字列判定装置では、ユーザが欲する特定の項目のみを抽出し、当該特定の項目に対して認識処理を適用することができる。このこと(および、この手法自体も簡単かつ高速であること)により、小型の携帯情報端末等の処理能力が低い機器でも認識処理時間を低減することができる。 In the character string determination device of the present invention, only a specific item desired by the user can be extracted, and the recognition process can be applied to the specific item. This (and this method itself is also simple and fast) can reduce the recognition processing time even for devices with low processing capabilities such as small portable information terminals.
また、上記文字列判定装置では、必ずしも文字列の項目が1つに決まらない場合がある。例えば、メールまたはURLのどちらか、という判定結果になる場合がある。 In the character string determination device, there may be cases where the number of character string items is not always limited to one. For example, the determination result may be either mail or URL.
しかしながら、文字列の項目を限定し、必要な辞書カテゴリのみを使うことによりマッチングの高速化が可能であるという利点がある。項目が一意に決まらない場合は、文字列認識後、文字列の認識結果から項目を判定するという従来の方法を用いればよい。このときの従来の方法はどのようなものであってもよい。 However, there is an advantage that the speed of matching can be increased by limiting the items of character strings and using only necessary dictionary categories. If an item is not uniquely determined, a conventional method of determining an item from a character string recognition result after character string recognition may be used. Any conventional method may be used.
さらに、認識対象とする項目はユーザが選択できることにより、ユーザにとって使い勝手がよい。 Furthermore, the user can select items to be recognized, which is convenient for the user.
また、ユーザが選択した必要な項目のみを認識し、その結果を出力するため、ユーザにとって不要な項目を削除(または、修正)することによるユーザの負担が、全項目を出力する場合に比べて少ないという利点がある。 Also, since only the necessary items selected by the user are recognized and the result is output, the burden on the user by deleting (or correcting) the items unnecessary for the user is greater than when all items are output. There is an advantage of less.
また、上記文字列判定装置は、認識対象項目を限定しない場合でも、最初に文字列の項目を絞り込み、絞り込んだ対象項目に必要な文字カテゴリのみを使った辞書照合処理を行うことにより、認識対象の全項目を認識するよりも、認識処理時間の短縮が図れるという効果も奏する。 In addition, even when the recognition target item is not limited, the character string determination device first narrows down the items of the character string, and performs a dictionary collation process using only the character category necessary for the narrowed target item, thereby recognizing the recognition target item. There is also an effect that the recognition processing time can be shortened rather than recognizing all items.
なお、認識対象文書は、画像に制限されるものでない。例えば、オンライン手書き文字列の認識処理では、画像情報の代わりにストローク情報を用いればよい。 The recognition target document is not limited to an image. For example, in the online handwritten character string recognition process, stroke information may be used instead of image information.
(変更例)
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
(Example of change)
The present invention is not limited to the above-described embodiments, and various modifications are possible within the scope shown in the claims, and embodiments obtained by appropriately combining technical means disclosed in different embodiments. Is also included in the technical scope of the present invention.
例えば、上述の構成では、入力制御部5が、ユーザが指定した対象文字列の項目である認識対象項目(指定種類)の情報を受け付けていたが、認識対象項目の情報は、予め記憶部4に格納されていてもよい。
For example, in the above-described configuration, the
また、上述した携帯電話1の各ブロック、特に主制御部2は、ハードウェアロジックによって構成してもよいし、次のようにCPUを用いてソフトウェアによって実現してもよい。
Further, each block of the
すなわち、携帯電話1は、各機能を実現する制御プログラムの命令を実行するCPU(central processing unit)、上記プログラムを格納したROM(read only memory)、上記プログラムを展開するRAM(random access memory)、上記プログラムおよび各種データを格納するメモリ等の記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである携帯電話1の制御プログラム(文字列認識プログラム)のプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、上記携帯電話1に供給し、そのコンピュータ(またはCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
That is, the
上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD/CD−R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROM等の半導体メモリ系などを用いることができる。 Examples of the recording medium include tapes such as magnetic tapes and cassette tapes, magnetic disks such as floppy (registered trademark) disks / hard disks, and disks including optical disks such as CD-ROM / MO / MD / DVD / CD-R. Card system such as IC card, IC card (including memory card) / optical card, or semiconductor memory system such as mask ROM / EPROM / EEPROM / flash ROM.
また、携帯電話1を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL回線等の有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。
The
本発明の文字列判定装置は、認識対象となる文字列が、予め定められた種類のどれに相当するものかを少ない処理量で判定することができるため、処理能力の低い携帯端末にも好適に組み込むことができる。 The character string determination device of the present invention can determine which of the predetermined types the character string to be recognized corresponds to with a small amount of processing, and is therefore suitable for a portable terminal with low processing capability. Can be incorporated into.
1 携帯電話(文字列判定装置)
22a 文字列パターン検出部(特定文字検出手段)
22b 項目判定部(種類判定手段)
23 文字列認識部(文字認識手段)
24 項目判定部(文字列特定手段)
43 文字認識辞書
51 対象項目指示部(受付手段)
60 文字列情報(対象文字列)
1 Mobile phone (character string determination device)
22a Character string pattern detection unit (specific character detection means)
22b Item determination unit (type determination means)
23 Character string recognition unit (character recognition means)
24 Item determination part (character string specifying means)
43
60 Character string information (target character string)
Claims (8)
文字列の種類と対応付けられた、特定の形状を示す情報である文字列パターンが上記文字列情報に含まれているかどうかを検出する特定文字検出手段と、
上記特定文字検出手段によって、上記文字列パターンが上記文字列情報内に検出された場合に、当該文字列パターンに対応する文字列の種類を、当該対象文字列の種類とする種類判定手段とを備えることを特徴とする文字列判定装置。 A character string determination device that acquires character string information indicating a shape of a character constituting a target character string, and determines a type of the target character string based on a character shape indicated by the character string information,
Specific character detection means for detecting whether or not a character string pattern, which is information indicating a specific shape and associated with a character string type, is included in the character string information;
When the character string pattern is detected in the character string information by the specific character detection means, a type determination means that sets the type of the character string corresponding to the character string pattern as the type of the target character string; A character string determination device comprising:
文字列の種類と対応付けられた、特定の形状を示す情報である文字列パターンが上記文字列情報に含まれているかどうかを検出する特定文字検出工程と、
上記特定文字検出手段によって、上記文字列パターンが上記文字列情報内に検出された場合に、当該文字列パターンに対応する文字列の種類を、当該対象文字列の種類とする種類判定工程とを含むことを特徴とする文字列判定方法。 A character string determination method in a character string determination device that acquires character string information indicating the shape of a character constituting a target character string and determines the type of the target character string based on the character shape indicated by the character string information. There,
A specific character detection step for detecting whether or not a character string pattern, which is information indicating a specific shape and associated with a character string type, is included in the character string information;
A type determining step in which, when the character string pattern is detected in the character string information by the specific character detecting means, the type of the character string corresponding to the character string pattern is set as the type of the target character string; A character string determination method comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006216188A JP4800144B2 (en) | 2006-08-08 | 2006-08-08 | Character string determination device, character string determination method, character string determination program, and computer-readable recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006216188A JP4800144B2 (en) | 2006-08-08 | 2006-08-08 | Character string determination device, character string determination method, character string determination program, and computer-readable recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008040910A true JP2008040910A (en) | 2008-02-21 |
JP4800144B2 JP4800144B2 (en) | 2011-10-26 |
Family
ID=39175819
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006216188A Expired - Fee Related JP4800144B2 (en) | 2006-08-08 | 2006-08-08 | Character string determination device, character string determination method, character string determination program, and computer-readable recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4800144B2 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010217996A (en) * | 2009-03-13 | 2010-09-30 | Omron Corp | Character recognition device, character recognition program, and character recognition method |
JP2014211691A (en) * | 2013-04-17 | 2014-11-13 | 富士通セミコンダクター株式会社 | Data processing device and data processing program |
JP2014229179A (en) * | 2013-05-24 | 2014-12-08 | 富士通フロンテック株式会社 | Character recognition device, character recognition method and character recognition program |
WO2017126056A1 (en) * | 2016-01-20 | 2017-07-27 | 株式会社Pfu | Mobile terminal, image processing method, and program |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08185485A (en) * | 1994-12-27 | 1996-07-16 | Matsushita Electric Ind Co Ltd | Method and device for recognizing character |
JP2001008072A (en) * | 1999-06-22 | 2001-01-12 | Casio Comput Co Ltd | Electronic camera and its control method |
JP2001109763A (en) * | 1999-10-07 | 2001-04-20 | Nkk Corp | Device for processing information |
JP2003152829A (en) * | 2001-11-14 | 2003-05-23 | Sharp Corp | Communication apparatus |
JP2005182772A (en) * | 2003-11-28 | 2005-07-07 | Sharp Corp | Character recognition device, program and recording medium |
JP2006099270A (en) * | 2004-09-28 | 2006-04-13 | Toshiba Corp | Character recognition device |
-
2006
- 2006-08-08 JP JP2006216188A patent/JP4800144B2/en not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08185485A (en) * | 1994-12-27 | 1996-07-16 | Matsushita Electric Ind Co Ltd | Method and device for recognizing character |
JP2001008072A (en) * | 1999-06-22 | 2001-01-12 | Casio Comput Co Ltd | Electronic camera and its control method |
JP2001109763A (en) * | 1999-10-07 | 2001-04-20 | Nkk Corp | Device for processing information |
JP2003152829A (en) * | 2001-11-14 | 2003-05-23 | Sharp Corp | Communication apparatus |
JP2005182772A (en) * | 2003-11-28 | 2005-07-07 | Sharp Corp | Character recognition device, program and recording medium |
JP2006099270A (en) * | 2004-09-28 | 2006-04-13 | Toshiba Corp | Character recognition device |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010217996A (en) * | 2009-03-13 | 2010-09-30 | Omron Corp | Character recognition device, character recognition program, and character recognition method |
JP2014211691A (en) * | 2013-04-17 | 2014-11-13 | 富士通セミコンダクター株式会社 | Data processing device and data processing program |
JP2014229179A (en) * | 2013-05-24 | 2014-12-08 | 富士通フロンテック株式会社 | Character recognition device, character recognition method and character recognition program |
WO2017126056A1 (en) * | 2016-01-20 | 2017-07-27 | 株式会社Pfu | Mobile terminal, image processing method, and program |
JPWO2017126056A1 (en) * | 2016-01-20 | 2018-05-10 | 株式会社Pfu | Mobile terminal, image processing method, and program |
US10832070B2 (en) | 2016-01-20 | 2020-11-10 | Pfu Limited | Mobile terminal, image processing method, and computer-readable recording medium |
Also Published As
Publication number | Publication date |
---|---|
JP4800144B2 (en) | 2011-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7730050B2 (en) | Information retrieval apparatus | |
KR101199747B1 (en) | Word recognition method and recording medium of program recognition word and information process device | |
KR101015663B1 (en) | Method for recognizing character and apparatus therefor | |
US20140056475A1 (en) | Apparatus and method for recognizing a character in terminal equipment | |
JP2007317022A (en) | Handwritten character processor and method for processing handwritten character | |
US20060285748A1 (en) | Document processing device | |
KR101078086B1 (en) | Character recognition apparatus, character recognition program and character recognition method | |
JP2010086151A (en) | Data generation device, scanner, and computer program | |
US7697722B2 (en) | Portable terminal and character reading method using a portable terminal | |
CN109902687B (en) | Image identification method and user terminal | |
JP4800144B2 (en) | Character string determination device, character string determination method, character string determination program, and computer-readable recording medium | |
CN108256523B (en) | Identification method and device based on mobile terminal and computer readable storage medium | |
JP4668345B1 (en) | Information processing apparatus and control method of information processing apparatus | |
EP2793458A1 (en) | Apparatus and method for auto-focusing in device having camera | |
JP2004152036A (en) | Cellular phone with character recognizing function, correction method of recognized character, and program | |
JP4597644B2 (en) | Character recognition device, program and recording medium | |
US20130330005A1 (en) | Electronic device and character recognition method for recognizing sequential code | |
JP4802502B2 (en) | Word recognition device and word recognition method | |
JP2012226085A (en) | Electronic apparatus, control method and control program | |
KR20050003075A (en) | A mobile communication device with optical character recognition and electronic dictionary, an electronic dictionary with optical character recognition | |
JP4431335B2 (en) | String reader | |
JP2019125966A (en) | Image communication device, control method, and program | |
CN110909723B (en) | Information processing apparatus and computer-readable storage medium | |
JP4851604B2 (en) | Portable electronic device and method for controlling portable electronic device | |
WO2012090033A1 (en) | A system and a method for visually aided telephone calls |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080806 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110328 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110802 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110803 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140812 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4800144 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |