JP5035848B2 - Item determination apparatus, item determination program, recording medium, and item determination method - Google Patents

Item determination apparatus, item determination program, recording medium, and item determination method Download PDF

Info

Publication number
JP5035848B2
JP5035848B2 JP2008027624A JP2008027624A JP5035848B2 JP 5035848 B2 JP5035848 B2 JP 5035848B2 JP 2008027624 A JP2008027624 A JP 2008027624A JP 2008027624 A JP2008027624 A JP 2008027624A JP 5035848 B2 JP5035848 B2 JP 5035848B2
Authority
JP
Japan
Prior art keywords
character string
item
reliability
partial
partial character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008027624A
Other languages
Japanese (ja)
Other versions
JP2009187361A (en
Inventor
和宏 竹原
至幸 小山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2008027624A priority Critical patent/JP5035848B2/en
Publication of JP2009187361A publication Critical patent/JP2009187361A/en
Application granted granted Critical
Publication of JP5035848B2 publication Critical patent/JP5035848B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、項目判定装置、項目判定プログラム、記録媒体、および項目判定方法に関し、特に画像データから取得された文字列が分類されるに相応しい項目を判定するための項目判定装置、項目判定プログラム、記録媒体、および項目判定方法に関する。   The present invention relates to an item determination device, an item determination program, a recording medium, and an item determination method, and in particular, an item determination device, an item determination program for determining an item suitable for classification of character strings acquired from image data, The present invention relates to a recording medium and an item determination method.

現在、光学式文字読取装置(OCR:Optical Character Reader)技術は、文書読取装置、帳票読取装置などのいろいろな文字読取装置において利用されている。その中には、名刺読取装置のように、名刺に記載された文字列が、姓名(氏名)、地名(住所)、会社名(所属)などのどの項目(属性)に該当する文字列であるのかを、自動で判定する装置も存在する。   Currently, optical character reader (OCR) technology is used in various character readers such as document readers and form readers. Among them, as in a business card reader, a character string written on a business card is a character string corresponding to any item (attribute) such as first and last name (name), place name (address), company name (affiliation), etc. There are also devices that automatically determine whether or not.

たとえば、特開平5−89292号公報(特許文献1)には、スキャナから読取られた画像データを文字認識部において文字コード列データに変換し、このデータを、ROMにストアされる文字コードのキーワードまたは辞書データを参照しながら該当する項目に確定しながら分類し、その項目を特定するデータを含む項目分類された文字コード列データDOを出力するように構成される文字列認識装置が開示されている。   For example, in Japanese Patent Laid-Open No. 5-89292 (Patent Document 1), image data read from a scanner is converted into character code string data in a character recognition unit, and this data is converted into a character code keyword stored in a ROM. Alternatively, a character string recognizing device configured to classify while confirming a corresponding item while referring to dictionary data and output item-categorized character code string data DO including data specifying the item is disclosed. Yes.

また、特開昭59−47641号公報(特許文献2)には、名刺に印刷された文字列の最も大きな印刷文字列を姓名であると識別し、データベースに入力するデータベース作成装置が記載されている。   Japanese Laid-Open Patent Publication No. 59-47641 (Patent Document 2) describes a database creation device that identifies the largest printed character string of a character string printed on a business card as a first name and last name and inputs it to the database. Yes.

そして、近年ではOCRの小型化が進み、カメラで読取対象を撮影して文字の認識などを行なうカメラ付き携帯電話も発売されている。
特開平5−89292号公報 特開昭59−47641号公報
In recent years, the OCR has been miniaturized, and a camera-equipped mobile phone that takes a reading target with a camera and recognizes characters has been put on the market.
JP-A-5-89292 JP 59-47641 A

しかしながら、携帯電話のような小型情報端末に搭載されたOCRは、メールアドレス、URL(uniform resource locator)、電話番号等の英数字文字列を1行分撮影し認識するといった仕様のものが一般的であり、名刺読取装置等のように、日本語の文字列を読み取り、自動で項目に振り分ける機能を備えた小型情報端末は少ない。このように、日本語の文字を読み取り、自動で項目に振り分ける機能を備えた小型情報端末があまり普及していない(商品化されていない)要因の一つには、辞書データ容量が大きいことが挙げられる。   However, OCR installed in a small information terminal such as a mobile phone generally has a specification that captures and recognizes an alphanumeric character string such as a mail address, URL (uniform resource locator), and telephone number. There are few small information terminals such as business card readers that have a function of reading Japanese character strings and automatically assigning them to items. As described above, one of the factors that the small information terminals having the function of reading Japanese characters and automatically sorting them into items is not so popular (not commercialized) is a large dictionary data capacity. Can be mentioned.

たとえば、姓名、地名等を判別するために単語辞書(たとえば、姓名辞書、地名辞書、一般単語辞書)を利用する名刺読取装置がある。この名刺読取装置は、読み取った文字と辞書とを照合する処理を行うことによって、項目分類を行うものである。この名刺読取装置においては、文字認識処理に必須の文字パターンマッチング辞書の他に、姓名辞書、地名辞書、一般単語辞書等を必要とするため、これらの辞書容量の大きさが、パーソナルコンピュータなどと比べてプログラム容量やデータサイズ容量が少ない小型情報端末への搭載の妨げとなっている。   For example, there is a business card reading device that uses a word dictionary (for example, a first name and last name dictionary, a place name dictionary, a general word dictionary) to determine a first name, a last name, and the like. This business card reader performs item classification by performing a process of collating the read characters with a dictionary. In this business card reading device, in addition to the character pattern matching dictionary essential for character recognition processing, a first name surname dictionary, place name dictionary, general word dictionary, etc. are required. Compared to small information terminals, which have a smaller program capacity and data size capacity, they are hindered.

例えば、30000件の「姓」辞書を搭載するのに、おおよそどれくらいのサイズが必要かを計算してみる。姓の長さの平均を2文字と仮定する。日本語文字コードを表すには2byteの記憶容量が必要であるため、姓辞書全体では、
30000(件)×2(文字)×2(byte)=120Kbyte
(1Kbyte=1000byte、以下同様。)
の記憶容量が必要となる。「名」辞書、「地名」辞書、「一般単語」辞書に関しても同様に、ある程度実用的な語数を登録する場合、各々少なくとも数百Kbyte程度以上の容量が必要になる。
For example, calculate the approximate size required to install 30000 “last name” dictionaries. Assume the average length of last names is 2 characters. Since a 2-byte storage capacity is required to represent a Japanese character code,
30000 (cases) x 2 (characters) x 2 (bytes) = 120 Kbytes
(1 Kbyte = 1000 bytes, and so on)
Storage capacity is required. Similarly, regarding the “name” dictionary, “place name” dictionary, and “general word” dictionary, when registering a practical number of words to some extent, a capacity of at least about several hundred Kbytes is required.

これは、使用される文字の種類自体が数百個しかなくても、それらが組み合わされた単語の種類は数万あるいは数十万にも達するからである。以下では、「姓」辞書、「名」辞書、「地名」辞書、「一般単語」辞書を総称して、単語辞書と記載する。また、一般単語とは、固有名詞、代名詞等を除いた普通名詞のことである。   This is because even if there are only a few hundred types of characters used, the number of types of words combined with them reaches tens of thousands or hundreds of thousands. Hereinafter, the “last name” dictionary, “first name” dictionary, “place name” dictionary, and “general word” dictionary are collectively referred to as a word dictionary. A general word is a common noun excluding proper nouns and pronouns.

最近の小型情報端末は、記憶装置の容量が増えてきつつあるが、多機能化(すなわち搭載ソフトの増加)により、現実にはソフト組み込みのための記憶装置の容量は必ずしも十分とは言えない。そのため、小型情報端末への搭載する場合、単語辞書の容量削減が課題となる。   Although the capacity of a storage device has recently been increasing in recent small information terminals, in reality, the capacity of a storage device for software incorporation is not always sufficient due to multifunctionalization (that is, increase in installed software). For this reason, when it is mounted on a small information terminal, it is a problem to reduce the capacity of the word dictionary.

単語辞書の容量を削減するためには、例えば、特開昭59―47641(特許文献2)に記載されているように、名刺に印刷された文字列の最も大きな印刷文字列を姓名であると識別する方法がある。この手法を用いれば、小型情報端末に姓名辞書を搭載することは不要となる。また、地名の判定についても、「都道府県」「市町村区郡」「丁目、番地」等といったキー文字、キー単語を検出して地名であると判定するようにすれば、地名辞書を使わずに地名の項目判定が可能になる。   In order to reduce the capacity of the word dictionary, for example, as described in JP-A-59-47641 (Patent Document 2), the largest printed character string of the character string printed on the business card is the first name and last name. There is a way to identify. If this method is used, it is not necessary to mount a first name surname dictionary in a small information terminal. Also, with regard to the determination of place names, if key characters and key words such as “prefectures”, “municipalities”, “chome, street address”, etc. are detected and determined as place names, the place name dictionary is not used. Place name item determination is possible.

しかしながら、これらの姓名辞書、地名辞書を使わない判定方法には、以下の問題がある。すなわち、姓名の判定に関していえば、名刺のデザインは多種多様であって、最も文字サイズが大きい文字から構成される文字が姓名であるとは限らないのである。   However, these determination methods that do not use the first name surname dictionary and place name dictionary have the following problems. In other words, regarding the determination of first and last names, the design of business cards is diverse, and the characters composed of the characters with the largest character size are not necessarily the first and last names.

また、名刺読取装置には、会社名、部署名、肩書き名を判別するためにキーワード(〜社、〜部、〜長など)を利用するものがある。しかし、この名刺読取装置においては、キーワードが見つからない場合に、項目分類を行えないという不具合がある。たとえば、地名の判定に関しても、住所を表す文字列に、「都道府県」「市町村区郡」「丁目、番地」等といったキー文字、キー単語が含まれているとは限らない。   Some business card readers use keywords (~ company, ~ department, ~ head, etc.) to determine the company name, department name, and title. However, this business card reader has a problem in that item classification cannot be performed when a keyword is not found. For example, in determining a place name, a character string representing an address does not necessarily include key characters or key words such as “prefecture”, “city / town / ward”, and “chome, street address”.

本発明は前記問題点を解決するためになされたものであって、本発明の主たる目的は、データベースの容量を抑えながら入力された文字列が分類されるに相応しい項目をより適切に判定できる項目判定装置、項目判定プログラム、記録媒体、および項目判定方法を提供することである。   The present invention has been made to solve the above-mentioned problems, and the main object of the present invention is to make it possible to more appropriately determine items suitable for classification of inputted character strings while suppressing the capacity of the database. To provide a determination device, an item determination program, a recording medium, and an item determination method.

この発明のある局面に従えば、文字列の項目を判定するための項目判定装置は、入力された文字列に含まれる少なくとも1つの第1の部分文字列の各々について、当該第1の部分文字列に含まれる各文字を認識する認識手段と、各文字を含む少なくとも1つの単語が分類されるべき第1の項目に基づいて予め決定される各文字の信頼度が第1の項目別に格納された信頼度テーブルと、信頼度テーブルを参照して、第1の部分文字列に含まれる各文字の第1の項目別の信頼度に基づいて、第1の部分文字列の少なくとも1つの文字列信頼度を算出する算出手段と、文字列信頼度に基づいて第1の部分文字列の項目を判定する第1の判定手段とを備える。   According to an aspect of the present invention, an item determination device for determining an item of a character string includes, for each of at least one first partial character string included in the input character string, the first partial character. Recognizing means for recognizing each character included in the column, and reliability of each character determined in advance based on a first item in which at least one word including each character is to be classified is stored for each first item. And at least one character string of the first partial character string based on the reliability of each character included in the first partial character string by referring to the reliability table and the reliability table. Calculation means for calculating the reliability and first determination means for determining an item of the first partial character string based on the character string reliability.

好ましくは、各文字の第1の項目別の信頼度は、各文字を含む単語の種類と、当該単語が使用される程度とに基づいて決定される。   Preferably, the reliability of each character for each first item is determined based on the type of word including each character and the degree to which the word is used.

好ましくは、認識手段は、文字列に含まれる各文字の位置を取得し、各文字の当該部分文字列中の位置に基づいて文字列を少なくとも1つの第1の部分文字列に分割し、算出手段は、信頼度テーブルを参照して、第1の項目毎に、第1の部分文字列に含まれる各文字の信頼度に基づいて文字列信頼度を算出し、第1の判定手段は、第1の項目毎の文字列信頼度に基づいて、第1の部分文字列の第1の項目を判定する。   Preferably, the recognition means acquires the position of each character included in the character string, divides the character string into at least one first partial character string based on the position of each character in the partial character string, and calculates The means refers to the reliability table, calculates the character string reliability based on the reliability of each character included in the first partial character string for each first item, and the first determination means includes: Based on the character string reliability for each first item, the first item of the first partial character string is determined.

好ましくは、項目判定装置は、複数の第1の項目の並び方に対応付けられた第2の項目を記憶する第1の並び方テーブルと、第1の部分文字列の第1の項目毎の文字列信頼度と第1の項目の並び方とに基づいて文字列の第2の項目を判定する第2の判定手段とをさらに備える。   Preferably, the item determination device includes a first arrangement table that stores second items associated with arrangements of the plurality of first items, and a character string for each first item of the first partial character string. Second determination means for determining the second item of the character string based on the reliability and the arrangement of the first items is further provided.

好ましくは、項目判定装置は、複数の第1の項目の並び方に対応付けられた第2の項目を記憶する第1の並び方テーブルをさらに備える。算出手段は、第1の並び方テーブルに記憶されている第1の項目の並び方毎に、第1の並び方テーブルに記憶されている第1の項目の並び方に基づいて、第1の部分文字列の文字列信頼度を算出する。第1の判定手段は、第1の並び方テーブルに記憶されている第1の項目の並び方毎の文字列信頼度に基づいて、第1の部分文字列の第2の項目を判定する。   Preferably, the item determination device further includes a first arrangement table that stores second items associated with the arrangement of the plurality of first items. For each arrangement of the first items stored in the first arrangement table, the calculation means calculates the first partial character string based on the arrangement of the first items stored in the first arrangement table. Calculate string reliability. The first determination means determines the second item of the first partial character string based on the character string reliability for each arrangement of the first items stored in the first arrangement table.

好ましくは、項目判定装置は、第1の項目のいずれかに属する、少なくとも1つの文字から構成される複数の単語を格納する単語辞書と、第1の部分文字列が単語辞書に記憶されている単語を含むか否かを判断する判断手段とをさらに備える。   Preferably, the item determination device stores a word dictionary storing a plurality of words composed of at least one character belonging to any of the first items, and a first partial character string stored in the word dictionary. Judgment means for judging whether or not a word is included is further provided.

好ましくは、算出手段は、第1の部分文字列が単語辞書に記憶されている単語を含む場合に、信頼度テーブルを参照して、第1の部分文字列のうち単語辞書に記憶されている単語に含まれる文字を除いた文字から構成される第2の部分文字列に含まれる各文字に対応する信頼度に基づいて、第2の部分文字列の第1の項目毎の文字列信頼度を算出し、第1の部分文字列が単語辞書に記憶されている単語を含まない場合に、信頼度テーブルを参照して、第1の部分文字列に含まれる各文字の第1の項目別の信頼度に基づいて、第1の部分文字列の少なくとも1つの文字列信頼度を算出する。第1の判定手段は、第1の部分文字列が単語辞書に記憶されている単語を含む場合に、文字列信頼度に基づいて第2の部分文字列の第1の項目を判定し、第1の部分文字列が単語辞書に記憶されている単語を含まない場合に、文字列信頼度に基づいて第1の部分文字列の第1の項目を判定する。   Preferably, when the first partial character string includes a word stored in the word dictionary, the calculating means refers to the reliability table and is stored in the word dictionary of the first partial character string. Character string reliability for each first item of the second partial character string based on the reliability corresponding to each character included in the second partial character string composed of characters excluding the characters included in the word When the first partial character string does not include a word stored in the word dictionary, the reliability table is referred to, and each character included in the first partial character string is classified by the first item. Based on the reliability, at least one character string reliability of the first partial character string is calculated. The first determination means determines the first item of the second partial character string based on the character string reliability when the first partial character string includes a word stored in the word dictionary, When one partial character string does not include a word stored in the word dictionary, the first item of the first partial character string is determined based on the character string reliability.

好ましくは、項目判定装置は、複数の第1の項目の並び方に対応付けられた第2の項目を記憶する第1の並び方テーブルと、第1の部分文字列が単語辞書に記憶されている単語を含む場合に、単語辞書の単語が属する第1の項目と、第2の部分文字列の第1の項目とに基づいて、部分文字列の第2の項目を判定する第3の判定手段とをさらに備える。   Preferably, the item determination device includes a first arrangement table that stores second items associated with the arrangement of the plurality of first items, and a word in which the first partial character string is stored in the word dictionary. And a third determination unit that determines the second item of the partial character string based on the first item to which the word of the word dictionary belongs and the first item of the second partial character string. Is further provided.

好ましくは、第1の項目の各々は、姓、名、地名、都道府県名、市町村名、一般単語のいずれかである。   Preferably, each of the first items is one of a last name, a first name, a place name, a prefecture name, a municipality name, and a general word.

この発明の別の局面に従えば、コンピュータに文字列の項目を判定させるための項目判定プログラムが提供される。コンピュータは、各文字を含む少なくとも1つの単語が分類されるべき第1の項目に基づいて予め決定される各文字の信頼度が第1の項目別に格納された信頼度テーブルを備える。項目判定プログラムは、コンピュータに、入力された文字列に含まれる少なくとも1つの第1の部分文字列の各々について、当該第1の部分文字列に含まれる各文字を認識するステップと、信頼度テーブルを参照して、第1の部分文字列に含まれる各文字の第1の項目別の信頼度に基づいて、第1の部分文字列の少なくとも1つの文字列信頼度を算出するステップと、文字列信頼度に基づいて第1の部分文字列の項目を判定するステップとを実行させる。   If another situation of this invention is followed, the item determination program for making a computer determine the item of a character string will be provided. The computer includes a reliability table in which the reliability of each character, which is determined in advance based on the first item in which at least one word including each character is to be classified, is stored for each first item. The item determination program recognizes each character included in the first partial character string for each of at least one first partial character string included in the input character string to the computer, and a reliability table A step of calculating at least one character string reliability of the first partial character string based on the reliability of each character included in the first partial character string for each first item; And determining an item of the first partial character string based on the column reliability.

この発明のさらに別の局面に従えば、コンピュータに文字列の項目を判定させるための項目判定プログラムを記録したコンピュータ読取可能な記録媒体が提供される。コンピュータは、各文字を含む少なくとも1つの単語が分類されるべき第1の項目に基づいて予め決定される各文字の信頼度が第1の項目別に格納された信頼度テーブルを備える。項目判定プログラムは、コンピュータに、入力された文字列に含まれる少なくとも1つの第1の部分文字列の各々について、当該第1の部分文字列に含まれる各文字を認識するステップと、信頼度テーブルを参照して、第1の部分文字列に含まれる各文字の第1の項目別の信頼度に基づいて、第1の部分文字列の少なくとも1つの文字列信頼度を算出するステップと、文字列信頼度に基づいて第1の部分文字列の項目を判定するステップとを実行させる。   According to still another aspect of the present invention, a computer-readable recording medium recording an item determination program for causing a computer to determine an item of a character string is provided. The computer includes a reliability table in which the reliability of each character, which is determined in advance based on the first item in which at least one word including each character is to be classified, is stored for each first item. The item determination program recognizes each character included in the first partial character string for each of at least one first partial character string included in the input character string to the computer, and a reliability table A step of calculating at least one character string reliability of the first partial character string based on the reliability of each character included in the first partial character string for each first item; And determining an item of the first partial character string based on the column reliability.

この発明のさらに別の局面に従えば、文字列の項目を判定するための項目判定装置を用いた項目判定方法が提供される。項目判定装置は、各文字を含む少なくとも1つの単語が分類されるべき第1の項目に基づいて予め決定される各文字の信頼度が第1の項目別に格納された信頼度テーブルと、制御装置とを備える。項目判定方法は、制御装置が、入力された文字列に含まれる少なくとも1つの第1の部分文字列の各々について、当該第1の部分文字列に含まれる各文字を認識するステップと、制御装置が、信頼度テーブルを参照して、第1の部分文字列に含まれる各文字の第1の項目別の信頼度に基づいて、第1の部分文字列の少なくとも1つの文字列信頼度を算出するステップと、制御装置が、文字列信頼度に基づいて第1の部分文字列の項目を判定するステップとを備える。   According to still another aspect of the present invention, an item determination method using an item determination device for determining an item of a character string is provided. The item determination device includes a reliability table in which the reliability of each character determined in advance based on a first item in which at least one word including each character is to be classified is stored for each first item, and a control device With. In the item determination method, the control device recognizes each character included in the first partial character string for each of at least one first partial character string included in the input character string; Calculates at least one character string reliability of the first partial character string based on the reliability of each character included in the first partial character string by the first item with reference to the reliability table And a step of determining the item of the first partial character string based on the character string reliability.

以上のように、この発明によれば、データベースの容量を抑えながら入力された文字列が分類されるに相応しい項目をより適切に判定できる項目判定装置、項目判定プログラム、記録媒体、および項目判定方法を提供することができる。   As described above, according to the present invention, an item determination device, an item determination program, a recording medium, and an item determination method that can more appropriately determine an item suitable for classification of an input character string while suppressing the capacity of the database. Can be provided.

以下、図面に基づいて本発明の実施の形態について説明する。なお以下の説明では、同一の部品については同一の符号を付すものとし、前記部品の名称や機能が同一である場合には、前記部品についての詳細な説明は繰り返さない。   Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the following description, the same parts are denoted by the same reference numerals, and when the names and functions of the parts are the same, detailed description of the parts will not be repeated.

[実施の形態1]
<全体構成>
まず、本実施の形態に係る項目(属性)判定装置の全体構成について説明する。本実施の形態に係る項目判定装置は認識された文字列の項目判定を行う装置であって、代表的に、カメラ付き携帯電話100やPDAなどのような小型情報端末や、パーソナルコンピュータやワークステーションなどのコンピュータによって実現される。そして、項目判定装置によって行われる項目判定処理は、カメラ付き携帯電話100やPDAなどのような小型情報端末の制御装置や、パーソナルコンピュータやワークステーションなどのコンピュータの制御装置が、制御プログラムを実行することによって実現される。
[Embodiment 1]
<Overall configuration>
First, the overall configuration of the item (attribute) determination device according to the present embodiment will be described. The item determination apparatus according to the present embodiment is an apparatus for determining an item of a recognized character string, and is typically a small information terminal such as a camera-equipped mobile phone 100 or a PDA, a personal computer, or a workstation. Realized by a computer. The item determination process performed by the item determination apparatus is executed by a control device of a small information terminal such as a camera-equipped mobile phone 100 or a PDA or a control device of a computer such as a personal computer or a workstation. Is realized.

図1は、本実施の形態に係るカメラ付き携帯電話100を示す外観斜視図である。図1には、小型端末装置として、代表的に折りたたみ式のカメラ付き携帯電話100を示すが、このような形式に限定されるものではない。図1は、携帯電話100の筐体114,116を開いた状態における正面側の斜視図である。   FIG. 1 is an external perspective view showing a camera-equipped mobile phone 100 according to the present embodiment. FIG. 1 shows a foldable camera-equipped mobile phone 100 as a small terminal device, but is not limited to such a form. FIG. 1 is a front perspective view of the cellular phone 100 with the casings 114 and 116 opened.

図1に示すように、携帯電話100は、第1の筐体114と、第2の筐体116と、第1のスピーカ173と、第2のスピーカ174と、メインディスプレイ(モニタ150)と、第1のカメラ142と、第2のカメラ143(図2を参照。)と、入力部120と、マイク172とを含む。第1の筐体114と第2の筐体116とは、接続部115にて折りたたみ可能に接続されている。   As shown in FIG. 1, the mobile phone 100 includes a first casing 114, a second casing 116, a first speaker 173, a second speaker 174, a main display (monitor 150), A first camera 142, a second camera 143 (see FIG. 2), an input unit 120, and a microphone 172 are included. The first casing 114 and the second casing 116 are foldably connected at the connection portion 115.

入力部120は、決定キー122Aなどの複数のキーを含む機能キー群122と、数字等の入力のためのテンキーを含むテンキー群124とを備える。機能キー群122は、メインディスプレイ(モニタ150)上の表示の少なくとも一部(表示全体、または、メインディスプレイ(モニタ150)上に表示されたカーソル等)を上下左右それぞれに所定の距離だけ移動させるための上キー121A,下キー121B,左キー121C,右キー121Dと、移動したカーソル等に対応する処理に決定したことを入力するための決定キー122Aと、を含む。   The input unit 120 includes a function key group 122 including a plurality of keys such as an enter key 122A, and a numeric key group 124 including a numeric keypad for inputting numbers and the like. The function key group 122 moves at least a part of the display on the main display (monitor 150) (the entire display or a cursor displayed on the main display (monitor 150)) by a predetermined distance vertically and horizontally. For example, an upper key 121A, a lower key 121B, a left key 121C, a right key 121D, and a determination key 122A for inputting that the processing corresponding to the moved cursor or the like is determined.

<ハードウェア構成>
次に、本実施の形態に係る携帯電話100のハードウェア構成について説明する。図2は、本実施の形態に係る通信装置の一例としての携帯電話100のハードウェア構成を示すブロック図である。図2に示すように、本実施の形態に係る携帯電話100は、アンテナ1と、アンテナ1により受信された無線信号の入力を受ける無線通信部101と、第1のメモリ106と、第2のメモリ107と、外部から各種の指示の入力を受け付ける入力部120と、携帯電話100の各動作を制御するための制御装置105と、画像を表示するためのモニタ150と、外部からの音声を入力するマイク172と、電気信号(音声信号)に基づいて音声を出力するスピーカ173,174と、を備える。
<Hardware configuration>
Next, a hardware configuration of mobile phone 100 according to the present embodiment will be described. FIG. 2 is a block diagram showing a hardware configuration of mobile phone 100 as an example of the communication apparatus according to the present embodiment. As shown in FIG. 2, mobile phone 100 according to the present embodiment includes antenna 1, radio communication unit 101 that receives an input of a radio signal received by antenna 1, a first memory 106, a second memory A memory 107, an input unit 120 that receives input of various instructions from the outside, a control device 105 for controlling each operation of the mobile phone 100, a monitor 150 for displaying an image, and an external audio input And a speaker 173 and 174 for outputting sound based on an electric signal (audio signal).

無線通信部101は、制御装置105による制御に応じて、アンテナ1を介して無線信号を発信するとともに、外部からの無線信号を受信する。   The wireless communication unit 101 transmits a wireless signal via the antenna 1 and receives a wireless signal from the outside according to control by the control device 105.

第1のカメラ142は、第1の筐体114の内側に設けられているカメラであって、たとえばテレビ電話などを行う際に、携帯電話100の使用者などを撮影するためのものである。第2のカメラ143は、第1の筐体116の外側に設けられているカメラであって、景色を撮影したり、バーコードなどのような書類上の画像を撮影したりするためのものである。第1のカメラ142や第2のカメラ143が撮影した画像の画像データは制御装置105に送られ、制御装置105が当該画像データを第1のメモリ106または第2のメモリ107に記憶する。   The first camera 142 is a camera provided inside the first housing 114, and is for taking a picture of a user of the mobile phone 100 when making a videophone call, for example. The second camera 143 is a camera provided on the outside of the first housing 116 and is used for taking a picture of a landscape or taking an image on a document such as a barcode. is there. Image data of images taken by the first camera 142 and the second camera 143 is sent to the control device 105, and the control device 105 stores the image data in the first memory 106 or the second memory 107.

図1および図2に示すように、本実施の形態に係る携帯電話100は、第1の筐体114の外側に設けられた第2のカメラ143によって名刺202などの書類上の画像を撮影し、当該画像の画像データを第1のメモリ106あるいは第2のメモリ107に記憶することができるものである。   As shown in FIGS. 1 and 2, the mobile phone 100 according to the present embodiment takes an image on a document such as a business card 202 with a second camera 143 provided outside the first housing 114. The image data of the image can be stored in the first memory 106 or the second memory 107.

制御装置105は、たとえばCPU(Central Processing Unit)やその他の演算処理装置と、後述する各種機能を実現するためのプログラムとによって実現されるものであって、制御装置105と他の構成要素とは信号線を介して接続されている。より詳細には、上記の各種処理は、たとえば、第2のメモリ107に格納された各種の処理手順に関するプログラムが一旦第1のメモリ106へと読み出され、読み出されたプログラムが制御装置105で実行されることによって、実現されるものである。ただし、制御装置105は、各機能を実現する専用のハードウェア回路などによって実現されてもよい。   The control device 105 is realized by, for example, a CPU (Central Processing Unit) and other arithmetic processing devices and programs for realizing various functions described later. The control device 105 and other components are Connected via signal line. More specifically, in the above-described various processes, for example, programs related to various processing procedures stored in the second memory 107 are once read to the first memory 106, and the read programs are stored in the control device 105. This is realized by being executed in step (b). However, the control device 105 may be realized by a dedicated hardware circuit that realizes each function.

そして、制御装置105は、無線通信部101などの他の構成要素と連係しながら、携帯電話100が有する通話機能を実現する。また、制御装置105は、携帯電話100の各要素を制御するものであって、各種の演算を実施する装置である。特に、制御装置105は、後述するように項目判定処理を行うものである。   The control device 105 realizes a call function of the mobile phone 100 while linking with other components such as the wireless communication unit 101. The control device 105 controls each element of the mobile phone 100 and performs various calculations. In particular, the control device 105 performs an item determination process as will be described later.

入力部120は、決定キー122Aなどの複数のキーを含む機能キー群122と、数字等の入力のためのテンキーを含むテンキー群124などによって実現され、キー入力などによってユーザから情報を受付ける。   The input unit 120 is realized by a function key group 122 including a plurality of keys such as a determination key 122A and a numeric key group 124 including a numeric keypad for inputting numbers and the like, and receives information from a user by key input or the like.

モニタ150は、液晶パネルやCRTから構成されるものであって、制御装置105が出力した情報を表示する。   The monitor 150 includes a liquid crystal panel and a CRT, and displays information output from the control device 105.

第1のメモリ106は、ワークRAM(Random Access Memory)として使用される。第1のメモリ106は、一般的に揮発性のメモリが使用されるが、書き込み可能な不揮発性のメモリであってもよい。より詳細には、本実施の形態に係る第1のメモリ106は、代表的に、DRAM(Dynamic Random Access Memory)、SRAM(Static Random Access Memory)、PSRAM(Pseudo-SRAM、擬似SRAM)、SDRAM(Synchronous DRAM)などによって実現される。   The first memory 106 is used as a work RAM (Random Access Memory). The first memory 106 is generally a volatile memory, but may be a writable nonvolatile memory. More specifically, the first memory 106 according to the present embodiment typically includes a DRAM (Dynamic Random Access Memory), an SRAM (Static Random Access Memory), a PSRAM (Pseudo-SRAM), an SDRAM ( Synchronous DRAM) etc.

第2のメモリ107は、制御プログラムなどのデータを格納する。第2のメモリ107は、一般的に不揮発性のメモリが使用される。第2のメモリ107は、代表的に、EEPROM(Electrically EPROM)、NAND型フラッシュメモリ、NOR型フラッシュメモリ、ハードディスクなどによって実現される。なお、制御プログラム以外のデータ(フォントデータ、調整データ、ユーザ設定等)は、主に第2のメモリ107に格納されるが、一時的に第1のメモリ106に格納される構成であってもよい。   The second memory 107 stores data such as a control program. The second memory 107 is generally a non-volatile memory. The second memory 107 is typically realized by an EEPROM (Electrically EPROM), a NAND flash memory, a NOR flash memory, a hard disk, or the like. Data other than the control program (font data, adjustment data, user settings, etc.) is mainly stored in the second memory 107, but may be temporarily stored in the first memory 106. Good.

第1のスピーカ173は、通話音声が出力されるものであって、筐体114の内側に設けられている。一方、第2のスピーカ174は、着信音声や、ハンズフリー通話の際の通話音声が出力されるものであって、たとえば筐体116の側面に設けられるものである。   The first speaker 173 is for outputting call voice and is provided inside the housing 114. On the other hand, the second speaker 174 outputs an incoming call voice or a call voice during a hands-free call, and is provided on the side surface of the housing 116, for example.

本実施の形態に係る項目判定装置および項目判定処理は、カメラ付きの携帯電話100などのハードウェアと制御プログラムなどのソフトウェアとによって実現される。一般的にこうしたソフトウェアは、製造時に第2のメモリ107に格納されたり、ユーザがネットワークなどを介してダウンロードすることによって流通する。そして、ソフトウェアは、第2のメモリ107から第1のメモリ106に読出されて制御装置105により実行される。   The item determination apparatus and the item determination process according to the present embodiment are realized by hardware such as a mobile phone 100 with a camera and software such as a control program. Generally, such software is stored in the second memory 107 at the time of manufacture or distributed by a user downloading it via a network or the like. Then, the software is read from the second memory 107 to the first memory 106 and executed by the control device 105.

<機能構成>
図3は、実施の形態1に係る携帯電話100の機能構成を示すブロック図である。図3に示すように、携帯電話100は、撮影部142−1と、抽出部105−2と、認識部105−3と、算出部105−4と、第1の判定部105−5と、第2の判定部105−6と、出力部105−6と、画像記憶部107−2と、文字認識辞書107−3と、結果記憶部107−4と、信頼度テーブル107−5と、並び方テーブル107−6とを含む。
<Functional configuration>
FIG. 3 is a block diagram illustrating a functional configuration of the mobile phone 100 according to the first embodiment. As illustrated in FIG. 3, the mobile phone 100 includes a photographing unit 142-1, an extraction unit 105-2, a recognition unit 105-3, a calculation unit 105-4, a first determination unit 105-5, Second determination unit 105-6, output unit 105-6, image storage unit 107-2, character recognition dictionary 107-3, result storage unit 107-4, reliability table 107-5, and arrangement Table 107-6.

ここで、抽出部105−2と、認識部105−3と、算出部105−4と、第1の判定部105−5と、第2の判定部105−7は、たとえばCPUなどの制御装置105が、第2のメモリ107に記憶されている制御プログラム(ソフトウェア)を第1のメモリ106に読み出して、当該制御プログラム(ソフトウェア)を実行することによって実現される。画像記憶部107−2と、文字認識辞書107−3と、結果記憶部107−4と、信頼度テーブル107−5と、並び方テーブル107−6とは、たとえば第1のメモリ106または第2のメモリ107によって実現される記憶部107−1に含まれる機能である。   Here, the extraction unit 105-2, the recognition unit 105-3, the calculation unit 105-4, the first determination unit 105-5, and the second determination unit 105-7 are, for example, a control device such as a CPU. 105 is realized by reading the control program (software) stored in the second memory 107 into the first memory 106 and executing the control program (software). The image storage unit 107-2, the character recognition dictionary 107-3, the result storage unit 107-4, the reliability table 107-5, and the arrangement table 107-6 are, for example, the first memory 106 or the second memory 106. This is a function included in the storage unit 107-1 realized by the memory 107.

以下、携帯電話100が有する各種機能について説明する。前述したように以下の各ブロックの機能や各ステップの処理は、制御装置105が第2のメモリ107に記憶されている制御プログラム(ソフトウェア)を第1のメモリ106に読み出して、当該制御プログラム(ソフトウェア)を実行することによって実現される構成としてもよいし、各々を専用のハードウェア回路等によって実現してもよい。   Hereinafter, various functions of the mobile phone 100 will be described. As described above, in the function of each block and the processing of each step described below, the control device 105 reads out the control program (software) stored in the second memory 107 to the first memory 106 and executes the control program ( (Software) may be implemented, or each may be implemented by a dedicated hardware circuit or the like.

撮影部142−1は、たとえば第1のカメラ142や第2のカメラ143や図示しないスキャナによって実現されるものであって、名刺202などの書類や景色などを撮影して、撮影した画像を画像データに変換するものである。撮影部142−1は、取得した画像データを画像記憶部107−2に一時的に記憶する。より詳細には、撮影部142−1が取得した画像データは、一時的に揮発性の第1のメモリ106などに記憶された後、外部からの保存命令などに応じて第2のメモリ107に記憶される。   The photographing unit 142-1 is realized by, for example, the first camera 142, the second camera 143, or a scanner (not shown). It is to convert to data. The photographing unit 142-1 temporarily stores the acquired image data in the image storage unit 107-2. More specifically, the image data acquired by the imaging unit 142-1 is temporarily stored in the volatile first memory 106 or the like, and then stored in the second memory 107 in accordance with an external save command or the like. Remembered.

抽出部105−2は、画像記憶部107−2から画像データを読み出して、当該画像データから文字列を抽出する。より詳細には、抽出部105−2は、画像記憶部107−2に一時記憶された画像データから、画像としての文字列(文字列の位置座標情報など)を抽出する。抽出部105−2による抽出結果は、各文字列を構成する黒画素(文字画素)連結成分の外接枠(左上、右下)座標等である。ここで、抽出部105−2による抽出結果は、一時的に記憶部107−1の結果記憶部107−4に記憶される構成であってもよい。   The extraction unit 105-2 reads image data from the image storage unit 107-2 and extracts a character string from the image data. More specifically, the extracting unit 105-2 extracts a character string (such as character string position coordinate information) as an image from the image data temporarily stored in the image storage unit 107-2. The extraction result by the extraction unit 105-2 is the circumscribed frame (upper left and lower right) coordinates of the black pixel (character pixel) connected component constituting each character string. Here, the extraction result by the extraction unit 105-2 may be temporarily stored in the result storage unit 107-4 of the storage unit 107-1.

ただし、抽出部105−2による文字列の抽出は、画像データからの文字列の抽出に限らない。たとえば、抽出部105−2は、項目判定機能を有しないOCRによって名刺や住所録等から読み取られた文字列のデータを、他の装置や記録媒体や他のアプリケーション(制御プログラム)などから取得するものであってもよい。たとえば、抽出部105−2は、入力された音声データに基づいて、文字列を生成するものでもよいし、手話への変換や漢字への変換の候補列を取得するものでもよい。たとえば、抽出部105−2は、その他の取得方法によって文字列を取得するものであってもよい。   However, the extraction of the character string by the extraction unit 105-2 is not limited to the extraction of the character string from the image data. For example, the extraction unit 105-2 acquires character string data read from a business card, address book, or the like by an OCR that does not have an item determination function from another device, a recording medium, another application (control program), or the like. It may be a thing. For example, the extraction unit 105-2 may generate a character string based on the input voice data, or may acquire a candidate string for conversion to sign language or conversion to kanji. For example, the extraction unit 105-2 may acquire a character string by another acquisition method.

認識部105−3は、入力された(取得された)文字列に含まれる少なくとも1つの第1の部分文字列と、当該第1の部分文字列に含まれる文字とを認識する。より詳細には、認識部105−3は、文字列に含まれる各文字の位置を取得し、各文字の位置に基づいて文字列を少なくとも1つの第1の部分文字列に分割する。より詳細には、認識部105−3は、抽出部105−2が抽出した画像情報としての文字列に対して、文字認識辞書107−3を参照しながら、文字コード情報から構成される文字列を生成する。ここで、認識部105−3による文字列認識結果とは、認識部105−3で決定された各文字の文字コード情報(認識候補を含んでもよい)および各文字毎の座標情報などのことである。そして、文字認識辞書107−3は、認識部105−3にて利用される文字認識用標準パターン辞書である。   The recognition unit 105-3 recognizes at least one first partial character string included in the input (acquired) character string and a character included in the first partial character string. More specifically, the recognition unit 105-3 acquires the position of each character included in the character string, and divides the character string into at least one first partial character string based on the position of each character. More specifically, the recognizing unit 105-3 refers to the character string formed of the character code information while referring to the character recognition dictionary 107-3 for the character string as the image information extracted by the extracting unit 105-2. Is generated. Here, the character string recognition result by the recognition unit 105-3 includes character code information (may include recognition candidates) of each character determined by the recognition unit 105-3, coordinate information for each character, and the like. is there. The character recognition dictionary 107-3 is a standard pattern dictionary for character recognition used in the recognition unit 105-3.

図4は、結果記憶部107−4に記憶される文字列認識結果データベースのデータ構造を示すイメージ図である。図4に示すように、文字列結果記憶部107−4に記憶される情報は、入力画像の文字列の個数L、第n行目の文字列を構成する文字の文字数(1≦n≦文字行個数L)、第n行目の文字列の各文字の(外接枠)座標、文字コード、文字列の分離位置の個数、および各々の分離位置(座標を示す情報、または先頭から数えて何番目の文字の後であるかを示す情報など)などである。   FIG. 4 is an image diagram showing a data structure of a character string recognition result database stored in the result storage unit 107-4. As shown in FIG. 4, the information stored in the character string result storage unit 107-4 includes the number L of character strings in the input image and the number of characters constituting the character string in the nth row (1 ≦ n ≦ characters). (Number of lines L), (circumscribed frame) coordinates of each character of the character string of the nth line, character code, number of character string separation positions, and each separation position (information indicating coordinates, or what is counted from the top) For example, information indicating whether it is after the second character).

前述したように、認識部105−3は、結果記憶部107−4に記憶された文字列の認識結果から、文字列を幾つかの第1の部分文字列に分離する。文字列を部分文字列に分離する分離方法としては、例えば、各文字間の距離から平均距離を算出後、当該平均距離に比べて大きい(注目している文字間距離が、平均距離×予め定めた閾値以上など)場合に、その位置で文字列を区切って部分文字列を生成する方法などが挙げられる。認識部105−3による文字列の分離結果(部分文字列を示す情報)は、どのような形で記録しても構わないが、本実施の形態においては図4に示す結果記憶部107−4のように、分離位置の個数および各々の分離位置などを記憶することによって、文字列の分離結果を記録するものとする。   As described above, the recognition unit 105-3 separates the character string into several first partial character strings from the character string recognition result stored in the result storage unit 107-4. As a separation method for separating character strings into partial character strings, for example, after calculating the average distance from the distance between each character, the average distance is larger than the average distance (the distance between the characters being noticed is the average distance × predetermined) If the threshold value is greater than or equal to the threshold value, a method of generating a partial character string by dividing the character string at that position is exemplified. The character string separation result (information indicating the partial character string) by the recognition unit 105-3 may be recorded in any form, but in this embodiment, the result storage unit 107-4 shown in FIG. As described above, by storing the number of separation positions and the respective separation positions, the character string separation result is recorded.

ここで、図5は、画像データにおける文字列と部分文字列とを示すイメージ図である。図5に示すように、認識部105−3は、名刺201から読み取った画像データから文字列や部分文字列を認識する。たとえば、「早川太郎」という文字列を認識した後、「早川太郎」を構成する各文字の間隔に基づいて、「早川太郎」という文字列を「早川」という部分文字列と「太郎」という部分文字列に分離するのである。そして、認識結果を結果記憶部107−4に記憶するのである。   Here, FIG. 5 is an image diagram showing a character string and a partial character string in the image data. As illustrated in FIG. 5, the recognition unit 105-3 recognizes a character string or a partial character string from the image data read from the business card 201. For example, after recognizing the character string "Taro Hayakawa", the character string "Hayakawa Taro" is replaced with the character string "Hayakawa" and the part "Taro" based on the spacing between the characters that make up "Taro Hayakawa". They are separated into character strings. Then, the recognition result is stored in the result storage unit 107-4.

抽出部105−2が、音声データに基づいて文字列のデータを取得する場合には、認識部105−3は、各文字が入力される時間の間隔に基づいて文字列から部分文字列を区切る。例えば、各文字に対応する音声が入力される時間間隔から平均時間間隔を算出後、当該平均時間間隔に比べて大きい(注目している時間間隔が、平均時間間隔×予め定めた閾値以上など)場合に、その位置で文字列を区切って部分文字列を生成する方法などが挙げられる。   When the extraction unit 105-2 acquires character string data based on the voice data, the recognition unit 105-3 separates the partial character string from the character string based on the time interval at which each character is input. . For example, after calculating the average time interval from the time interval at which the voice corresponding to each character is input, it is larger than the average time interval (the time interval of interest is equal to or greater than the average time interval x a predetermined threshold) In this case, a method of generating a partial character string by dividing a character string at that position can be used.

そして、認識部105−3は、入力された文字列データ内のスペースに基づいて、文字列から部分文字列を認識することができる。   And the recognition part 105-3 can recognize a partial character string from a character string based on the space in the input character string data.

信頼度テーブル107−5は、各文字を含む少なくとも1つの文字列が分類されるべき項目に基づいて決定される各文字の信頼度が第1の項目別に格納されている。そして、各文字の第1の項目別の信頼度は、各文字を含む少なくとも1つの文字列が使用される程度と当該文字列が分類されるべき項目とに基づいて決定される。   In the reliability table 107-5, the reliability of each character determined based on an item in which at least one character string including each character is to be classified is stored for each first item. Then, the reliability of each character by the first item is determined based on the degree to which at least one character string including each character is used and the item into which the character string is to be classified.

図6は、信頼度テーブル107−5のデータ構造を示すイメージ図である。図6に示すように、信頼度テーブル107−5は、文字毎(文字コード毎)に、「姓」に使用される場合の信頼度、「名」に使われる場合の信頼度、「地名」に使われる場合の信頼度、「一般単語」に使われる場合の信頼度が格納されている(図6では、「一般単語」を「一般」と記載している。)。   FIG. 6 is an image diagram showing a data structure of the reliability table 107-5. As shown in FIG. 6, the reliability table 107-5 includes, for each character (for each character code), reliability when used for “last name”, reliability when used for “first name”, and “place name”. And the reliability when used for “general word” are stored (in FIG. 6, “general word” is described as “general”).

<信頼度テーブル>
ここで、信頼度テーブルの作成方法について説明する。図6に示したように、信頼度テーブル107−5は、信頼度テーブルに格納している漢字の各文字に対して、姓、名、地名、一般単語としてどれだけ使用されるか、という出現程度(使用程度)を記録している。信頼度テーブル107−5の具体的な作成方法については、例えば以下のようにすればよい。
<Reliability table>
Here, a method of creating a reliability table will be described. As shown in FIG. 6, the reliability table 107-5 shows how much is used as a surname, first name, place name, and general word for each kanji character stored in the reliability table. The degree (use degree) is recorded. A specific method for creating the reliability table 107-5 may be as follows, for example.

姓および名に関しては、日本人の姓および名を集めたデータベース(コーパスデータ)などを利用する。図7は、日本人の姓のデータベースの一例を示すイメージ図である。このデータベースは、日本人の姓が当該姓を持つ人口の割合の多い順から並んでいる。一番右の列が人口10000人あたり、この姓の人が存在する割合である。このデータベースの各姓(佐藤、鈴木、…)で使用されている漢字1文字に対して、最右列の姓の人口割合値を加算していく。   For surnames and surnames, a database (corpus data) of Japanese surnames and surnames is used. FIG. 7 is an image diagram showing an example of a Japanese surname database. In this database, Japanese surnames are arranged in descending order of the population with the last names. The rightmost column shows the ratio of people with this surname per 10,000 people. The population ratio value of the last name in the rightmost column is added to one kanji character used for each surname (Sato, Suzuki, ...) in this database.

たとえば、佐藤、鈴木、内藤の3つの姓について説明する。佐藤の姓を持つ人口の割合が141、鈴木の姓を持つ人口の割合が137、内藤の姓を持つ人口の割合が16であるので、この3つの姓だけを考慮した各文字の使用の程度は、
佐・・・141
藤・・・157(141+16)
鈴・・・137
木・・・137
内・・・16
と表される。それぞれの数値の合計は、588(141+157+137+137+16)であるので、各数値を588で割ってから100をかけると、総計が100(%)となるように正規化される。正規化後の値は、
佐・・・23.97
藤・・・26.70
鈴・・・23.29
木・・・23.29
内・・・2.72
となる。
For example, the three surnames Sato, Suzuki, and Naito will be described. Since the proportion of the population with Sato's surname is 141, the proportion of the population with Suzuki's surname is 137, and the proportion of the population with Naito's surname is 16, the degree of use of each letter considering only these three surnames Is
Sa ... 141
Wisteria ... 157 (141 + 16)
Bell ... 137
Tree ... 137
Within ... 16
It is expressed. Since the sum of the numerical values is 588 (141 + 157 + 137 + 137 + 16), dividing each numerical value by 588 and then multiplying by 100 will normalize the total to 100 (%). The normalized value is
Sa ... 23.97
Wisteria ... 26.70
Bell ... 23.29
Thu ... 23.29
Inside ... 2.72
It becomes.

そして、各文字の各項目別の数値は、前述したように1byte(2byte)に収めるのが都合がよいため、1byteの場合は、各文字の使用の程度を588で割り、256をかけて、小数点1位以下を切り捨てることによって、0から255の間の数値とする構成であってもよい。これによって、各文字の各項目毎に1byteのメモリ容量に抑えることができる。   The numerical value of each item for each character is conveniently stored in 1 byte (2 bytes) as described above. In the case of 1 byte, the use level of each character is divided by 588 and multiplied by 256. It may be configured to be a numerical value between 0 and 255 by rounding down the first decimal place. Thereby, the memory capacity of 1 byte can be suppressed for each item of each character.

もしくは、全ての文字および全ての項目における最も大きな数値を255として、各文字の各項目毎の使用の程度を正規化してもよい。すなわち、各文字の各項目毎の使用の程度を当該最も大きな数値で割り、255をかける構成であってもよい。   Alternatively, the degree of use of each character for each item may be normalized by setting the largest numerical value of all characters and all items to 255. In other words, the degree of use of each character for each item may be divided by the largest numerical value and multiplied by 255.

さらに、項目毎に、全ての文字における最も大きな数値を255として、各文字の各項目毎の使用の程度を正規化してもよい。すなわち、各文字の各項目毎の使用の程度を当該最も大きな数値で割り、255をかける構成であってもよい。   Furthermore, for each item, the largest numerical value of all characters may be set to 255, and the degree of use of each character for each item may be normalized. In other words, the degree of use of each character for each item may be divided by the largest numerical value and multiplied by 255.

以上のような方法を使えば、携帯電話100で扱う文字全てに、「姓」についての項目別の信頼度が格納された信頼度テーブルを作成することができる。ただし、図7に示すデータベースのように、常に各々の姓の人口の割合を入手できるとは限らない。たとえば、順位情報(姓の人が多い順)のみわかっている場合であれば、当該順位に応じて各姓の重み付けを行い、各文字の姓として使用される程度を計算してもよい。さらに、順位さえも不明な場合は、重みを全て1として計算してもよい。   If the method as described above is used, it is possible to create a reliability table in which the reliability for each item of the “last name” is stored for all characters handled by the mobile phone 100. However, as in the database shown in FIG. 7, it is not always possible to obtain the ratio of the population of each surname. For example, if only rank information (in order of descending number of surnames) is known, each surname may be weighted according to the rank, and the degree used as the last name of each character may be calculated. Furthermore, when even the order is unknown, all the weights may be calculated as 1.

そして、各文字の「名」や「地名」や「一般」の項目の信頼度も、上述の「姓」の場合と同様にして作成することが可能である。各文字の「地名」の項目の信頼度は、当該地名の人口に応じて地名に重み付けを施して、当該地名を構成する文字の信頼度を計算してもよい。「一般単語」(姓、名、地名以外の単語)については、例えば、携帯電話100で扱う単語を予め抽出しておき、重みを一定にして、当該単語の種類に応じて各文字の信頼度を計算してもよい。   Then, the reliability of the “name”, “place name”, and “general” items of each character can be created in the same manner as in the case of the “last name” described above. As for the reliability of the item “place name” of each character, the place name may be weighted according to the population of the place name, and the reliability of the characters constituting the place name may be calculated. For “general words” (words other than surnames, first names, place names), for example, words handled by the mobile phone 100 are extracted in advance, the weight is constant, and the reliability of each character according to the type of the word May be calculated.

なお、本実施の形態においては、項目別文字の作成例は、漢字に限定しているが、ひらがな、カタカナも対象に含めてもかまわない。   In the present embodiment, the example of creating the character by item is limited to kanji, but hiragana and katakana may also be included.

以上、信頼度テーブルについて説明したが、信頼度テーブルの作成方法は上記のような方法に限らない。すなわち、各文字の信頼度が、各文字を含む単語の種類や、単語の出現頻度などに基づいて決定され、そのようにして決定された各文字の信頼度が参照可能に記憶されていればよい。たとえば、姓、名、地名、一般の間での各文字の差異点(性質,属性)を取得できればよいので、特定の専門分野の辞書に各文字を含む文字列がエントリされているかということに応じて信頼度を決定し、それらの辞書の種類(たとえば、珍名辞書、珍地名辞書など)に応じて倍率(重み付け)を決めることも有効である。   Although the reliability table has been described above, the method of creating the reliability table is not limited to the above method. That is, if the reliability of each character is determined based on the type of word including each character, the appearance frequency of the word, etc., and the reliability of each character determined in this way is stored so that it can be referred to Good. For example, since it is only necessary to be able to acquire the difference (characteristics, attributes) of each character between last name, first name, place name, and general, whether a character string including each character is entered in a dictionary of a specific specialized field It is also effective to determine the degree of reliability accordingly, and to determine the magnification (weighting) according to the type of the dictionary (for example, a rare name dictionary, a rare place name dictionary, etc.).

<機能構成>
算出部105−4は、信頼度テーブルを参照して、第1の部分文字列に含まれる各文字の第1の項目別の信頼度に基づいて、第1の部分文字列の少なくとも1つの文字列信頼度を算出して、第1のメモリ106などに記憶する。本実施の形態に係る算出部105−1は、信頼度テーブル107−5を参照して、第1の項目毎に、第1の部分文字列に含まれる各文字の信頼度に基づいて文字列信頼度を算出する。
<Functional configuration>
The calculation unit 105-4 refers to the reliability table, and determines at least one character of the first partial character string based on the reliability of each character included in the first partial character string for each first item. The column reliability is calculated and stored in the first memory 106 or the like. The calculation unit 105-1 according to the present embodiment refers to the reliability table 107-5, and sets the character string based on the reliability of each character included in the first partial character string for each first item. Calculate reliability.

第1の判定部105−5は、文字列信頼度に基づいて第1の部分文字列の第1の項目を判定する。より詳細には、第1の判定部105−5は、第1の項目毎の文字列信頼度に基づいて、第1の部分文字列の第1の項目を判定する。   The first determination unit 105-5 determines the first item of the first partial character string based on the character string reliability. More specifically, the first determination unit 105-5 determines the first item of the first partial character string based on the character string reliability for each first item.

出力部105−7は、制御装置105だけでなく、モニタ150や図示しない周辺I/F回路などによっても実現され、結果記憶部122に記憶されている認識結果などの各種情報や、判定された第1の項目および第2の項目を、項目判定プログラムから他のアプリケーションへと渡したり、携帯電話100の外部へと出力したりする。   The output unit 105-7 is realized not only by the control device 105 but also by the monitor 150, a peripheral I / F circuit (not shown), and the like, and various kinds of information such as a recognition result stored in the result storage unit 122 are determined. The first item and the second item are transferred from the item determination program to another application or output to the outside of the mobile phone 100.

並び方テーブル107−6は、第2の項目を第1の項目の並び方に対応付けて記憶する。図8は、並び方テーブルのデータ構造を示すイメージ図である。図8に示すように、並び方テーブルは、文字間隔が大きい名前などの場合においては、各部分文字列に対して1つの項目が対応させた後に、文字列全体として当該項目の並び方が妥当か否か、また、妥当である場合には文字列全体としてどの項目に分類することが妥当であるかを判定するためのテーブルである。   The arrangement table 107-6 stores the second item in association with the arrangement of the first item. FIG. 8 is an image diagram showing a data structure of the arrangement table. As shown in FIG. 8, in the case of a name having a large character interval, the arrangement table shows whether or not the arrangement of the items is appropriate for the entire character string after one item is associated with each partial character string. In addition, if it is valid, it is a table for determining to which item it is appropriate to classify the entire character string.

図8においては、2〜4つの部分文字列を含む文字列に対して、項目の並びとして妥当な組み合わせのみを挙げている。例えば、3つの部分文字列から成る文字列の場合、1つめの部分文字列が「姓」、2つめの部分文字列が「姓」、3つめの部分文字列が「名」の項目となる部分文字列の並び方は妥当であるとして並び方テーブルに記憶されている。図8中の「⇒」の右の欄は、当該部分文字列の並び方の文字列は、全体として「姓名」という項目に分類されるに相応しいことを示している。   In FIG. 8, only combinations that are appropriate as the arrangement of items are listed for character strings including two to four partial character strings. For example, in the case of a character string composed of three partial character strings, the first partial character string is “last name”, the second partial character string is “last name”, and the third partial character string is “name”. The arrangement of the partial character strings is stored in the arrangement table as valid. The column to the right of “⇒” in FIG. 8 indicates that the character strings in the arrangement of the partial character strings are suitable for being classified into the item “first and last name” as a whole.

一方、図8に示すように、たとえば、1つめの部分文字列が「名」、2つめの部分文字列が「姓」、3つめの部分文字列が「名」となる組み合わせは、部分文字列の並び方としては妥当ではないものとして、並び方テーブル107−6に記憶されていない。   On the other hand, as shown in FIG. 8, for example, a combination in which the first partial character string is “first name”, the second partial character string is “last name”, and the third partial character string is “first name” is a partial character. It is not stored in the arrangement table 107-6 because it is not appropriate as the arrangement of columns.

ここで、第1の項目としては、たとえば、「姓」、「名」、「地名」、「都道府県名」、「市町村郡名」、「一般単語」、「肩書き」、「部署」などが挙げられる。そして、第2の項目としては、「姓名(氏名)」、「住所(地名)」、「一般単語」、「社名」、「肩書き」、「所属」などが挙げられる。   Here, as the first item, for example, “last name”, “first name”, “place name”, “prefectural name”, “city name”, “general word”, “title”, “department”, etc. Can be mentioned. The second item includes “first name (name)”, “address (place name)”, “general word”, “company name”, “title”, “affiliation”, and the like.

第2の判定部105−6は、第1の部分文字列毎の項目と、並び方テーブル107−6に記憶されている並び方とに基づいて、文字列の第2の項目を判定する。より詳細には、第2の判定部105−6は、第1の部分文字列の第1の項目毎の文字列信頼度と、並び方テーブル107−6に記憶されている第1の項目の並び方とに基づいて、文字列全体の第2の項目を判定する。   The second determination unit 105-6 determines the second item of the character string based on the item for each first partial character string and the arrangement method stored in the arrangement table 107-6. More specifically, the second determination unit 105-6 determines the character string reliability for each first item of the first partial character string and the arrangement method of the first items stored in the arrangement table 107-6. Based on the above, the second item of the entire character string is determined.

<項目判定処理>
次に、本実施の形態に係る項目判定処理について説明する。図9は、実施の形態1に係る携帯電話100における項目判定処理の処理手順を示すフローチャートである。図10は、実施の形態1に係る項目判定処理の対象となる名刺202を示すイメージ図である。また、ここでは、制御装置105によって抽出され、制御装置105によって認識された文字列認識結果のうち、「早川太郎」が入力された場合の項目判定処理について説明するものとし、「早川太郎」の文字列認識結果は、既に第1のメモリ106または第2のメモリ107によって実現される記憶部107−1に格納されているものとする。
<Item judgment processing>
Next, an item determination process according to the present embodiment will be described. FIG. 9 is a flowchart showing a processing procedure of item determination processing in the mobile phone 100 according to the first embodiment. FIG. 10 is an image diagram showing a business card 202 that is a target of the item determination process according to the first embodiment. Here, the item determination process when “Taro Hayakawa” is input among the character string recognition results extracted by the control device 105 and recognized by the control device 105 will be described. It is assumed that the character string recognition result is already stored in the storage unit 107-1 realized by the first memory 106 or the second memory 107.

なお、図10に示すような名刺202の場合には、姓および名の「早川太郎」が名刺202中央に大きく書かれているわけではないため、従来の手法では、姓、名、地名、一般単語などの各種単語辞書を用いることなく、「早川太郎」が姓名であることを判定することは、容易ではない。   In the case of a business card 202 as shown in FIG. 10, the surname and first name “Taro Hayakawa” are not written large in the center of the business card 202. Therefore, in the conventional method, the surname, first name, place name, general name It is not easy to determine that “Taro Hayakawa” is a surname without using various word dictionaries such as words.

まずは、制御装置105が、記憶部107−1に記憶されている文字列認識結果に基づいて、認識結果文字列「早川太郎」を、「早川」という部分文字列と「太郎」という部分文字列に分離する(ステップS101)。文字列を分離する方法は、前述したように、各々の文字間距離と、文字間距離の平均とを比較するなどの方法によって容易に行うことができる。文字列を分離した後の部分文字列の数をNとすると、「早川太郎」の場合には、N=2となる。   First, the control device 105 converts the recognition result character string “Taro Hayakawa” into a partial character string “Hayakawa” and a partial character string “Taro” based on the character string recognition result stored in the storage unit 107-1. (Step S101). As described above, the method of separating the character strings can be easily performed by a method of comparing the distance between the characters and the average of the distance between the characters. Assuming that the number of partial character strings after separating the character strings is N, in the case of “Taro Hayakawa”, N = 2.

なお、この説明では、制御装置105が認識文字列を複数に分離した場合の処理を挙げるが、文字間の距離が一定であるなどの理由で制御装置105が認識文字列を分離できなかった場合には文字列に1つの部分文字列が含まれているものとして(1つの部分文字列しかなかったものとして)以下の処理を行う。   In this description, the processing when the control device 105 separates the recognized character string into a plurality of parts is described. However, when the control device 105 cannot separate the recognized character string because the distance between characters is constant. The following processing is performed assuming that the character string includes one partial character string (assuming that there is only one partial character string).

また、そもそも、制御装置105で得られた文字列自体を1つの部分文字列として扱う構成の場合は、抽出した文字列自体を部分文字列として扱う。この場合は、制御装置105によって実現される認識部105−3は、文字列と当該文字列を構成する文字とを認識するものである。   In the first place, when the character string itself obtained by the control device 105 is handled as one partial character string, the extracted character string itself is handled as a partial character string. In this case, the recognition unit 105-3 realized by the control device 105 recognizes a character string and characters constituting the character string.

制御装置105はカウンタnを1に初期化する(ステップS102)。制御装置105は、n≦Nであれば(ステップS103においてYESの場合)、n番目の部分文字列の信頼度と分類すべき項目とを算出する(ステップS104〜ステップS105)。   The control device 105 initializes the counter n to 1 (step S102). If n ≦ N (YES in step S103), control device 105 calculates the reliability of the nth partial character string and the item to be classified (step S104 to step S105).

制御装置105は、項目毎に、第n番目の部分文字列の文字列信頼度を求める。文字列信頼度を求める処理は、たとえば、項目毎に、図6に示したような各文字別および各項目別に定められた信頼度テーブルの各文字の信頼度を加算していけばよい(ステップS104)。   The control device 105 obtains the character string reliability of the nth partial character string for each item. The processing for obtaining the character string reliability may be performed by adding the reliability of each character in the reliability table defined for each character and each item as shown in FIG. S104).

図11は、実施の形態1に係る第1番目の部分文字列を構成する文字の信頼度と第1番目の部分文字列の文字列信頼度を示したイメージ図である。図11に示すように、各部分文字列(ここでは第1番目の部分文字列「早川」)について、各文字の信頼度を項目毎に加算する。すなわち、第1番目の部分文字列「早川」の各項目毎の文字列信頼度は、
(姓)・・11
(名)・・・5
(地名)・10
(一般)・・3
となる。
FIG. 11 is an image diagram showing the reliability of the characters constituting the first partial character string and the character string reliability of the first partial character string according to the first embodiment. As shown in FIG. 11, for each partial character string (here, the first partial character string “Hayakawa”), the reliability of each character is added for each item. That is, the character string reliability for each item of the first partial character string “Hayakawa” is
(Last name) ... 11
(Name) ... 5
(Place name) ・ 10
(General) ... 3
It becomes.

制御装置105は、文字列信頼度が最大となる第1の項目を、第1番目の部分文字列が分類されるに相応しい第1の項目であるものとして決定する(ステップS105)。この場合には、第1番目の部分文字列は「姓」という項目に分類されるべき部分文字列である、と判定される。   The control device 105 determines that the first item having the maximum character string reliability is the first item suitable for classification of the first partial character string (step S105). In this case, it is determined that the first partial character string is a partial character string to be classified into the item “last name”.

そして、制御装置105は、カウンタをインクリメント(n=n+1)する(ステップS106)。制御装置105は、n≦Nであるため(ステップS103においてYESの場合)、第2番目の部分文字列(ここでは、「太郎」)の信頼度と分類すべき項目とを算出する(ステップS104〜ステップS105)。   Then, the control device 105 increments the counter (n = n + 1) (step S106). Since n ≦ N (YES in step S103), control device 105 calculates the reliability of the second partial character string (here “Taro”) and the item to be classified (step S104). -Step S105).

すなわち、制御装置105は、項目毎に、第2番目の部分文字列の文字列信頼度を求める。上記と同様に、制御装置105は、項目毎に、信頼度テーブルの各文字の信頼度を加算する(ステップS104)。   That is, the control apparatus 105 calculates | requires the character string reliability of the 2nd partial character string for every item. Similarly to the above, the control device 105 adds the reliability of each character in the reliability table for each item (step S104).

図12は、実施の形態1に係る第2番目の部分文字列を構成する文字の信頼度と第2番目の部分文字列の文字列信頼度を示したイメージ図である。図12に示すように、各文字の信頼度を項目毎に加算して算出された、第2番目の部分文字列「太郎」の各項目毎の文字列信頼度は、
(姓)・・・4
(名)・・21
(地名)・・9
(一般)・・5
である。
FIG. 12 is an image diagram showing the reliability of the characters constituting the second partial character string and the character string reliability of the second partial character string according to the first embodiment. As shown in FIG. 12, the character string reliability for each item of the second partial character string “Taro”, calculated by adding the reliability of each character for each item,
(Last name) ... 4
(Name) ... 21
(Place name) ・ ・ 9
(General) ... 5
It is.

制御装置105は、文字列信頼度が最大となる第1の項目を、第2番目の部分文字列が分類されるに相応しい第1の項目であるものとして決定する(ステップS105)。この場合には、制御装置105によって、第2番目の部分文字列は「名」という項目に分類されるべき部分文字列である、と判定される。そして、制御装置105は、カウンタをインクリメント(n=n+1)する(ステップS106)。   The control device 105 determines that the first item having the maximum character string reliability is the first item suitable for classification of the second partial character string (step S105). In this case, the control device 105 determines that the second partial character string is a partial character string that should be classified into the item “name”. Then, the control device 105 increments the counter (n = n + 1) (step S106).

このように、ステップS104〜ステップS105において、制御装置105は、第1の文字列「早川」について最高の文字列信頼度となる「姓」の項目や、第2の文字列「太郎」についての最高の文字列信頼度となる「名」の項目を判定する。   As described above, in steps S104 to S105, the control device 105 determines the item “last name” that is the highest character string reliability for the first character string “Hayakawa” and the second character string “Taro”. The item of “name” having the highest character string reliability is determined.

一方、制御装置105は、n>Nであれば(ステップS103においてNOの場合)、ステップS106において判定された部分文字列の組み合わせ(並び方)から、文字列全体の第2の項目の判定を行う(ステップS107)。これは、図8に示したような並び方テーブル107−6を用いることによって、制御装置105が、少なくとも1つの部分文字列からなる文字列がどの項目に分類されるべきかを判定する。具体的には、図8に示すように、「姓」という第1の項目の次に「名」という第1の項目が並ぶ並び方は、「姓名」という第2の項目が該当する。このようにして、「早川太郎」が姓名であることが判定できる。   On the other hand, if n> N (NO in step S103), control device 105 determines the second item of the entire character string from the combination (arrangement) of the partial character strings determined in step S106. (Step S107). For this, by using the arrangement table 107-6 as shown in FIG. 8, the control device 105 determines to which item a character string composed of at least one partial character string should be classified. Specifically, as shown in FIG. 8, the second item “first name” corresponds to the arrangement of the first item “first name” next to the first item “last name”. In this way, it can be determined that “Taro Hayakawa” is a first and last name.

そして、部分文字列に対する項目の並び方が、並び方テーブル107−6に格納されていない並び方であった場合には、たとえば、制御装置105が以下の演算を行う。すなわち、制御装置105は、文字列全体の信頼度として次に大きな信頼度を有する部分文字列の第1の項目を選択する。そして、制御装置105は、当該第1の項目の並び方が並び方テーブル107−6に記憶されているかを検索して、当該第1の項目の並び方が並び方テーブル107−6に記憶されている場合に、文字列全体としての第2の項目を判定する。   When the arrangement of items with respect to the partial character string is an arrangement that is not stored in the arrangement table 107-6, for example, the control device 105 performs the following calculation. That is, the control device 105 selects the first item of the partial character string having the next highest reliability as the reliability of the entire character string. Then, the control device 105 searches whether the arrangement of the first items is stored in the arrangement table 107-6, and when the arrangement of the first items is stored in the arrangement table 107-6. The second item as the entire character string is determined.

本実施の形態においては、N=2の場合のみを説明したが、もちろんNが1の場合や、Nが3以上の場合でも可能である。ただし、Nが大きくなるほど、組み合わせ数の増加により、処理量が増えてしまう。文字数が多い場合は、最初の何文字かに絞るなど、少ない文字数に制限してもよい。   In the present embodiment, only the case where N = 2 has been described. Of course, the case where N is 1 or N is 3 or more is also possible. However, as N increases, the amount of processing increases due to an increase in the number of combinations. If the number of characters is large, it may be limited to a small number of characters, such as narrowing down to the first few characters.

[実施の形態2]
次に、項目判定装置の実施の形態2について説明する。本実施の形態においても項目判定装置の一例として携帯電話100について説明を行う。本実施の形態における携帯電話100は、機能構成の一部と項目判定処理における処理手順においてのみ実施の形態1における携帯電話100と異なるものである。つまり、全体構成およびハードウェア構成については、本実施の形態における携帯電話100は、図1および図2に示した実施の形態1における携帯電話100と同様であるのでここでは説明を繰り返さない。
[Embodiment 2]
Next, a second embodiment of the item determination device will be described. Also in the present embodiment, a mobile phone 100 will be described as an example of an item determination device. Mobile phone 100 in the present embodiment is different from mobile phone 100 in the first embodiment only in a part of the functional configuration and the processing procedure in the item determination process. That is, the overall configuration and hardware configuration of mobile phone 100 in the present embodiment is the same as mobile phone 100 in Embodiment 1 shown in FIGS. 1 and 2, and therefore description thereof will not be repeated here.

本実施の形態に係る項目判定装置および項目判定処理も、カメラ付きの携帯電話100などのハードウェアと制御プログラムなどのソフトウェアとによって実現される。一般的にこうしたソフトウェアは、製造時に第2のメモリ107に格納されたり、ユーザがネットワークなどを介してダウンロードしたりすることによって流通する。そして、ソフトウェアは、第2のメモリ107から第1のメモリ106に読出されて制御装置105により実行される。   The item determination device and the item determination processing according to the present embodiment are also realized by hardware such as the mobile phone 100 with a camera and software such as a control program. In general, such software is stored in the second memory 107 at the time of manufacture, or distributed by a user downloading it via a network or the like. Then, the software is read from the second memory 107 to the first memory 106 and executed by the control device 105.

<機能構成>
図13は、本実施の形態に係る携帯電話100の機能構成を示すブロック図である。図13に示すように、携帯電話100は、撮影部142−1と、抽出部105−2と、認識部105−3と、算出部105−4と、第1の判定部105−5と、出力部105−7と、画像記憶部107−2と、文字認識辞書107−3と、結果記憶部107−4と、信頼度テーブル107−5と、並び方テーブル107−6とを含む。
<Functional configuration>
FIG. 13 is a block diagram showing a functional configuration of mobile phone 100 according to the present embodiment. As illustrated in FIG. 13, the mobile phone 100 includes a photographing unit 142-1, an extracting unit 105-2, a recognizing unit 105-3, a calculating unit 105-4, a first determining unit 105-5, It includes an output unit 105-7, an image storage unit 107-2, a character recognition dictionary 107-3, a result storage unit 107-4, a reliability table 107-5, and an arrangement table 107-6.

ここで、抽出部105−2と、認識部105−3と、算出部105−4と、第1の判定部105−5と、出力部105−7とは、たとえばCPUなどの制御装置105が、第2のメモリ107に記憶されている制御プログラム(ソフトウェア)を第1のメモリ106に読み出して、当該制御プログラム(ソフトウェア)を実行することによって実現される。画像記憶部107−2と、文字認識辞書107−3と、結果記憶部107−4と、信頼度テーブル107−5と、並び方テーブル107−6とは、記憶部107−1に含まれる機能である。記憶部107−1は、第1のメモリ106または第2のメモリ107によって実現される。   Here, the extraction unit 105-2, the recognition unit 105-3, the calculation unit 105-4, the first determination unit 105-5, and the output unit 105-7 are, for example, a control device 105 such as a CPU. This is realized by reading the control program (software) stored in the second memory 107 into the first memory 106 and executing the control program (software). The image storage unit 107-2, the character recognition dictionary 107-3, the result storage unit 107-4, the reliability table 107-5, and the arrangement table 107-6 are functions included in the storage unit 107-1. is there. The storage unit 107-1 is realized by the first memory 106 or the second memory 107.

以下、携帯電話100が有する各種機能について説明するが、前述したように以下の各ブロックの機能や各ステップの処理は、制御装置105が第2のメモリ107に記憶されている制御プログラム(ソフトウェア)を第1のメモリ106に読み出して、当該制御プログラム(ソフトウェア)を実行することによって実現される構成としてもよいし、各々を専用のハードウェア回路等によって実現してもよい。   Hereinafter, various functions of the mobile phone 100 will be described. As described above, the functions of the following blocks and the processing of each step are performed by a control program (software) stored in the second memory 107 by the control device 105. May be realized by reading out to the first memory 106 and executing the control program (software), or each may be realized by a dedicated hardware circuit or the like.

なお、本実施の形態における撮影部142−1と、抽出部105−2と、画像記憶部107−2と、文字認識辞書107−3と、結果記憶部107−4と、信頼度テーブル107−5とについては、実施の形態1におけるそれと同様の構成であるためここでは説明を繰り返さない。また、本実施の形態における信頼度テーブル107−5の生成方法についても、実施の形態1におけるそれと同様の構成であるためここでは説明を繰り返さない。   It should be noted that the imaging unit 142-1, the extraction unit 105-2, the image storage unit 107-2, the character recognition dictionary 107-3, the result storage unit 107-4, and the reliability table 107- in the present embodiment. 5 has the same configuration as that of the first embodiment, and therefore, description thereof will not be repeated here. Also, the method of generating the reliability table 107-5 in the present embodiment has the same configuration as that in the first embodiment, and therefore description thereof will not be repeated here.

まず、並び方テーブル107−6は、図8に示すように、第2の項目を第1の項目の並び方に対応付けて記憶する。本実施の形態に係る並び方テーブルは、各文字に対応する項目の並び方を格納しており、当該並び方に基づいて部分文字列全体としてどのような項目に分類すべきかを判定するためのテーブルである。   First, as shown in FIG. 8, the arrangement table 107-6 stores the second item in association with the arrangement of the first items. The arrangement table according to the present embodiment stores the arrangement of items corresponding to each character, and is a table for determining what items should be classified as the entire partial character string based on the arrangement. .

図8に示すように、並び方テーブル107−6は、2〜4つの文字を含む部分文字列について、各文字に対応する項目の並び方として妥当な並び方のみを格納している。例えば、3つの文字から成る部分文字列の場合、1つめの文字が「姓」、2つめの文字が「姓」、3つめの文字が「名」の項目となる並び方は妥当であるとして並び方テーブルに格納されている。なお、図8中の「⇒」の右の欄は、当該並び方の部分文字列は全体として、「姓名」という項目に分類されるに相応しいことを示している。   As shown in FIG. 8, the arrangement table 107-6 stores only arrangements that are appropriate as arrangements of items corresponding to each character for partial character strings including two to four characters. For example, in the case of a partial character string consisting of three characters, the first character is “last name”, the second character is “last name”, and the third character is “first name”. Stored in a table. Note that the right column of “⇒” in FIG. 8 indicates that the partial character strings in the arrangement are suitable for being classified into the item “first and last name” as a whole.

一方、図8においては、例えば、1つめの文字が「名」、2つめの文字が「姓」、3つめの文字が「名」となる組み合わせは、通常の文字列としては妥当でないものとして、並び方テーブル107−6に格納されていない。   On the other hand, in FIG. 8, for example, a combination in which the first character is “first name”, the second character is “last name”, and the third character is “first name” is not valid as a normal character string. , Not stored in the arrangement table 107-6.

認識部105−3は、文字列に含まれる少なくとも1つの第1の部分文字列と、当該第1の部分文字列に含まれる文字と、を認識する。そして、認識部105−3は、文字列に含まれる各文字の位置を取得し、各文字の位置に基づいて文字列を少なくとも1つの第1の部分文字列に分割する。ただし、本実施の形態に係る認識部105−1は、文字列を1つの部分文字列として扱うものとする。   The recognition unit 105-3 recognizes at least one first partial character string included in the character string and a character included in the first partial character string. Then, the recognition unit 105-3 acquires the position of each character included in the character string, and divides the character string into at least one first partial character string based on the position of each character. However, it is assumed that the recognition unit 105-1 according to the present embodiment handles a character string as one partial character string.

より詳細には、認識部105−3は、抽出部105−2が抽出した画像情報としての文字列に対して、文字認識辞書107−3を参照して、文字コード情報としての文字列を生成する。ここで、認識部105−3による文字列認識結果とは、認識部105−3で決定された各文字の文字コード情報(認識候補を含んでもよい)および各文字の座標情報などのことである。   More specifically, the recognition unit 105-3 generates a character string as character code information by referring to the character recognition dictionary 107-3 with respect to the character string as image information extracted by the extraction unit 105-2. To do. Here, the character string recognition result by the recognition unit 105-3 is character code information (may include recognition candidates) of each character determined by the recognition unit 105-3, coordinate information of each character, and the like. .

算出部105−4は、信頼度テーブルを参照して、第1の部分文字列に含まれる各文字の第1の項目別の信頼度に基づいて、第1の部分文字列の少なくとも1つの文字列信頼度を算出して、第1のメモリ106などに記憶する。本実施の形態に係る算出部105−1は、並び方テーブル107−6に記憶されている第1の項目の並び方毎に、並び方テーブル107−6に記憶されている第1の項目の並び方に基づいて、第1の部分文字列の文字列信頼度を算出する。すなわち、算出部105−1は、部分文字列を構成する文字の並び方は、第1の項目の並び方として妥当性のある並び方となるもののみについての並び方毎に、部分文字列の信頼度を計算する。   The calculation unit 105-4 refers to the reliability table, and determines at least one character of the first partial character string based on the reliability of each character included in the first partial character string for each first item. The column reliability is calculated and stored in the first memory 106 or the like. The calculation unit 105-1 according to the present embodiment is based on the arrangement of the first items stored in the arrangement table 107-6 for each arrangement of the first items stored in the arrangement table 107-6. Thus, the character string reliability of the first partial character string is calculated. In other words, the calculation unit 105-1 calculates the reliability of the partial character string for each arrangement of only the items in which the arrangement of the characters constituting the partial character string is valid as the arrangement of the first item. To do.

第1の判定部105−5は、文字列信頼度に基づいて第1の部分文字列の第1の項目を判定する。より詳細には、第1の判定部105−5は、並び方テーブルに記憶されている第1の項目の並び方毎の文字列信頼度に基づいて、第1の部分文字列の第2の項目を判定する。   The first determination unit 105-5 determines the first item of the first partial character string based on the character string reliability. More specifically, the first determination unit 105-5 determines the second item of the first partial character string based on the character string reliability for each arrangement method of the first items stored in the arrangement table. judge.

すなわち、図8に示すように、認識部105−3が認識した文字列が3つの文字からなる場合、算出部105−4が、並び方テーブル107−6を参照して、3文字から成る文字列の並び方としては以下の6種類を抽出する。すなわち、
姓+姓+名
姓+名+名
姓+単+単
地+単+単
地+地+地
単+単+単
の6種類である。
That is, as shown in FIG. 8, when the character string recognized by the recognition unit 105-3 is composed of three characters, the calculation unit 105-4 refers to the arrangement table 107-6 and character strings composed of three characters. The following 6 types are extracted. That is,
Last name + surname + surname + surname + surname + single + single + single + single + ground + single + single + single.

算出部105−4は、上記の並び方毎に部分文字列の文字列信頼度を算出して、最大の文字列信頼度を有する並び方に対応する第2の文字列を、部分文字列の第2の項目として判定する。   The calculation unit 105-4 calculates the character string reliability of the partial character string for each of the arrangement methods described above, and determines the second character string corresponding to the arrangement method having the maximum character string reliability as the second character string second. Judge as item.

出力部105−7は、制御装置105だけでなく、モニタ150や図示しない周辺I/F回路などによっても実現され、結果記憶部122に記憶されている認識結果などの各種情報や、判定された第2の項目を、項目判定プログラムから他のアプリケーションへと渡したり、携帯電話100の外部へと出力したりする。   The output unit 105-7 is realized not only by the control device 105 but also by the monitor 150, a peripheral I / F circuit (not shown), and the like, and various kinds of information such as a recognition result stored in the result storage unit 122 are determined. The second item is transferred from the item determination program to another application or output to the outside of the mobile phone 100.

<項目判定処理>
次に、本実施の形態に係る項目判定処理について説明する。図14は、本実施の形態に係る携帯電話100における項目判定処理の処理手順を示すフローチャートである。
<Item judgment processing>
Next, an item determination process according to the present embodiment will be described. FIG. 14 is a flowchart showing a processing procedure of item determination processing in mobile phone 100 according to the present embodiment.

以下では、入力される文字列を1つの部分文字列として扱う携帯電話100における項目判定処理の処理手順について説明する。ただし、制御装置105によって実現される認識部105−3が、入力される文字列が1文字から成る部分文字列によって構成されているとして扱う、すなわちN文字からなる文字列が入力されたときにはN個の部分文字列に分離する構成であってもよいものとする。   Hereinafter, a processing procedure of item determination processing in the mobile phone 100 that handles an input character string as one partial character string will be described. However, the recognition unit 105-3 realized by the control device 105 treats the input character string as being composed of a partial character string consisting of one character, that is, N when a character string consisting of N characters is input. It may be configured to be separated into individual partial character strings.

ここでも、図10に示すような名刺202の画像データが入力された場合についての説明を行う。そして、対象とする文字列は「南曽根」とする。本実施の形態においては、文字列に1つの部分文字列「南曽根」が含まれるとして説明を行うが、上述したように文字列分離数Nを3とする構成であってもよいものとする。本実施の形態においては、図5に示したように、「南曽根」の部分文字列以外に、「早川工業」の部分文字列や、「太郎」の部分文字列などが抽出される。   Here, the case where the image data of the business card 202 as shown in FIG. 10 is input will be described. The target character string is “South Sone”. In the present embodiment, the description will be made on the assumption that the character string includes one partial character string “Minami Sone”. However, as described above, the character string separation number N may be three. . In the present embodiment, as shown in FIG. 5, in addition to the partial character string “Minami Sone”, a partial character string “Hayakawa Kogyo”, a partial character string “Taro”, and the like are extracted.

図14を参照して、まずは、制御装置105が、記憶部107−1に記憶されている文字列認識結果に基づいて、認識結果文字列「南曽根」を、「南曽根」という1つの部分文字列として認識する(ステップS201)。   Referring to FIG. 14, first, based on the character string recognition result stored in the storage unit 107-1, the control device 105 converts the recognition result character string “Nan Sone” into one part “Nan Sone”. Recognized as a character string (step S201).

制御装置105は、部分文字列に含まれる文字数に応じて、図8に示す並び方テーブルから3文字用の並び方を順に抽出する(ステップS202)。ただし、ステップS202においては、並び方の数だけを抽出し、ステップS205にてnに対応する第n番目の並び方を抽出する構成であってもよい。そして、並び方毎にカウンタに対応させ、文字数に対応する並び方の総数をNとして、制御装置105はカウンタnを1に初期化する(ステップS203)。   The control device 105 sequentially extracts the arrangement for three characters from the arrangement table shown in FIG. 8 according to the number of characters included in the partial character string (step S202). However, in step S202, only the number of arrangement methods may be extracted, and the nth arrangement method corresponding to n may be extracted in step S205. Then, the control device 105 initializes the counter n to 1 with N being the total number of arrangements corresponding to the number of characters, corresponding to the counter for each arrangement method (step S203).

すなわち、図8に示すように、部分文字列が3つの文字からなる場合、制御装置105は、並び方テーブル107−6に基づいて、3文字から成る文字列に対応する第1の項目の並び方として、以下の6種類を抽出する。すなわち、制御装置105は、
姓+姓+名
姓+名+名
姓+単+単
地+単+単
地+地+地
単+単+単
の6種類に応じて、N=6として、それぞれの並び方毎の部分文字列に対応した文字列信頼度を算出するのである。ただし、前述したように、ステップS202においては、並び方の数だけを抽出し、ステップS205にてnに対応する並び方を抽出する構成であってもよい。
That is, as shown in FIG. 8, when the partial character string is composed of three characters, the control device 105 uses the arrangement table 107-6 as the arrangement method of the first item corresponding to the character string consisting of three characters. The following 6 types are extracted. That is, the control device 105
Last name + surname + surname + surname + surname + single + single + single + single + ground + single + single + single, N = 6, partial character string for each arrangement The character string reliability corresponding to is calculated. However, as described above, in step S202, only the number of arrangements may be extracted, and the arrangement corresponding to n may be extracted in step S205.

制御装置105は、n≦Nであれば(ステップS204においてYESの場合)、n番目の並び方に対する部分文字列の文字列信頼度と分類すべき項目とを算出する(ステップS205)。すなわち、ステップS205においては、部分文字列の並び方として妥当性のある組み合わせのみについて、文字列信頼度を計算するのである。換言すれば、ステップS205において、制御装置105は、並び方毎に、第n番目の並び方に対する部分文字列の文字列信頼度を算出して、当該並び方に対応する第2の項目と共に記憶部107−1に記憶する。そして、1つの並び方に対する文字列信頼度を算出すると制御装置105は、カウンタをインクリメント(n=n+1)する(ステップS206)。   If n ≦ N (YES in step S204), control device 105 calculates the character string reliability of the partial character string and the item to be classified for the n-th arrangement (step S205). That is, in step S205, the character string reliability is calculated only for combinations that are valid as the arrangement method of the partial character strings. In other words, in step S205, the control device 105 calculates, for each arrangement, the character string reliability of the partial character string for the nth arrangement, and the storage unit 107- together with the second item corresponding to the arrangement. 1 is stored. When calculating the character string reliability for one arrangement, the control device 105 increments the counter (n = n + 1) (step S206).

一方、制御装置105は、n>Nであれば(ステップS204においてNOの場合)、ステップS205において判定された並び方毎の部分文字列の並び方から、部分文字列の第2の項目の判定を行う(ステップS207)。詳細には、制御装置105は、記憶部107−1から、並び方毎の部分文字列の文字列信頼度と、当該並び方に対応する第2の項目とを読み出して、最も大きな文字列信頼度を有する並び方に基づいて、部分文字列が分類されるべき第2の項目を判定するのである。   On the other hand, if n> N (NO in step S204), control device 105 determines the second item of the partial character string from the arrangement of the partial character strings for each arrangement determined in step S205. (Step S207). Specifically, the control device 105 reads out the character string reliability of the partial character strings for each arrangement and the second item corresponding to the arrangement from the storage unit 107-1, and obtains the highest character string reliability. Based on the arrangement, the second item to be classified is determined.

以下、「南曽根」が抽出された場合について、より詳細に説明する。図15は、実施の形態2に係る部分文字列を構成する文字の信頼度を示したイメージ図である。図8を参照して、制御装置105は、3文字の文字列が該当する可能性がある並び方として6種類の並び方を抽出する(ステップS202)。制御装置105は、当該6種類の並び方の各々について、文字列信頼度を求める(ステップS205)。   Hereinafter, the case where “South Sone” is extracted will be described in more detail. FIG. 15 is an image diagram showing the reliability of characters constituting the partial character string according to the second embodiment. Referring to FIG. 8, control device 105 extracts six types of arrangement as possible arrangements of a three-character string (step S202). The control device 105 obtains the character string reliability for each of the six types of arrangement (step S205).

より詳細には、制御装置105は、以下のように、6種類の第1の項目の並び方に対して文字列信頼度を計算して、それぞれの並び方に対応する第2の項目とともに記憶部107−1に記憶するのである。
姓+姓+名=6+4+1=11⇒「姓名」
姓+名+名=6+1+1= 8⇒「姓名」
姓+単+単=6+1+1= 8⇒「単語」
地+単+単=6+1+1= 8⇒「単語」
地+地+地=6+4+3=13⇒「地名」
単+単+単=1+1+1= 3⇒「単語」
となる。
More specifically, as described below, the control device 105 calculates the string reliability for the six types of first item arrangement, and the storage unit 107 together with the second item corresponding to each arrangement. -1.
Last name + Last name + First name = 6 + 4 + 1 = 11⇒ "Last name"
First name + First name + First name = 6 + 1 + 1 = 8⇒ "Last name"
Last name + Single + Single = 6 + 1 + 1 = 8⇒ "Word"
Earth + Single + Single = 6 + 1 + 1 = 8⇒ "Word"
Place + place + place = 6 + 4 + 3 = 13⇒ "place name"
Single + single + single = 1 + 1 + 1 = 3 =>"word"
It becomes.

制御装置105は、最大の文字列信頼度を有する第1の項目の並び方として地+地+地を選択し、地+地+地に対応する「地名」を文字列が分類されるべき第2の項目として決定するのである(ステップS207)。ただし、制御装置105が、最後にステップS207にて、並び方テーブル107−6を参照することにより、文字列を「地名」と判定する構成であってもよい。   The control device 105 selects place + place + place as the arrangement of the first items having the maximum character string reliability, and the character string is classified as “place name” corresponding to place + place + place. This item is determined (step S207). However, the configuration may be such that the control device 105 finally determines the character string as “place name” by referring to the arrangement table 107-6 in step S207.

本実施の形態においては、図5および図10に示すように、N=6の場合のみを説明したが、もちろん部分文字列の個数Nが6以外の場合であっても、文字列の項目判定は可能である。ただし、Nが大きくなるほど、組み合わせ数の増加により、処理量が増えてしまう。文字数が多い場合は、最初の何文字かに絞るなど、少ない文字数に制限してもよい。   In the present embodiment, as shown in FIGS. 5 and 10, only the case where N = 6 has been described. Of course, even if the number N of partial character strings is other than 6, character string item determination is performed. Is possible. However, as N increases, the amount of processing increases due to an increase in the number of combinations. If the number of characters is large, it may be limited to a small number of characters, such as narrowing down to the first few characters.

[実施の形態3]
次に、項目判定装置の実施の形態3について説明する。本実施の形態においても項目判定装置の一例として携帯電話100について説明を行う。本実施の形態における携帯電話100は、機能構成の一部と項目判定処理における処理手順においてのみ実施の形態1における携帯電話100と異なるものである。つまり、全体構成およびハードウェア構成については、本実施の形態における携帯電話100は、図1および図2に示した実施の形態1における携帯電話100と同様であるのでここでは説明を繰り返さない。
[Embodiment 3]
Next, a third embodiment of the item determination device will be described. Also in the present embodiment, a mobile phone 100 will be described as an example of an item determination device. Mobile phone 100 in the present embodiment is different from mobile phone 100 in the first embodiment only in a part of the functional configuration and the processing procedure in the item determination process. That is, the overall configuration and hardware configuration of mobile phone 100 in the present embodiment is the same as mobile phone 100 in Embodiment 1 shown in FIGS. 1 and 2, and therefore description thereof will not be repeated here.

本実施の形態に係る項目判定装置および項目判定処理も、カメラ付きの携帯電話100などのハードウェアと制御プログラムなどのソフトウェアとによって実現される。一般的にこうしたソフトウェアは、製造時に第2のメモリ107に格納されたり、ユーザがネットワークなどを介してダウンロードすることによって流通する。そして、ソフトウェアは、第2のメモリ107から第1のメモリ106に読出されて制御装置105により実行される。   The item determination device and the item determination processing according to the present embodiment are also realized by hardware such as the mobile phone 100 with a camera and software such as a control program. Generally, such software is stored in the second memory 107 at the time of manufacture or distributed by a user downloading it via a network or the like. Then, the software is read from the second memory 107 to the first memory 106 and executed by the control device 105.

<機能構成>
図16は、実施の形態3に係る携帯電話100の機能構成を示すブロック図である。図16に示すように、携帯電話100は、撮影部142−1と、抽出部105−2と、認識部105−3と、単語検索部105−8と、算出部105−4と、第1の判定部105−5と、第3の判定部105−9と、出力部105−7と、画像記憶部107−2と、文字認識辞書107−3と、結果記憶部107−4と、信頼度テーブル107−5と、並び方テーブル107−6と、単語辞書107−7とを含む。
<Functional configuration>
FIG. 16 is a block diagram showing a functional configuration of mobile phone 100 according to Embodiment 3. As illustrated in FIG. 16, the mobile phone 100 includes a photographing unit 142-1, an extraction unit 105-2, a recognition unit 105-3, a word search unit 105-8, a calculation unit 105-4, Determination unit 105-5, third determination unit 105-9, output unit 105-7, image storage unit 107-2, character recognition dictionary 107-3, result storage unit 107-4, trust A degree table 107-5, an arrangement table 107-6, and a word dictionary 107-7.

ここで、抽出部105−2と、認識部105−3と、単語検索部105−8と、算出部105−4と、第1の判定部105−5と、第3の判定部105−9と、出力部105−7とは、たとえばCPUなどの制御装置105が、第2のメモリ107に記憶されている制御プログラム(ソフトウェア)を第1のメモリ106に読み出して、当該制御プログラム(ソフトウェア)を実行することによって実現される。画像記憶部107−2と、文字認識辞書107−3と、結果記憶部107−4と、信頼度テーブル107−5と、並び方テーブル107−6と、単語辞書107−7とは、第1のメモリ106または第2のメモリ107によって実現される記憶部107−1に含まれる機能である。   Here, the extraction unit 105-2, the recognition unit 105-3, the word search unit 105-8, the calculation unit 105-4, the first determination unit 105-5, and the third determination unit 105-9. The output unit 105-7 refers to, for example, a control device 105 such as a CPU that reads a control program (software) stored in the second memory 107 into the first memory 106, and the control program (software). It is realized by executing. The image storage unit 107-2, the character recognition dictionary 107-3, the result storage unit 107-4, the reliability table 107-5, the arrangement table 107-6, and the word dictionary 107-7 include the first This is a function included in the storage unit 107-1 realized by the memory 106 or the second memory 107.

以下、携帯電話100が有する各種機能について説明するが、前述したように以下の各ブロックの機能や各ステップの処理は、制御装置105が第2のメモリ107に記憶されている制御プログラム(ソフトウェア)を第1のメモリ106に読み出して、当該制御プログラム(ソフトウェア)を実行することによって実現される構成としてもよいし、各々を専用のハードウェア回路等によって実現してもよい。   Hereinafter, various functions of the mobile phone 100 will be described. As described above, the functions of the following blocks and the processing of each step are performed by a control program (software) stored in the second memory 107 by the control device 105. May be realized by reading out to the first memory 106 and executing the control program (software), or each may be realized by a dedicated hardware circuit or the like.

なお、本実施の形態における撮影部142−1と、抽出部105−2と、画像記憶部107−2と、文字認識辞書107−3と、結果記憶部107−4と、信頼度テーブル107−5と、並び方テーブル107−6とについては、実施の形態1におけるそれと同様の構成であるためここでは説明を繰り返さない。また、本実施の形態における信頼度テーブル107−5の生成方法についても、実施の形態1におけるそれと同様の構成であるためここでは説明を繰り返さない。   It should be noted that the imaging unit 142-1, the extraction unit 105-2, the image storage unit 107-2, the character recognition dictionary 107-3, the result storage unit 107-4, and the reliability table 107- in the present embodiment. 5 and the arrangement table 107-6 have the same configuration as that of the first embodiment, and therefore description thereof will not be repeated here. Also, the method of generating the reliability table 107-5 in the present embodiment has the same configuration as that in the first embodiment, and therefore description thereof will not be repeated here.

まず、単語辞書107−7は、少なくとも1つの文字から構成され、第1の項目に属する複数の単語を格納するものであって、文字コード列としての単語を保持した辞書である。単語辞書107−7は、姓辞書、名辞書、地名辞書、一般単語辞書等のうちの少なくともいずれかの項目に属する単語が格納された辞書のことを言う。携帯電話100の記憶部107−1には、これらの辞書のうち、いずれか1つの辞書が格納されていれば良く、当該辞書に含まれる単語は、当該辞書に対応する第1の項目に分類されるに相応しい単語であることが解る。また、単語辞書107−7は、例えば名刺の読取を対象としていれば名刺に記載される可能性が高い単語に限る等の調整が行われたものであってもよいものとする。   First, the word dictionary 107-7 is composed of at least one character, stores a plurality of words belonging to the first item, and holds a word as a character code string. The word dictionary 107-7 refers to a dictionary in which words belonging to at least one of the last name dictionary, first name dictionary, place name dictionary, general word dictionary, and the like are stored. The storage unit 107-1 of the mobile phone 100 only needs to store one of these dictionaries, and the words included in the dictionary are classified into the first item corresponding to the dictionary. It is understood that the word is suitable for being done. In addition, the word dictionary 107-7 may be adjusted such that the word dictionary 107-7 is limited to words that are highly likely to be written on the business card, for example, when the business card is to be read.

認識部105−3は、文字列に含まれる少なくとも1つの第1の部分文字列と、当該第1の部分文字列に含まれる文字とを認識する。そして、認識部105−3は、文字列に含まれる各文字の位置を取得し、各文字の位置に基づいて文字列を少なくとも1つの第1の部分文字列に分割する。より詳細には、認識部105−3は、抽出部105−2が抽出した画像情報としての文字列に対して、文字認識辞書107−3を参照して、文字コード情報としての文字列を生成する。ここで、認識部105−3による文字列認識結果とは、認識部105−3で決定された各文字の文字コード情報(認識候補を含んでもよい)および各文字毎の座標情報などのことである。   The recognition unit 105-3 recognizes at least one first partial character string included in the character string and a character included in the first partial character string. Then, the recognition unit 105-3 acquires the position of each character included in the character string, and divides the character string into at least one first partial character string based on the position of each character. More specifically, the recognition unit 105-3 generates a character string as character code information by referring to the character recognition dictionary 107-3 with respect to the character string as image information extracted by the extraction unit 105-2. To do. Here, the character string recognition result by the recognition unit 105-3 includes character code information (may include recognition candidates) of each character determined by the recognition unit 105-3, coordinate information for each character, and the like. is there.

そして、認識部105−3は、結果記憶部107−4に記憶された文字列任意気結果から、文字列を幾つかの第1の部分文字列に分離する。文字列を分離する分離方法については、例えば、各文字間の距離から平均距離を算出後、平均距離に比べて大きい(注目している文字間距離が、平均距離×予め定めた閾値以上など)場合に、その位置で文字列を区切る方法などが挙げられる。この認識部105−3による文字列分離結果は、どのような形で記録しても構わないが、本実施の形態においては図4に示す結果記憶部107−4のように、分離位置の個数および各々の分離位置などを記憶することによって、文字列分離結果を記録するものとする。   And the recognition part 105-3 isolate | separates a character string into some 1st partial character strings from the character string arbitrary result memorize | stored in the result memory | storage part 107-4. As for the separation method for separating character strings, for example, after calculating the average distance from the distance between each character, it is larger than the average distance (the distance between characters of interest is equal to or more than a predetermined threshold). In some cases, there is a method of dividing a character string at that position. The character string separation result by the recognition unit 105-3 may be recorded in any form, but in the present embodiment, the number of separation positions as in the result storage unit 107-4 shown in FIG. The character string separation result is recorded by storing each separation position and the like.

単語検索部105−8は、結果記憶部107−4に記憶されたテキスト文字列に対して、当該テキスト文字列内に、単語辞書107−7に格納されている単語があるか否かを検索して、当該検索結果を結果記憶部107−4に返すものである。すなわち、単語検索部105−8は、第1の部分文字列が単語辞書に記憶されている単語を含むか否かを判断する判断部である。   The word search unit 105-8 searches the text character string stored in the result storage unit 107-4 for a word stored in the word dictionary 107-7 in the text character string. Then, the search result is returned to the result storage unit 107-4. That is, the word search unit 105-8 is a determination unit that determines whether or not the first partial character string includes a word stored in the word dictionary.

算出部105−4は、信頼度テーブル107−5を参照して、第1の部分文字列に含まれる各文字の第1の項目別の信頼度に基づいて、第1の部分文字列の少なくとも1つの文字列信頼度を算出して、第1のメモリ106などに記憶する。本実施の形態に係る算出部105−1は、第1の部分文字列が単語辞書107−7に記憶されている単語を含む場合に、信頼度テーブル107−5を参照して、第1の部分文字列のうち単語辞書に記憶されている単語に含まれる文字を除いた文字から構成される第2の部分文字列に含まれる各文字に対応する文字信頼度に基づいて、第2の部分文字列の第1の項目毎の文字列信頼度を算出する。そして、本実施の形態に係る算出部105−4は、第1の部分文字列が単語辞書107−7に記憶されている単語を含まない場合に、信頼度テーブル107−5を参照して、第1の部分文字列に含まれる各文字の第1の項目別の信頼度に基づいて、第1の部分文字列の少なくとも1つの文字列信頼度を算出する。   The calculation unit 105-4 refers to the reliability table 107-5 and determines at least one of the first partial character strings based on the reliability of each character included in the first partial character string for each first item. One string reliability is calculated and stored in the first memory 106 or the like. When the first partial character string includes a word stored in the word dictionary 107-7, the calculation unit 105-1 according to the present embodiment refers to the reliability table 107-5 and first Based on the character reliability corresponding to each character included in the second partial character string composed of characters excluding the characters included in the word stored in the word dictionary among the partial character strings, the second part The character string reliability for each first item of the character string is calculated. Then, the calculation unit 105-4 according to the present embodiment refers to the reliability table 107-5 when the first partial character string does not include a word stored in the word dictionary 107-7. At least one character string reliability of the first partial character string is calculated based on the reliability of each character included in the first partial character string for each first item.

第1の判定部105−5は、文字列信頼度に基づいて第1の部分文字列の第1の項目を判定する。より詳細には、本実施の形態に係る第1の判定部105−5は、第1の部分文字列が単語辞書107−7に記憶されている単語を含む場合に、文字列信頼度に基づいて第2の部分文字列の第1の項目を判定し、第1の部分文字列が単語辞書107−7に記憶されている単語を含まない場合に、文字列信頼度に基づいて第1の部分文字列の第1の項目を判定する。   The first determination unit 105-5 determines the first item of the first partial character string based on the character string reliability. More specifically, the first determination unit 105-5 according to the present embodiment is based on the character string reliability when the first partial character string includes a word stored in the word dictionary 107-7. If the first item of the second partial character string is determined and the first partial character string does not include a word stored in the word dictionary 107-7, the first item is determined based on the character string reliability. The first item of the partial character string is determined.

出力部105−7は、制御装置105だけでなく、モニタ150や図示しない周辺I/F回路などによっても実現され、結果記憶部122に記憶されている認識結果などの各種情報や、判定された第1の項目および第2の項目を、項目判定プログラムから他のアプリケーションへと渡したり、携帯電話100の外部へと出力したりする。   The output unit 105-7 is realized not only by the control device 105 but also by the monitor 150, a peripheral I / F circuit (not shown), and the like, and various kinds of information such as a recognition result stored in the result storage unit 122 are determined. The first item and the second item are transferred from the item determination program to another application or output to the outside of the mobile phone 100.

第3の判定部105−9は、第1の部分文字列が単語辞書107−7に記憶されている単語を含む場合に、単語辞書107−7の単語が属する第1の項目と、第2の部分文字列の第1の項目とに基づいて、部分文字列の第2の項目を判定する。第3の判定部105−9は、第1の部分文字列が単語辞書107−7に記憶されている単語を含まない場合に、少なくとも1つの第1の部分文字列毎の第1の項目毎の文字列信頼度と、並び方テーブル107−6の第1の項目の並び方とに基づいて文字列の第2の項目を判定する。   When the first partial character string includes a word stored in the word dictionary 107-7, the third determination unit 105-9 includes the first item to which the word of the word dictionary 107-7 belongs, The second item of the partial character string is determined based on the first item of the partial character string. When the first partial character string does not include a word stored in the word dictionary 107-7, the third determination unit 105-9 performs the first item for each first item of at least one first partial character string. The second item of the character string is determined based on the reliability of the character string and the arrangement method of the first item of the arrangement table 107-6.

<項目判定処理>
次に、本実施の形態に係る項目判定処理について説明する。図17は、実施の形態3に係る携帯電話100における項目判定処理の処理手順を示すフローチャートである。図18は、項目判定処理の対象となる名刺203を示すイメージ図である。本実施の形態においては、携帯電話100に、単語辞書107−7として、姓に分類されるに相応しい単語のみが格納された姓辞書のみが記憶されているものとする。そして、入力対象画像は、図18に示す名刺画像であるものとする。
<Item judgment processing>
Next, an item determination process according to the present embodiment will be described. FIG. 17 is a flowchart showing a processing procedure of item determination processing in mobile phone 100 according to Embodiment 3. FIG. 18 is an image diagram showing a business card 203 to be subjected to the item determination process. In the present embodiment, it is assumed that mobile phone 100 stores only a surname dictionary in which only words suitable for being classified as surnames are stored as word dictionary 107-7. The input target image is assumed to be a business card image shown in FIG.

加えて、図18に示すように、読み取り対象となる名刺203は「(株)」に汚れがあるものとし、以下では「(株)」という文字が認識できなかった場合の項目判定処理について説明する。この他にも、「(株)」の字体が単語辞書に格納されていない特殊な字体であったため、「(株)」が正しく認識できず除去される場合がある。また、「(株)」がカラー文字であったため正しく認識できなかった場合もある。また、顔写真等のように、図の一部として認識対象とならなかった場合もある。本実施の形態に係る携帯電話は、以下に説明するように、文字列の一部分が認識不能である場合であっても、当該文字列が分類されるに相応しい項目を判定できるものである。   In addition, as shown in FIG. 18, it is assumed that the business card 203 to be read has a stain on “(stock)”, and the item determination process when the character “(stock)” cannot be recognized will be described below. To do. In addition, since the font of “(stock)” is a special font that is not stored in the word dictionary, “(stock)” may not be correctly recognized and may be removed. In addition, since “(Co)” is a color character, it may not be recognized correctly. In addition, there are cases where it is not a recognition target as a part of the figure, such as a face photograph. As will be described below, the mobile phone according to the present embodiment can determine an item suitable for classifying a character string even when a part of the character string is unrecognizable.

まず、ステップS101においては、撮影部142−1によって抽出された上、制御装置105によって認識された文字列の中から、制御装置105が「建材製造販売」と「内山田建材」と「神田川建一」とを部分文字列として認識する。そして、制御装置105は、「建材製造販売」と「内山田建材」と「神田川建一」の部分文字列の認識結果を、第1のメモリ106または第2のメモリ107によって実現される記憶部107−1に格納する(ステップS301)。   First, in step S101, the control device 105 extracts “building material manufacturing and sales”, “Uchiyamada building materials”, and “Kandagawa” from the character strings extracted by the photographing unit 142-1 and recognized by the control device 105. "Kenichi" is recognized as a partial character string. Then, the control device 105 stores the recognition results of the partial character strings of “building material manufacturing and sales”, “Uchiyamada building material”, and “Kandagawa Kenichi” realized by the first memory 106 or the second memory 107. Stored in the unit 107-1 (step S301).

すなわち、ステップS301において、制御装置105が、n=1(第1番目)の部分文字列として「建材製造販売」を認識して記憶部107−1に格納する。また、制御装置105は、n=2(第2番目)の部分文字列として「内山田建材」を認識して記憶部107−1に格納する。また、制御装置105は、n=3(第3番目)の部分文字列として「神田川建一」を認識して記憶部107−1に格納する。すなわち、この場合には、記憶部107−1に格納される部分文字列の数は3つ(N=3)となる。   That is, in step S301, the control device 105 recognizes “building material manufacturing and sales” as a partial character string of n = 1 (first) and stores it in the storage unit 107-1. Further, the control device 105 recognizes “Uchiyamada Building Materials” as the n = 2 (second) partial character string and stores it in the storage unit 107-1. Further, the control device 105 recognizes “Kendagawa Kenichi” as the n = 3 (third) partial character string and stores it in the storage unit 107-1. That is, in this case, the number of partial character strings stored in the storage unit 107-1 is three (N = 3).

なお、ここでは、制御装置105が認識文字列を複数の部分文字列に分離した場合の処理を挙げるが、文字間の距離が一定であるなどの理由で制御装置105が認識文字列を分離できなかった場合には文字列に1つの部分文字列が含まれているものとして(1つの部分文字列しかなかったものとして)以下の処理を行う。   In this example, the processing is performed when the control device 105 separates the recognized character string into a plurality of partial character strings. However, the control device 105 can separate the recognized character string because the distance between characters is constant. If not, the following processing is performed assuming that the character string includes one partial character string (assuming that there is only one partial character string).

また、そもそも制御装置105で得られた文字列自体を部分文字列として扱う構成の場合は、抽出した文字列自体を部分文字列として扱う。   In the case where the character string itself obtained by the control device 105 is handled as a partial character string, the extracted character string itself is handled as a partial character string.

次に、制御装置105はカウンタnを1に初期化する(ステップS302)。制御装置105は、n≦Nであれば(ステップS303においてYESの場合)、第n番目の部分文字列に対して、単語辞書107−6(姓辞書)内に格納されている単語(姓)を含むか否かを検索する(ステップS304)。また、ここでは、「内山田」、「神田川」の2つの文字列が単語辞書107−7に格納されているものとし、「建材製造販売」内には単語辞書107−7が格納する単語(姓)は見つからなかったものとする。   Next, the control device 105 initializes the counter n to 1 (step S302). If n ≦ N (YES in step S303), control device 105 determines the word (last name) stored in word dictionary 107-6 (last name dictionary) for the nth partial character string. Whether or not is included (step S304). Here, it is assumed that two character strings “Uchiyamada” and “Kandagawa” are stored in the word dictionary 107-7, and the words stored in the word dictionary 107-7 in “building material manufacturing and sales”. (Last name) is not found.

第n番目の部分文字列が単語辞書に含まれている単語を含むものである場合(ステップS305にてYESの場合)、当該単語以外の文字からなる第2の部分文字列の文字列信頼度を算出する(ステップS306〜ステップS307)。すなわち、制御装置105は、項目毎に、第2の部分文字列の文字列信頼度を求める(ステップS306)。第2の部分文字列の文字列信頼度を求める処理は、たとえば、項目毎に、図6に示したような各文字別および各項目別に定められた信頼度テーブルの各文字の信頼度を加算していけばよい。そして、制御装置105は、文字列信頼度が最大となる第1の項目を、第2の部分文字列が分類されるに相応しい第1の項目であるものとして決定する(ステップS307)。   When the nth partial character string includes a word included in the word dictionary (YES in step S305), the character string reliability of the second partial character string including characters other than the word is calculated. (Steps S306 to S307). That is, the control device 105 obtains the character string reliability of the second partial character string for each item (step S306). The processing for obtaining the character string reliability of the second partial character string is, for example, for each item, adding the reliability of each character in the reliability table defined for each character and each item as shown in FIG. Do it. Then, the control device 105 determines that the first item having the maximum character string reliability is the first item suitable for classification of the second partial character string (step S307).

そして、第n番目の部分文字列が単語辞書に含まれている単語を含まないものである場合(ステップS305にてNOの場合)、当該部分文字列自体を第1の部分文字列として信頼度を算出する(ステップS308〜ステップS309)。すなわち、制御装置105は、項目毎に、第1の部分文字列の文字列信頼度を求める(ステップS308)。そして、制御装置105は、文字列信頼度が最大となる第1の項目を、第1の部分文字列が分類されるに相応しい第1の項目であるものとして決定する(ステップS309)。   If the nth partial character string does not include a word included in the word dictionary (NO in step S305), the partial character string itself is regarded as the first partial character string, and the reliability Is calculated (steps S308 to S309). That is, the control device 105 obtains the character string reliability of the first partial character string for each item (step S308). Then, the control device 105 determines that the first item having the maximum character string reliability is the first item suitable for classification of the first partial character string (step S309).

具体的には、n=1(第1番目)の部分文字列「建材製造販売」については、部分文字列が単語辞書107−7に含まれている単語を含まないものであるので(ステップS305にてNOの場合)、当該部分文字列自体を第1の部分文字列として文字列信頼度を算出する(ステップS308〜ステップS309)。すなわち、制御装置105は、項目毎に、「建材製造販売」の文字列信頼度を求める(ステップS308)。そして、制御装置105は、文字列信頼度が最大となる第1の項目を、「建材製造販売」が分類されるに相応しい第1の項目であるものとして決定する(ステップS309)。   Specifically, since the partial character string “building material manufacturing and sales” of n = 1 (first) does not include a word whose partial character string is included in the word dictionary 107-7 (step S305). In the case of NO), the character string reliability is calculated using the partial character string itself as the first partial character string (steps S308 to S309). That is, the control device 105 obtains the character string reliability of “building material manufacturing and sales” for each item (step S308). Then, the control device 105 determines that the first item having the maximum character string reliability is the first item suitable for being classified as “building material manufacturing and sales” (step S309).

そして、n=2(第2番目)の部分文字列「内山田建材」については、部分文字列が単語辞書107−7に含まれている単語を含むものであるので(ステップS305にてYESの場合)、当該単語以外の文字からなる「建材」を第2の部分文字列として文字列信頼度を算出する(ステップS306〜ステップS307)。すなわち、制御装置105は、項目毎に、「建材」の文字列信頼度を求める(ステップS306)。そして、制御装置105は、文字列信頼度が最大となる第1の項目を、第2の部分文字列としての「建材」が分類されるに相応しい第1の項目であるものとして決定する(ステップS307)。   Since n = 2 (second) partial character string “Uchiyamada Building Materials” includes the word contained in the word dictionary 107-7 in the partial character string (in the case of YES in step S305). The character string reliability is calculated using “building material” composed of characters other than the word as the second partial character string (steps S306 to S307). That is, the control device 105 obtains the character string reliability of “building material” for each item (step S306). Then, the control device 105 determines the first item having the maximum character string reliability as the first item suitable for the classification of the “building material” as the second partial character string (step). S307).

そして、n=3(第3番目)の部分文字列「神田川建一」については、部分文字列が単語辞書107−7に含まれている単語を含むものであるので(ステップS305にてYESの場合)、当該単語以外の文字からなる「建一」を第2の部分文字列として文字列信頼度を算出する(ステップS306〜ステップS307)。すなわち、制御装置105は、項目毎に、「建一」の文字列信頼度を求める(ステップS306)。そして、制御装置105は、文字列信頼度が最大となる第1の項目を、第2の部分文字列としての「建一」が分類されるに相応しい第1の項目であるものとして決定する(ステップS307)。   For n = 3 (third) partial character string “Kendagawa Kenichi”, since the partial character string includes a word included in the word dictionary 107-7 (YES in step S305). ), The character string reliability is calculated using “Kenichi” consisting of characters other than the word as the second partial character string (steps S306 to S307). That is, the control device 105 obtains the character string reliability of “Kenichi” for each item (step S306). Then, the control device 105 determines that the first item having the maximum character string reliability is the first item suitable for classifying “Kenichi” as the second partial character string ( Step S307).

図19は、n=2(第2番目)およびn=3(第3番目)の部分文字列を構成する文字の信頼度を示したイメージ図である。図19に示すように、「建材」については、
姓 5
名 9
地名 7
単語 10
となり、当該第2の部分文字列は一般単語という項目に分類されるべきであると判断する。
FIG. 19 is an image diagram showing the reliability of characters constituting the partial character strings of n = 2 (second) and n = 3 (third). As shown in FIG.
Surname 5
Name 9
Place name 7
Word 10
Thus, it is determined that the second partial character string should be classified into the item of general word.

そして、「建一」については、
姓 10
名 16
地名 9
単語 11
となるので、当該第2の部分文字列は名という項目に分類されるべきであると判断する。
And for “Kenichi”,
Last name 10
Name 16
Place name 9
Word 11
Therefore, it is determined that the second partial character string should be classified into the item “name”.

このように、第1の部分文字列および第2の部分文字列の各々の文字列信頼度と、各々の第1の項目とが算出されると、制御装置105は、文字列信頼度と第1の項目とを記憶部107−1に記憶して、カウンタをインクリメント(n=n+1)する(ステップS310)。ただし、後述するように、ここでは、制御装置105が、第1の部分文字列および第2の部分文字列の文字列信頼度のみを算出し、文字列信頼度を記憶部107−1に記憶する構成であってもよい。   As described above, when the character string reliability of each of the first partial character string and the second partial character string and the respective first items are calculated, the control device 105 determines the character string reliability and the first character string reliability. 1 is stored in the storage unit 107-1, and the counter is incremented (n = n + 1) (step S310). However, as will be described later, here, the control device 105 calculates only the character string reliability of the first partial character string and the second partial character string, and stores the character string reliability in the storage unit 107-1. It may be configured to.

一方、制御装置105は、n>Nであれば(ステップS303においてNOの場合)、ステップS307およびステップS309において判定された第1の部分文字列の項目と第2の部分文字列の項目と単語辞書107−7に定められた項目との組み合わせ(並び方)から、文字列全体の第2の項目の判定を行う(ステップS311)。これは、図8に示したような並び方テーブル107−6を用いることによって、制御装置105が、少なくとも1つの第1の部分文字列や第2の部分文字列からなる部分文字列がどの項目に分類されるべきかを判定する(ステップS311)。   On the other hand, if n> N (NO in step S303), control device 105 determines the first partial character string item, the second partial character string item, and the word determined in steps S307 and S309. The second item of the entire character string is determined from the combination (arrangement) with the items defined in the dictionary 107-7 (step S311). This is because, by using the arrangement table 107-6 as shown in FIG. 8, the control device 105 determines which item the partial character string including at least one first partial character string or second partial character string is assigned to. It is determined whether it should be classified (step S311).

たとえば、n=2(第2番目)の部分文字列である「内山田建材」の場合は、単語辞書107−7に定められた「内山田」に対応する「姓」という第1の項目の次に、「建材」に対応する「単語」という第1の項目が並ぶ並び方であるため、制御装置105はn=2(第2番目)の部分文字列は「社名」という第2の項目に分類すべきであると判定する。そして、n=3(第3番目)の「神田川建一」の場合は、単語辞書107−7に定められた「神田川」に対応する「姓」という第1の項目の次に、「建一」に対応する「名」という第1の項目が並ぶ並び方であるため、制御装置105はn=3(第3番目)の部分文字列は「姓名」という第2の項目に分類すべきであると判定する。   For example, in the case of “Uchiyamada building material”, which is a partial character string of n = 2 (second), the first item “last name” corresponding to “Uchiyamada” defined in the word dictionary 107-7. Next, since the first item “word” corresponding to “building material” is arranged, the control device 105 sets the n = 2 (second) partial character string to the second item “company name”. Judge that it should be classified. In the case of n = 3 (third) “Kendagawa Kenichi”, next to the first item “surname” corresponding to “Kandagawa” defined in the word dictionary 107-7, “ Since the first item “First Name” corresponding to “Kenichi” is arranged, the control device 105 should classify the n = 3 (third) partial character string into the second item “First Name First Name”. It is determined that

また、ステップS311において、制御装置105が、姓辞書にヒットした「内山田建材」および「神田川建一」の2つの部分文字列のうち、どちらがより「姓名」の項目に分類されるべきであるかを判定する構成としてもよい。すなわち、第1の項目である「姓」と組み合わされる可能性がある第1項目は「名」であるので、制御装置105は、n=2(第2番目)の部分文字列を構成する第2の部分文字列と、n=3(第3番目)の部分文字列を構成する第2の部分文字列とのうち、「名」の文字列信頼度がより高い第2の部分文字列を含む部分文字列の第1の項目を「姓名」と判定してもよい。すなわち、第2の部分文字列である「建材」と「建一」との名の項目における文字列信頼度は、
建材・・・9
建一・・16
であるので、「神田川建一」が「内山田建材」よりも姓名としての信頼度が高いとして、「神田川建一」の項目を「姓名」であると判定する構成であってもよい。
Further, in step S311, the control device 105 should be classified into the item "first name and last name" of the two partial character strings "Uchiyamada Kenki" and "Kendagawa Kenichi" that have been hit in the surname dictionary. It is good also as a structure which determines whether there exists. That is, since the first item that may be combined with the first item “last name” is “first name”, the control device 105 sets the second character string that forms the partial character string of n = 2 (second). A second partial character string having a higher reliability of the character string of “name” among the partial character string of 2 and the second partial character string constituting the n = 3 (third) partial character string The first item of the partial character string to be included may be determined as “first and last name”. That is, the character string reliability in the item of the names “building material” and “kenichi” which are the second partial character strings is:
Building materials ... 9
Kenichi ... 16
Therefore, “Kendagawa Kenichi” is more reliable than “Uchiyamada Construction Materials” as a first and last name, and the item “Kandagawa Kenichi” may be determined to be “first and last name”. .

本実施の形態においては、N=3の場合のみを説明したが、もちろんNが2以下の場合や、Nが4以上の場合でも可能である。ただし、Nが大きくなるほど、組み合わせ数の増加により、処理量が増えてしまう。文字数が多い場合は、最初の何文字かに絞るなど、少ない文字数に制限してもよい。   In the present embodiment, only the case where N = 3 has been described, but of course, it is possible even when N is 2 or less or when N is 4 or more. However, as N increases, the amount of processing increases due to an increase in the number of combinations. If the number of characters is large, it may be limited to a small number of characters, such as narrowing down to the first few characters.

また、本実施の形態においては、n=2(第2番目)およびn=3(第3番目)の部分文字列が、1つの第1の部分文字列あるいは1つの第2の部分文字列から構成される場合についての説明を行ったが、第n番目の部分文字列がさらに複数の第1の部分文字列と複数の第2の部分文字列とから構成される場合であっても項目判定を行うことが可能である。   In the present embodiment, n = 2 (second) and n = 3 (third) partial character strings are derived from one first partial character string or one second partial character string. Although the case where it is configured has been described, even if the nth partial character string is further composed of a plurality of first partial character strings and a plurality of second partial character strings, item determination Can be done.

従来の名刺読取装置は、姓辞書を具備していても、名辞書を具備していなければ、「内山田建材」、「神田川建一」のいずれが姓名であるかを判定することができない。これに対して本実施の形態においては、名辞書を持つことなく、「内山田建材」、「神田川建一」のいずれが姓名であるかを判定することができる。逆に、名辞書は従来どおり使用するが、姓辞書を用いるかわりに本実施の形態の係る構成を用いる等、部分的に本実施の形態を適用することも可能である。また、実施の形態1および実施の形態2に係る携帯電話100に、部分的に本実施の形態のような単語辞書を利用する構成を採用しても良い。   Even if a conventional business card reader has a surname dictionary, it cannot determine whether “Uchiyamada Kenshi” or “Kandagawa Kenichi” is a surname without a name dictionary. . On the other hand, in the present embodiment, it is possible to determine which one of “Uchiyamada Construction Materials” and “Kandagawa Kenichi” is a surname without having a name dictionary. On the contrary, the name dictionary is used as usual, but the present embodiment can be partially applied such as using the configuration according to the present embodiment instead of using the surname dictionary. In addition, the mobile phone 100 according to Embodiment 1 and Embodiment 2 may be configured to partially use a word dictionary as in this embodiment.

<実施の形態1〜3のまとめ>
使用される文字の種類自体が数百個しかなくても、それらが組み合わされた単語の種類は数万あるいは数十万にも達する。また、例えば、図10に示す名刺のように、泉大津市南曽根999のうち泉大津市の箇所が汚れなどによって認識できなかった場合には、「南曽根」と「999」の2つの文字列に基づいて当該文字列が何れの項目であるかを判定する必要がある。しかし、番地である999は、丁目、番地といったキーワードを持たないため、キーワードに基づいて「地名」であるか否かを判断することはできない。
<Summary of Embodiments 1 to 3>
Even if there are only a few hundred types of characters used, the number of types of words combined can reach tens of thousands or hundreds of thousands. Also, for example, if the location of Izumiotsu city in Izumiotsu city Minamisone 999 cannot be recognized due to dirt or the like, as in the business card shown in FIG. 10, two character strings “Minamisone” and “999” are displayed. It is necessary to determine which item the character string is based on. However, since the address 999 does not have keywords such as chome and address, it cannot be determined whether or not it is a “location name” based on the keyword.

実施の形態1〜3における項目判定装置においては、各文字の信頼度が項目別に記憶されているものであるため、文字の種類×項目数の文字信頼度を記憶しておくだけで、項目判定を行うことができる。また、数十種類の第1の項目の並び方を記憶しておくだけで、項目判定の精度を向上させることができる。つまり、実施の形態1〜3に係る項目判定装置は、少ない記憶容量であっても部分文字列あるいは文字列の項目判定を行うことができる。   In the item determination apparatus according to the first to third embodiments, since the reliability of each character is stored for each item, the item determination is performed only by storing the character reliability × the number of items. It can be performed. In addition, the accuracy of item determination can be improved only by storing the arrangement of several tens of first items. That is, the item determination apparatus according to Embodiments 1 to 3 can perform partial character string or character string item determination even with a small storage capacity.

具体的には、上述したように、単語辞書を作成する場合、通常の方法で辞書を作成すれば、姓辞書、名辞書、地名辞書、一般単語辞書等で、各々数百Kbyte程度以上の容量が必要である。これに対し、各文字の項目別の信頼度を用いる場合には、信頼度の数値をたとえば、1byteの範囲(一般的には0〜255)、あるいは2byteの範囲(一般的には0〜65535)に正規化することにより、辞書毎に数Kbyte(十数Kbyte)程度の記憶容量で済む。例えば、仮に認識対象文字が6000文字、第1の項目が4種類あったとしても、必要な記憶容量は1×6000×4=24Kbyteに抑えることができる。このように、実施の形態1〜3においては、従来の単語辞書を用いる手法に比べ、項目判定に必要な辞書(テーブル)容量を大きく低減することができる。   Specifically, as described above, when a word dictionary is created, if a dictionary is created by a normal method, each of a surname dictionary, a name dictionary, a place name dictionary, a general word dictionary, etc., has a capacity of about several hundred Kbytes or more. is required. On the other hand, when the reliability of each character item is used, the numerical value of the reliability is, for example, a range of 1 byte (generally 0 to 255) or a range of 2 bytes (generally 0 to 65535). ), The storage capacity is about several Kbytes (ten and several Kbytes) for each dictionary. For example, even if there are 6000 characters to be recognized and four types of first items, the required storage capacity can be reduced to 1 × 6000 × 4 = 24 Kbytes. As described above, in the first to third embodiments, the dictionary (table) capacity required for the item determination can be greatly reduced as compared with the method using the conventional word dictionary.

ただし、珍しい姓などの場合、姓を構成する文字の信頼度は低い値となってしまう恐れがある。あるいは、「山」、「川」、「田」等のように、地名によく使われる文字からなる姓(例えば、「山田」など)の場合、姓よりも地名の信頼度のほうが高くなってしまう危険性がある。このような場合には、例えば、姓辞書のみを使い、名辞書を用いるかわりに本手法を用いることにより、名辞書を搭載することなく判定が可能である。姓辞書は従来と同じように使用するが、名辞書は使用しないことにより、姓辞書の容量は従来と同じであるが、項目判定装置としては名辞書分の記憶容量が削減できるという利点がある。   However, in the case of an unusual surname, the reliability of the characters that make up the surname may be low. Or, in the case of surnames (such as “Yamada”) that are often used in place names, such as “mountain”, “river”, “field”, etc., the place name is more reliable than the last name. There is a risk of end. In such a case, for example, by using only the surname dictionary and using this method instead of the name dictionary, the determination can be made without mounting the name dictionary. The surname dictionary is used in the same way as in the past, but by not using the surname dictionary, the capacity of the surname dictionary is the same as before, but the item determination device has the advantage that the storage capacity for the name dictionary can be reduced .

<その他の実施の形態>
上記の実施の形態1〜3では、各文字の信頼度(または各部分文字列の文字列信頼度)の2位以下の項目を使っていなかったが、部分文字列(文字列)の文字列信頼度の算出に、2位以下の項目を使うことも可能である。このとき、各文字の信頼度の1位の項目を用いるよりも、各文字の信頼度の2位以下の第1の項目を使用したほうが、高い部分文字列の文字列信頼度が得られる場合には、2位以下の信頼度の第1の項目を1位に引き上げた上で、部分文字列の項目を出力する、といった項目判定処理も可能である。
<Other embodiments>
In the above first to third embodiments, the item of the second or lower rank of the reliability of each character (or the character string reliability of each partial character string) is not used, but the character string of the partial character string (character string) It is also possible to use items below the second place for the calculation of reliability. At this time, when the first item of the second or lower reliability of each character is used rather than the first item of the reliability of each character, the character string reliability of the partial character string is higher. In addition, an item determination process may be performed in which the first item having the second or lower reliability is raised to the first place, and then the item of the partial character string is output.

以上の実施の形態では、項目判定装置の折りたたみ式携帯電話100への適用例を示したが、それに限らず、ストレート式携帯電話機や、スライド式携帯電話機へも同様に適用することができる。また携帯電話機に限らず、PDAやノート型PCなどメール送信機能を有する電子機器全般に適用することができることは勿論である。さらに、上記の実施形態ではプログラムに適用して実施したが、ハードロジックで実施することも勿論可能であるし、本発明のプログラムをCD−ROMやSDカードといった外部メモリなどに保存して実施することも可能である。   In the above embodiment, the application example of the item determination device to the folding mobile phone 100 has been described. However, the present invention is not limited to this, and can be similarly applied to a straight mobile phone and a slide mobile phone. Needless to say, the present invention can be applied not only to mobile phones but also to all electronic devices having a mail transmission function such as PDAs and notebook PCs. Furthermore, in the above-described embodiment, the present invention is applied to a program. However, it is of course possible to implement with a hard logic, and the program of the present invention is stored in an external memory such as a CD-ROM or an SD card. It is also possible.

本発明は、システム或いは装置にプログラムを供給することによって達成される場合にも適用できることはいうまでもない。そして、本発明を達成するためのソフトウェアによって表されるプログラムを格納した記憶媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、本発明の効果を享受することが可能となる。   It goes without saying that the present invention can also be applied to a case where it is achieved by supplying a program to a system or apparatus. Then, a storage medium storing a program represented by software for achieving the present invention is supplied to the system or apparatus, and the computer (or CPU or MPU) of the system or apparatus stores the program code stored in the storage medium It is possible to enjoy the effects of the present invention also by reading and executing.

この場合、記憶媒体から読出されたプログラムコード自体が前述した実施の形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。   In this case, the program code itself read from the storage medium realizes the functions of the above-described embodiment, and the storage medium storing the program code constitutes the present invention.

プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード(ICメモリカード)、ROM(マスクROM、フラッシュEEPROMなど)などを用いることができる。   As a storage medium for supplying the program code, for example, a flexible disk, hard disk, optical disk, magneto-optical disk, CD-ROM, CD-R, magnetic tape, nonvolatile memory card (IC memory card), ROM (mask) ROM, flash EEPROM, etc.) can be used.

また、コンピュータが読出したプログラムコードを実行することにより、前述した実施の形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施の形態の機能が実現される場合も含まれることは言うまでもない。   Further, by executing the program code read by the computer, not only the functions of the above-described embodiments are realized, but also an OS (operating system) running on the computer based on the instruction of the program code However, it is needless to say that a case where the function of the above-described embodiment is realized by performing part or all of the actual processing and the processing is included.

さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施の形態の機能が実現される場合も含まれることは言うまでもない。   Further, after the program code read from the storage medium is written to a memory provided in a function expansion board inserted into the computer or a function expansion unit connected to the computer, the function expansion is performed based on the instruction of the program code. It goes without saying that the CPU or the like provided in the board or the function expansion unit performs part or all of the actual processing and the functions of the above-described embodiments are realized by the processing.

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した説明ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。   The embodiment disclosed this time should be considered as illustrative in all points and not restrictive. The scope of the present invention is defined by the terms of the claims, rather than the description above, and is intended to include any modifications within the scope and meaning equivalent to the terms of the claims.

本実施の形態に係るカメラ付き携帯電話を示す外観斜視図である。It is an external appearance perspective view which shows the mobile phone with a camera which concerns on this Embodiment. 本実施の形態に係る通信装置の一例としての携帯電話のハードウェア構成を示すブロック図である。It is a block diagram which shows the hardware constitutions of the mobile telephone as an example of the communication apparatus which concerns on this Embodiment. 実施の形態1に係る携帯電話の機能構成を示すブロック図である。3 is a block diagram illustrating a functional configuration of the mobile phone according to Embodiment 1. FIG. 結果記憶部に記憶される文字列認識結果データベースのデータ構造を示すイメージ図である。It is an image figure which shows the data structure of the character string recognition result database memorize | stored in a result memory | storage part. 画像データにおける文字列と部分文字列とを示すイメージ図である。It is an image figure which shows the character string and partial character string in image data. 信頼度テーブルのデータ構造を示すイメージ図である。It is an image figure which shows the data structure of a reliability table. 日本人の姓のデータベースの一例を示すイメージ図である。It is an image figure which shows an example of the database of a Japanese surname. 並び方テーブルのデータ構造を示すイメージ図である。It is an image figure which shows the data structure of an arrangement | sequence table. 実施の形態1に係る携帯電話における項目判定処理の処理手順を示すフローチャートである。3 is a flowchart showing a processing procedure of item determination processing in the mobile phone according to Embodiment 1; 実施の形態1に係る項目判定処理の対象となる名刺を示すイメージ図である。FIG. 3 is an image diagram showing a business card that is an object of an item determination process according to the first embodiment. 実施の形態1に係る第1番目の部分文字列を構成する文字の信頼度と第1番目の部分文字列の文字列信頼度を示したイメージ図である。It is an image figure which showed the reliability of the character which comprises the 1st partial character string which concerns on Embodiment 1, and the character string reliability of the 1st partial character string. 実施の形態1に係る第2番目の部分文字列を構成する文字の信頼度と第2番目の部分文字列の文字列信頼度を示したイメージ図である。It is an image figure which showed the reliability of the character which comprises the 2nd partial character string which concerns on Embodiment 1, and the character string reliability of the 2nd partial character string. 実施の形態2に係る携帯電話の機能構成を示すブロック図である。6 is a block diagram illustrating a functional configuration of a mobile phone according to Embodiment 2. FIG. 実施の形態2に係る携帯電話における項目判定処理の処理手順を示すフローチャートである。6 is a flowchart showing a processing procedure of item determination processing in the mobile phone according to the second embodiment. 実施の形態2に係る部分文字列を構成する文字の信頼度を示したイメージ図である。It is an image figure which showed the reliability of the character which comprises the partial character string which concerns on Embodiment 2. FIG. 実施の形態3に係る携帯電話の機能構成を示すブロック図である。7 is a block diagram showing a functional configuration of a mobile phone according to Embodiment 3. FIG. 実施の形態3に係る携帯電話における項目判定処理の処理手順を示すフローチャートである。12 is a flowchart showing a processing procedure of item determination processing in the mobile phone according to the third embodiment. 実施の形態3に係る項目判定処理の対象となる名刺を示すイメージ図である。FIG. 10 is an image diagram showing a business card that is an object of an item determination process according to the third embodiment. 実施の形態3に係るn=2(第2番目)およびn=3(第3番目)の部分文字列を構成する文字の信頼度を示したイメージ図である。It is the image figure which showed the reliability of the character which comprises the partial character string of n = 2 (2nd) and n = 3 (3rd) based on Embodiment 3. FIG.

符号の説明Explanation of symbols

1 アンテナ、100 携帯電話、101 無線通信部、105 制御装置、105−2 抽出部、105−3 認識部、105−4 算出部、105−5 第1の判定部、105−6 第2の判定部、105−7 出力部、105−8 単語検索部、105−9 第3の判定部、106 第1のメモリ、107 第2のメモリ、107−1 記憶部、107−2 画像記憶部、107−3 文字認識辞書、107−4 結果記憶部、107−5 信頼度テーブル、107−6 並び方テーブル、107−7 単語辞書、114 第1の筐体、116 第2の筐体、120 入力部、142 第1のカメラ、142−1 撮影部、143 第2のカメラ、150 モニタ、172 マイク、173 第1のスピーカ、174 第2のスピーカ。   DESCRIPTION OF SYMBOLS 1 Antenna, 100 Mobile phone, 101 Wireless communication part, 105 Control apparatus, 105-2 Extraction part, 105-3 Recognition part, 105-4 Calculation part, 105-5 1st determination part, 105-6 2nd determination Section, 105-7 output section, 105-8 word search section, 105-9 third determination section, 106 first memory, 107 second memory, 107-1 storage section, 107-2 image storage section, 107 -3 character recognition dictionary, 107-4 result storage unit, 107-5 reliability table, 107-6 arrangement table, 107-7 word dictionary, 114 first case, 116 second case, 120 input unit, 142 1st camera, 142-1 imaging | photography part, 143 2nd camera, 150 monitor, 172 microphone, 173 1st speaker, 174 2nd speaker.

Claims (11)

文字列の項目を判定するための項目判定装置であって、
入力された前記文字列に含まれる少なくとも1つの第1の部分文字列の各々について、当該第1の部分文字列に含まれる各文字を認識する認識手段と、
各文字を含む少なくとも1つの単語が分類されるべき第1の項目に基づいて予め決定される前記各文字の信頼度が前記第1の項目別に格納された信頼度テーブルと、
前記信頼度テーブルを参照して、前記第1の部分文字列に含まれる各文字の第1の項目別の信頼度に基づいて、前記第1の部分文字列の少なくとも1つの文字列信頼度を算出する算出手段と、
前記文字列信頼度に基づいて前記第1の部分文字列の項目を判定する第1の判定手段とを備える、項目判定装置。
An item determination device for determining an item of a character string,
Recognizing means for recognizing each character included in the first partial character string for each of at least one first partial character string included in the input character string;
A reliability table in which the reliability of each character, which is determined in advance based on a first item in which at least one word including each character is to be classified, is stored for each first item;
Referring to the reliability table, at least one character string reliability of the first partial character string is determined based on the reliability of each character included in the first partial character string for each first item. A calculating means for calculating;
An item determination apparatus comprising: first determination means for determining an item of the first partial character string based on the character string reliability.
前記各文字の前記第1の項目別の信頼度は、前記各文字を含む単語の種類と、当該単語が使用される程度とに基づいて決定される、請求項1に記載の項目判定装置。   The item determination device according to claim 1, wherein the reliability of the first item of each character is determined based on a type of a word including the character and a degree to which the word is used. 前記認識手段は、前記文字列に含まれる各文字の位置を取得し、前記各文字の当該文字列中の位置に基づいて前記文字列を少なくとも1つの前記第1の部分文字列に分割し、
前記算出手段は、前記信頼度テーブルを参照して、前記第1の項目毎に、前記第1の部分文字列に含まれる各文字の信頼度に基づいて文字列信頼度を算出し、
前記第1の判定手段は、前記第1の項目毎の前記文字列信頼度に基づいて、前記第1の部分文字列の第1の項目を判定する、請求項1または請求項2に記載の項目判定装置。
The recognition unit obtains the position of each character included in the character string, dividing the said string to at least one of said first sub-string on the basis of the position in the character string of each character,
The calculation means refers to the reliability table, calculates a character string reliability based on the reliability of each character included in the first partial character string for each of the first items,
The said 1st determination means determines the 1st item of the said 1st partial character string based on the said character string reliability for every said 1st item, The Claim 1 or Claim 2 characterized by the above-mentioned. Item determination device.
複数の前記第1の項目の並び方に対応付けられた第2の項目を記憶する第1の並び方テーブルと、
前記第1の部分文字列の第1の項目毎の文字列信頼度と前記第1の項目の並び方とに基づいて前記文字列の第2の項目を判定する前記第2の判定手段とをさらに備える、請求項3に記載の項目判定装置。
A first arrangement table that stores second items associated with arrangements of the plurality of first items;
The second determination means for determining the second item of the character string based on the character string reliability for each first item of the first partial character string and the arrangement of the first items; The item determination device according to claim 3 provided.
複数の前記第1の項目の並び方に対応付けられた第2の項目を記憶する第1の並び方テーブルをさらに備え、
前記算出手段は、前記第1の並び方テーブルに記憶されている前記第1の項目の並び方毎に、前記第1の並び方テーブルに記憶されている前記第1の項目の並び方に基づいて、前記第1の部分文字列の文字列信頼度を算出し、
前記第1の判定手段は、前記第1の並び方テーブルに記憶されている前記第1の項目の並び方毎の前記文字列信頼度に基づいて、前記第1の部分文字列の第2の項目を判定する、請求項1または請求項2に記載の項目判定装置。
A first arrangement table that stores second items associated with the arrangement of the plurality of first items;
The calculation means, for each arrangement of the first items stored in the first arrangement table, based on the arrangement of the first items stored in the first arrangement table. Calculate the string reliability of 1 substring,
The first determination means determines the second item of the first partial character string based on the character string reliability for each arrangement of the first items stored in the first arrangement table. The item determination apparatus according to claim 1, wherein the determination is performed.
前記第1の項目のいずれかに属する、少なくとも1つの文字から構成される複数の単語を格納する単語辞書と、
前記第1の部分文字列が前記単語辞書に記憶されている単語を含むか否かを判断する判断手段とをさらに備え、
前記算出手段は、
前記第1の部分文字列が前記単語辞書に記憶されている単語を含む場合に、前記信頼度テーブルを参照して、前記第1の部分文字列のうち前記単語辞書に記憶されている単語に含まれる文字を除いた文字から構成される第2の部分文字列に含まれる各文字に対応する信頼度に基づいて、前記第2の部分文字列の第1の項目毎の文字列信頼度を算出し、
前記第1の部分文字列が前記単語辞書に記憶されている単語を含まない場合に、前記信頼度テーブルを参照して、前記第1の部分文字列に含まれる各文字の第1の項目別の信頼度に基づいて、前記第1の部分文字列の少なくとも1つの文字列信頼度を算出し、
前記第1の判定手段は、
前記第1の部分文字列が前記単語辞書に記憶されている単語を含む場合に、前記文字列信頼度に基づいて前記第2の部分文字列の第1の項目を判定し、
前記第1の部分文字列が前記単語辞書に記憶されている単語を含まない場合に、前記文字列信頼度に基づいて前記第1の部分文字列の第1の項目を判定する、請求項1または請求項2に記載の項目判定装置。
A word dictionary storing a plurality of words composed of at least one character belonging to any of the first items;
Determining means for determining whether or not the first partial character string includes a word stored in the word dictionary;
The calculating means includes
When the first partial character string includes a word stored in the word dictionary, referring to the reliability table, the word stored in the word dictionary in the first partial character string Based on the reliability corresponding to each character included in the second partial character string composed of characters excluding the included characters, the character string reliability for each first item of the second partial character string is determined. Calculate
When the first partial character string does not include a word stored in the word dictionary, referring to the reliability table, the first item of each character included in the first partial character string And calculating at least one character string reliability of the first partial character string based on the reliability of
The first determination means includes
When the first partial character string includes a word stored in the word dictionary, the first item of the second partial character string is determined based on the character string reliability;
The first item of the first partial character string is determined based on the character string reliability when the first partial character string does not include a word stored in the word dictionary. Or the item determination apparatus of Claim 2.
複数の前記第1の項目の並び方に対応付けられた第2の項目を記憶する第1の並び方テーブルと、
前記第1の部分文字列が前記単語辞書に記憶されている単語を含む場合に、前記単語辞書の単語が属する第1の項目と、前記第2の部分文字列の第1の項目とに基づいて、前記部分文字列の第2の項目を判定する前記第3の判定手段とをさらに備える、請求項6に記載の項目判定装置。
A first arrangement table that stores second items associated with arrangements of the plurality of first items;
When the first partial character string includes a word stored in the word dictionary, based on the first item to which the word of the word dictionary belongs and the first item of the second partial character string The item determination apparatus according to claim 6, further comprising: a third determination unit that determines a second item of the partial character string.
前記第1の項目の各々は、姓、名、地名、都道府県名、市町村名、一般単語のいずれかである、請求項1から7のいずれか1項に記載の項目判定装置。   8. The item determination device according to claim 1, wherein each of the first items is one of a last name, a first name, a place name, a prefecture name, a municipality name, and a general word. コンピュータに文字列の項目を判定させるための項目判定プログラムであって、
前記コンピュータは、
各文字を含む少なくとも1つの単語が分類されるべき第1の項目に基づいて予め決定される前記各文字の信頼度が前記第1の項目別に格納された信頼度テーブルを備え、
前記項目判定プログラムは、前記コンピュータに、
入力された前記文字列に含まれる少なくとも1つの第1の部分文字列の各々について、当該第1の部分文字列に含まれる各文字を認識するステップと、
前記信頼度テーブルを参照して、前記第1の部分文字列に含まれる各文字の第1の項目別の信頼度に基づいて、前記第1の部分文字列の少なくとも1つの文字列信頼度を算出するステップと、
前記文字列信頼度に基づいて前記第1の部分文字列の項目を判定するステップとを実行させる、項目判定プログラム。
An item determination program for causing a computer to determine an item of a character string,
The computer
A reliability table in which the reliability of each character determined in advance based on a first item in which at least one word including each character is to be classified is stored for each first item;
The item determination program is stored in the computer.
Recognizing each character included in the first partial character string for each of at least one first partial character string included in the input character string;
Referring to the reliability table, at least one character string reliability of the first partial character string is determined based on the reliability of each character included in the first partial character string for each first item. A calculating step;
And a step of determining an item of the first partial character string based on the character string reliability.
コンピュータに文字列の項目を判定させるための項目判定プログラムを記録したコンピュータ読取可能な記録媒体であって、
前記コンピュータは、
各文字を含む少なくとも1つの単語が分類されるべき第1の項目に基づいて予め決定される前記各文字の信頼度が前記第1の項目別に格納された信頼度テーブルを備え、
前記項目判定プログラムは、前記コンピュータに、
入力された前記文字列に含まれる少なくとも1つの第1の部分文字列の各々について、当該第1の部分文字列に含まれる各文字を認識するステップと、
前記信頼度テーブルを参照して、前記第1の部分文字列に含まれる各文字の第1の項目別の信頼度に基づいて、前記第1の部分文字列の少なくとも1つの文字列信頼度を算出するステップと、
前記文字列信頼度に基づいて前記第1の部分文字列の項目を判定するステップとを実行させる、コンピュータ読取可能な記録媒体。
A computer-readable recording medium recording an item determination program for causing a computer to determine an item of a character string,
The computer
A reliability table in which the reliability of each character determined in advance based on a first item in which at least one word including each character is to be classified is stored for each first item;
The item determination program is stored in the computer.
Recognizing each character included in the first partial character string for each of at least one first partial character string included in the input character string;
Referring to the reliability table, at least one character string reliability of the first partial character string is determined based on the reliability of each character included in the first partial character string for each first item. A calculating step;
And a step of determining an item of the first partial character string based on the character string reliability.
文字列の項目を判定するための項目判定装置を用いた項目判定方法であって、
項目判定装置は、
各文字を含む少なくとも1つの単語が分類されるべき第1の項目に基づいて予め決定される前記各文字の信頼度が前記第1の項目別に格納された信頼度テーブルと、
制御装置とを備え、
前記制御装置が、入力された前記文字列に含まれる少なくとも1つの第1の部分文字列の各々について、当該第1の部分文字列に含まれる各文字を認識するステップと、
前記制御装置が、前記信頼度テーブルを参照して、前記第1の部分文字列に含まれる各文字の第1の項目別の信頼度に基づいて、前記第1の部分文字列の少なくとも1つの文字列信頼度を算出するステップと、
前記制御装置が、前記文字列信頼度に基づいて前記第1の部分文字列の項目を判定するステップとを備える、項目判定方法。
An item determination method using an item determination device for determining an item of a character string,
Item judgment device
A reliability table in which the reliability of each character, which is determined in advance based on a first item in which at least one word including each character is to be classified, is stored for each first item;
A control device,
Recognizing each character included in the first partial character string for each of the at least one first partial character string included in the input character string;
The control device refers to the reliability table and determines at least one of the first partial character strings based on the reliability of each character included in the first partial character string according to the first item. Calculating string reliability; and
The control device includes a step of determining an item of the first partial character string based on the character string reliability.
JP2008027624A 2008-02-07 2008-02-07 Item determination apparatus, item determination program, recording medium, and item determination method Expired - Fee Related JP5035848B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008027624A JP5035848B2 (en) 2008-02-07 2008-02-07 Item determination apparatus, item determination program, recording medium, and item determination method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008027624A JP5035848B2 (en) 2008-02-07 2008-02-07 Item determination apparatus, item determination program, recording medium, and item determination method

Publications (2)

Publication Number Publication Date
JP2009187361A JP2009187361A (en) 2009-08-20
JP5035848B2 true JP5035848B2 (en) 2012-09-26

Family

ID=41070524

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008027624A Expired - Fee Related JP5035848B2 (en) 2008-02-07 2008-02-07 Item determination apparatus, item determination program, recording medium, and item determination method

Country Status (1)

Country Link
JP (1) JP5035848B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5994251B2 (en) * 2012-01-06 2016-09-21 富士ゼロックス株式会社 Image processing apparatus and program
JP6060134B2 (en) * 2014-11-13 2017-01-11 株式会社プリマジェスト Information processing apparatus and information processing method

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0660222A (en) * 1992-08-12 1994-03-04 Toshiba Corp Character recognizing device
JP2000222522A (en) * 1999-02-04 2000-08-11 Matsushita Electric Ind Co Ltd Recognition and processing device
JP2001147990A (en) * 1999-11-24 2001-05-29 Sharp Corp Device and method for processing image data and storage medium to be utilized therefor
JP2006185342A (en) * 2004-12-28 2006-07-13 Canon Software Inc Information processor, method and program for classifying character string, and recording medium

Also Published As

Publication number Publication date
JP2009187361A (en) 2009-08-20

Similar Documents

Publication Publication Date Title
CN101256462B (en) Hand-written input method and apparatus based on complete mixing association storeroom
US6864809B2 (en) Korean language predictive mechanism for text entry by a user
US20120004898A1 (en) Contextual Input Method
KR101220709B1 (en) Search apparatus and method for document mixing hangeul and chinese characters using electronic dictionary
US20040078191A1 (en) Scalable neural network-based language identification from written text
JP6122800B2 (en) Electronic device, character string display method, and character string display program
US20150213333A1 (en) Method and device for realizing chinese character input based on uncertainty information
WO2008145055A1 (en) The method for obtaining restriction word information, optimizing output and the input method system
CN103761892A (en) Method and device for voice-playing of printing book contents
CN107330040B (en) Learning question searching method and system
JP5035848B2 (en) Item determination apparatus, item determination program, recording medium, and item determination method
JP5484113B2 (en) Document image related information providing apparatus and document image related information acquisition system
CN109492228B (en) Information processing apparatus and word segmentation processing method thereof
CN100517186C (en) Letter inputting method and apparatus based on press-key and speech recognition
KR101440887B1 (en) Method and apparatus of recognizing business card using image and voice information
CN108133168A (en) Formula searching method and its device in a kind of text identification
CN111858966B (en) Knowledge graph updating method and device, terminal equipment and readable storage medium
CN115831117A (en) Entity identification method, entity identification device, computer equipment and storage medium
CN111985231B (en) Unsupervised role recognition method and device, electronic equipment and storage medium
CN111209424B (en) Picture display method and device
KR102215580B1 (en) Electronic device for selecting important keywords for documents based on style attributes and operating method thereof
JP2007026263A (en) Character recognition device and computer program
CN112987941B (en) Method and device for generating candidate words
KR101072778B1 (en) Business card recognizing device having function converting chinese character to korean character and method thereof
CN113569561A (en) Text error correction method and device, computer equipment and computer readable storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120308

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120321

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120423

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120605

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120627

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150713

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees