JP5398683B2 - Character conversion device, character conversion system, character conversion method and program - Google Patents

Character conversion device, character conversion system, character conversion method and program Download PDF

Info

Publication number
JP5398683B2
JP5398683B2 JP2010248918A JP2010248918A JP5398683B2 JP 5398683 B2 JP5398683 B2 JP 5398683B2 JP 2010248918 A JP2010248918 A JP 2010248918A JP 2010248918 A JP2010248918 A JP 2010248918A JP 5398683 B2 JP5398683 B2 JP 5398683B2
Authority
JP
Japan
Prior art keywords
character string
unit
registered
registered character
categories
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010248918A
Other languages
Japanese (ja)
Other versions
JP2012103750A (en
Inventor
直樹 橋田
圭一 山内
正博 杖村
哲也 中村
信吾 林
直紀 渋谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
NTT Docomo Inc
Original Assignee
Omron Corp
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp, NTT Docomo Inc filed Critical Omron Corp
Priority to JP2010248918A priority Critical patent/JP5398683B2/en
Publication of JP2012103750A publication Critical patent/JP2012103750A/en
Application granted granted Critical
Publication of JP5398683B2 publication Critical patent/JP5398683B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Description

本発明は、入力文字列に対応する文字列を選択的に提示するための技術に関する。   The present invention relates to a technique for selectively presenting a character string corresponding to an input character string.

特定の文字列が含まれるコンテンツを判定することなどを目的に、かかる文字列が含まれているか否かを判定してその出力を制御する技術がある。ここでいう特定の文字列としては、例えば、卑わいな表現、暴力的な表現、他人を不快にさせるおそれがある表現などが代表的である。   For the purpose of determining content including a specific character string, there is a technique for determining whether or not such a character string is included and controlling its output. As the specific character string here, for example, obscene expressions, violent expressions, expressions that may make others uncomfortable, and the like are typical.

特許文献1には、公序良俗に反する単語を検査するテキストデータ検査システムにおいて、種々の分野の判断基準に適合させることを目的として、公序良俗に適合する用語を格納した複数の用語辞書を分野に応じて切り替えて用いることが記載されている。特許文献1に記載された用語辞書は、いわゆるホワイトリストに相当するといえる。一方、いわゆるブラックリストは、ホワイトリストとは異なり、除外すべき文字列(用語)が登録されたものである。   In Patent Document 1, in a text data inspection system that inspects words that are offensive to public order and morals, a plurality of term dictionaries storing terms that conform to public order and morals are stored in accordance with the fields for the purpose of conforming to the judgment criteria of various fields. It is described that it is used by switching. It can be said that the term dictionary described in Patent Document 1 corresponds to a so-called white list. On the other hand, the so-called black list is different from the white list in that character strings (terms) to be excluded are registered.

特開平8−153106号公報JP-A-8-153106

ところで、何らかの文字変換(かな漢字変換、画像からテキストデータへの変換など)を行う場合において、上記のような特定の文字列の判定を行うときには、通常、文字変換用の辞書とホワイトリスト又はブラックリストの双方が必要である。このとき、判定用の文字列をホワイトリスト又はブラックリストに新たに追加したり、あるいは削除したりする場合には、文字変換用の辞書とホワイトリスト又はブラックリストの双方を変更しないと、両者に齟齬が生じる。
本発明は、かかる事情にかんがみ、文字変換に用いるファイルによって特定の文字列の出力を制御することを目的とするものである。
By the way, in the case of performing some character conversion (kana-kanji conversion, image to text data conversion, etc.), when determining a specific character string as described above, a character conversion dictionary and a white list or black list are usually used. Both are necessary. At this time, when a character string for determination is newly added to or deleted from the white list or black list, both the character conversion dictionary and the white list or black list must be changed. A habit occurs.
In view of such circumstances, an object of the present invention is to control output of a specific character string by a file used for character conversion.

本発明の一態様に係る文字変換装置は、力文字列と意味上の対応関係を有する登録文字列を出力するための文字変換装置であって、入力文字列を取得する文字列取得部と、ユーザの属性情報を取得する属性情報取得部と、複数の登録文字列を複数のカテゴリにより分類して記憶する辞書ファイルを用いて、前記文字列取得部により取得された入力文字列に対応する登録文字列を抽出する抽出部と、前記属性情報取得部により取得された属性情報に応じた態様で1又は複数の前記カテゴリを選択する選択部と、前記抽出部により抽出された登録文字列のうち、前記選択部により選択されたカテゴリに分類される登録文字列を出力対象から除外し、前記選択部により選択されたカテゴリ以外のカテゴリに分類され登録文字列を出力する出力部とを備える。 Character conversion device according to one embodiment of the present invention, there is provided a character conversion unit for outputting a registered character string with the semantic relationship between the input character string, a character string acquiring unit for acquiring an input string , Corresponding to the input character string acquired by the character string acquisition unit using an attribute information acquisition unit for acquiring user attribute information and a dictionary file that stores a plurality of registered character strings classified by a plurality of categories An extraction unit that extracts a registered character string; a selection unit that selects one or a plurality of the categories in a manner corresponding to the attribute information acquired by the attribute information acquisition unit; and a registered character string extracted by the extraction unit of excludes the registered character string to be classified to the category selected by the selection section from the output target, the output unit for outputting the registered character strings are classified into categories other than the selected category by the selecting section Equipped with a.

好ましい態様において、前記文字変換装置は、前記抽出部が使用する前記辞書ファイル又は前記選択部が選択する前記カテゴリを時間帯に応じて切り替える
別の好ましい態様において、前記文字変換装置は、ユーザの位置を表す位置情報を取得する位置属性情報取得部を備え、前記抽出部が使用する前記辞書ファイル又は前記選択部が選択する前記カテゴリを前記位置情報に応じて切り替える。
さらに別の好ましい態様において、前記出力部は、前記登録文字列と、当該登録文字列が分類されるカテゴリに応じた付加情報とを対応付けて出力する。
この態様において、前記付加情報は、対応する前記登録文字列がユーザに選択されたときに実行される処理を特定するための情報であると、より望ましい。
さらに別の好ましい態様において、前記辞書ファイルが複数あり、前記選択部は、前記辞書ファイルを選択するとともに、当該選択した辞書ファイルの前記カテゴリを選択する。
さらに別の好ましい態様において、前記辞書ファイルは、2以上の前記カテゴリに分類された前記登録文字列を含み、前記選択部は、複数の前記カテゴリを選択し、前記出力部は、前記抽出部により抽出された前記登録文字列が前記2以上のカテゴリに分類される場合において、その全部のカテゴリが前記選択部により選択されるとき、当該登録文字列を出力しない。
さらに別の好ましい態様において、前記文字変換装置は、前記辞書ファイルの前記登録文字列又は前記カテゴリを変更する編集部を備える。
In a preferred aspect, the character conversion device switches the dictionary file used by the extraction unit or the category selected by the selection unit according to a time zone .
In another preferable aspect, the character conversion device includes a position attribute information acquisition unit that acquires position information representing a user's position, and the dictionary file used by the extraction unit or the category selected by the selection unit is selected. Switch according to location information.
In still another preferred aspect, the output unit outputs the registered character string and additional information corresponding to a category into which the registered character string is classified.
In this aspect, the additional information is more preferably information for specifying a process to be executed when the corresponding registered character string is selected by the user.
In still another preferred aspect, there are a plurality of the dictionary files, and the selection unit selects the dictionary file and selects the category of the selected dictionary file.
In still another preferred embodiment, the dictionary file includes the registered character strings classified into two or more categories, the selection unit selects a plurality of the categories, and the output unit is configured by the extraction unit. In the case where the extracted registered character string is classified into the two or more categories, the registered character string is not output when all the categories are selected by the selection unit.
In still another preferred aspect, the character conversion device includes an editing unit that changes the registered character string or the category of the dictionary file.

本発明の他の態様に係る文字変換システムは、力文字列と意味上の対応関係を有する登録文字列を出力するための文字変換システムであって、画像から文字を認識する文字認識部と、ユーザの属性情報を取得する属性情報取得部と、複数の登録文字列を複数のカテゴリにより分類して記憶する辞書ファイルを用いて、前記文字認識部により認識された文字に対応する登録文字列を抽出する抽出部と、前記属性情報取得部により取得された属性情報に応じた態様で1又は複数の前記カテゴリを選択する選択部と、前記抽出部により抽出された登録文字列のうち、前記選択部により選択されたカテゴリに分類される登録文字列を出力対象から除外し、前記選択部により選択されたカテゴリ以外のカテゴリに分類され登録文字列を表示する表示部とを備える。 Character conversion system according to another aspect of the present invention, there is provided a character conversion system for printing the registration character string having a meaning on correspondence between the input string, recognizing the character recognition unit characters from the image A registered character string corresponding to a character recognized by the character recognizing unit using an attribute information acquiring unit that acquires user attribute information and a dictionary file that stores a plurality of registered character strings classified by a plurality of categories Among the registered character strings extracted by the extraction unit , the selection unit that selects one or a plurality of the categories in an aspect according to the attribute information acquired by the attribute information acquisition unit , display excludes the registered character strings are classified into selected by the selection unit category from the output target, and displays the registered character strings are classified into categories other than the selected category by the selecting section Provided with a door.

本発明の他の態様に係るプログラムは、力文字列と意味上の対応関係を有する登録文字列を出力するための文字変換装置のコンピュータに、入力文字列を取得する第1のステップと、ユーザの属性情報を取得する第2のステップと、複数の登録文字列を複数のカテゴリにより分類して記憶する辞書ファイルを用いて、前記第1のステップにおいて取得された入力文字列に対応する登録文字列を抽出する第3のステップと、前記第2のステップにおいて取得された属性情報に応じた態様で1又は複数の前記カテゴリを選択する第4のステップと、前記第3のステップにおいて抽出された登録文字列のうち、前記第4のステップにおいて選択されたカテゴリに分類される登録文字列を出力対象から除外し、前記第4のステップにおいて選択されたカテゴリ以外のカテゴリに分類され登録文字列を出力する第5のステップとを実行させる。 A program according to another aspect of the present invention causes a computer of the character conversion unit for outputting a registered character string with the semantic relationship between the input character string, a first step of acquiring an input string, Registration corresponding to the input character string acquired in the first step using a second step of acquiring user attribute information and a dictionary file that stores a plurality of registered character strings classified by a plurality of categories A third step of extracting a character string, a fourth step of selecting one or a plurality of the categories in a manner according to the attribute information acquired in the second step, and extraction in the third step was among the registered character string, excluding the registered character strings are classified into the selected category in the fourth step from the output target is selected in the fourth step To execute a fifth step of outputting the registered character strings are classified into categories other than category.

本発明の他の態様に係る文字変換方法は、力文字列と意味上の対応関係を有する登録文字列を出力するための文字変換装置が、入力文字列を取得する第1のステップと、ユーザの属性情報を取得する第2のステップと、複数の登録文字列を複数のカテゴリにより分類して記憶する辞書ファイルを用いて、前記第1のステップにおいて取得された入力文字列に対応する登録文字列を抽出する第3のステップと、前記第2のステップにおいて取得された属性情報に応じた態様で1又は複数の前記カテゴリを選択する第4のステップと、前記第3のステップにおいて抽出された登録文字列のうち、前記第4のステップにおいて選択されたカテゴリに分類される登録文字列を出力対象から除外し、前記第4のステップにおいて選択されたカテゴリ以外のカテゴリに分類され登録文字列を出力する第5のステップとを実行する。 Character conversion method according to another aspect of the present invention, character conversion unit for outputting a registered character string with the semantic relationship between the input character string, a first step of acquiring the input string, Registration corresponding to the input character string acquired in the first step using a second step of acquiring user attribute information and a dictionary file that stores a plurality of registered character strings classified by a plurality of categories A third step of extracting a character string, a fourth step of selecting one or a plurality of the categories in a manner according to the attribute information acquired in the second step, and extraction in the third step was among the registered character string, the fourth exclude registered character strings are classified into the selected category from the output target in step, the fourth category selected in step than Performing a fifth step of outputting the registered character strings are classified into categories Ru.

本発明によれば、文字変換に用いるファイルによって特定の文字列の出力を制御することが可能となる。   According to the present invention, output of a specific character string can be controlled by a file used for character conversion.

情報処理システムの全体構成を示す図Diagram showing the overall configuration of the information processing system サーバ装置のハードウェア構成を示すブロック図Block diagram showing the hardware configuration of the server device 情報処理端末のハードウェア構成を示すブロック図Block diagram showing hardware configuration of information processing terminal 辞書ファイルのデータ構造を例示する模式図Schematic diagram illustrating the data structure of a dictionary file サーバ装置の機能的構成を示す機能ブロック図Functional block diagram showing the functional configuration of the server device 情報処理端末の機能的構成を示す機能ブロック図Functional block diagram showing the functional configuration of the information processing terminal 文字変換処理を示すシーケンスチャートSequence chart showing character conversion processing 文字変換装置の機能的構成を示す機能ブロック図Functional block diagram showing the functional configuration of the character conversion device

[実施形態]
図1は、本発明の一実施形態である情報処理システムの全体構成を示す図である。図1に示すように、本実施形態の情報処理システム10は、サーバ装置100と、複数の情報処理端末200とを備え、これらをネットワーク900を介して通信可能に接続した構成である。情報処理端末200は、撮影機能を有し、文字を表示することができる通信端末である。以下においては、情報処理端末200は、いわゆるカメラ付き携帯電話であるとともに、電子メールの送受信やWebサイトの閲覧(ブラウズ)が可能であるものとする。サーバ装置100は、情報処理端末200により撮影された画像から文字列を認識する機能を有するコンピュータ装置である。ネットワーク900は、例えば、インターネットや移動体通信網である。
[Embodiment]
FIG. 1 is a diagram showing an overall configuration of an information processing system according to an embodiment of the present invention. As illustrated in FIG. 1, the information processing system 10 according to the present embodiment includes a server device 100 and a plurality of information processing terminals 200, and these are connected to be communicable via a network 900. The information processing terminal 200 is a communication terminal that has a photographing function and can display characters. In the following, it is assumed that the information processing terminal 200 is a so-called camera-equipped mobile phone and can send and receive e-mails and browse (browse) a website. The server device 100 is a computer device having a function of recognizing a character string from an image photographed by the information processing terminal 200. The network 900 is, for example, the Internet or a mobile communication network.

図2は、サーバ装置100のハードウェア構成を示すブロック図である。サーバ装置100は、図2に示すように、制御部110と、記憶部120と、通信部130とを備える。制御部110は、サーバ装置100の各部の動作を制御する手段である。制御部110は、CPU(Central Processing Unit)等の演算処理装置と主記憶装置に相当するメモリとを備え、プログラムを実行することによって各部の制御を行う。記憶部120は、補助記憶装置に相当する記憶手段を備え、制御部110により用いられるデータを記憶する。記憶部120は、OCR(Optical Character Recognition:光学文字認識)処理を実行するためのプログラムや文字列を抽出するためのプログラムに加え、後述する辞書ファイルを記憶している。通信部130は、ネットワーク900に接続してデータを送受信する手段である。   FIG. 2 is a block diagram illustrating a hardware configuration of the server apparatus 100. As shown in FIG. 2, the server device 100 includes a control unit 110, a storage unit 120, and a communication unit 130. The control unit 110 is a unit that controls the operation of each unit of the server device 100. The control unit 110 includes an arithmetic processing device such as a CPU (Central Processing Unit) and a memory corresponding to a main storage device, and controls each unit by executing a program. The storage unit 120 includes storage means corresponding to an auxiliary storage device, and stores data used by the control unit 110. The storage unit 120 stores a later-described dictionary file in addition to a program for executing OCR (Optical Character Recognition) processing and a program for extracting a character string. The communication unit 130 is means for transmitting and receiving data by connecting to the network 900.

図3は、情報処理端末200のハードウェア構成を示すブロック図である。情報処理端末200は、図3に示すように、制御部210と、記憶部220と、通信部230と、表示部240と、UI(User Interface)部250と、撮影部260とを備える。制御部210は、情報処理端末200の各部の動作を制御する手段である。制御部210は、サーバ装置200の制御部210と同様に、演算処理装置やメモリを備え、各種のプログラムを実行する。   FIG. 3 is a block diagram illustrating a hardware configuration of the information processing terminal 200. As illustrated in FIG. 3, the information processing terminal 200 includes a control unit 210, a storage unit 220, a communication unit 230, a display unit 240, a UI (User Interface) unit 250, and a photographing unit 260. The control unit 210 is means for controlling the operation of each unit of the information processing terminal 200. Similar to the control unit 210 of the server device 200, the control unit 210 includes an arithmetic processing unit and a memory, and executes various programs.

記憶部220は、制御部210により用いられるデータを記憶する手段である。記憶部220は、典型的には、ハードディスクやフラッシュメモリであるが、リムーバブルメディア(着脱可能な記憶手段)を含んでいてもよい。例えば、携帯電話機である情報処理端末200は、SIM(Subscriber Identity Module)カード又はUIM(User Identity Module)カードを記憶部220の一部に含み得る。記憶部220は、ユーザの属性を表す属性情報を記憶している。ここでいうユーザの属性は、例えば、ユーザの年齢(年代)や性別などである。あるいは、ユーザの属性は、当該ユーザの趣味・嗜好や職業などであってもよい。   The storage unit 220 is a unit that stores data used by the control unit 210. The storage unit 220 is typically a hard disk or a flash memory, but may include a removable medium (detachable storage unit). For example, the information processing terminal 200 that is a mobile phone may include a SIM (Subscriber Identity Module) card or a UIM (User Identity Module) card as part of the storage unit 220. The storage unit 220 stores attribute information representing user attributes. The attribute of the user here is, for example, the user's age (age) or sex. Alternatively, the user's attribute may be the user's hobbies / preferences or occupations.

通信部230は、ネットワーク900に接続してデータを送受信する手段である。表示部240は、文字、画像等の情報を表示する手段である。表示部240は、液晶ディスプレイや有機EL(Electroluminescence)ディスプレイにより構成される表示面を有する。UI部250は、ユーザによる入力を受け付ける手段であり、キーパッド(キーボード)や各種のボタンを備える。また、UI部250は、表示部240の表示面に重ねて設けられたタッチスクリーン(タッチパネル)であってもよい。撮影部260は、被写体を撮影して画像データを生成する手段である。本実施形態における被写体は、看板、ポスター、文書など、文字が表記されたものを含んでいる。   The communication unit 230 is means for transmitting and receiving data by connecting to the network 900. The display unit 240 is a means for displaying information such as characters and images. The display unit 240 has a display surface constituted by a liquid crystal display or an organic EL (Electroluminescence) display. The UI unit 250 is a unit that receives input from the user, and includes a keypad (keyboard) and various buttons. The UI unit 250 may be a touch screen (touch panel) provided on the display surface of the display unit 240. The photographing unit 260 is means for photographing a subject and generating image data. The subject in the present embodiment includes an object on which characters are written, such as a signboard, a poster, and a document.

情報処理システム10の概略的な構成は、以上のとおりである。かかる情報処理システム10において、情報処理端末200は、撮影により得られた画像データをサーバ装置100に送信することによって、画像データが表す画像に含まれている文字のテキストデータを取得することができる。ここにおいて、テキストデータとは、文字列を文字コード(ASCII、Unicode、Shift_JIS等)によって記述したデータをいう。なお、ここでいう文字列は、1又は複数の文字により構成されるものである。サーバ装置100は、情報処理端末200が送信した画像データから文字列を抽出し、当該端末にテキストデータを送信する。   The schematic configuration of the information processing system 10 is as described above. In the information processing system 10, the information processing terminal 200 can acquire text data of characters included in an image represented by the image data by transmitting image data obtained by shooting to the server device 100. . Here, text data refers to data in which a character string is described by a character code (ASCII, Unicode, Shift_JIS, etc.). The character string here is composed of one or more characters. The server apparatus 100 extracts a character string from the image data transmitted by the information processing terminal 200 and transmits text data to the terminal.

サーバ装置100は、画像データから文字列を抽出するために、OCR処理及び形態素解析を実行する。このとき、サーバ装置100は、辞書ファイルを用いて、辞書ファイルにあらかじめ登録されている文字列(以下「登録文字列」という。)をテキストデータに含める一方、抽出された文字列が登録文字列でない場合には、当該文字列をテキストデータに含めないようにする。また、サーバ装置100は、必要に応じて、特定の登録文字列をテキストデータに含めないように除外する。   The server apparatus 100 performs OCR processing and morphological analysis in order to extract a character string from image data. At this time, the server apparatus 100 uses the dictionary file to include a character string (hereinafter referred to as “registered character string”) registered in advance in the dictionary file in the text data, while the extracted character string is the registered character string. If not, the character string is not included in the text data. Further, the server apparatus 100 excludes a specific registered character string from being included in the text data as necessary.

図4は、辞書ファイルのデータ構造を例示する模式図である。本実施形態の辞書ファイルは、登録文字列を複数のカテゴリによって分類して記憶したものである。カテゴリには、より詳細な分類であるサブカテゴリを設定可能なものが含まれ得る。例えば、図4に例示する「固有名詞」というカテゴリには、「地名」、「人名」、「企業名」、「商品名」といったサブカテゴリが設定され、それぞれのサブカテゴリに応じた登録文字列が分類されている。また、「性的表現」というカテゴリは、サブカテゴリによって「レベル1」〜「レベル3」に細分化されている。ここにおいては、卑わいさの程度が高い登録文字列ほど高いレベルに分類されるものとする。なお、登録文字列は、同一の文字列が複数のカテゴリに分類されていてもよいものとする。   FIG. 4 is a schematic diagram illustrating the data structure of the dictionary file. The dictionary file of the present embodiment stores registered character strings classified by a plurality of categories. The category can include a category in which a subcategory that is a more detailed classification can be set. For example, subcategories such as “place name”, “person name”, “company name”, and “product name” are set in the category “proprietary noun” illustrated in FIG. 4, and registered character strings corresponding to each subcategory are classified. Has been. The category “sexual expression” is subdivided into “level 1” to “level 3” by subcategories. Here, it is assumed that a registered character string having a higher level of obscurity is classified into a higher level. In the registered character string, the same character string may be classified into a plurality of categories.

また、登録文字列は、特定の文字列ではなく、パターンマッチによって表現されてもよい。例えば、「電話番号」というカテゴリには、既知の電話番号のすべてが登録されている必要はなく、所定の規則で並んだ文字列(ここでは、数字とハイフン等の記号の所定の文字数の組み合わせ)が電話番号であると認識されるデータ構造の登録文字列があればよい。かかる登録文字列としては、例えば、正規表現で記述した文字列を用いることができる。なお、「メールアドレス」というカテゴリについても同様に、例えば、英数字とともに「@」や「.」などの記号を含む文字列がメールアドレスであると認識されるようになっていればよい。   Further, the registered character string may be expressed not by a specific character string but by a pattern match. For example, it is not necessary that all known phone numbers are registered in the category “phone number”, but a character string arranged in accordance with a predetermined rule (in this case, a combination of a predetermined number of characters such as numbers and hyphens). ) Is a registered character string having a data structure that is recognized as a telephone number. As such a registered character string, for example, a character string described by a regular expression can be used. Similarly, for the category of “mail address”, for example, a character string including symbols such as “@” and “.” Together with alphanumeric characters may be recognized as a mail address.

なお、辞書ファイルは、各ユーザに共通のものであってもよいし、ユーザ毎に異なるものであってもよい。あるいは、辞書ファイルは、例えば子供用の辞書ファイルと大人用の辞書ファイルといった具合に、ユーザの属性毎に異なるものであってもよい。このような場合には、サーバ装置100は、ユーザから取得した属性情報に応じて辞書ファイルを切り替え、当該ユーザに適した辞書ファイルを選択することができる。   Note that the dictionary file may be common to each user or may be different for each user. Alternatively, the dictionary file may be different for each user attribute such as a child dictionary file and an adult dictionary file. In such a case, the server apparatus 100 can switch the dictionary file according to the attribute information acquired from the user, and can select a dictionary file suitable for the user.

図5は、サーバ装置100の機能的構成を示す機能ブロック図である。サーバ装置100の制御部110は、プログラムを実行することによって、図5に示す画像取得部111、情報取得部112、文字認識部113、抽出部114、選択部115、出力部116及び編集部117の各部に相当する機能を実現する。出力部116は、フィルタリング部116a及びデータ加工部116bを含む。   FIG. 5 is a functional block diagram illustrating a functional configuration of the server device 100. The control unit 110 of the server device 100 executes the program, thereby causing the image acquisition unit 111, the information acquisition unit 112, the character recognition unit 113, the extraction unit 114, the selection unit 115, the output unit 116, and the editing unit 117 illustrated in FIG. The function corresponding to each part of is realized. The output unit 116 includes a filtering unit 116a and a data processing unit 116b.

画像取得部111は、情報処理端末200から送信された画像データを通信部130を介して取得する機能を有する。情報取得部112は、画像取得部111により取得される画像データに対応する情報であって、選択部115による選択の態様を特定するための情報(以下「選択情報」という。)を通信部130を介して取得する機能を有する。選択情報は、例えば、情報処理端末200のユーザの属性情報であるが、ユーザが情報処理端末200を操作して入力するものであってもよい。選択情報は、画像データの受信時に画像データとともに受信されてもよいが、画像データとは独立に受信されてもよい。また、ユーザの選択情報は、当該ユーザ以外の者(例えば、情報処理システム10の管理者や、ユーザが子供の場合にあってはその保護者など)によって送信されることも可能である。   The image acquisition unit 111 has a function of acquiring image data transmitted from the information processing terminal 200 via the communication unit 130. The information acquisition unit 112 is information corresponding to the image data acquired by the image acquisition unit 111, and information for specifying the mode of selection by the selection unit 115 (hereinafter referred to as “selection information”) is the communication unit 130. It has the function to acquire via. The selection information is, for example, attribute information of the user of the information processing terminal 200, but may be input by the user operating the information processing terminal 200. The selection information may be received together with the image data when the image data is received, but may be received independently of the image data. The user selection information can also be transmitted by a person other than the user (for example, an administrator of the information processing system 10 or a guardian when the user is a child).

文字認識部113は、画像取得部111により取得された画像データに対してOCR処理を実行し、文字を認識する機能を有する。なお、文字認識部113により認識された時点の文字は、それぞれの文字が独立した関係にあり、意味を有するまとまりのある単位ではない。抽出部114は、文字認識部113により認識された複数の文字を組み合わせ、文字列を抽出する機能を有する。抽出部114は、形態素解析や、辞書ファイルとのパターンマッチを実行することによって隣接する文字同士を適当に組み合わせ、文字列(すなわち、意味に基づくまとまりのある文字の集合)を抽出する。   The character recognition unit 113 has a function of performing OCR processing on the image data acquired by the image acquisition unit 111 and recognizing characters. In addition, the character at the time of being recognized by the character recognition part 113 has the relationship in which each character was independent, and is not a unit which has a meaning. The extraction unit 114 has a function of extracting a character string by combining a plurality of characters recognized by the character recognition unit 113. The extraction unit 114 appropriately combines adjacent characters by executing morphological analysis and pattern matching with a dictionary file, and extracts a character string (that is, a set of characters based on meaning).

選択部115は、情報取得部112により取得された選択情報に基づき、辞書ファイルに含まれる1又は複数のカテゴリを選択する。選択されるカテゴリと選択情報の対応付けは、例えば、ユーザの属性情報を選択情報として用いる場合には、ユーザが所定の年齢以下の子供であれば「性的表現」が選択される、といったように、サーバ装置100にあらかじめ設定されている。また、選択情報は、例えばユーザが出力対象から除外したいカテゴリを自ら選択する場合には、カテゴリそのものが記述された形態で送信されてもよい。   The selection unit 115 selects one or more categories included in the dictionary file based on the selection information acquired by the information acquisition unit 112. For example, when the user's attribute information is used as the selection information, “sexual expression” is selected if the user is a child of a predetermined age or less. Further, it is preset in the server apparatus 100. In addition, for example, when the user himself selects a category to be excluded from the output target, the selection information may be transmitted in a form in which the category itself is described.

出力部116は、抽出部114により抽出された文字列を含むデータ(以下「出力データ」という。)を出力する機能を有する。出力部116は、本実施形態においては、文字列をテキストデータとして含み、マークアップ言語で記述された出力データを生成し、これを通信部130を介して情報処理端末200に送信する。ここにおいて、マークアップ言語は、HTML(HyperText Markup Language)であってもよいし、そのサブセット(Compact HTML)やXML(Extensible Markup Language)などであってもよい。また、出力データは、マークアップ言語で記述されたものに限定されるわけではない。   The output unit 116 has a function of outputting data including a character string extracted by the extraction unit 114 (hereinafter referred to as “output data”). In the present embodiment, the output unit 116 includes character strings as text data, generates output data described in a markup language, and transmits the output data to the information processing terminal 200 via the communication unit 130. Here, the markup language may be HTML (HyperText Markup Language), a subset thereof (Compact HTML), XML (Extensible Markup Language), or the like. Further, the output data is not limited to that described in the markup language.

フィルタリング部116aは、抽出部114により辞書ファイルに基づいて抽出された登録文字列から、選択部115により選択されたカテゴリに分類される登録文字列を出力対象から除外する機能を有する。ゆえに、出力部116は、抽出部114により抽出された登録文字列のうち、選択部115により選択されたカテゴリ以外のカテゴリに分類された登録文字列を出力対象とする。このように、特定のカテゴリの登録文字列を出力対象から除外することを、以下においては「フィルタリング」という。   The filtering unit 116a has a function of excluding a registered character string classified into the category selected by the selecting unit 115 from an output target from the registered character string extracted by the extracting unit 114 based on the dictionary file. Therefore, the output unit 116 outputs a registered character string classified into a category other than the category selected by the selection unit 115 among the registered character strings extracted by the extraction unit 114. In this way, excluding a registered character string of a specific category from an output target is hereinafter referred to as “filtering”.

データ加工部116bは、出力データに含まれる登録文字列のテキストデータに対して、必要に応じて、当該登録文字列が分類されるカテゴリに応じた付加情報を対応付ける機能を有する。本実施形態における付加情報は、対応する登録文字列がユーザに選択されたときに実行される処理を特定するための情報であり、マークアップ言語のタグである。すなわち、データ加工部116bは、マークアップ言語で記述された登録文字列のテキストデータに対して、当該登録文字列のカテゴリに応じたタグを付与する。   The data processing unit 116b has a function of associating additional information corresponding to the category into which the registered character string is classified, as necessary, with respect to the text data of the registered character string included in the output data. The additional information in the present embodiment is information for specifying a process to be executed when a corresponding registered character string is selected by the user, and is a markup language tag. That is, the data processing unit 116b attaches a tag corresponding to the category of the registered character string to the text data of the registered character string described in the markup language.

例えば、出力データがCHTMLで記述される場合において、登録文字列のカテゴリが「電話番号」であるとき、データ加工部116bは、電話番号のテキストデータに対していわゆるphoneto機能を実現するためのタグを付加する。具体的には、データ加工部116bは、電話番号として「09012345678」という文字列が抽出された場合には、これにアンカータグを付加し、「<A href ="tel:09012345678">09012345678</A>」というテキストデータに変換する。この場合、情報処理端末200においては、文字列「09012345678」がリンクとして選択できる状態になり、このリンクを選択すると、「09012345678」あてに発呼することが可能になる。なお、データ加工部116bは、登録文字列のカテゴリが「メールアドレス」である場合には、同様の要領で、いわゆるmailto機能を実現するためのタグを付加する。   For example, when the output data is described in CHTML, when the category of the registered character string is “phone number”, the data processing unit 116b uses a tag for realizing a so-called phoneto function for the text data of the phone number. Is added. Specifically, when a character string “09012345678” is extracted as a telephone number, the data processing unit 116b adds an anchor tag to the character string and adds “<A href ="tel:09012345678"> 09012345678 </ A> "is converted into text data. In this case, in the information processing terminal 200, the character string “09012345678” can be selected as a link, and when this link is selected, a call can be made to “09012345678”. If the category of the registered character string is “mail address”, the data processing unit 116b adds a tag for realizing a so-called mailto function in the same manner.

また、データ加工部116bは、登録文字列に関連するWebサイトへのリンクを付加するようにしてもよい。例えば、データ加工部116bは、企業名が当該企業のWebサイトのトップページへのリンクとして機能するようにしたり、固有名詞が当該固有名詞を検索ワードとして検索を実行した場合の検索結果のページへのリンクとして機能するようにしたりすることが可能である。データ加工部116bがどのようなリンクを付加するかについては、登録文字列毎に決められていてもよいし、カテゴリ毎に決められていてもよい。また、データ加工部116bは、例えば、ユーザの年齢に応じて検索に用いるWebサイト(サーチエンジン)を異ならせる、といったように、ユーザの属性情報に応じて加工の態様を異ならせてもよい。   Further, the data processing unit 116b may add a link to a Web site related to the registered character string. For example, the data processing unit 116b allows the company name to function as a link to the top page of the company's website, or the proper noun to the search result page when the search is executed using the proper noun as a search word. It can be made to function as a link. What kind of link the data processing unit 116b adds may be determined for each registered character string or may be determined for each category. Further, the data processing unit 116b may change the processing mode according to the attribute information of the user, such as changing the website (search engine) used for the search according to the age of the user.

なお、出力部116は、文字認識部113により認識されたが抽出部114により抽出されなかった文字(例えば、登録文字列でない文字など)については、出力データに含めても含めなくてもよいが、出力データに含まれる文字列が登録文字列のみである方が望ましい。なぜならば、このようにすると、辞書ファイルに記述されていない文字列がユーザの意図に反して閲覧可能な状態になることを防ぐことができるからである。   The output unit 116 may or may not include characters recognized by the character recognition unit 113 but not extracted by the extraction unit 114 (for example, characters that are not registered character strings) in the output data. It is preferable that the character string included in the output data is only a registered character string. This is because, in this way, it is possible to prevent a character string not described in the dictionary file from being in a viewable state against the user's intention.

編集部117は、辞書ファイルを編集する機能を有する。ここにおいて、編集とは、辞書ファイルに含まれる登録文字列又はカテゴリを変更することをいい、登録文字列又はカテゴリの追加又は削除を含む。辞書ファイルの編集は、典型的には情報処理システム10の管理者が行うが、ユーザが行えるようにしてもよい。特に、辞書ファイルがユーザ毎に存在する場合であれば、各ユーザが各自の辞書ファイルを編集できるようにすることが望ましい。   The editing unit 117 has a function of editing a dictionary file. Here, editing means changing a registered character string or category included in the dictionary file, and includes adding or deleting a registered character string or category. The dictionary file is typically edited by the administrator of the information processing system 10, but may be configured by the user. In particular, if a dictionary file exists for each user, it is desirable that each user can edit their own dictionary file.

なお、制御部110は、図5に示す機能を複数のプログラムによって実現してもよい。例えば、文字認識部113に相当するプログラムは、文字列の抽出やフィルタリングを行うためのプログラムとは別のプログラムとして構成されていてもよい。あるいは、サーバ装置100は、OCRを実行するモジュールや文字列の抽出・フィルタリングを行うモジュールなどといった具合にモジュール化され、モジュール間でデータを授受することで図5に示す機能を実現してもよい。このような構成の場合、各モジュールは、他のモジュールとの間でデータを取得ないし供給する手段をさらに含む。   Note that the control unit 110 may realize the functions shown in FIG. 5 by a plurality of programs. For example, the program corresponding to the character recognition unit 113 may be configured as a program different from a program for performing character string extraction or filtering. Alternatively, the server apparatus 100 may be modularized such as a module that executes OCR or a module that performs character string extraction / filtering, and may implement the functions shown in FIG. 5 by exchanging data between the modules. . In such a configuration, each module further includes means for acquiring or supplying data with other modules.

図6は、情報処理端末200の機能的構成を示す機能ブロック図である。情報処理端末200の制御部210は、プログラムを実行することによって、図6に示す画像供給部211、テキスト取得部212及び表示制御部213の各部に相当する機能を実現する。   FIG. 6 is a functional block diagram showing a functional configuration of the information processing terminal 200. The control unit 210 of the information processing terminal 200 implements functions corresponding to the units of the image supply unit 211, the text acquisition unit 212, and the display control unit 213 illustrated in FIG. 6 by executing a program.

画像供給部211は、通信部230を介して画像データを情報処理端末200(の制御部110)に供給する機能を有する。画像供給部211は、撮影部260を用いて撮影をするようにユーザを促し、撮影部260により生成された画像データを供給してもよいが、記憶部220に記憶された画像データ(例えば、電子メールの添付ファイルとして情報処理端末200が受信した画像データ)を供給してもよい。テキスト取得部212は、情報処理端末200から送信された出力データ(すなわち登録文字列に対応するテキストデータを含むデータ)を通信部230を介して取得する機能を有する。表示制御部213は、テキスト取得部212により取得された出力データに応じた文字や画像を表示部240に表示させる機能を有する。   The image supply unit 211 has a function of supplying image data to the information processing terminal 200 (the control unit 110) via the communication unit 230. The image supply unit 211 may prompt the user to shoot using the shooting unit 260 and supply the image data generated by the shooting unit 260, but the image data stored in the storage unit 220 (for example, The image data received by the information processing terminal 200 as an attached file of an e-mail may be supplied. The text acquisition unit 212 has a function of acquiring output data (that is, data including text data corresponding to a registered character string) transmitted from the information processing terminal 200 via the communication unit 230. The display control unit 213 has a function of causing the display unit 240 to display characters and images corresponding to the output data acquired by the text acquisition unit 212.

図7は、情報処理システム10において実行される文字変換処理を示すシーケンスチャートである。図7に示す文字変換処理は、情報処理端末200が撮影を行い(ステップS1)、画像データをサーバ装置100に送信する(ステップS2)ことによって開始されるものである。なお、情報処理端末200は、必要に応じて、属性情報等の選択情報を画像データとともに(あるいは事前に)送信する。   FIG. 7 is a sequence chart showing character conversion processing executed in the information processing system 10. The character conversion process shown in FIG. 7 is started when the information processing terminal 200 performs shooting (step S1) and transmits image data to the server device 100 (step S2). The information processing terminal 200 transmits selection information such as attribute information together with (or in advance) image data as necessary.

サーバ装置100は、画像データを受信すると、まずはOCR処理を実行する(ステップS3)。サーバ装置100は、OCR処理を実行することによって画像データから文字を認識すると、そこから登録文字列を抽出する(ステップS4)。ここで、サーバ装置100は、フィルタリングすべきカテゴリがあるか否かを判断する(ステップS5)。このとき、サーバ装置100は、画像データを送信してきた情報処理端末200のユーザの属性を特定したりすることによって、フィルタリングの要否を判断する。   When the server apparatus 100 receives the image data, it first executes an OCR process (step S3). When the server apparatus 100 recognizes characters from the image data by executing the OCR process, the server apparatus 100 extracts a registered character string therefrom (step S4). Here, the server apparatus 100 determines whether there is a category to be filtered (step S5). At this time, the server device 100 determines the necessity of filtering by specifying the attribute of the user of the information processing terminal 200 that has transmitted the image data.

サーバ装置100は、フィルタリングすべきカテゴリがあると判断した場合には、ステップS4において抽出された登録文字列からフィルタリングすべきカテゴリに分類されている登録文字列を除外し(ステップS6)、残りの登録文字列をテキストデータとして含む出力データを生成して情報処理端末200に送信する(ステップS7)。一方、サーバ装置100は、フィルタリングすべきカテゴリがないと判断した場合には、ステップS6の処理を省略(スキップ)して出力データの生成及び送信を行う。情報処理端末200は、サーバ装置100から送信された出力データを受信すると、出力データに応じた文字や画像を表示する(ステップS8)。このとき、情報処理端末200の表示部240には、登録文字列が表示される。この登録文字列は、発呼、電子メールの送信、Webサイトの閲覧などといった処理を実行するためのリンクとして機能し得る。   If the server apparatus 100 determines that there is a category to be filtered, the registered character string classified into the category to be filtered is excluded from the registered character string extracted in step S4 (step S6), and the rest. Output data including the registered character string as text data is generated and transmitted to the information processing terminal 200 (step S7). On the other hand, when determining that there is no category to be filtered, the server apparatus 100 omits (skips) the process of step S6 and generates and transmits output data. When the information processing terminal 200 receives the output data transmitted from the server device 100, the information processing terminal 200 displays characters and images according to the output data (step S8). At this time, the registered character string is displayed on the display unit 240 of the information processing terminal 200. This registered character string can function as a link for executing processing such as calling, sending an e-mail, browsing a website, and the like.

なお、画像データや出力データは、Webブラウザを介して送受信されてもよいし、電子メールの添付ファイルとして送受信されてもよい。あるいは、情報処理端末200は、画像の撮影から出力データの表示までを司るアプリケーションを実行することでかかる文字変換処理を実行可能にしてもよい。 Note that image data and output data may be transmitted / received via a Web browser, or may be transmitted / received as an attached file of an e-mail. Alternatively, the information processing terminal 200 may be able to execute such character conversion processing by executing an application that manages from image capturing to display of output data.

以上のように、本実施形態によれば、登録文字列の抽出及びフィルタリングを辞書ファイルによって行うことが可能である。すなわち、本実施形態によれば、登録文字列の抽出用の辞書とフィルタリング用の辞書(ブラックリスト又はホワイトリスト)とを別個に用意することが不要である。このようにすると、出力対象から除外したい文字列の追加や削除の手間を少なくするとともに、例えば、かかる文字列を一方の辞書には登録したものの他方の辞書に登録し忘れることによる出力の不具合を防ぐことも可能である。   As described above, according to the present embodiment, it is possible to perform extraction and filtering of registered character strings using a dictionary file. That is, according to the present embodiment, it is not necessary to separately prepare a registration character string extraction dictionary and a filtering dictionary (black list or white list). This reduces the trouble of adding or deleting a character string to be excluded from the output target and, for example, a problem of output caused by forgetting to register such a character string in one dictionary but in the other dictionary. It is also possible to prevent.

また、本実施形態の辞書ファイルによれば、選択するカテゴリを変更するだけで出力対象から除外したい文字列を変更することが可能であるため、かかる文字列の変更が容易である。例えば、本実施形態の辞書ファイルによれば、同一の辞書ファイルを複数のユーザが共通に用いても、選択するカテゴリをユーザ毎に異ならせるだけで、出力対象から除外される文字列をユーザ毎に変化させることが可能である。例えば、図4に例示した辞書ファイルによれば、あるユーザに対しては登録商標を提示する一方、別のユーザに対しては登録商標を提示しない、といったことが容易に可能になる。また、図4に例示した辞書ファイルによれば、他人を不快にさせるおそれがある表現のような個人の主観に依存する用語のフィルタリングについても、カテゴリ毎、さらにはカテゴリ内のサブカテゴリ毎(レベル毎)に取捨選択することが可能になる。   In addition, according to the dictionary file of the present embodiment, it is possible to change a character string that is desired to be excluded from an output target simply by changing the category to be selected. Therefore, it is easy to change the character string. For example, according to the dictionary file of the present embodiment, even if a plurality of users use the same dictionary file in common, the character string excluded from the output target is changed for each user only by changing the category to be selected for each user. It is possible to change. For example, according to the dictionary file illustrated in FIG. 4, it is possible to easily present a registered trademark to one user and not present a registered trademark to another user. Further, according to the dictionary file illustrated in FIG. 4, the filtering of terms depending on the subjectivity of individuals such as expressions that may make others uncomfortable can be performed for each category, and further for each subcategory (for each level). ) Can be selected.

さらに、本実施形態の構成によれば、辞書ファイルをサーバ装置100が記憶し、サーバ装置100が文字列の抽出やフィルタリングを実行するため、辞書ファイルの編集をユーザ毎に行う必要がない。このようにすることで、各ユーザが個別に辞書ファイルを編集する場合に比べ、新語(新造語)への対応などをより簡便かつ確実に行うことが可能である。   Furthermore, according to the configuration of the present embodiment, the dictionary file is stored in the server device 100, and the server device 100 performs character string extraction and filtering. Therefore, it is not necessary to edit the dictionary file for each user. In this way, it is possible to more easily and reliably cope with a new word (new word) as compared with a case where each user individually edits a dictionary file.

[変形例]
本発明は、上述した実施形態に限らず、さまざまな形態での実施が可能である。本発明は、例えば、以下に示す変形例に従った実施も可能である。なお、これらの変形例は、必要に応じて、適宜組み合わせて実施されてもよいものである。
[Modification]
The present invention is not limited to the embodiment described above, and can be implemented in various forms. The present invention can be implemented according to the following modifications, for example. Note that these modified examples may be implemented in combination as appropriate.

(変形例1)
本発明のフィルタリングは、サーバ装置側ではなく情報処理端末側で実行されてもよい。例えば、本発明は、サーバ装置側においてOCR処理を実行し、OCR処理によって認識された文字を情報処理端末が取得して文字列の抽出やフィルタリングを実行する態様でも実施可能である。また、本発明は、辞書ファイルや必要なプログラムを情報処理端末が備えることにより、サーバ装置を用いずに情報処理端末単独で実行することも可能なものである。
(Modification 1)
The filtering of the present invention may be executed not on the server device side but on the information processing terminal side. For example, the present invention can also be implemented in an aspect in which an OCR process is executed on the server device side, a character recognized by the OCR process is acquired by an information processing terminal, and character string extraction or filtering is executed. Further, according to the present invention, a dictionary file and a necessary program are provided in the information processing terminal, so that the information processing terminal can be executed alone without using the server device.

図8は、本発明に係る文字変換装置の機能的構成を示す機能ブロック図である。図3に示す文字変換装置310は、OCR処理や形態素解析が実行された文字列を入力文字列として取得する文字列取得部311と、辞書ファイル320を用いて、文字列取得部311により取得された入力文字列から登録文字列を抽出する抽出部312と、出力対象から除外するカテゴリを選択する選択部313と、選択部313により選択されたカテゴリ以外のカテゴリに分類され、かつ、抽出部312により抽出された登録文字列を出力する出力部314とを備えるものである。なお、辞書ファイル320は、文字変換装置310の外部にあってもよいが、文字変換装置310が備える記憶手段に記憶されていてもよい。   FIG. 8 is a functional block diagram showing a functional configuration of the character conversion apparatus according to the present invention. The character conversion device 310 illustrated in FIG. 3 is acquired by the character string acquisition unit 311 using the character string acquisition unit 311 that acquires a character string that has been subjected to OCR processing or morphological analysis as an input character string, and the dictionary file 320. An extraction unit 312 that extracts a registered character string from the input character string, a selection unit 313 that selects a category to be excluded from an output target, and a category other than the category selected by the selection unit 313, and the extraction unit 312 And an output unit 314 that outputs the registered character string extracted by the above. Note that the dictionary file 320 may be external to the character conversion device 310, but may be stored in a storage unit included in the character conversion device 310.

情報処理端末は、図8に示す文字変換装置310を備えることにより、サーバ装置から送信された入力文字列に対して登録文字列の抽出及びフィルタリングを実行することが可能である。あるいは、情報処理端末は、文字変換装置310に相当する機能に加え、画像から文字列を認識する機能を有することにより、画像データに基づいて必要な登録文字列を選択的に出力する処理を情報処理端末単独で実現することも可能である。   By providing the character conversion device 310 shown in FIG. 8, the information processing terminal can extract and filter a registered character string with respect to an input character string transmitted from the server device. Alternatively, the information processing terminal has a function of recognizing a character string from an image in addition to a function corresponding to the character conversion device 310, thereby performing processing for selectively outputting a necessary registered character string based on image data. It can also be realized by a processing terminal alone.

なお、文字列取得部311が取得する文字列、すなわち入力文字列は、OCR処理によって得られる文字列である必要はない。例えば、入力文字列は、ユーザによって入力され文字列であってもよい。このようにした場合、文字変換装置310は、かな漢字変換等の文字変換に適用することが可能である。この場合においては、入力文字列がひらがなであり、登録文字列が漢字(又は漢字混じり)である、といったように、入力文字列と登録文字列とが意味上の対応関係を有していれば、文字コードとしては一致していなくてもよい。   Note that the character string acquired by the character string acquisition unit 311, that is, the input character string does not need to be a character string obtained by OCR processing. For example, the input character string may be a character string input by the user. In this case, the character conversion device 310 can be applied to character conversion such as kana-kanji conversion. In this case, if the input character string and the registered character string have a semantic correspondence, such as the input character string is hiragana and the registered character string is kanji (or mixed kanji). The character codes do not have to match.

(変形例2)
上述した実施形態において、制御部110は、抽出部114により全カテゴリの登録文字列を抽出してから、フィルタリング部116aにより一部のカテゴリの登録文字列を除外するように動作する。かかる動作においては、抽出する必要がないカテゴリの登録文字列までもがいったん抽出されている。そこで、制御部110は、抽出部114において、全カテゴリの登録文字列ではなく、選択部115により選択されたカテゴリ以外のカテゴリに分類された登録文字列のみを抽出するようにしてもよい。
(Modification 2)
In the embodiment described above, the control unit 110 operates so that the extraction unit 114 extracts the registered character strings of all categories and then excludes the registered character strings of some categories by the filtering unit 116a. In such an operation, even registered character strings of categories that do not need to be extracted are once extracted. Therefore, the control unit 110 may extract only the registered character strings classified into categories other than the category selected by the selection unit 115 in the extraction unit 114 instead of the registered character strings of all categories.

つまり、本発明は、入力文字列に対応する登録文字列をすべて抽出してから除外すべきカテゴリの登録文字列を除外するようにしてもよく、入力文字列に対応する登録文字列のうち、除外すべきカテゴリ以外のカテゴリの登録文字列のみを選択的に抽出してもよいものである。   That is, the present invention may be configured to exclude registered character strings of categories that should be excluded after extracting all registered character strings corresponding to the input character string, and among the registered character strings corresponding to the input character string, Only registered character strings of categories other than the categories to be excluded may be selectively extracted.

(変形例3)
本発明の登録文字列は、例えば、図4の例において「商品名」であると同時に「登録商標」でもあるといったように、2以上のカテゴリに分類されるものを含んでもよい。このような登録文字列は、当該登録文字列が分類されるカテゴリの全部が選択される場合に限り出力されないようになっていてもよいが、当該登録文字列が分類されるカテゴリの少なくともいずれかが選択されていれば出力されないようになっていてもよい。
(Modification 3)
The registered character string of the present invention may include those classified into two or more categories such as “product name” and “registered trademark” in the example of FIG. 4. Such a registered character string may not be output only when all the categories into which the registered character string is classified are selected, but at least one of the categories into which the registered character string is classified If is selected, it may not be output.

(変形例4)
本発明は、同一のユーザに対して複数の辞書ファイルが対応付けられ、ユーザが自らの操作によって使用する辞書ファイルを切り替えるように構成されていてもよい。あるいは、本発明は、使用する辞書ファイルが時間帯に応じて切り替わるように構成することも可能である。このようにすれば、使用する辞書ファイルを勤務時間とそれ以外の時間とで異ならせることができる。また、本発明は、情報処理端末がGPS(Global Positioning System)等による測位機能を有する場合にあっては、情報処理端末の位置(すなわちユーザの位置)を表す位置情報に応じて使用する辞書ファイルが切り替わるようにしてもよい。
(Modification 4)
The present invention may be configured such that a plurality of dictionary files are associated with the same user, and the user switches the dictionary file used by his / her own operation. Or this invention can also be comprised so that the dictionary file to be used may switch according to a time slot | zone. In this way, the dictionary file to be used can be made different between working hours and other times. Further, the present invention provides a dictionary file used in accordance with position information indicating the position of the information processing terminal (that is, the position of the user) when the information processing terminal has a positioning function based on GPS (Global Positioning System) or the like. May be switched.

なお、同様のことは、辞書ファイルそのものだけではなく、辞書ファイルのカテゴリについても当てはまる。すなわち、本発明は、選択されるカテゴリ(出力対象から除外されるカテゴリ)が時間帯やユーザの位置に応じて変化してもよいものである。   The same applies not only to the dictionary file itself but also to the category of the dictionary file. That is, according to the present invention, the selected category (category excluded from the output target) may change according to the time zone or the user's position.

(変形例5)
本発明は、選択部により選択されたカテゴリに分類される登録文字列を出力対象から除外するのではなく、選択部により選択されたカテゴリ以外のカテゴリに分類される登録文字列を出力対象から除外するものであってもよい。かかる場合の本発明に係る文字変換装置は、入力文字列を取得する文字列取得部と、複数の登録文字列を複数のカテゴリにより分類して記憶する辞書ファイルを用いて、前記文字列取得部により取得された入力文字列に対応する登録文字列を抽出する抽出部と、1又は複数の前記カテゴリを選択する選択部と、前記選択部により選択されたカテゴリに分類され、かつ、前記抽出部により抽出された登録文字列を出力する出力部とを備える構成である。
(Modification 5)
The present invention excludes a registered character string classified into a category other than the category selected by the selection unit from the output target instead of excluding the registered character string classified into the category selected by the selection unit from the output target. You may do. In such a case, the character conversion device according to the present invention includes a character string acquisition unit that acquires an input character string, and a dictionary file that stores a plurality of registered character strings classified by a plurality of categories, and stores the character string acquisition unit. An extraction unit that extracts a registered character string corresponding to the input character string acquired by the above, a selection unit that selects one or a plurality of the categories, a category selected by the selection unit, and the extraction unit And an output unit that outputs the registered character string extracted by (1).

(変形例6)
本発明は、文字変換装置だけでなく、文字変換装置を含むサーバ装置(又は情報処理端末)や、これを含む文字変換システムのいずれとしても特定され得るものである。また、本発明は、入力文字列に対応する登録文字列を出力するための文字変換方法や、コンピュータを文字変換装置として機能させるためのプログラムとしても特定され得るものである。かかるプログラムは、光ディスク等の記録媒体に記録した形態で提供されたり、インターネット等のネットワークを介して、コンピュータにダウンロードさせ、これをインストールして利用可能にするなどの形態で提供されたりすることも可能である。
(Modification 6)
The present invention can be specified not only as a character conversion device but also as a server device (or information processing terminal) including a character conversion device or a character conversion system including the server device. The present invention can also be specified as a character conversion method for outputting a registered character string corresponding to an input character string, or as a program for causing a computer to function as a character conversion device. Such a program may be provided in a form recorded on a recording medium such as an optical disk, or may be provided in a form such that the program is downloaded to a computer via a network such as the Internet, and the program can be installed and used. Is possible.

10…情報処理システム、100…サーバ装置、110…制御部、111…画像取得部、112…情報取得部、113…文字認識部、114…抽出部、115…選択部、116…出力部、117…編集部、120…記憶部、130…通信部、200…情報処理端末、210…制御部、220…記憶部、230…通信部、240…表示部、250…UI部、260…撮影部、310…文字変換装置、311…文字列取得部、312…抽出部、313…選択部、314…出力部、320…辞書ファイル DESCRIPTION OF SYMBOLS 10 ... Information processing system 100 ... Server apparatus 110 ... Control part 111 ... Image acquisition part 112 ... Information acquisition part 113 ... Character recognition part 114 ... Extraction part 115 ... Selection part 116 ... Output part 117 ... editing unit, 120 ... storage unit, 130 ... communication unit, 200 ... information processing terminal, 210 ... control unit, 220 ... storage unit, 230 ... communication unit, 240 ... display unit, 250 ... UI unit, 260 ... photographing unit, 310 ... Character conversion device, 311 ... Character string acquisition unit, 312 ... Extraction unit, 313 ... Selection unit, 314 ... Output unit, 320 ... Dictionary file

Claims (11)

力文字列と意味上の対応関係を有する登録文字列を出力するための文字変換装置であって、
入力文字列を取得する文字列取得部と、
ユーザの属性情報を取得する属性情報取得部と、
複数の登録文字列を複数のカテゴリにより分類して記憶する辞書ファイルを用いて、前記文字列取得部により取得された入力文字列に対応する登録文字列を抽出する抽出部と、
前記属性情報取得部により取得された属性情報に応じた態様で1又は複数の前記カテゴリを選択する選択部と、
前記抽出部により抽出された登録文字列のうち、前記選択部により選択されたカテゴリに分類される登録文字列を出力対象から除外し、前記選択部により選択されたカテゴリ以外のカテゴリに分類され登録文字列を出力する出力部と
を備えることを特徴とする文字変換装置。
A character conversion device for outputting a registered character string with the semantic relationship between the input character string,
A character string acquisition unit for acquiring an input character string;
An attribute information acquisition unit for acquiring user attribute information;
An extraction unit that extracts a registered character string corresponding to an input character string acquired by the character string acquisition unit, using a dictionary file that classifies and stores a plurality of registered character strings.
A selection unit that selects one or a plurality of the categories in a mode according to the attribute information acquired by the attribute information acquisition unit;
Of registered character string extracted by the extracting unit, excluding the registered character string to be classified to the category selected by the selection section from the output target, it is classified into categories other than the selected category by the selecting section A character conversion device comprising: an output unit that outputs a registered character string.
前記抽出部が使用する前記辞書ファイル又は前記選択部が選択する前記カテゴリを時間帯に応じて切り替える
ことを特徴とする請求項1に記載の文字変換装置。
The character conversion apparatus according to claim 1, wherein the dictionary file used by the extraction unit or the category selected by the selection unit is switched according to a time zone.
ユーザの位置を表す位置情報を取得する位置情報取得部を備え、
前記抽出部が使用する前記辞書ファイル又は前記選択部が選択する前記カテゴリを前記位置情報に応じて切り替える
ことを特徴とする請求項1に記載の文字変換装置。
A position information acquisition unit for acquiring position information representing the position of the user;
The character conversion apparatus according to claim 1, wherein the dictionary file used by the extraction unit or the category selected by the selection unit is switched according to the position information.
前記出力部は、前記登録文字列と、当該登録文字列が分類されるカテゴリに応じた付加情報とを対応付けて出力する
ことを特徴とする請求項1ないし3のいずれかに記載の文字変換装置。
The character conversion according to any one of claims 1 to 3, wherein the output unit outputs the registered character string in association with additional information according to a category into which the registered character string is classified. apparatus.
前記付加情報は、対応する前記登録文字列がユーザに選択されたときに実行される処理を特定するための情報である
ことを特徴とする請求項4に記載の文字変換装置。
The character conversion device according to claim 4, wherein the additional information is information for specifying a process to be executed when the corresponding registered character string is selected by a user.
前記辞書ファイルが複数あり、
前記選択部は、前記辞書ファイルを選択するとともに、当該選択した辞書ファイルの前記カテゴリを選択する
ことを特徴とする請求項1ないし5のいずれかに記載の文字変換装置。
There are a plurality of the dictionary files,
The character conversion device according to claim 1, wherein the selection unit selects the dictionary file and selects the category of the selected dictionary file.
前記辞書ファイルは、2以上の前記カテゴリに分類された前記登録文字列を含み、
前記選択部は、複数の前記カテゴリを選択し、
前記出力部は、前記抽出部により抽出された前記登録文字列が前記2以上のカテゴリに分類される場合において、その全部のカテゴリが前記選択部により選択されるとき、当該登録文字列を出力しない
ことを特徴とする請求項1ないし6のいずれかに記載の文字変換装置。
The dictionary file includes the registered character strings classified into two or more of the categories,
The selection unit selects a plurality of the categories,
The output unit does not output the registered character string when all the categories are selected by the selection unit when the registered character string extracted by the extraction unit is classified into the two or more categories. The character conversion device according to claim 1, wherein the character conversion device is a character conversion device.
前記辞書ファイルの前記登録文字列又は前記カテゴリを変更する編集部を備えることを特徴とする請求項1ないし7のいずれかに記載の文字変換装置。   The character conversion apparatus according to claim 1, further comprising an editing unit that changes the registered character string or the category of the dictionary file. 力文字列と意味上の対応関係を有する登録文字列を出力するための文字変換システムであって、
画像から文字を認識する文字認識部と、
ユーザの属性情報を取得する属性情報取得部と、
複数の登録文字列を複数のカテゴリにより分類して記憶する辞書ファイルを用いて、前記文字認識部により認識された文字に対応する登録文字列を抽出する抽出部と、
前記属性情報取得部により取得された属性情報に応じた態様で1又は複数の前記カテゴリを選択する選択部と、
前記抽出部により抽出された登録文字列のうち、前記選択部により選択されたカテゴリに分類される登録文字列を出力対象から除外し、前記選択部により選択されたカテゴリ以外のカテゴリに分類され登録文字列を出力する出力部と
を備えることを特徴とする文字変換システム。
A character conversion system for printing the registration character string having a meaning on correspondence between the input string,
A character recognition unit for recognizing characters from an image;
An attribute information acquisition unit for acquiring user attribute information;
An extraction unit that extracts a registered character string corresponding to a character recognized by the character recognition unit, using a dictionary file that classifies and stores a plurality of registered character strings according to a plurality of categories;
A selection unit that selects one or a plurality of the categories in a mode according to the attribute information acquired by the attribute information acquisition unit;
Of registered character string extracted by the extracting unit, excluding the registered character string to be classified to the category selected by the selection section from the output target, it is classified into categories other than the selected category by the selecting section A character conversion system comprising: an output unit that outputs a registered character string.
力文字列と意味上の対応関係を有する登録文字列を出力するための文字変換装置のコンピュータに、
入力文字列を取得する第1のステップと、
ユーザの属性情報を取得する第2のステップと、
複数の登録文字列を複数のカテゴリにより分類して記憶する辞書ファイルを用いて、前記第1のステップにおいて取得された入力文字列に対応する登録文字列を抽出する第3のステップと、
前記第2のステップにおいて取得された属性情報に応じた態様で1又は複数の前記カテ
ゴリを選択する第4のステップと、
前記第3のステップにおいて抽出された登録文字列のうち、前記第4のステップにおいて選択されたカテゴリに分類される登録文字列を出力対象から除外し、前記第4のステップにおいて選択されたカテゴリ以外のカテゴリに分類され登録文字列を出力する第5のステップと
を実行させるためのプログラム。
The computer of the character conversion unit for outputting a registered character string with the semantic relationship between the input character string,
A first step of obtaining an input string;
A second step of obtaining user attribute information;
A third step of extracting a registered character string corresponding to the input character string obtained in the first step using a dictionary file that stores a plurality of registered character strings classified by a plurality of categories;
A fourth step of selecting one or more of the categories in a manner according to the attribute information acquired in the second step;
Of the registered character strings extracted in the third step, the registered character string classified into the category selected in the fourth step is excluded from the output target, and other than the category selected in the fourth step program for executing a fifth step of outputting the registered character strings are classified into categories Ru.
力文字列と意味上の対応関係を有する登録文字列を出力するための文字変換装置が、
入力文字列を取得する第1のステップと、
ユーザの属性情報を取得する第2のステップと、
複数の登録文字列を複数のカテゴリにより分類して記憶する辞書ファイルを用いて、前記第1のステップにおいて取得された入力文字列に対応する登録文字列を抽出する第3のステップと、
前記第2のステップにおいて取得された属性情報に応じた態様で1又は複数の前記カテゴリを選択する第4のステップと、
前記第3のステップにおいて抽出された登録文字列のうち、前記第4のステップにおいて選択されたカテゴリに分類される登録文字列を出力対象から除外し、前記第4のステップにおいて選択されたカテゴリ以外のカテゴリに分類され登録文字列を出力する第5のステップと
を実行することを特徴とする文字変換方法。
Character conversion unit for outputting a registered character string with the semantic relationship between the input character string,
A first step of obtaining an input string;
A second step of obtaining user attribute information;
A third step of extracting a registered character string corresponding to the input character string obtained in the first step using a dictionary file that stores a plurality of registered character strings classified by a plurality of categories;
A fourth step of selecting one or more of the categories in a manner according to the attribute information acquired in the second step;
Of the registered character strings extracted in the third step, the registered character string classified into the category selected in the fourth step is excluded from the output target, and other than the category selected in the fourth step character conversion method characterized by performing a fifth step of outputting the registered character string of are classified into categories.
JP2010248918A 2010-11-05 2010-11-05 Character conversion device, character conversion system, character conversion method and program Active JP5398683B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010248918A JP5398683B2 (en) 2010-11-05 2010-11-05 Character conversion device, character conversion system, character conversion method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010248918A JP5398683B2 (en) 2010-11-05 2010-11-05 Character conversion device, character conversion system, character conversion method and program

Publications (2)

Publication Number Publication Date
JP2012103750A JP2012103750A (en) 2012-05-31
JP5398683B2 true JP5398683B2 (en) 2014-01-29

Family

ID=46394109

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010248918A Active JP5398683B2 (en) 2010-11-05 2010-11-05 Character conversion device, character conversion system, character conversion method and program

Country Status (1)

Country Link
JP (1) JP5398683B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020167618A (en) * 2019-03-29 2020-10-08 キヤノン株式会社 Image processing apparatus, method for controlling the same, and program

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004005314A (en) * 2002-06-03 2004-01-08 Matsushita Electric Ind Co Ltd Data retrieval system, and device, method, recording medium or program for the same
JP2005135210A (en) * 2003-10-31 2005-05-26 Hitachi Ltd Portable device with character recognition function
JP2007115173A (en) * 2005-10-24 2007-05-10 Netstar Inc Server system, its control method, and control program

Also Published As

Publication number Publication date
JP2012103750A (en) 2012-05-31

Similar Documents

Publication Publication Date Title
US8553015B2 (en) Electronic device and information processing method
KR20120088655A (en) Input method of contact information and system
KR20060129508A (en) Data processing device capable of performing data transmission by a predetermined access method
EP2779613A1 (en) Document processing apparatus, document processing method, and document processing computer program product
KR20070073247A (en) Image forming apparatus for printing searching image in network and method therefor
JP2008236016A (en) Information processor, information processing method and its program
US20110018878A1 (en) Image delivery system, image delivery apparatus, image delivery method and program, and recording medium
JP5895777B2 (en) Information classification program and information processing apparatus
JP5398683B2 (en) Character conversion device, character conversion system, character conversion method and program
JP6621095B1 (en) Display information judgment device
WO2014002614A1 (en) Related content retrieval device and related content retrieval method
JP4288761B2 (en) Mail transmitting apparatus and program storage medium thereof
US7783137B2 (en) Image reading apparatus capable of management of personal information
JP6836147B2 (en) Image association device, image search device, image search system and program
JP2008139942A (en) Information processing apparatus, information processing method and program
JP4116852B2 (en) Extracted character string dictionary search apparatus and method, and program
US11010978B2 (en) Method and system for generating augmented reality interactive content
JP5931015B2 (en) Information processing apparatus, system, server apparatus, terminal, and information processing method
JP2014194637A (en) Information processing apparatus, information processing method and program
JP3727200B2 (en) Document processing apparatus and document processing method
JP6874988B2 (en) How to provide link information
KR100858175B1 (en) Device for creating sentence having decoration information
JP2005018504A (en) Proceedings publishing system
CN116774952A (en) Text printing method and device
CN113051220A (en) File management device, storage medium, and file management method

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120821

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121019

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130205

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130625

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130919

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131022

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131022

R150 Certificate of patent or registration of utility model

Ref document number: 5398683

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250