JP2010211256A - Formal name determination system and program - Google Patents

Formal name determination system and program Download PDF

Info

Publication number
JP2010211256A
JP2010211256A JP2009053346A JP2009053346A JP2010211256A JP 2010211256 A JP2010211256 A JP 2010211256A JP 2009053346 A JP2009053346 A JP 2009053346A JP 2009053346 A JP2009053346 A JP 2009053346A JP 2010211256 A JP2010211256 A JP 2010211256A
Authority
JP
Japan
Prior art keywords
abbreviation
name
character information
candidate
determination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009053346A
Other languages
Japanese (ja)
Other versions
JP5443788B2 (en
Inventor
Kotaro Shirato
広太郎 白土
Naoki Motonaga
直樹 本永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SKY Co Ltd
Original Assignee
SKY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SKY Co Ltd filed Critical SKY Co Ltd
Priority to JP2009053346A priority Critical patent/JP5443788B2/en
Publication of JP2010211256A publication Critical patent/JP2010211256A/en
Application granted granted Critical
Publication of JP5443788B2 publication Critical patent/JP5443788B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To determine a formal name corresponding to a recognized abbreviation, in determination of information related to a character recognized with a computer. <P>SOLUTION: An abbreviation acquisition unit 12 acquires an abbreviation of a proper noun from read document data. A candidate name extraction unit 14 extracts, from a proper noun storage unit 13 storing proper nouns, a proper noun including character information constituting the acquired abbreviation as a candidate name. A determination unit 15 detects a position in the candidate name where the character information constituting the abbreviation is used, and determines whether the candidate name is a formal name corresponding to the abbreviation in accordance with the position where the character information is used. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、コンピュータで認識した文字に関連する情報の判定に関し、特に認識した略称に対応する正式名称を判定する技術に関する。   The present invention relates to determination of information related to characters recognized by a computer, and more particularly to a technique for determining a formal name corresponding to a recognized abbreviation.

学校や会社など、一般的に長い正式名称を持つ対象を指し示す場合、その正式名称を省略した略称を用いて指し示すということがよく行われている。その際に用いられる略称は、特定の地域内でのみ通じるものあったり、会社の部署内などの特定グループに属する人のみに通じるものあったり、又は特定の世代の人にのみ通じるものであったりと、使用される略称は状況によって様々なものがある。このため、略称と正式名称との関係を把握していない人にとっては、略称を用いてある対象を指し示された場合、何のことなのか理解することができないという問題がたびたび発生する。   In general, when an object having a long official name, such as a school or a company, is indicated, an abbreviation in which the official name is omitted is often used. Abbreviations used at that time may be known only within a specific region, may be known only to people belonging to a specific group such as within a company department, or may be known only to a specific generation of people. There are various abbreviations used depending on the situation. For this reason, for a person who does not understand the relationship between the abbreviation and the formal name, there is often a problem that when the abbreviation is used to point to a certain object, it is impossible to understand what it is.

上記の問題を解決する手段として、医療分野では、診療報酬明細書に記載された文字情報を光学的に読み取り、読み取った文字情報と予め登録しておいた単語(医薬品名)とを照合させて、一致する単語を特定するという技術がある。この技術において、予め登録しておいた単語の構成文字から照合の対象とすべき文字を限定することにより、当該単語の略称についても、認識照合が可能となるという手段が用いられている。これにより、診療報酬明細書に略称が記載されていたとしても、その略称に対応する単語を特定することができる。(特許文献1参照)   As a means to solve the above problem, in the medical field, the character information described in the medical fee remuneration statement is optically read, and the read character information is collated with a pre-registered word (pharmaceutical name). , There is a technique for identifying matching words. In this technique, a means is used in which recognition / collation is possible even for abbreviations of the word by limiting characters to be collated from the constituent characters of the word registered in advance. Thereby, even if the abbreviation is described in the medical fee remuneration statement, the word corresponding to the abbreviation can be specified. (See Patent Document 1)

また、郵便分野では、配達物に記載された文字情報を光学的に読み取り、読み取った文字に関する情報と予め登録しておいた宛先情報とを照合させて、郵便物の宛先を複数の候補の中から特定するという技術がある。この技術において、予め登録しておいた宛先情報に、会社か個人か、一軒家か集合住宅かなどの属性情報を付加して設定しておくことで、より確実な宛先特定が可能となるという手段が用いられている。これにより、配達物に記載された宛先に誤りがあったり、記載された宛先がうまく読み取れなかったりしても、登録しておいた宛先情報の中からその記載された宛先に一致する可能性の高い宛先候補を特定することができる。(特許文献2参照)   Also, in the postal field, the character information described in the delivery is optically read, and the information on the read character is collated with the pre-registered destination information, so that the postal address is selected from a plurality of candidates. There is a technology to specify from. In this technology, a means of enabling more reliable destination specification by adding and setting attribute information such as whether it is a company, an individual, a house, or an apartment house to destination information registered in advance. Is used. As a result, even if there is an error in the address listed in the delivery or the address listed is not read correctly, there is a possibility that it matches the address listed in the registered address information. High destination candidates can be identified. (See Patent Document 2)

特開2005−275510号公報(第4−7頁、第2−6図)Japanese Patent Laying-Open No. 2005-275510 (pages 4-7 and 2-6) 特開2000−298701号公報(第5・6頁、第4・5図)JP 2000-298701 A (pages 5 and 6 and FIGS. 4 and 5)

学校教育分野では、名簿や連絡文書等の様々な文書の中において、特定の学校名を指し示す際に、慣用されている略称を使用して指し示すことがある。この略称は、学校名の正式名称に使用されている文字が用いられるが、正式名称の最初の数文字を用いたり、最後の数文字を用いたり、又はその両方を組み合わせたりなど、様々な方法で作られており、生成ルールは一様ではない。   In the school education field, when a specific school name is indicated in various documents such as a name list and a correspondence document, the abbreviations commonly used may be indicated. This abbreviation uses the letters used in the official name of the school name, but there are various ways to use the first few letters of the official name, the last few letters, or a combination of both. The production rules are not uniform.

特許文献1の技術では、略称に対応する正式名称を特定する際に、予め登録しておいた単語の構成文字から、照合の対象とすべき文字(照合対象文字)を所定のルールに基づいて限定し、その限定した照合対象文字と略称とが一致するか否かを判定する。しかし、上記の学校名に関する略称の例のように、必ずしも略称が一定のルールに基づいていない場合、照合対象文字を決める所定のルールを用いた方法では、略称に対応する正式名称を特定することができないという問題がある。   In the technique of Patent Document 1, when specifying a formal name corresponding to an abbreviation, a character to be collated (character to be collated) is determined based on a predetermined rule from constituent characters of a word registered in advance. It is limited, and it is determined whether or not the limited collation target character matches the abbreviation. However, if the abbreviation is not necessarily based on a certain rule, as in the example of the abbreviation related to the above school name, the method using the predetermined rule for determining the character to be collated must specify the official name corresponding to the abbreviation. There is a problem that can not be.

特許文献2の技術では、複数の候補(宛先候補)の中から一つを特定する際に、予め登録された宛先情報に設定された属性情報という宛先情報を構成する文字情報とは別の付加情報を利用して、複数の候補の中から一つを特定する。このため、予めすべての宛先情報毎に付加情報を設定しておく必要があり、手間がかかるという問題がある。   In the technique of Patent Document 2, when one of a plurality of candidates (destination candidates) is specified, additional information different from the character information constituting the destination information called attribute information set in the destination information registered in advance is added. Use information to identify one of multiple candidates. For this reason, it is necessary to set additional information for every destination information in advance, which is problematic.

本発明は、上記従来技術の問題点を解消することを課題とする。具体的には、一定のルールに基づかずに作成される略称に対応する正式名称の判定において、略称を構成する文字情報を利用して判定するシステムを提供することを課題とする。   An object of the present invention is to solve the above-mentioned problems of the prior art. Specifically, an object of the present invention is to provide a system that uses character information that constitutes an abbreviation to determine an official name corresponding to an abbreviation created without being based on a certain rule.

上記の課題を解決するために、本発明の正式名称判定システムは、文書データ中から固有名詞の略称を取得する略称取得部と、固有名詞を示す情報を記憶する固有名詞記憶部と、固有名詞記憶部から略称を構成する文字情報を有する固有名詞を候補名称として抽出する候補名称抽出部と、候補名称に含まれている略称を構成する文字情報の位置に応じて、略称に対応する正式名称を判定する判定部と、を備えている。   In order to solve the above problems, the formal name determination system of the present invention includes an abbreviation acquisition unit that acquires an abbreviation of a proper noun from document data, a proper noun storage unit that stores information indicating a proper noun, and a proper noun. A formal name corresponding to the abbreviation according to the position of the candidate name extraction unit that extracts the proper noun having the character information constituting the abbreviation from the storage unit as a candidate name and the character information constituting the abbreviation included in the candidate name And a determination unit for determining whether or not.

本発明のように構成することにより、略称に対応する正式名称の判定は、略称に使用されている文字が、抽出した固有名詞の中のどの位置に含まれているかに応じて行うことができる。よって、記憶している固有名詞に予め付加情報を定義することなく、また、一様な判定ルールを予め設定する必要もなく、略称を構成する文字情報のみを判定要素として利用し、対応する正式名称を判定することが可能となる。   By configuring as in the present invention, the determination of the formal name corresponding to the abbreviation can be performed according to which position in the extracted proper noun the character used in the abbreviation is included. . Therefore, there is no need to define additional information in advance for the proper nouns stored, and there is no need to set a uniform decision rule in advance, and only the character information constituting the abbreviation is used as a decision element, and the corresponding formal The name can be determined.

本発明における文書データとは、文書を構成する一連の文字情報をデータ化したもののことをいう。   Document data in the present invention refers to data obtained by converting a series of character information constituting a document.

本発明における固有名詞とは、特定の対象を他とは区別して指し示す際に用いる名称のことをいう。具体的には、学校名・会社名などの施設名や住所・地域名などの地名といったものがあるが、それらに加えて、製品を識別する製品コードやコンピュータ端末を識別する端末識別情報といったものも含まれることとする。これに限らず、特定の対象を指し示す情報であればいかなるものでもよい。   The proper noun in the present invention refers to a name used when a specific target is distinguished from others. Specifically, there are facility names such as school names and company names, and place names such as addresses and area names. In addition to these, product codes that identify products and terminal identification information that identifies computer terminals. Is also included. Not limited to this, any information may be used as long as the information indicates a specific target.

本発明の正式名称判定システムにおける判定部は更に、候補名称を単語に分割する手段と、単語中に含まれている略称を構成する文字情報の位置に応じて、略称に対応する正式名称を判定する手段と、を有するという構成としてもよい。   The determination unit in the formal name determination system of the present invention further determines the formal name corresponding to the abbreviation according to the means for dividing the candidate name into words and the position of the character information constituting the abbreviation contained in the word. It is good also as a structure which has a means to do.

上記のように構成することにより、略称を生成する際の一般的な傾向を利用して判定することができるため、正式名称の判定精度を向上させることができる。略称を生成する際の一般的な傾向には、例えば、「単語を構成する文字情報のうち、前の方の文字情報を優先的につなげて略称が生成されることが多い」といったものが考えられる。   Since it can determine using the general tendency at the time of producing | generating an abbreviation by comprising as mentioned above, the determination accuracy of a formal name can be improved. A general tendency when generating abbreviations is, for example, that "of abbreviations are often generated by preferentially connecting the previous character information among the character information constituting a word". It is done.

本発明の正式名称判定システムは更に、予め定めた文字情報を特別文字情報として記憶する特別文字情報記憶部を備え、判定部は、候補名称中に含まれている特別文字情報に応じて、略称に対応する正式名称を判定する、という構成としてもよい。 The formal name determination system of the present invention further includes a special character information storage unit that stores predetermined character information as special character information, and the determination unit is abbreviated according to the special character information included in the candidate name. It is good also as a structure of determining the formal name corresponding to.

上記のように構成することにより、略称を生成する際によく使用される文字情報を利用して判定することができるため、正式名称の判定精度を向上させることができる。   Since it can determine using the character information often used when producing | generating an abbreviation by comprising as mentioned above, the determination precision of a formal name can be improved.

本発明における特別文字情報とは、略称を生成する際によく使用される文字として予め登録しておいた文字情報のことをいう。具体的には、東・西・南・北などの方角を示す文字や一・二・三などの順番を示す文字など、特定の対象を他の対象と区別する際に慣用的に用いられる情報のことをいう。これに限らず、特定の対象を区別する際に用いられる文字であればいかなるものでもよい。   The special character information in the present invention refers to character information registered in advance as characters often used when generating abbreviations. Specifically, information that is commonly used to distinguish a specific object from other objects, such as characters indicating directions such as east, west, south, and north, and characters indicating the order of 1, 2, 3, etc. I mean. The present invention is not limited to this, and any character may be used as long as it is used for distinguishing a specific target.

また、本発明のプログラムを端末に読み込ませて実行することで、上述の本発明を実現させることも可能である。つまり、固有名詞を示す情報を記憶する固有名詞記憶部を備える正式名称判定システムのための正式名称判定プログラムであって、文書データ中から固有名詞の略称を取得する略称取得機能と、固有名詞記憶部から略称を構成する文字情報を有する固有名詞を候補名称として抽出する候補名称抽出機能と、候補名称に含まれている略称を構成する文字情報の位置に応じて、略称に対応する正式名称を判定する判定機能と、をコンピュータに実現させる正式名称判定プログラムとして構成してもよい。 It is also possible to realize the above-described present invention by reading the program of the present invention into a terminal and executing it. That is, a formal name determination program for a formal name determination system including a proper noun storage unit that stores information indicating proper nouns, an abbreviation acquisition function for acquiring a proper noun abbreviation from document data, and proper noun storage A candidate name extraction function for extracting a proper noun having character information constituting the abbreviation from the part as a candidate name, and a formal name corresponding to the abbreviation according to the position of the character information constituting the abbreviation included in the candidate name You may comprise as a formal name determination program which makes a computer implement | achieve the determination function to determine.

この正式名称判定プログラムも、上述の正式名称判定システムと同様の作用効果を伴うものであり、上述した種々の特徴構成を備えることもできる。   This formal name determination program also has the same operational effects as the above-described formal name determination system, and can also have the various feature configurations described above.

上述のように構成された本発明によれば、略称を構成する文字情報の有無から候補名称を抽出し、さらに略称を構成する文字情報が候補名称中のどの位置に含まれているかに応じて、略称に対応する正式名称を判定することができる。これにより、予め定められた一定の略称生成ルールのようなものが存在しない場合であっても、対応する正式名称の判定を行うことが可能になるという効果を得ることができる。   According to the present invention configured as described above, a candidate name is extracted from the presence or absence of character information constituting an abbreviation, and further, depending on which position in the candidate name the character information constituting the abbreviation is included. The official name corresponding to the abbreviation can be determined. Thereby, even if there is no predetermined abbreviated name generation rule, it is possible to obtain an effect that it is possible to determine the corresponding formal name.

本発明のシステム構成の一例を示す概念図。The conceptual diagram which shows an example of the system configuration | structure of this invention. 本発明の端末のハードウェア構成の一例を示す概念図。The conceptual diagram which shows an example of the hardware constitutions of the terminal of this invention. 本発明の実施例1におけるシステム構成の一例を示す機能ブロック図。The functional block diagram which shows an example of the system configuration | structure in Example 1 of this invention. 本発明における処理プロセスの一例を示すフローチャート。The flowchart which shows an example of the process in this invention. 本発明の読取装置が読み取る原稿の一例を示す図。FIG. 4 is a diagram illustrating an example of a document read by the reading device of the present invention. 本発明において固有名詞として記憶されている情報の一例を示す図。The figure which shows an example of the information memorize | stored as a proper noun in this invention. 本発明の端末の表示装置で表示する画像の一例を示すイメージ図。The image figure which shows an example of the image displayed with the display apparatus of the terminal of this invention. 本発明の端末の表示装置で表示する画像の一例を示すイメージ図。The image figure which shows an example of the image displayed with the display apparatus of the terminal of this invention. 本発明の実施例1における処理内容の一例を示すイメージ図。The image figure which shows an example of the processing content in Example 1 of this invention. 本発明の文字位置に基づいて設定されたポイントの一例を示す図。The figure which shows an example of the point set based on the character position of this invention. 本発明の単語内の文字位置に基づいて設定されたポイントの一例を示す図。The figure which shows an example of the point set based on the character position in the word of this invention. 本発明の単語の位置に基づいて設定されたポイントの一例を示す図。The figure which shows an example of the point set based on the position of the word of this invention. 本発明の実施例2におけるシステム構成の一例を示す機能ブロック図。The functional block diagram which shows an example of the system configuration | structure in Example 2 of this invention. 本発明において特別文字情報として記憶されている情報の一例を示す図。The figure which shows an example of the information memorize | stored as special character information in this invention. 本発明の実施例3におけるシステム構成の一例を示す機能ブロック図。The functional block diagram which shows an example of the system configuration | structure in Example 3 of this invention. 本発明の実施例4におけるシステム構成の一例を示す概念図。The conceptual diagram which shows an example of the system configuration | structure in Example 4 of this invention. 本発明の実施例4におけるシステム構成の一例を示す機能ブロック図。The functional block diagram which shows an example of the system configuration | structure in Example 4 of this invention.

〔実施例1−構成〕
以下、図面を用いて本発明の実施形態を説明する。図1は、本発明の正式名称判定システムの全体構成の一例を概念的に示す。本発明は図1に示すように、コンピュータ端末A(以下、「端末A」という)が、読取装置Bと直接接続又はネットワークNを介して接続されるという形で構成されている。端末Aと読取装置Bとの接続形式は、直接接続でもネットワークNを介した接続でも、そのどちらであっても構わない。
Example 1 Configuration
Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 conceptually shows an example of the overall configuration of the formal name determination system of the present invention. As shown in FIG. 1, the present invention is configured such that a computer terminal A (hereinafter referred to as “terminal A”) is connected directly to a reader B or via a network N. The connection format between the terminal A and the reading device B may be either a direct connection or a connection via the network N.

読取装置Bは、情報を読み取るための入力装置である。具体的には、原稿から写真や図形などを光学的に読み取り、画像データとしてコンピュータ端末に転送するスキャナーがある。他にも、原稿の文字に光を当てて反射光を読み取るOCR等があるが、これらに限らず、読み取った情報をデータ化して端末に転送する装置であれば、いかなるものであってもよい。   The reading device B is an input device for reading information. Specifically, there is a scanner that optically reads a photograph or a figure from a document and transfers it as image data to a computer terminal. There are other OCRs that illuminate the characters on the original and read the reflected light. However, the present invention is not limited to this, and any apparatus that converts the read information into data and transfers it to the terminal may be used. .

ネットワークNは、企業や学校等の限られた施設内において情報を物理的に送るケーブルと、LANスイッチやハブ等でなる中継機器を備えたCSMA/CD(Carrier Sense Multiple Access With Collision Detection)方式のイーサネット(Ethernet)(商標)型のLANとして構成されたものであるが、このネットワークNとしてイーサネット型のLAN以外に、インターネットの技術を用いたイントラネットで構築されたものや、WAN(Wide Area Network)の技術によって構築されるものでもよい。   Network N is a CSMA / CD (Carrier Sense Multiple Access Collision Detection) system equipped with a cable that physically transmits information in a limited facility such as a company or school, and a relay device such as a LAN switch or hub. Although it is configured as an Ethernet (trademark) type LAN, the network N is constructed by an intranet using Internet technology in addition to the Ethernet type LAN, or a WAN (Wide Area Network). It may be constructed by the technology.

図2は、端末Aのハードウェア構成の一例を概念的に示す。   FIG. 2 conceptually shows an example of the hardware configuration of the terminal A.

端末Aは、プログラムの演算処理を実行するCPU等の演算装置1と、情報を記憶するRAMやハードディスク等の記憶装置2と、演算装置1の処理結果や記憶装置2に記憶する情報を直接接続された機器又はインターネットやLAN等のネットワークを介して送受信する通信装置3と、キーボード、マウス又はテンキー等の入力装置4と、ディスプレイ(画面)等の表示装置5とを少なくとも有している。   The terminal A directly connects the arithmetic device 1 such as a CPU that executes arithmetic processing of a program, the storage device 2 such as a RAM and a hard disk that stores information, and the processing results of the arithmetic device 1 and information stored in the storage device 2. A communication device 3 that transmits and receives data via a network such as the Internet or a LAN, an input device 4 such as a keyboard, a mouse, or a numeric keypad, and a display device 5 such as a display (screen).

端末A上で実現する各機能(各手段)は、その処理を実行する手段(プログラムやモジュール等)が演算装置1に読み込まれることでその処理が実行される。各機能は、記憶装置2に記憶した情報をその処理において使用する場合には、該当する情報を当該記憶装置2から読み出し、読み出した情報を適宜、演算装置1における処理に用いる。   Each function (each means) realized on the terminal A is executed when a means (program, module, etc.) for executing the process is read into the arithmetic unit 1. When using the information stored in the storage device 2 in the processing, each function reads the corresponding information from the storage device 2 and uses the read information in the processing in the arithmetic device 1 as appropriate.

図3は、本発明の正式名称判定システムを構成する端末Aと読取装置Bとの機能ブロック図を示す。本発明における各構成部及び各手段は、その機能が論理的に区別されているのみであって、物理上あるいは事実上同一の領域を為していてもよい。   FIG. 3 shows a functional block diagram of the terminal A and the reading device B constituting the formal name determination system of the present invention. Each component and each means in the present invention are only logically distinguished in function, and may be physically or virtually identical.

また、図3は、本発明において必要となる最小限度の機器、構成及び手段等のみを記載しており、その他の機器、構成部及び手段等についてはその記載を省略する。   FIG. 3 shows only the minimum equipment, configuration and means necessary for the present invention, and the description of other equipment, configuration and means is omitted.

端末Aは、取得したデータから文書を構成する一連の文字情報を認識して文書データとして取得する文字情報認識部11、取得した文書データから固有名詞の略称を抽出して取得する略称取得部12、複数の固有名詞の名称情報を記憶する固有名詞記憶部13、取得した略称を構成する文字情報を含む固有名詞を抽出する候補名称抽出部14、抽出した候補名称に含まれている略称を構成する文字情報の位置に応じて正式名称を判定する判定部15、判定した結果に応じて制御を行う制御部16、を備えている。   The terminal A recognizes a series of character information constituting the document from the acquired data and acquires it as document data. The abbreviation acquisition unit 12 extracts and acquires the abbreviation of the proper noun from the acquired document data. A proper noun storage unit 13 that stores name information of a plurality of proper nouns, a candidate name extraction unit 14 that extracts proper nouns including character information constituting the acquired abbreviations, and abbreviations included in the extracted candidate names A determination unit 15 that determines a formal name according to the position of character information to be performed, and a control unit 16 that performs control according to the determination result.

読取装置Bは、原稿に記載された情報を読み取る読取部23、読み取った情報を元にデータを生成するデータ生成部22、生成したデータを端末Aに送信する通信部21、を備えている。   The reading apparatus B includes a reading unit 23 that reads information described in a document, a data generation unit 22 that generates data based on the read information, and a communication unit 21 that transmits the generated data to the terminal A.

以下、図3に記載した本発明を構成する機能ブロック図に基づいて、各構成部の動作について説明する。   The operation of each component will be described below based on the functional block diagram constituting the present invention shown in FIG.

読取部23は、ユーザの操作に応じて、紙等の原稿に記載された文章・図表等の情報を光学的に読み取り、読み取った情報をデータ生成部22に送信する。データ生成部22は、受信した情報を基にデータ化を行う。   The reading unit 23 optically reads information such as texts and diagrams written on a manuscript such as paper in accordance with a user operation, and transmits the read information to the data generation unit 22. The data generation unit 22 performs data conversion based on the received information.

上記のデータとは、読み取った情報をコンピュータ端末が認識できる形式に変換したもののことをいい、画像データや文字データなど様々な形式があるが、コンピュータ端末が認識できるものあればその形式は問わない。   The above-mentioned data refers to data that has been read and converted into a format that can be recognized by a computer terminal. There are various formats such as image data and character data, but any format that can be recognized by a computer terminal is acceptable. .

通信部21は、データ生成部22によって生成されたデータを、接続している端末Aに対して送信する。   The communication unit 21 transmits the data generated by the data generation unit 22 to the connected terminal A.

文字情報認識部11は、接続されている読取装置Bから通信装置3を介してデータを取得する。さらに、取得したデータから文書を構成する一連の文字情報を認識手段により認識して文書データを生成し、生成した文書データを略称取得部12に送信する。   The character information recognition unit 11 acquires data from the connected reading device B via the communication device 3. Further, the recognition unit recognizes a series of character information constituting the document from the acquired data, generates document data, and transmits the generated document data to the abbreviation acquisition unit 12.

上記のほか、文字情報認識部11は、通信装置3を介して取得したデータ全てに対して文書データを生成するのではなく、取得したデータのうち、入力装置4によって指定された特定のデータについてのみ文書データを生成し、生成した文書データを略称取得部12に送信するという構成としてもよい。また、読取装置Bから文書データを取得する以外に、すでに文書データとなったデータを略称取得部12に送信することも当然に可能である。   In addition to the above, the character information recognition unit 11 does not generate document data for all data acquired via the communication device 3, but the specific data specified by the input device 4 among the acquired data. Only the document data may be generated, and the generated document data may be transmitted to the abbreviation acquisition unit 12. In addition to acquiring document data from the reading device B, it is naturally possible to transmit data that has already become document data to the abbreviation acquisition unit 12.

略称取得部12は、文字情報認識部11から受け取った文書データの内容を解析し、文書データ内に含まれている固有名詞の略称を抽出して取得し、候補名称抽出部14に送信する。略称の抽出方法は様々なものを用いることができる。例えば、(1)所定領域の情報を全て略称として抽出する方法、(2)特定の文字情報を含む一連の文字情報を略称として抽出する方法、(3)特定の条件に当てはまる一連の文字情報を略称として抽出する方法、という三つの方法が考えられる。   The abbreviation acquisition unit 12 analyzes the contents of the document data received from the character information recognition unit 11, extracts and acquires the abbreviations of proper nouns included in the document data, and transmits them to the candidate name extraction unit 14. Various abbreviation extraction methods can be used. For example, (1) a method of extracting all information of a predetermined area as abbreviations, (2) a method of extracting a series of character information including specific character information as abbreviations, and (3) a series of character information that meets a specific condition. Three methods of extracting as abbreviations are conceivable.

〔略称の抽出方法(1)〕
文書データの所定領域の情報を全て略称として抽出する方法について説明する。この方法は、予め文書データ内における所定領域を抽出対象領域として設定しておき、その領域に記載されている情報は全て略称として抽出するという方法である。例えば、図5「連絡先一覧表」のような、予めフォーマットが定められ、特定の箇所(「所属学校」の欄)に固有名詞が列挙されることが決まっているような原稿を読み取って本発明を動作させる場合、この方法を用いると好適である。
[Abbreviation Extraction Method (1)]
A method for extracting all information in a predetermined area of document data as abbreviations will be described. In this method, a predetermined area in the document data is set as an extraction target area in advance, and all the information described in the area is extracted as an abbreviation. For example, a book such as “Contact List” shown in FIG. 5 is read and a book whose format is determined in advance and proper nouns are determined to be listed in a specific location (“School” column) is read. It is preferred to use this method when operating the invention.

〔略称の抽出方法(2)〕
文書データの内容を解析し、特定の文字情報を含む一連の文字情報を略称として抽出する方法について説明する。この方法は、受け取った文書データを一連の文字情報に分割し、分割したそれぞれの一連の文字情報の中に予め登録しておいた略称を示す文字情報(例えば、「校」・「社」・「線」など)が含まれているか否かを判定し、含まれている一連の文字情報を略称として抽出するという方法である。特に、学校名や会社名など慣用的に略されることが多い固有名詞を含む原稿を読み取って本発明を動作させる場合、この方法を用いると好適である。
[Abbreviation Extraction Method (2)]
A method for analyzing the contents of document data and extracting a series of character information including specific character information as abbreviations will be described. This method divides the received document data into a series of character information, and character information indicating abbreviations registered in advance in each of the divided series of character information (for example, “school”, “company”, This is a method of determining whether or not “line” or the like is included, and extracting a series of included character information as an abbreviation. In particular, it is preferable to use this method when operating the present invention by reading a manuscript including proper names, such as school names and company names, which are frequently abbreviated.

〔略称の抽出方法(3)〕
文書データの内容を解析し、特定の条件に当てはまる一連の文字情報を略称として抽出する方法について説明する。この方法は、受け取った文書データを単語に分割し、分割したそれぞれの一連の文字情報が予め登録しておいた条件(例えば、「漢字四字の名詞」などといった条件)を満たすかどうかを判定し、条件を満たした一連の文字情報を略称として抽出するという方法である。特に、どういった略称が含まれるか予測ができない原稿や、多様な固有名詞が含まれる可能性のある原稿を読み取って本発明を動作させる場合、この方法を用いると好適である。
[Abbreviation Extraction Method (3)]
A method of analyzing the contents of document data and extracting a series of character information that meets specific conditions as abbreviations will be described. This method divides the received document data into words, and determines whether or not each divided series of character information satisfies a pre-registered condition (for example, a condition such as “a four-character noun”). In this method, a series of character information satisfying the conditions is extracted as an abbreviation. In particular, this method is preferably used when the present invention is operated by reading a manuscript that cannot predict what abbreviations are included or a manuscript that may contain various proper nouns.

上述の略称の抽出方法(1)から(3)について、いずれか一つの方法で抽出された略称を取得してもよいが、複数の方法の組み合わせによって抽出された略称を取得するとしてもよい。例えば、略称の抽出方法(1)から(3)を組み合わせて、文書データの所定領域に含まれる情報で、「校」という文字情報を含み、漢字四字で構成されている一連の文字情報を略称として抽出するということができる。   For the above-described abbreviated extraction methods (1) to (3), an abbreviation extracted by any one method may be acquired, but an abbreviated name extracted by a combination of a plurality of methods may be acquired. For example, by combining the abbreviation extraction methods (1) to (3), a series of character information composed of four kanji characters including the character information “school” is included in a predetermined area of the document data. It can be said that it is extracted as an abbreviation.

固有名詞記憶部13は、予め登録された複数の固有名詞を記憶する。この固有名詞については、正式名称を判定したい分野に関する固有名詞を選択して登録しておいてもよいし、各種分野における固有名詞を広く登録しておいてもよい。例えば、本システムを学校名の正式名称判定に使用する場合には、学校の正式名称を事前に登録しておくとよい。また、各種分野における固有名詞を広く登録する場合には、インターネットの各種サイト等から固有名詞を選択して取得し、データベース化して記憶しておくなどの方法も考えられる。   The proper noun storage unit 13 stores a plurality of proper nouns registered in advance. As for the proper nouns, proper nouns related to the field for which the official name is to be determined may be selected and registered, or proper nouns in various fields may be registered widely. For example, when this system is used to determine the official name of a school name, the official name of the school may be registered in advance. In addition, when registering proper nouns in various fields widely, a method of selecting and acquiring proper nouns from various sites on the Internet, storing them in a database, and the like can be considered.

候補名称抽出部14は、略称取得部12から取得した略称に基づき、その略称を構成する文字情報(以下、「略称構成文字情報」という)を含む固有名詞を、固有名詞記憶部13から候補名称として抽出し、判定部15に送信する。略称構成文字情報を含む固有名詞が複数ある場合には、複数の固有名詞をそれぞれ候補名称として判定部15に送信する。   Based on the abbreviation acquired from the abbreviation acquisition unit 12, the candidate name extraction unit 14 extracts a proper noun including character information (hereinafter referred to as “abbreviated component character information”) constituting the abbreviation from the proper noun storage unit 13. And transmitted to the determination unit 15. When there are a plurality of proper nouns including abbreviation constituent character information, the plurality of proper nouns are transmitted to the determination unit 15 as candidate names.

上記の候補名称の抽出について、例えば、本システムを学校名の正式名称判定に使用する場合には、取得した略称が「明学小」だった場合、略称構成文字情報「小」を含むことから小学校の名称に対する略称であると判定し、固有名詞記憶部13に記憶しておいた小学校の正式名称を全て候補名称として抽出するという方法が考えられる。   About extraction of the above candidate names, for example, when this system is used for official name determination of school names, if the acquired abbreviation is “Meijigaku Elementary”, the abbreviation constituent character information “Small” is included. A method may be considered in which it is determined that the name is an abbreviation for the name of the elementary school, and all the formal names of the elementary school stored in the proper noun storage unit 13 are extracted as candidate names.

また、上記の候補名称の抽出において、略称または固有名詞に旧漢字が使用されていた場合については、同じの意味内容を示す旧漢字と新漢字は予め同一の文字であると関連付けておき、旧漢字に対応する新漢字(又は新漢字に対応する旧漢字)を含む固有名詞を全て抽出するとしておくとよい。   In addition, in the above extraction of candidate names, when an old kanji is used as an abbreviation or proper noun, the old kanji and new kanji indicating the same meaning content are associated in advance as the same character, It is preferable to extract all proper nouns including new kanji corresponding to kanji (or old kanji corresponding to new kanji).

判定部15は、略称取得部12から受け取った略称と、候補名称抽出部14から受け取った候補名称とを比較して、略称に対応する正式名称の可能性を判定し、判定結果を制御部16に送信する。   The determination unit 15 compares the abbreviation received from the abbreviation acquisition unit 12 with the candidate name received from the candidate name extraction unit 14, determines the possibility of a formal name corresponding to the abbreviation, and determines the determination result to the control unit 16. Send to.

上記の正式名称の判定は、候補名称中に含まれる略称構成文字情報の位置を利用して行われ、その判定には様々な方法を用いることができる。例えば、(1)所定位置における略称構成文字情報の有無で判定する方法、(2)略称構成文字情報の位置に応じた重要度で判定する方法、(3)単語中における略称構成文字情報の位置に応じた重要度で判定する方法、(4)略称構成文字情報を含む単語の位置に応じた重要度で判定する方法、という四つの方法が考えられる。   The official name is determined using the position of the abbreviation constituent character information included in the candidate name, and various methods can be used for the determination. For example, (1) a method for determining whether or not there is abbreviation constituent character information at a predetermined position, (2) a method for determining the importance according to the position of the abbreviation constituent character information, and (3) a position of the abbreviation constituent character information in a word There are four methods: a method of determining with importance according to the level, and (4) a method of determining with importance according to the position of the word including the abbreviated character information.

〔正式名称の判定方法(1)〕
候補名称中において、所定位置における略称構成文字情報の有無で判定する方法について説明する。この方法は、略称における一文字目の略称構成文字情報が候補名名称中のどの位置に含まれているかを判定し、その位置と予め定められている所定位置とを比較することによって、その候補名称が正式名称である可能性を判定するという方法である。例えば、所定位置が「一文字目」と定められている場合であれば、まず、各候補名称中に含まれている略称構成文字情報の位置を抽出する。そして、その位置が所定位置の「一文字目」である候補名称を特定し、当該候補名称を正式名称である可能性が高いと判定する。
[Formal name determination method (1)]
A method for determining whether or not there is abbreviation constituent character information at a predetermined position in the candidate name will be described. This method determines in which position in the candidate name name the abbreviation constituent character information of the first character in the abbreviation is included, and compares the position with a predetermined position to determine the candidate name. It is a method of determining the possibility that is an official name. For example, if the predetermined position is determined as “first character”, first, the position of the abbreviation constituent character information included in each candidate name is extracted. Then, a candidate name whose position is the “first character” at the predetermined position is specified, and it is determined that the candidate name is highly likely to be an official name.

〔正式名称の判定方法(2)〕
候補名称中において、略称構成文字情報の位置に応じた重要度で判定する方法について説明する。ここでは、重要度として重要性に応じたポイントを設定し、その設定されたポイントを用いて判定する方法について説明する。この方法は、予め位置に応じたポイントを設定しており、候補名称と略称構成文字情報とを比較し、一致する文字情報の位置を特定する。そして、特定した位置に対応したポイントの合計値に応じて、その候補名称が正式名称である可能性を判定するという方法である。例えば、候補名称が5文字で構成されており、その1文字目と3文字目が略称構成文字情報と一致した場合、1文字目と3文字目に対応するポイントの合計を算出し、その算出した値に応じて正式名称である可能性を判定する。
[Formal name determination method (2)]
A description will be given of a method of determining with importance according to the position of the abbreviation constituent character information in the candidate names. Here, a method of setting a point according to importance as the importance and determining using the set point will be described. In this method, points corresponding to positions are set in advance, the candidate names are compared with the abbreviation constituent character information, and the position of the matching character information is specified. And it is a method of determining the possibility that the candidate name is a formal name according to the total value of the points corresponding to the specified position. For example, if the candidate name is composed of 5 characters, and the first character and the third character match the abbreviation constituent character information, the total of points corresponding to the first character and the third character is calculated and the calculation is performed. The possibility of an official name is determined according to the value obtained.

〔正式名称の判定方法(3)〕
候補名称を単語に分割し、その分割した単語中における略称構成文字情報の位置に応じた重要度で判定する方法について説明する。ここでは、重要度として重要性に応じたポイントを設定し、その設定されたポイントを用いて判定する方法について説明する。この方法は、予め位置に応じたポイントを設定しており、候補名称を単語に分割する。そして、候補名称と略称構成文字情報とを比較し、一致する文字情報の単語中における位置を特定する。そして、特定した位置に対応したポイントの合計値に応じて、その候補名称が正式名称である可能性を判定するという方法である。例えば、候補名称が二つの単語で構成されており、それぞれの単語中の1文字目が略称構成文字情報と一致した場合、各単語の1文字目に対応するポイントの合計を算出し、その算出した値に応じて正式名称である可能性を判定する。
[Formal name judgment method (3)]
A method of dividing a candidate name into words and determining with importance according to the position of abbreviation constituent character information in the divided words will be described. Here, a method of setting a point according to importance as the importance and determining using the set point will be described. In this method, points corresponding to positions are set in advance, and candidate names are divided into words. Then, the candidate name is compared with the abbreviated character information, and the position of the matching character information in the word is specified. And it is a method of determining the possibility that the candidate name is a formal name according to the total value of the points corresponding to the specified position. For example, when the candidate name is composed of two words and the first character in each word matches the abbreviation constituent character information, the total of points corresponding to the first character of each word is calculated and the calculation is performed. The possibility of an official name is determined according to the value obtained.

〔正式名称の判定方法(4)〕
候補名称を単語に分割し、略称構成文字情報を含んだ単語の位置に応じた重要度で判定する方法について説明する。ここでは、重要度として重要性に応じたポイントを設定し、その設定されたポイントを用いて判定する方法について説明する。この方法は、予め位置に応じたポイントを設定しており、候補名称を単語に分割する。そして、候補名称と略称構成文字情報とを比較し、一致する文字情報を含む単語の位置を特定する。そして、特定した位置に対応したポイントの合計値に応じて、その候補名称が正式名称である可能性を判定するという方法である。例えば、候補名称が二つの単語で構成されており、それぞれの単語中に略称構成も自我含まれていた場合、各単語の位置に対応するポイントの合計値を算出し、その算出した値に応じて正式名称である可能性を判定する。
[Formal name determination method (4)]
A method of dividing the candidate name into words and determining with importance according to the position of the word including the abbreviated character information will be described. Here, a method of setting a point according to importance as the importance and determining using the set point will be described. In this method, points corresponding to positions are set in advance, and candidate names are divided into words. Then, the candidate name is compared with the abbreviation constituent character information, and the position of the word including the matching character information is specified. And it is a method of determining the possibility that the candidate name is a formal name according to the total value of the points corresponding to the specified position. For example, if the candidate name is composed of two words and the abbreviation is also included in each word, the total value of points corresponding to the position of each word is calculated, and the calculated value is To determine the possibility of an official name.

上述の正式名称の判定方法(1)から(4)について、いずれか一つの方法で正式名称の可能性を判定しても良いし、複数の方法の組み合わせによって判定するようにしてもかまわない。   Regarding the above-described formal name determination methods (1) to (4), the possibility of a formal name may be determined by any one method, or may be determined by a combination of a plurality of methods.

制御部16は、判定部15から受け取った判定結果に基づいて各種制御を行い、端末Aの表示装置5にその結果を表示させる。   The control unit 16 performs various controls based on the determination result received from the determination unit 15 and causes the display device 5 of the terminal A to display the result.

上記の制御とは、例えば、判定部15から受け取った判定結果において正式名称である可能性が一番高い候補名称を正式名称であると特定し、読取装置Bから取得したデータを端末Aの表示装置5で表示させる際に、略称を当該判定した正式名称に変換して表示装置5に表示させるという制御が考えられる。   The above-described control is, for example, identifying the candidate name that is most likely to be the official name in the determination result received from the determination unit 15 as the official name, and displaying the data acquired from the reading device B on the terminal A When displaying on the apparatus 5, the control which converts an abbreviation into the determined formal name and displays it on the display apparatus 5 can be considered.

その他、略称を正式名称に変換せず、候補名称とその候補名称が正式名称である可能性をそのまま表示装置5に表示させるという制御も考えられる。例えば、判定部15から候補名称とその候補名称が正式名称である可能性を示す値を受け取り、表示装置5上において、略称の箇所に変換候補として、正式名称である可能性が高いものから順に、候補名称をランキング表示させるという制御を行ってもよい。   In addition, it is possible to control the display device 5 as it is without converting the abbreviations into formal names and displaying the candidate names and the possibility that the candidate names are formal names. For example, a candidate name and a value indicating the possibility that the candidate name is a formal name are received from the determination unit 15, and on the display device 5, an abbreviated name is converted into a candidate for conversion in descending order of possibility of the formal name. Alternatively, the control may be performed such that the candidate names are displayed in ranking.

〔実施例1−処理プロセス(1)〕
次に、本発明の正式名称判定システムにおける処理プロセスの一例を、図3の機能ブロック図及び図4のフローチャート等を用いて説明する。なお、以下の説明では学校教育分野における学校名の略称とそれに対応する正式名称を判定する場合を例に説明する。また、略称の抽出方法では、(1)所定領域の情報を全て略称として抽出する方法を用い、正式名称の判定方法では、(1)所定位置における略称構成文字情報の有無で判定する方法を用いた場合について説明する。
[Example 1-Treatment process (1)]
Next, an example of a processing process in the formal name determination system of the present invention will be described with reference to the functional block diagram of FIG. 3, the flowchart of FIG. In the following description, a case where an abbreviation of a school name in the school education field and a corresponding official name are determined will be described as an example. The abbreviation extraction method uses (1) a method of extracting all information of a predetermined area as abbreviations, and the official name determination method uses (1) a method of determination based on presence / absence of abbreviation constituent character information at a predetermined position. The case will be described.

読取装置Bのデータ生成部22は、読取部23が読み取った原稿の情報を取得し、データを生成して通信部21に渡す。通信部21は受け取ったデータを端末Aに送信する。読取部23が読み取った原稿の一例を図5に示す。   The data generation unit 22 of the reading device B acquires information on the document read by the reading unit 23, generates data, and passes the data to the communication unit 21. The communication unit 21 transmits the received data to the terminal A. An example of a document read by the reading unit 23 is shown in FIG.

端末Aの通信装置3は、接続されている読取装置Bからデータを取得する(S101)。そして、取得したデータを端末A内の文字情報認識部11に送信する。   The communication device 3 of the terminal A acquires data from the connected reading device B (S101). Then, the acquired data is transmitted to the character information recognition unit 11 in the terminal A.

文字情報認識部11は、通信装置3から受け取ったデータから、原稿「連絡先一覧表」を構成する一連の文字情報を認識手段により認識して文書データを生成する(S102)。本実施例で説明すると、原稿「連絡先一覧表」を構成する文字情報を認識して文書データを生成する。そして、生成した文書データを略称取得部12に送信する。   The character information recognizing unit 11 generates a document data by recognizing a series of character information constituting the document “contact list” from the data received from the communication device 3 by the recognizing means (S102). In the present embodiment, the document data is generated by recognizing the character information constituting the document “contact list”. Then, the generated document data is transmitted to the abbreviation acquisition unit 12.

略称取得部12は、文字情報認識部11から受け取った文書データのうち、予め定められた所定の位置(又は項目等)に記載されている一連の文字情報を、略称として抽出する(S103)。本実施例で説明すると、原稿「連絡先一覧表」を構成する文書データのうち、所定の位置「所属学校」の列に記載されている一連の文字情報を、略称としてそれぞれ抽出する。以下、本実施例では、略称として「明学小」を抽出した場合について説明する。   The abbreviation acquisition unit 12 extracts a series of character information described in a predetermined position (or item, etc.) as predetermined abbreviations from the document data received from the character information recognition unit 11 (S103). In the present embodiment, a series of character information described in a column of a predetermined position “affiliation school” is extracted as abbreviations from document data constituting a manuscript “contact list”. Hereinafter, in the present embodiment, a case where “Meiji elementary school” is extracted as an abbreviation will be described.

固有名詞記憶部13は、予め登録された複数の固有名詞を記憶する。本実施例においては、小学校の正式名称が固有名詞として予め記憶されているものとする。固有名詞記憶部13に記憶されている情報の一例を図6に示す。   The proper noun storage unit 13 stores a plurality of proper nouns registered in advance. In this embodiment, it is assumed that the official name of the elementary school is stored in advance as a proper noun. An example of information stored in the proper noun storage unit 13 is shown in FIG.

候補名称抽出部14は、略称取得部12から取得した略称の略称構成文字情報を含む固有名詞を、固有名詞記憶部13から候補名称として抽出する(S104)。そして、抽出した候補名称を判定部15に送信する。   The candidate name extraction unit 14 extracts a proper noun including the abbreviation abbreviation constituent character information acquired from the abbreviation acquisition unit 12 from the proper noun storage unit 13 as a candidate name (S104). Then, the extracted candidate name is transmitted to the determination unit 15.

上記の処理を本実施例で説明する。まず、候補名称抽出部14は、略称構成文字情報「明」・「学」・「小」のうち二つ以上の略称構成文字情報を含む固有名詞を固有名詞記憶部13から取得する。次に、固有名詞記憶部13に記憶されている情報が図6の通りであった場合、候補名称抽出部14は、第一候補名称「大阪市立高明東小学校」・第二候補名称「私立明治学園付属小学校」・第候補名称「私立清明大学付属小学校」の三つの候補名称を抽出する。   The above processing will be described in the present embodiment. First, the candidate name extraction unit 14 acquires, from the proper noun storage unit 13, proper nouns including two or more abbreviation constituent character information among the abbreviation constituent character information “Akira”, “Study”, and “Small”. Next, when the information stored in the proper noun storage unit 13 is as shown in FIG. 6, the candidate name extraction unit 14 selects the first candidate name “Osaka City Takamyo Higashi Elementary School” and the second candidate name “private Meiji”. Three candidate names, “Gakuen Attached Elementary School” and No. 1 candidate name “Private Kiyoaki University Attached Elementary School” are extracted.

上記の候補名称の抽出方法以外に、略称構成文字情報を一文字でも有する固有名詞であれば全て抽出するという方法を用いても良い。例えば、略称の最後に略称構成文字情報「小」を含む略称は小学校を示すと判定し、小学校の正式名称を示す固有名詞であれば全て候補名称として抽出するとしてもよい。この方法を用いることにより、固有名詞記憶部13に小学校以外の正式名称(例えば、中学校、高等学校又は専門学校など)が記憶されていた場合にも対応することが可能となる。   In addition to the above method for extracting candidate names, a method of extracting all proper nouns having at least one abbreviation constituent character information may be used. For example, it may be determined that an abbreviation including the abbreviation constituent character information “small” at the end of the abbreviation indicates an elementary school, and all proper nouns indicating an official name of the elementary school may be extracted as candidate names. By using this method, it is possible to cope with a case where a proper name other than an elementary school (for example, a junior high school, a high school, or a vocational school) is stored in the proper noun storage unit 13.

判定部15は、候補名称抽出部14から受け取った候補名称中において、予め定めた所定位置に略称取得部12から受け取った略称の一文字目の略称構成文字情報が含まれているか否かによって、正式名称である可能性を判定する(S105)。そして、判定した結果を制御部16に送信する。   The determination unit 15 determines whether the candidate name received from the candidate name extraction unit 14 includes the abbreviation constituent character information of the first character of the abbreviation received from the abbreviation acquisition unit 12 at a predetermined position. The possibility of being a name is determined (S105). Then, the determined result is transmitted to the control unit 16.

上記の処理を具体的に説明する。まず、ユーザによって予め設定された比較条件を判定部15が読み取る。ここでは、比較条件として所定位置が「一文字目」と設定されていたとする。さらに、この判定の際に、「大阪市立」・「私立」・「小学校」といった定型文字情報は判定対象に含まないという判定除外設定も併せて行っておくと好適である。本実施例では、この判定除外設定も行っておくものとする。   The above processing will be specifically described. First, the determination unit 15 reads comparison conditions set in advance by the user. Here, it is assumed that the predetermined position is set to “first character” as the comparison condition. Further, in this determination, it is also preferable to perform a determination exclusion setting in which fixed character information such as “Osaka City”, “private”, and “elementary school” is not included in the determination target. In this embodiment, this determination exclusion setting is also performed.

上記の除外文字設定について、例えば、「私立」・「府立」・「県立」・「市立」・「町立」といった文字情報を除外特定文字情報として、予め除外特定文字情報記憶部(図示せず)に記憶しておき、除外特定文字情報より前に記載されている文字情報を全て判定対象に含まないという判定除外設定を行うと好適である。この方法を用いることにより、「大阪府立」や「兵庫県立」といった判定に必要ない文字情報を効率的に除外することが可能となる。   For the above exclusion character setting, for example, character information such as “private”, “prefectural”, “prefectural”, “city”, “town” is used as exclusion specific character information in advance, and an exclusion specific character information storage unit (not shown) It is preferable that the determination exclusion setting is made so that all character information described before the exclusion specific character information is not included in the determination target. By using this method, it is possible to efficiently exclude character information that is not necessary for the determination, such as “Osaka Prefectural” or “Hyogo Prefectural”.

また、「小学校」・「中学校」・「高等学校」のような、各候補名称に共通して含まれているような文字情報については、予め除外特定文字情報として除外特定文字情報記憶部(図示せず)に記憶しておいても良い。この方法を用いることにより、本発明の正式名称判定システムにおける処理速度を向上させることが可能となる。   In addition, for character information such as “elementary school”, “junior high school”, “high school” and the like that is commonly included in each candidate name, an exclusion specific character information storage unit (see FIG. (Not shown) may be stored. By using this method, the processing speed in the formal name determination system of the present invention can be improved.

次に、判定部15は、候補名称抽出部14から受け取った三つの候補名称において、その判定対象中において略称構成文字情報「明」が含まれている位置を判定する。第一候補名称「大阪市立高明東小学校」の場合、判定除外設定を行った後の判定対象は「高明東」であり、略称構成文字情報「明」の含まれている位置は二文字目と判定する。同様に、第二候補名称「私立明治学園付属小学校」の場合、判定対象は「明治学園付属」であり、略称構成文字情報「明」の含まれている位置は一文字目と判定する。さらに、第三候補名称「私立清明大学付属小学校」の場合、判定対象は「清明大学付属」であり、略称構成文字情報「明」の含まれている位置は二文字目と判定する。 Next, in the three candidate names received from the candidate name extraction unit 14, the determination unit 15 determines a position where the abbreviation constituent character information “bright” is included in the determination target. In the case of the first candidate name “Osaka City Takamyo Higashi Elementary School”, the judgment target after the judgment exclusion setting is “Kohmei Higashi”, and the position where the abbreviated character information “Ming” is included is the second letter. judge. Similarly, in the case of the second candidate name “private Meiji Gakuen attached elementary school”, the determination target is “Meiji Gakuen attached”, and the position where the abbreviated character information “Meiji” is included is determined as the first character. Further, in the case of the third candidate name “private Kiyoaki University attached elementary school”, the determination target is “attached to Kiyoake University”, and the position including the abbreviated character information “Ming” is determined as the second character.

そして、判定部15は、略称構成文字情報が候補名称中に含まれている位置と、予め定めておいた所定位置とを比較し、一致した候補名称を正式名称である可能性が高いと判定する。本実施例の場合、第二候補名称において略称構成文字情報が含まれている位置(一文字目)と、予め定められた所定位置である「一文字目」とが一致しているため、第二候補名称「私立明治学園付属小学校」が略称に対応する正式名称である可能性が高いと判定する。判定部15は、この判定結果を制御部16に送信する。 Then, the determination unit 15 compares the position where the abbreviation constituent character information is included in the candidate name with a predetermined position determined in advance, and determines that the matching candidate name is highly likely to be an official name. To do. In the case of the present embodiment, since the position (first character) where the abbreviation constituent character information is included in the second candidate name and the predetermined first position “first character” coincide, The name “private Meiji Gakuen Attached Elementary School” is determined to be highly likely to be an official name corresponding to the abbreviation. The determination unit 15 transmits the determination result to the control unit 16.

制御部16は、判定部15から受け取った判定結果に基づいて制御を行い、端末Aの表示装置5にその結果を表示させる(S106)。   The control unit 16 performs control based on the determination result received from the determination unit 15, and displays the result on the display device 5 of the terminal A (S106).

上記の処理を具体的に説明する。制御部16は、判定部15の結果に基づき、正式名称である可能性が一番高い第二候補名称「私立明治学園付属小学校」を正式名称であると特定する。さらに、文書データ中において略称「明学小」に対応する箇所を、正式名称「私立明治学園付属小学校」に変換する。   The above processing will be specifically described. Based on the result of the determination unit 15, the control unit 16 identifies the second candidate name “private Meiji Gakuen Attached Elementary School” that is most likely to be an official name as an official name. Further, the part corresponding to the abbreviation “Meiji Gakuen” in the document data is converted to the official name “Private Meiji Gakuen Elementary School”.

さらに、制御部16は、本発明の正式名称判定システムにおいて処理されたほかの略称に対する情報を取得し、同様に上記の処理を他の略称に対しても行うことによって、取得した文書データを自動的に再編集した上で表示装置5に表示させる。表示装置5における表示の一例を図7に示す。 Furthermore, the control unit 16 automatically acquires the acquired document data by acquiring information for other abbreviations processed in the formal name determination system of the present invention and similarly performing the above-described processing for other abbreviations. The image is re-edited and displayed on the display device 5. An example of display on the display device 5 is shown in FIG.

上記以外の制御として、制御部16は、略称を正式名称に変換せず、判定部15において判定された正式名称である可能性に基づいて、候補名称を略称の変換候補としてランキング形式で表示させるという制御も考えられる。本実施例で説明すると、正式名称である可能性が一番高い候補名称は第二候補名称「私立明治学園付属小学校」であるので、変換候補の最上位に表示し、残りの候補名称をそれに続く形で表示させるという形になる。本制御による表示装置5における表示の一例を図8に示す。   As a control other than the above, the control unit 16 does not convert the abbreviated name into a formal name, but displays the candidate name as abbreviated conversion candidate in a ranking format based on the possibility that the abbreviated name is determined by the determining unit 15. This control is also conceivable. In this example, the candidate name most likely to be an official name is the second candidate name “private Meiji Gakuen Attached Elementary School”, so it is displayed at the top of the conversion candidates, and the remaining candidate names are displayed in it. It will be displayed in the following form. An example of display on the display device 5 by this control is shown in FIG.

上述の実施形態とすることにより、判定要素として利用するのは略称を構成する文字情報のみであっても、対応する正式名称を判定することが可能となる。   By adopting the above-described embodiment, it is possible to determine the corresponding formal name even if only the character information constituting the abbreviation is used as the determination element.

上述の実施形態では、判定部15における比較条件として、所定位置を「一文字目」と設定された場合について説明したが、それ以外にも、「予め定めた文字情報の直後」としたり、「予め定めた文字情報の直前」としたりする方法も考えられる。また、予め定められた文字情報の直前・直後の一文字だけで判定するのではなく、予め定められた文字情報の直前・直後の「連続する文字情報の一致」によって判定する方法も可能である。これらの処理について、以下に詳細に説明する。   In the above-described embodiment, the case where the predetermined position is set to “first character” as the comparison condition in the determination unit 15 has been described, but other than that, “immediately after predetermined character information” or “ A method of “just before the defined character information” is also conceivable. Further, it is possible to make a determination based on “matching of continuous character information” immediately before and after the predetermined character information, instead of determining only one character immediately before and immediately after the predetermined character information. These processes will be described in detail below.

所定位置を「予め定めた文字情報の直後」とする方法については、例えば、学校名「私立青山大学付属西岡小学校」という正式名称の場合、略称として「西岡小」というように、「付属」の直後に続く文字情報を用いて略称を生成するということもある。このような場合には、予め定める文字情報を「付属」とすることによって、略称構成文字情報と正式名称「付属」の直後に続く文字情報とを比較して、正式名称か否かの判定を行うことができ好適である。   For example, in the case of the official name of the school name “Nishioka Elementary School attached to private Aoyama University”, the method of setting the predetermined position “immediately after the predetermined character information” An abbreviation may be generated using character information that immediately follows. In such a case, the predetermined character information is “attached”, and the abbreviated character information is compared with the character information immediately following the official name “attached” to determine whether or not it is an official name. It can be performed and is preferable.

所定位置を「予め定めた文字情報の直前」とする方法については、例えば、学校名「大東市立大山城西小学校」という正式名称の場合、略称として「城西小」というように、「小学校」の直前の文字情報を用いて略称を生成するということもある。このような場合には、予め定める文字情報「小学校」とすることによって、略称構成文字情報と正式名称「小学校」の直前の文字情報とを比較して、正式名称か否かの判定を行うことができ好適である。   For example, in the case of the official name “Daito City Oyama Josai Elementary School”, the method of setting the predetermined position “immediately before the predetermined character information” An abbreviation may be generated using the character information. In such a case, by setting the character information “elementary school” to be predetermined, the abbreviated character information is compared with the character information immediately before the official name “elementary school” to determine whether or not the name is an official name. This is preferable.

また、「連続する文字情報の一致」によって判定する方法については、例えば、上述の学校名「私立青山大学付属西岡小学校」と略称「西岡小」を判定する場合であれば、予め定められた文字情報「付属」の後に続く連続した文字情報が、略称を構成する連続した略称構成文字情報と一致するかを判定することによって、正式名称か否かの判定を行うことができる。上述の学校名「大東市立大山城西小学校」と略称「城西小」の場合であっても同様の処理を行うことができる。処理内容のイメージを図9に示す。   In addition, regarding the method of determining by “matching consecutive character information”, for example, if the above-mentioned school name “Nishioka Elementary School attached to private Aoyama University” and the abbreviation “Nishioka Elementary” are determined, a predetermined character is used. It can be determined whether or not the continuous character information following the information “attachment” matches the continuous abbreviation constituent character information constituting the abbreviation. The same processing can be performed even in the case of the above-mentioned school name “Daito City Oyama Josai Elementary School” and the abbreviation “Josei Shoji”. An image of the processing content is shown in FIG.

〔実施例1−処理プロセス(2)〕
次に、正式名称の判定方法について、(2)略称構成文字情報の位置に応じたポイントで判定する方法を用いた場合における、本発明の正式名称判定システムにおける処理プロセスの一例を、図3の機能ブロック図及び図4のフローチャート等を用いて説明する。なお、略称の抽出方法では、(1)所定領域の情報を全て略称として抽出する方法を用いるものとする。
[Example 1-Treatment process (2)]
Next, with respect to the official name determination method, (2) an example of a processing process in the official name determination system of the present invention in the case of using a method for determining at a point corresponding to the position of the abbreviation constituent character information is shown in FIG. This will be described with reference to the functional block diagram and the flowchart of FIG. In the abbreviation extraction method, (1) a method of extracting all information of a predetermined area as abbreviations is used.

図4のフローチャートにおける(S101)から(S104)の動作については〔実施例1−処理プロセス(1)〕と同様のため、その説明を省略する。   Since the operations from (S101) to (S104) in the flowchart of FIG. 4 are the same as those in [Example 1-Processing process (1)], the description thereof is omitted.

判定部15は、略称取得部12から受け取った略称の略称構成文字情報が、候補名称抽出部14から受け取った候補名称中においてどの位置に含まれているかによってポイントを算出し、算出したポイントに応じて正式名称である可能性を判定する(S105)。そして、判定した結果を制御部16に送信する。   The determination unit 15 calculates a point depending on where the abbreviation abbreviation constituent character information received from the abbreviation acquisition unit 12 is included in the candidate name received from the candidate name extraction unit 14, and according to the calculated point The possibility of being an official name is determined (S105). Then, the determined result is transmitted to the control unit 16.

上記の処理を本実施例で説明する。まず、本発明の正式名称判定システムは、文字位置ポイントテーブル(図示せず)を有しており、候補名称において判定対象となる文字の位置に応じてポイントが予め定められている。文字位置ポイントテーブルに記憶されている情報の一例を図10に示す。   The above processing will be described in the present embodiment. First, the formal name determination system of the present invention has a character position point table (not shown), and points are determined in advance according to the position of the character to be determined in the candidate name. An example of information stored in the character position point table is shown in FIG.

次に、判定部15における比較条件を設定する。ここでは、比較条件として「大阪市立」・「私立」・「小学校」といった定型文字は判定対象に含まないという判定除外文字設定も併せて行っておくと好適である。本実施例では、この判定除外文字設定を行うものとする。   Next, a comparison condition in the determination unit 15 is set. Here, as a comparison condition, it is preferable to set a determination exclusion character setting that does not include a fixed character such as “Osaka City”, “private”, or “elementary school” as a determination target. In this embodiment, this determination exclusion character setting is performed.

そして、判定部15は、候補名称抽出部14から受け取った各候補名称に対して、何文字目に略称構成文字情報が含まれているかを判定し、前述の文字位置ポイントテーブル(図示せず)から、判定した文字数に対応するポイントを抽出し、候補名称毎に合計ポイントを算出する。   And the determination part 15 determines what abbreviation constituent character information is contained in each character with respect to each candidate name received from the candidate name extraction part 14, and the above-mentioned character position point table (not shown). Then, the points corresponding to the determined number of characters are extracted, and the total points are calculated for each candidate name.

上記の処理を具体的に説明する。まず、第一候補名称「大阪市立高明東小学校」の場合、略称構成文字情報「明」が判定対象文字中の2文字目に含まれているので、ポイントは「35」となる。次に、第二候補名称「私立明治学園付属小学校」の場合、略称構成文字情報「明」が判定対象文字中の1文字目に含まれており、さらに、略称構成文字情報「学」が判定対象文字中の3文字目に含まれているため、合計ポイントは「40+30」で「70」となる。同様に、第三候補名称「私立清明大学付属小学校」の場合、略称構成文字情報「明」が判定対象文字中の2文字目、略称構成文字情報「学」が判定対象文字中の4文字目に含まれているため、合計ポイントは「35+25」で「60」となる。   The above processing will be specifically described. First, in the case of the first candidate name “Osaka City Takamyo Higashi Elementary School”, the abbreviated character information “Akira” is included in the second character in the character to be determined, so the point is “35”. Next, in the case of the second candidate name “private Meiji Gakuen attached elementary school”, the abbreviation constituent character information “Akira” is included in the first character in the judgment target characters, and further, the abbreviation constituent character information “Study” is judged. Since it is included in the third character in the target character, the total point is “40 + 30” and becomes “70”. Similarly, in the case of the third candidate name “private Kiyoaki University attached elementary school”, the abbreviated character information “Akira” is the second character in the character to be judged, and the abbreviated character information “Saku” is the fourth character in the character to be judged. The total points are “35 + 25” and “60”.

上記の処理の結果、判定部15は、略称に対応する正式名称である可能性が一番高い候補名称は、70ポイントの第二候補名称「私立明治学園付属小学校」、次いで正式名称である可能性があるのは、60ポイントの第三候補名称「私立清明大学付属小学校」、最後に正式名称である可能性が一番低いのは、35ポイントの第一候補名称「大阪市立高明東小学校」であるとする判定結果を導き出す。そして、導き出した判定結果を制御部16に送信する。   As a result of the above processing, the determination unit 15 may most likely be the official name corresponding to the abbreviation, the candidate name being the second candidate name “private Meiji Gakuen Attached Elementary School” of 70 points, and then the official name. The 60-point third candidate name “Private Kiyoaki University Elementary School” is the most likely, and the last official name is the least likely to be the 35-point first candidate name “Osaka City Komyo East Elementary School”. The determination result is derived as. Then, the derived determination result is transmitted to the control unit 16.

制御部16は、判定部15から受け取った判定結果に基づいて制御を行い、端末Aの表示装置5にその結果を表示させる(S106)。制御の内容については、〔実施例1−処理プロセス(1)〕と同様である。   The control unit 16 performs control based on the determination result received from the determination unit 15, and displays the result on the display device 5 of the terminal A (S106). The contents of the control are the same as those in [Example 1-Processing process (1)].

上記以外の本実施例特有の制御として、制御部16は、略称を正式名称に変換せず、判定部15において判定された正式名称である可能性に基づいて、候補名称を略称の変換候補として、判定部15で算出したポイントと併せてランキング形式で表示させるという制御を行ってもよい。   As a control specific to this embodiment other than the above, the control unit 16 does not convert the abbreviated name into an official name, and based on the possibility that the abbreviated name is determined by the determining unit 15, the candidate name is used as an abbreviated conversion candidate. The control may be performed such that the points are displayed in a ranking format together with the points calculated by the determination unit 15.

上述の実施形態とすることにより、予め比較条件などを特に設定する必要もなく正式名称判定を行うことができ、さらに、各候補名称について、略称に対応する正式名称である可能性をより詳細に把握することが可能となる。   By adopting the above-described embodiment, it is possible to perform a formal name determination without the need to set a comparison condition in advance, and more specifically, each candidate name may be a formal name corresponding to an abbreviation. It becomes possible to grasp.

〔実施例1−処理プロセス(3)〕
次に、正式名称の判定方法について、(3)単語中における略称構成文字情報の位置に応じたポイントで判定する方法を用いた場合における、本発明の正式名称判定システムにおける処理プロセスの一例を、図3の機能ブロック図及び図4のフローチャート等を用いて説明する。なお、略称の抽出方法では、(1)所定領域の情報を全て略称として抽出する方法を用いるものとする。
[Example 1-Treatment process (3)]
Next, with regard to the method for determining the formal name, (3) an example of a processing process in the formal name determination system of the present invention in the case of using a method for determining at a point corresponding to the position of the abbreviation constituent character information in the word, This will be described with reference to the functional block diagram of FIG. 3, the flowchart of FIG. In the abbreviation extraction method, (1) a method of extracting all information of a predetermined area as abbreviations is used.

図4のフローチャートにおける(S101)から(S104)、並びに(S106)の動作については〔実施例1−処理プロセス(1)〕及び〔実施例1−処理プロセス(2)〕と同様のため、その説明を省略する。   The operations from (S101) to (S104) and (S106) in the flowchart of FIG. 4 are the same as [Example 1-Processing Process (1)] and [Example 1-Processing Process (2)]. Description is omitted.

判定部15は、略称取得部12から受け取った略称の略称構成文字情報が、候補名称抽出部14から受け取った候補名称を単語に分割した各単語中においてどの位置に含まれているかによってポイントを算出し、算出したポイントに応じて正式名称である可能性を判定する(S105)。そして、判定した結果を制御部16に送信する。   The determination unit 15 calculates points depending on where the abbreviation constituent character information of the abbreviation received from the abbreviation acquisition unit 12 is included in each word obtained by dividing the candidate name received from the candidate name extraction unit 14 into words. Then, the possibility of an official name is determined according to the calculated point (S105). Then, the determined result is transmitted to the control unit 16.

上記の処理を本実施例で説明する。まず、本発明の正式名称判定システムは、文字位置ポイントテーブル(図示せず)を有しており、候補名称において判定対象となる文字の位置に応じてポイントが予め定められている。文字位置ポイントテーブルに記憶されている情報の一例を図11に示す。   The above processing will be described in the present embodiment. First, the formal name determination system of the present invention has a character position point table (not shown), and points are determined in advance according to the position of the character to be determined in the candidate name. An example of information stored in the character position point table is shown in FIG.

次に、判定部15における比較条件を設定する。ここでは、比較条件として「大阪市立」・「私立」・「小学校」といった定型文字は判定対象に含まないという判定除外文字設定も併せて行っておくと好適である。本実施例では、この判定除外文字設定を行うものとする。   Next, a comparison condition in the determination unit 15 is set. Here, as a comparison condition, it is preferable to set a determination exclusion character setting that does not include a fixed character such as “Osaka City”, “private”, or “elementary school” as a determination target. In this embodiment, this determination exclusion character setting is performed.

そして、判定部15は、候補名称抽出部14から受け取った候補名称の判定対象となる文字を単語に分割する。続いて、分割した単語中において何文字目に略称構成文字情報が含まれているかを判定し、前述の文字位置ポイントテーブル(図示せず)から、判定した文字数に対応するポイントを抽出し、候補名称毎に合計ポイントを算出する。   And the determination part 15 divides | segments the character used as the determination object of the candidate name received from the candidate name extraction part 14 into a word. Subsequently, it is determined what character abbreviation constituent character information is included in the divided word, and a point corresponding to the determined number of characters is extracted from the above-described character position point table (not shown). Total points are calculated for each name.

上記の処理を具体的に説明する。まず、第一候補名称「大阪市立高明東小学校」の場合、判定対象となる文字を単語に分割すると「高明」・「東」となる。次に、分割した各単語に対して略称構成文字情報を含んでいるか否かの判定を行う。この場合、略称構成文字情報「明」が最初の単語の2文字目に含まれているので、ポイントは「20」となる。次に、第二候補名称「私立明治学園付属小学校」の場合、判定対象となる文字を単語に分割すると「明治」・「学園」・「付属」となる。この場合、略称構成文字情報「明」が最初の単語の1文字目に含まれ、略称構成文字情報「学」が2番目の単語の1文字目に含まれているので、合計ポイントは「40+40」で「80」となる。同様に、第三候補名称「私立清明大学付属小学校」の場合、判定対象となる文字を単語に分割すると「清明」・「大学」・「付属」となる。この場合、略称構成文字情報「明」が最初の単語の2文字目に含まれ、略称構成文字情報「学」が2番目の単語の2文字目に含まれているので、合計ポイントは「20+20」で「40」となる。   The above processing will be specifically described. First, in the case of the first candidate name “Osaka City Takamyo Higashi Elementary School”, when the character to be determined is divided into words, it becomes “Kohmei” and “East”. Next, it is determined whether or not each divided word includes abbreviation constituent character information. In this case, since the abbreviation constituent character information “Ming” is included in the second character of the first word, the point is “20”. Next, in the case of the second candidate name “private Meiji Gakuen Attached Elementary School”, when the character to be judged is divided into words, it becomes “Meiji”, “Gakuen”, “Attached”. In this case, since the abbreviation constituent character information “Akira” is included in the first character of the first word and the abbreviation constituent character information “Study” is included in the first character of the second word, the total point is “40 + 40”. To “80”. Similarly, in the case of the third candidate name “private Kiyoaki University attached elementary school”, when the character to be determined is divided into words, it becomes “Kiyoaki”, “University”, and “Attached”. In this case, since the abbreviation constituent character information “Akira” is included in the second character of the first word and the abbreviation constituent character information “Study” is included in the second character of the second word, the total point is “20 + 20”. To “40”.

上記の処理の結果、判定部15は、略称に対応する正式名称である可能性が一番高い候補名称は、80ポイントの第二候補名称「私立明治学園付属小学校」、次いで正式名称である可能性があるのは、40ポイントの第三候補名称「私立清明大学付属小学校」、最後に正式名称である可能性が一番低いのは、20ポイントの第一候補名称「大阪市立高明東小学校」であるとする判定結果を導き出す。導き出した判定結果は、制御部16に送信する。   As a result of the above processing, the determination unit 15 may most likely be the official name corresponding to the abbreviation. The candidate name that is most likely to be an abbreviated name is an 80-point second candidate name “private Meiji Gakuen Elementary School”, and then the official name. The third candidate name "Private Kiyoaki University Elementary School" with 40 points is the most likely, and the last one with the lowest possibility of being the official name is the 20 point first candidate name "Osaka City Komei East Elementary School" The determination result is derived as. The derived determination result is transmitted to the control unit 16.

上述の実施形態とすることにより、「単語を構成する先頭の文字情報をつなげて略称が生成されることが多い」というような、略称を生成する際の一般的な傾向を利用した判定を行うことができ、正式名称の判定精度を向上させることができる。   By using the above-described embodiment, a determination is made using a general tendency when abbreviations are generated, such as “the abbreviations are often generated by connecting the first character information constituting words”. It is possible to improve the accuracy of official name determination.

〔実施例1−処理プロセス(4)〕
次に、正式名称の判定方法について、(4)略称構成文字情報を含んだ単語の位置に応じたポイントで判定する方法を用いた場合における、本発明の正式名称判定システムにおける処理プロセスの一例を、図3の機能ブロック図及び図4のフローチャート等を用いて説明する。なお、略称の抽出方法では、(1)所定領域の情報を全て略称として抽出する方法を用いるものとする。
[Example 1-Treatment process (4)]
Next, as an official name determination method, (4) an example of a processing process in the official name determination system of the present invention in the case of using a method of determining at a point corresponding to the position of a word including abbreviation constituent character information. This will be described with reference to the functional block diagram of FIG. 3, the flowchart of FIG. In the abbreviation extraction method, (1) a method of extracting all information of a predetermined area as abbreviations is used.

図4のフローチャートにおける(S101)から(S104)、並びに(S106)の動作については〔実施例1−処理プロセス(1)〕及び〔実施例1−処理プロセス(2)〕と同様のため、その説明を省略する。   The operations from (S101) to (S104) and (S106) in the flowchart of FIG. 4 are the same as [Example 1-Processing Process (1)] and [Example 1-Processing Process (2)]. Description is omitted.

判定部15は、略称取得部12から受け取った略称の略称構成文字情報が、候補名称抽出部14から受け取った候補名称を単語に分割した各単語中においてどの単語の中に含まれているかを特定する。また、特定した単語が候補名称中において何番目の位置にあるかによってポイントを算出し、算出したポイントに応じて正式名称である可能性を判定する(S105)。そして、判定した結果を制御部16に送信する。   The determination unit 15 specifies which word the abbreviation constituent character information of the abbreviation received from the abbreviation acquisition unit 12 is included in each word obtained by dividing the candidate name received from the candidate name extraction unit 14 into words. To do. Further, a point is calculated according to the position of the identified word in the candidate name, and the possibility of being an official name is determined according to the calculated point (S105). Then, the determined result is transmitted to the control unit 16.

上記の処理を本実施例で説明する。まず、本発明の正式名称判定システムは、単語位置ポイントテーブル(図示せず)を有しており、候補名称において判定対象となる文字を有する単語の位置に応じてポイントが予め定められている。単語位置ポイントテーブルに記憶されている情報の一例を図12に示す。   The above processing will be described in the present embodiment. First, the formal name determination system of the present invention has a word position point table (not shown), and points are determined in advance according to the positions of words having characters to be determined in candidate names. An example of information stored in the word position point table is shown in FIG.

次に、判定部15における比較条件を設定する。ここでは、比較条件として「大阪市立」・「私立」・「小学校」といった定型文字は判定対象に含まないという判定除外文字設定も併せて行っておくと好適である。本実施例では、この判定除外文字設定を行うものとする。   Next, a comparison condition in the determination unit 15 is set. Here, as a comparison condition, it is preferable to set a determination exclusion character setting that does not include a fixed character such as “Osaka City”, “private”, or “elementary school” as a determination target. In this embodiment, this determination exclusion character setting is performed.

そして、判定部15は、候補名称抽出部14から受け取った候補名称の判定対象となる文字を単語に分割する。続いて、略称構成文字情報を含んでいる単語を特定し、その単語が判定対象中の何番目に位置しているのかを判定し、前述の単語位置ポイントテーブル(図示せず)から、判定した単語の位置に対応するポイントを抽出し、名称毎に合計ポイントを算出する。 And the determination part 15 divides | segments the character used as the determination object of the candidate name received from the candidate name extraction part 14 into a word. Subsequently, the word including the abbreviation constituent character information is specified, the number of the word in the determination target is determined, and the determination is made from the above-described word position point table (not shown). Points corresponding to word positions are extracted, and total points are calculated for each name.

上記の処理を具体的に説明する。まず、第一候補名称「大阪市立高明東小学校」の場合、判定対象となる文字を単語に分割すると「高明」・「東」となる。次に、略称構成文字情報を含んでいる単語の位置の判定を行う。この場合、略称構成文字情報「明」が1単語目に含まれているので、ポイントは「40」となる。次に、第二候補名称「私立明治学園付属小学校」の場合、判定対象となる文字を単語に分割すると「明治」・「学園」・「付属」となる。この場合、略称構成文字情報「明」が1単語目に含まれ、略称構成文字情報「学」が2単語目に含まれているので、合計ポイントは「40+40」で「80」となる。同様に、第三候補名称「私立清明大学付属小学校」の場合、判定対象となる文字を単語に分割すると「清明」・「大学」・「付属」となる。この場合、略称構成文字情報「明」が1単語目に含まれ、略称構成文字情報「学」が2単語目に含まれているので、合計ポイントは「40+40」で「80」となる。   The above processing will be specifically described. First, in the case of the first candidate name “Osaka City Takamyo Higashi Elementary School”, when the character to be determined is divided into words, it becomes “Kohmei” and “East”. Next, the position of the word including the abbreviation constituent character information is determined. In this case, since the abbreviation constituent character information “Ming” is included in the first word, the point is “40”. Next, in the case of the second candidate name “private Meiji Gakuen Attached Elementary School”, when the character to be judged is divided into words, it becomes “Meiji”, “Gakuen”, “Attached”. In this case, since the abbreviation constituent character information “Akira” is included in the first word and the abbreviation constituent character information “Study” is included in the second word, the total point is “40 + 40”, which is “80”. Similarly, in the case of the third candidate name “private Kiyoaki University attached elementary school”, when the character to be determined is divided into words, it becomes “Kiyoaki”, “University”, and “Attached”. In this case, since the abbreviation constituent character information “Akira” is included in the first word and the abbreviation constituent character information “Study” is included in the second word, the total point is “40 + 40”, which is “80”.

上記の処理の結果、判定部15は、略称に対応する正式名称である可能性が高い候補名称は、80ポイントの第二候補名称「私立明治学園付属小学校」と第三候補名称「私立清明大学付属小学校」、正式名称である可能性が低いのは、20ポイントの第一候補名称「大阪市立高明東小学校」であるとする判定結果を導き出す。導き出した判定結果は、制御部16に送信する。   As a result of the above processing, the determination unit 15 determines that the candidate names that are likely to be official names corresponding to the abbreviations are the second candidate name “private Meiji Gakuen Elementary School” of 80 points and the third candidate name “private Kiyoake University The determination result that the possibility that the attached name is “official name” and the official name is low is the 20-point first candidate name “Osaka City Takamyo Higashi Elementary School” is derived. The derived determination result is transmitted to the control unit 16.

上述の実施形態とすることにより、「各単語に含まれる文字情報抽出して略称が生成されることが多い」というような、略称を生成する際の一般的な傾向を利用した判定を行うことができる。   By using the above-described embodiment, a determination is made using a general tendency when generating abbreviations, such as "often extracted abbreviations by extracting character information contained in each word" Can do.

〔実施例2−構成〕
次に、図13の機能ブロック図を用いて、本発明の正式名称判定システムの第2実施形態を説明する。なお、実施例1と同じ構成部には同一の符号を付している。さらに、その同一構成部に関して同一の動作を行う場合は、その詳細な説明を省略する。
Example 2 Configuration
Next, a second embodiment of the formal name determination system of the present invention will be described using the functional block diagram of FIG. In addition, the same code | symbol is attached | subjected to the same component as Example 1. FIG. Furthermore, when performing the same operation | movement regarding the same structure part, the detailed description is abbreviate | omitted.

本発明の正式名称判定システムの第2実施形態は、端末Aの内部に、予め定められた特別文字情報を記憶しておく特別文字情報記憶部17を備えているという点において、実施例1の実施形態と異なっている。   The second embodiment of the official name determination system of the present invention is that the terminal A is provided with a special character information storage unit 17 for storing special character information determined in advance. It is different from the embodiment.

本実施例では、実施例1のように候補名称中に含まれている略称構成文字情報の位置に応じて判定することに加えて、予め定められた特別文字情報が候補名称中に含まれているかという要素も加味して判定を行うという点に特徴がある。   In the present embodiment, in addition to the determination according to the position of the abbreviation constituent character information included in the candidate name as in the first embodiment, predetermined special character information is included in the candidate name. It is characterized in that the determination is made with the element of whether or not.

以下、各構成部の動作について説明する。なお、実施例1と同様の構成部又は動作については、その詳細な説明を省略する。   Hereinafter, the operation of each component will be described. Note that detailed description of the same components or operations as those in the first embodiment will be omitted.

特別文字情報記憶部17は、予め登録された複数の特別文字情報を記憶する。この特別文字情報とは、略称を生成する際に一般的によく用いられる文字情報のことである。例えば、「東」・「西」・「南」・「北」等の方角を示す文字情報や、「一」・「二」・「三」等の数字を示す文字情報などがある。また、特別文字情報は必ずしも一文字とは限らず、二文字以上で構成される一連の文字情報を特別文字情報として記憶するという形式でもよい。   The special character information storage unit 17 stores a plurality of special character information registered in advance. This special character information is character information that is commonly used when generating abbreviations. For example, there are character information indicating directions such as “east”, “west”, “south”, and “north”, and character information indicating numbers such as “one”, “two”, and “three”. Further, the special character information is not necessarily one character, and a series of character information composed of two or more characters may be stored as the special character information.

判定部15は、略称取得部12から受け取った略称中に、特別文字情報記憶部17に記憶された特別文字情報が含まれているかどうかを検索する。検索の結果、特別文字情報が略称中から検出された場合、その検出された特別文字情報を含んでいる候補名称の正式名称である可能性が高くなるように判定結果を補正する。そして、判定部15は、この補正が加えられた判定結果を制御部16に送信する。   The determination unit 15 searches whether the special character information stored in the special character information storage unit 17 is included in the abbreviation received from the abbreviation acquisition unit 12. As a result of the search, when the special character information is detected from the abbreviations, the determination result is corrected so that there is a high possibility that it is the official name of the candidate name including the detected special character information. Then, the determination unit 15 transmits the determination result with this correction added to the control unit 16.

〔実施例2−処理プロセス〕
次に、本発明の正式名称判定システムにおける処理プロセスの一例を、図13の機能ブロック図及び図4のフローチャート等を用いて説明する。なお、以下の説明では教育分野における学校名の名称とそれに対応する正式名称を判定する場合を例に説明する。また、略称の抽出方法では、(1)所定領域の情報を全て略称として抽出する方法を用い、正式名称の判定方法では、(2)略称構成文字情報の位置に応じたポイントで判定する方法を用いた場合について説明する。
Example 2 Treatment Process
Next, an example of a processing process in the formal name determination system of the present invention will be described with reference to the functional block diagram of FIG. 13, the flowchart of FIG. In the following description, a case where the name of a school name in the education field and the official name corresponding thereto are determined will be described as an example. In the abbreviation extraction method, (1) a method of extracting all information of a predetermined area as abbreviations is used, and in a formal name determination method, (2) a method of determining at a point according to the position of abbreviation constituent character information. The case where it is used will be described.

図4のフローチャートにおける(S101)から(S104)の動作については〔実施例1−処理プロセス(1)〕と同様のため、その説明を省略する。以下、本実施例では、原稿「連絡先一覧表」を構成する文書データのうち、所定の位置「所属学校」の列に記載されている一連の文字情報のうち、略称として「教学三小」を抽出した場合について説明する。   Since the operations from (S101) to (S104) in the flowchart of FIG. 4 are the same as those in [Example 1-Processing process (1)], the description thereof is omitted. Hereinafter, in the present embodiment, among the series of character information described in the column of the “affiliation school” at a predetermined position among the document data constituting the manuscript “contact list”, the abbreviation “Science 3 Elementary” A case in which is extracted will be described.

候補名称抽出部14は、略称取得部12から取得した略称の略称構成文字情報を含む固有名詞を、固有名詞記憶部13から候補名称として抽出する(S104)。そして、抽出した候補名称を判定部15に送信する。   The candidate name extraction unit 14 extracts a proper noun including the abbreviation abbreviation constituent character information acquired from the abbreviation acquisition unit 12 from the proper noun storage unit 13 as a candidate name (S104). Then, the extracted candidate name is transmitted to the determination unit 15.

上記の処理を本実施例で説明する。まず、候補名称抽出部14は、略称構成文字情報「教」・「学」・「三」・「小」を二つ以上含む固有名詞を固有名詞記憶部13から取得する。次に、固有名詞記憶部13に記憶されている情報が図6の通りであった場合、候補名称抽出部14は、第一候補名称「私立教育大学付属第三小学校」・第二候補名称「私立教生学園小学校」の二つの候補名称を抽出する。   The above processing will be described in the present embodiment. First, the candidate name extraction unit 14 acquires, from the proper noun storage unit 13, proper nouns including two or more abbreviation constituent character information “tea”, “study”, “three”, and “small”. Next, when the information stored in the proper noun storage unit 13 is as shown in FIG. Extract two candidate names of “Private School Student Elementary School”.

判定部15は、略称取得部12から受け取った略称の略称構成文字情報が、候補名称抽出部14から受け取った候補名称中においてどの位置に含まれているかによってポイントを算出する。さらに、略称の中に特別文字情報記憶部17に記憶した特別文字情報が含まれているかを検索し、特別文字情報が略称中から検出された場合、その検出された特別文字情報を含んでいる候補名称の正式名称である可能性が高くなるように算出したポイントを補正する。そして、補正されたポイントに応じて正式名称である可能性を判定し(S105)、判定結果を制御部16に送信する。   The determination unit 15 calculates a point depending on which position in the candidate name received from the candidate name extraction unit 14 the abbreviated abbreviation constituent character information received from the abbreviation acquisition unit 12. Further, it is searched whether the special character information stored in the special character information storage unit 17 is included in the abbreviation, and when the special character information is detected from the abbreviation, the detected special character information is included. The calculated points are corrected so as to increase the possibility that the candidate names are official names. Then, the possibility of an official name is determined according to the corrected point (S105), and the determination result is transmitted to the control unit 16.

上記の処理を本実施例で説明する。まず、本発明の正式名称判定システムは、文字位置ポイントテーブル(図示せず)を有しており、候補名称において判定対象となる文字の位置に応じてポイントが予め定められている。文字位置ポイントテーブルに記憶されている情報の一例を図10に示す。 The above processing will be described in the present embodiment. First, the formal name determination system of the present invention has a character position point table (not shown), and points are determined in advance according to the position of the character to be determined in the candidate name. An example of information stored in the character position point table is shown in FIG.

次に、判定部15における比較条件を設定する。ここでは、比較条件として「大阪市立」・「私立」・「小学校」といった定型文字は判定対象に含まないという判定除外文字設定も併せて行っておくと好適である。本実施例では、この判定除外文字設定を行うものとする。   Next, a comparison condition in the determination unit 15 is set. Here, as a comparison condition, it is preferable to set a determination exclusion character setting that does not include a fixed character such as “Osaka City”, “private”, or “elementary school” as a determination target. In this embodiment, this determination exclusion character setting is performed.

そして、判定部15は、候補名称抽出部14から受け取った各候補名称に対して、何文字目に略称構成文字情報が含まれているかを判定し、前述の文字位置ポイントテーブル(図示せず)から、判定した文字数に対応するポイントを抽出し、候補名称毎に合計ポイントを算出する。   And the determination part 15 determines what abbreviation constituent character information is contained in each character with respect to each candidate name received from the candidate name extraction part 14, and the above-mentioned character position point table (not shown). Then, the points corresponding to the determined number of characters are extracted, and the total points are calculated for each candidate name.

上記の処理を具体的に説明する。まず、第一候補名称「私立教育大学付属第三小学校」の場合、略称構成文字情報「教」が判定対象文字中の1文字目に含まれており、略称構成文字情報「学」が判定対象文字中の4文字目に含まれており、略称構成文字情報「三」が判定対象文字中の8文字目に含まれているため、合計ポイントは「40+25+5」で「70」となる。同様に、第二候補名称「私立教生学園小学校」の場合、略称構成文字情報「教」が判定対象文字中の1文字目、略称構成文字情報「学」が判定対象文字中の3文字目に含まれているため、合計ポイントは「40+30」で「70」となる。   The above processing will be specifically described. First, in the case of the first candidate name “Private University of Education attached third elementary school”, the abbreviation constituent character information “Kyo” is included in the first character of the judgment target character, and the abbreviation constituent character information “Study” is subject to judgment. Since the abbreviation constituent character information “three” is included in the eighth character in the determination target character, the total point is “40 + 25 + 5”, which is “70”. Similarly, in the case of the second candidate name “Private Gakuen Gakuen Elementary School”, the abbreviated character information “Kyo” is the first character in the character to be determined, and the abbreviated character information “Gaku” is the third character in the character to be determined. Since it is included, the total point is “40 + 30” and becomes “70”.

次に、判定部15は、略称取得部12から受け取った略称中に特別文字情報記憶部17に記憶された特別文字情報が含まれているかどうかを検索する。特別文字情報記憶部17に記憶されている情報の一例を、図14に示す。そして、特別文字情報が略称中から検出された場合、その検出された特別文字情報を含んでいる候補名称の正式名称である可能性が高くなるように、算出したポイントに対して補正を加える。   Next, the determination unit 15 searches whether the special character information stored in the special character information storage unit 17 is included in the abbreviation received from the abbreviation acquisition unit 12. An example of information stored in the special character information storage unit 17 is shown in FIG. When the special character information is detected from the abbreviations, the calculated points are corrected so that there is a high possibility that the candidate names include the detected special character information.

上記の処理を具体的に説明する。まず、略称「教学三小」の中に特別文字情報が含まれているかどうかを検索すると、特別文字情報「三」が含まれていることが検出される。そして、この特別文字情報「三」を含んでいるのは第一候補名称「私立教育大学付属第三小学校」であるので、第一候補名称のポイントに補正ポイントを加える。ここでは、補正ポイント「30」を加えることとする。この補正を行った結果、第一候補名称「私立教育大学付属第三小学校」の合計ポイントは、「40+25+5+30」で「100」となる。   The above processing will be specifically described. First, when a search is made as to whether special character information is included in the abbreviation “Three minors of teaching”, it is detected that special character information “three” is included. Since the special character information “three” is included in the first candidate name “third elementary school attached to private education university”, a correction point is added to the point of the first candidate name. Here, a correction point “30” is added. As a result of this correction, the total number of the first candidate name “third elementary school attached to private university of education” is “40 + 25 + 5 + 30”, which is “100”.

上記の補正処理の結果、判定部15は、略称に対応する正式名称である可能性が一番高い候補名称は、100ポイントの第一候補名称「私立教育大学付属第三小学校」、次いで正式名称である可能性があるのは、70ポイントの第二候補名称「私立教生学園小学校」であるとする判定結果を導き出す。そして、導き出した判定結果を制御部16に送信する。   As a result of the above correction process, the determination unit 15 has a candidate name that is most likely an official name corresponding to the abbreviation. It is possible to obtain a determination result that it is the second candidate name “Private Gakuen Gakuen Elementary School” of 70 points. Then, the derived determination result is transmitted to the control unit 16.

制御部16は、判定部15から受け取った判定結果に基づいて制御を行い、端末Aの表示装置5にその結果を表示させる(S106)。制御の内容については、〔実施例1−処理プロセス(1)〕と同様である。   The control unit 16 performs control based on the determination result received from the determination unit 15, and displays the result on the display device 5 of the terminal A (S106). The contents of the control are the same as those in [Example 1-Processing process (1)].

上述の実施形態とすることにより、一般的に略称に用いられる傾向が高い文字情報を、正式名称判定の要素に組み込むことにより、より精度の高い正式名称判定を実現することができる。 By adopting the above-described embodiment, more accurate formal name determination can be realized by incorporating character information, which is generally used as an abbreviation, into elements of formal name determination.

次に、図15の機能ブロック図を用いて、本発明の正式名称判定システムの第3実施形態を説明する。なお、実施例1と同じ構成部には同一の符号を付している。   Next, a third embodiment of the formal name determination system of the present invention will be described using the functional block diagram of FIG. In addition, the same code | symbol is attached | subjected to the same component as Example 1. FIG.

本発明の正式名称判定システムの第3実施形態は、端末Aの通信装置3と読取装置Bとを必要としないという点において、実施例1の実施形態と異なっている。   The third embodiment of the formal name determination system of the present invention is different from the first embodiment in that the communication device 3 and the reading device B of the terminal A are not required.

本実施例では、実施例1のように読取装置Bによって原稿を読み取って取得したデータを用いるのではなく、表示装置5によって表示された内容から取得したデータを用いるという点に特徴がある。データの取得から文書データ生成までの処理以外は、実施例1と同様の処理が行われる。   The present embodiment is characterized in that the data acquired from the content displayed by the display device 5 is used instead of using the data acquired by reading the document by the reading device B as in the first embodiment. Except for processing from data acquisition to document data generation, processing similar to that in the first embodiment is performed.

以下、文字情報認識部11の動作について説明する。なお、その他の構成部に関する動作及び処理フローは実施例1と同様のため、詳細な説明を省略する。   Hereinafter, the operation of the character information recognition unit 11 will be described. Since the operation and processing flow relating to the other components are the same as those in the first embodiment, detailed description thereof will be omitted.

文字情報認識部11は、表示装置5に表示された情報を取得し、取得した情報から文書を構成する一連の文字情報を認識手段により認識して文書データを生成し、生成した文書データを略称取得部12に送信する。   The character information recognition unit 11 acquires information displayed on the display device 5, generates a document data by recognizing a series of character information constituting the document from the acquired information by a recognition unit, and abbreviates the generated document data. The data is transmitted to the acquisition unit 12.

上記の文書データ生成方法としては、様々な方法を用いることができる。例えば、(1)表示された全ての情報を取得する方法、(2)指定された範囲の情報を取得する方法、(3)指定された対象に関連する情報を取得する方法、(4)文字変換の対象となっている情報を取得する方法、という四つの方法が考えられる。また、上記の(2)と(3)の方法における範囲・対象を指定する方法については、予め定められた範囲・対象を自動的に指定するとしてもよいし、ユーザが任意の範囲・対象を指定するとしてもよい。   Various methods can be used as the document data generation method. For example, (1) a method for acquiring all displayed information, (2) a method for acquiring information in a specified range, (3) a method for acquiring information related to a specified object, (4) characters There are four methods, that is, a method of acquiring information to be converted. In addition, with respect to the method of specifying the range / target in the methods (2) and (3) above, a predetermined range / target may be automatically specified, or the user can select any range / target. May be specified.

〔文書データ生成方法(1)〕
表示装置5に表示された全ての情報を取得して文書データを生成する方法について説明する。この方法は、表示装置5に表示された情報を画像データとして取得し、取得した画像データの中から文書を構成する一連の文字情報を文書データとして抽出するという方法である。例えば、端末Aのディスプレイで表示している画像内の文字情報に関して、略称を全て正式名称に変換する場合、この方法を用いると好適である。
[Document Data Generation Method (1)]
A method of acquiring all information displayed on the display device 5 and generating document data will be described. In this method, information displayed on the display device 5 is acquired as image data, and a series of character information constituting a document is extracted as document data from the acquired image data. For example, when all the abbreviations are converted into formal names for the character information in the image displayed on the display of the terminal A, it is preferable to use this method.

〔文書データ生成方法(2)〕
表示装置5に表示された情報のうち、指定された範囲の情報を取得して文書データを生成する方法について説明する。この方法は、表示装置5に表示された情報のうち、ユーザが指定した範囲の中から文書を構成する一連の文字情報を文書データとして抽出するという方法である。例えば、端末Aのディスプレイで表示している情報において、ユーザがマウス等の入力装置4を用いて指定した任意の範囲の文字情報に関して、その中に含まれている略称を正式名称に変換する場合、この方法を用いると好適である。
[Document data generation method (2)]
A description will be given of a method of generating document data by acquiring information in a specified range from information displayed on the display device 5. This method is a method in which a series of character information constituting a document is extracted as document data from a range designated by the user from information displayed on the display device 5. For example, in the information displayed on the display of the terminal A, with respect to character information in an arbitrary range designated by the user using the input device 4 such as a mouse, the abbreviations contained therein are converted into formal names It is preferable to use this method.

〔文書データ生成方法(3)〕
表示装置5に表示された情報のうち、指定された対象に関連する情報を取得して文書データを生成する方法について説明する。この方法は、表示装置5に表示された情報のうち、ユーザが指定した対象が指し示すデータを検索し、その中から文書を構成する一連の文字情報を文書データとして抽出するという方法である。例えば、端末Aのディスプレイで表示している情報において、ユーザがマウス等の入力装置4を用いて指定したファイルやフォルダ等を示すアイコンにおいて、そのアイコンが指し示すデータ内に含まれている文字情報に関して、略称を正式名称に変換する場合、この方法を用いると好適である。
[Document data generation method (3)]
A method for generating document data by acquiring information related to a specified target from among information displayed on the display device 5 will be described. This method is a method of searching data indicated by a target designated by the user from information displayed on the display device 5, and extracting a series of character information constituting the document from the information as document data. For example, in the information displayed on the display of the terminal A, regarding an icon indicating a file, a folder, or the like designated by the user using the input device 4 such as a mouse, character information included in data indicated by the icon In the case of converting an abbreviation to an official name, this method is preferably used.

〔文書データ生成方法(4)〕
表示装置5に表示された情報のうち、文字変換の対象となっている情報を取得して文書データを生成する方法について説明する。この方法は、表示装置5に表示された情報のうち、ユーザが変換候補として指定した範囲の中から文書を構成する一連の文字情報を文書データとして抽出するという方法である。例えば、ユーザがキーボード等の入力装置4を用いて略称を直接入力し、ユーザが変換指示を行った際にその略称を正式名称に変換するという場合、この方法を用いると好適である。
[Document data generation method (4)]
A description will be given of a method of acquiring document data from among information displayed on the display device 5 and generating document data. This method is a method in which a series of character information constituting a document is extracted as document data from a range designated by the user as a conversion candidate from information displayed on the display device 5. For example, when the user directly inputs an abbreviation using the input device 4 such as a keyboard, and the user gives a conversion instruction, the abbreviation is converted into an official name.

上述の文書データ生成方法(1)から(4)について、いずれか一つの方法で文書データを生成しても良いし、複数の方法の組み合わせによって文書データを生成するようにしてもかまわない。   Regarding the document data generation methods (1) to (4) described above, the document data may be generated by any one method, or the document data may be generated by a combination of a plurality of methods.

上述の実施形態とすることにより、スキャナー等の読取装置を用いない場合であっても、本発明の正式名称判定システムを実行させることが可能となる。   By adopting the above-described embodiment, the formal name determination system of the present invention can be executed even when a reading device such as a scanner is not used.

次に、図16及び図17を用いて、本発明の正式名称判定システムの第4実施形態について説明する。   Next, a fourth embodiment of the formal name determination system of the present invention will be described using FIG. 16 and FIG.

図16は、本発明の正式名称判定システムの第4実施形態における全体構成の一例を概念的に示す。本発明は図16に示すように、端末Aと読取装置Bとが直接接続され、端末Aと管理サーバCとがネットワークNを介して接続されるという形で構成されている。端末Aと読取装置Bとの接続形式は、直接接続でもネットワークNを介した接続でも、そのどちらであっても構わない。本発明は、このようなサーバ・クライアントシステム形式で構成することもできる。 FIG. 16 conceptually shows an example of the overall configuration in the fourth embodiment of the formal name determination system of the present invention. As shown in FIG. 16, the present invention is configured such that the terminal A and the reading device B are directly connected, and the terminal A and the management server C are connected via a network N. The connection format between the terminal A and the reading device B may be either a direct connection or a connection via the network N. The present invention can also be configured in such a server / client system format.

図17は、本発明の正式名称判定システムを構成する端末A、読取装置B及び管理サーバCの機能ブロック図を示す。本発明における各構成部及び各手段は、その機能が論理的に区別されているのみであって、物理上あるいは事実上同一の領域を為していてもよい。なお、実施例1と同様の処理を行う構成部には、実施例1と同一の符号を付している。   FIG. 17 shows a functional block diagram of the terminal A, the reading device B, and the management server C that constitute the formal name determination system of the present invention. Each component and each means in the present invention are only logically distinguished in function, and may be physically or virtually identical. Note that the same reference numerals as those in the first embodiment are assigned to components that perform the same processing as in the first embodiment.

端末Aは、ネットワークNを通じて管理サーバCと情報を送受信するネットワークI/F20、取得したデータから文書を構成する一連の文字情報を認識して文書データとして取得し管理サーバCに送信する文字情報認識部11、管理サーバCから受信した判定結果に応じて端末の制御を行う制御部16、を備えている。   The terminal A recognizes a network I / F 20 that transmits / receives information to / from the management server C through the network N, and recognizes a series of character information constituting the document from the acquired data, acquires it as document data, and transmits it to the management server C. Unit 11 and a control unit 16 that controls the terminal according to the determination result received from the management server C.

読取装置Bは、原稿に記載された情報を読み取る読取部23、読み取った情報を元にデータを生成するデータ生成部22、生成したデータを端末Aに送信する通信部21、を備えている。   The reading apparatus B includes a reading unit 23 that reads information described in a document, a data generation unit 22 that generates data based on the read information, and a communication unit 21 that transmits the generated data to the terminal A.

管理サーバCは、ネットワークNを通じて端末Aと情報を送受信するネットワークI/F19、端末Aより取得した文書データから固有名詞の略称を抽出して取得する略称取得部12、複数の固有名詞の名称情報を記憶する固有名詞記憶部13、取得した略称を構成する文字情報を含む固有名詞を抽出する候補名称抽出部14、抽出した候補名称に含まれている略称を構成する文字情報の位置に応じて正式名称を判定する判定部15、判定した結果に応じて端末Aを制御する情報を送信する制御指示部16、を備えている。   The management server C includes a network I / F 19 that transmits / receives information to / from the terminal A through the network N, an abbreviation acquisition unit 12 that extracts and acquires an abbreviation of a proper noun from document data acquired from the terminal A, and name information of a plurality of proper nouns According to the position of the character information constituting the abbreviated name included in the extracted candidate name, the candidate name extracting unit 14 for extracting the proper noun including the character information constituting the acquired abbreviation, A determination unit 15 that determines the official name and a control instruction unit 16 that transmits information for controlling the terminal A according to the determination result are provided.

上述の実施形態とすることにより、ネットワークを介して接続された複数の端末に対して、本発明の正式名称判定システムによる制御を行うことが可能となる。   By setting it as the above-mentioned embodiment, it becomes possible to control by the formal name determination system of this invention with respect to the some terminal connected via the network.

A:端末
B:読取装置
C:管理サーバ
N:ネットワーク
1:演算装置
2:記憶装置
3:通信装置
4:入力装置
5:表示装置
11:文字情報認識部
12:略称取得部
13:固有名詞記憶部
14:候補名称抽出部
15:判定部
16:制御部
17:特別文字情報記憶部
18:制御指示部
20:ネットワークI/F
21:通信部
22:データ生成部
23:読取部
A: Terminal B: Reading device C: Management server N: Network 1: Computing device 2: Storage device 3: Communication device 4: Communication device 4: Input device 5: Display device 11: Character information recognition unit 12: Abbreviation acquisition unit 13: Proper noun storage Unit 14: Candidate name extraction unit 15: Determination unit 16: Control unit 17: Special character information storage unit 18: Control instruction unit 20: Network I / F
21: Communication unit 22: Data generation unit 23: Reading unit

Claims (4)

文書データ中から固有名詞の略称を取得する略称取得部と、
固有名詞を示す情報を記憶する固有名詞記憶部と、
前記固有名詞記憶部から前記略称を構成する文字情報を有する固有名詞を候補名称として抽出する候補名称抽出部と、
前記候補名称に含まれている前記略称を構成する文字情報の位置に応じて、前記略称に対応する正式名称を判定する判定部と、
を備えることを特徴とする正式名称判定システム。
An abbreviation acquisition unit for acquiring an abbreviation of a proper noun from document data;
A proper noun storage unit for storing information indicating proper nouns;
A candidate name extraction unit that extracts, as candidate names, proper nouns having character information constituting the abbreviations from the proper noun storage unit;
A determination unit that determines a formal name corresponding to the abbreviation according to a position of character information constituting the abbreviation included in the candidate name;
A formal name determination system characterized by comprising:
前記判定部は、
前記候補名称を単語に分割する手段と、
前記単語中に含まれている前記略称を構成する文字情報の位置に応じて、前記略称に対応する正式名称を判定する手段と、
を有することを特徴とする請求項1に記載の正式名称判定システム。
The determination unit
Means for dividing the candidate name into words;
Means for determining a formal name corresponding to the abbreviation according to a position of character information constituting the abbreviation contained in the word;
The formal name determination system according to claim 1, comprising:
前記正式名称判定システムは、更に、
予め定めた文字情報を特別文字情報として記憶する特別文字情報記憶部を備え、
前記判定部は、
前記候補名称中に含まれている前記特別文字情報に応じて、前記略称に対応する正式名称を判定する
ことを特徴とする請求項1から請求項2に記載の名称判定システム。
The formal name determination system further includes:
A special character information storage unit for storing predetermined character information as special character information;
The determination unit
The name determination system according to claim 1, wherein an official name corresponding to the abbreviation is determined according to the special character information included in the candidate name.
固有名詞を示す情報を記憶する固有名詞記憶部を備える正式名称判定システムのための正式名称判定プログラムであって、
文書データ中から固有名詞の略称を取得する略称取得機能と、
前記固有名詞記憶部から前記略称を構成する文字情報を有する固有名詞を候補名称として抽出する候補名称抽出機能と、
前記候補名称に含まれている前記略称を構成する文字情報の位置に応じて、前記略称に対応する正式名称を判定する判定機能と、
をコンピュータに実現させる正式名称判定プログラム。
A formal name determination program for a formal name determination system including a proper noun storage unit that stores information indicating proper names,
An abbreviation acquisition function for acquiring an abbreviation of a proper noun from document data;
A candidate name extraction function for extracting, as candidate names, proper nouns having character information constituting the abbreviations from the proper noun storage unit;
A determination function for determining an official name corresponding to the abbreviation according to a position of character information constituting the abbreviation included in the candidate name;
An official name determination program that enables a computer to realize
JP2009053346A 2009-03-06 2009-03-06 Formal name determination system and formal name determination program Expired - Fee Related JP5443788B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009053346A JP5443788B2 (en) 2009-03-06 2009-03-06 Formal name determination system and formal name determination program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009053346A JP5443788B2 (en) 2009-03-06 2009-03-06 Formal name determination system and formal name determination program

Publications (2)

Publication Number Publication Date
JP2010211256A true JP2010211256A (en) 2010-09-24
JP5443788B2 JP5443788B2 (en) 2014-03-19

Family

ID=42971398

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009053346A Expired - Fee Related JP5443788B2 (en) 2009-03-06 2009-03-06 Formal name determination system and formal name determination program

Country Status (1)

Country Link
JP (1) JP5443788B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011257922A (en) * 2010-06-08 2011-12-22 Ntt Data Corp Character string input support device, character string input support method and program
US20190089670A1 (en) * 2017-09-19 2019-03-21 Fuji Xerox Co., Ltd. Information processing apparatus
CN116976320A (en) * 2023-09-22 2023-10-31 湖南财信数字科技有限公司 Mechanism short extraction method, device, computer equipment and storage medium

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10105578A (en) * 1996-09-09 1998-04-24 Korea Telecommun Similar word retrieving method utilizing point
JPH1145255A (en) * 1997-07-25 1999-02-16 Just Syst Corp Document retrieval device and computer-readable recording medium where program making computer function as same device is recorded
JPH11353316A (en) * 1998-06-04 1999-12-24 Oki Electric Ind Co Ltd Abbreviated word supplementing device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10105578A (en) * 1996-09-09 1998-04-24 Korea Telecommun Similar word retrieving method utilizing point
JPH1145255A (en) * 1997-07-25 1999-02-16 Just Syst Corp Document retrieval device and computer-readable recording medium where program making computer function as same device is recorded
JPH11353316A (en) * 1998-06-04 1999-12-24 Oki Electric Ind Co Ltd Abbreviated word supplementing device

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011257922A (en) * 2010-06-08 2011-12-22 Ntt Data Corp Character string input support device, character string input support method and program
US20190089670A1 (en) * 2017-09-19 2019-03-21 Fuji Xerox Co., Ltd. Information processing apparatus
US11165737B2 (en) * 2017-09-19 2021-11-02 Fujifilm Business Innovation Corp. Information processing apparatus for conversion between abbreviated name and formal name
CN116976320A (en) * 2023-09-22 2023-10-31 湖南财信数字科技有限公司 Mechanism short extraction method, device, computer equipment and storage medium
CN116976320B (en) * 2023-09-22 2023-12-15 湖南财信数字科技有限公司 Mechanism short extraction method, device, computer equipment and storage medium

Also Published As

Publication number Publication date
JP5443788B2 (en) 2014-03-19

Similar Documents

Publication Publication Date Title
US9384389B1 (en) Detecting errors in recognized text
Gesmundo et al. Lemmatisation as a tagging task
JP2006190006A (en) Text displaying method, information processor, information processing system, and program
US20220358091A1 (en) System and method for integrating message content into a target data processing device
WO2019194028A1 (en) Image processing device, image processing method, and storage medium for storing program
US20070150259A1 (en) Apparatus, Method, and Program Product for Translation and Method of Providing Translation Support Service
CN110472234A (en) Sensitive text recognition method, device, medium and computer equipment
CN112035675A (en) Medical text labeling method, device, equipment and storage medium
JP2010117797A (en) Numeric representation processing apparatus
JP5443788B2 (en) Formal name determination system and formal name determination program
WO2020111827A1 (en) Automatic profile generation server and method
CN110738050A (en) Text recombination method, device and medium based on word segmentation and named entity recognition
KR101565367B1 (en) Method for calculating plagiarism rate of documents by number normalization
AU2013201006A1 (en) Information classification program, information classification method, and information processing apparatus
JP2011238159A (en) Computer system
CN103049434A (en) System and method for identifying anagrams
JP2008015774A (en) Imitation document detection system and program
JP2014006758A (en) Preserved document delivery management system and preserved document delivery management method
JP2000067056A (en) Device for extracting numerical information and device for retrieving numerical information and storage medium for storing numerical information extraction program and storage medium for storing numerical information retrieval program
JP2020091607A (en) Search system and search method
JP5688936B2 (en) Information processing apparatus, information processing method, and program
CN110941709A (en) Information screening method and device, electronic equipment and readable storage medium
JPH08115330A (en) Method for retrieving similar document and device therefor
JP6303508B2 (en) Document analysis apparatus, document analysis system, document analysis method, and program
JP4192142B2 (en) Dictionary registration device, dictionary registration method, and dictionary registration program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130528

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130712

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130917

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131011

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131220

R150 Certificate of patent or registration of utility model

Ref document number: 5443788

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees