JP2007102540A - Character string conversion device and character string conversion program - Google Patents
Character string conversion device and character string conversion program Download PDFInfo
- Publication number
- JP2007102540A JP2007102540A JP2005292350A JP2005292350A JP2007102540A JP 2007102540 A JP2007102540 A JP 2007102540A JP 2005292350 A JP2005292350 A JP 2005292350A JP 2005292350 A JP2005292350 A JP 2005292350A JP 2007102540 A JP2007102540 A JP 2007102540A
- Authority
- JP
- Japan
- Prior art keywords
- conversion
- character
- character string
- rule
- list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
Description
本発明は、文字列変換装置に関し、特に個人名などの個人情報保護のための文字列変換に関する。 The present invention relates to a character string conversion device, and more particularly to character string conversion for protecting personal information such as a personal name.
従来、個人情報保護のために個人名等を非公開とする技術として、電子文書中に含まれる個人名等を示す文字列に対してマスク処理として他の文字列への変換を行う手段を備えた構成が公知となっている(例えば、特許文献1参照。)。
前記特許文献1に記載の構成では、固有名詞辞書に基づきマスク処理対象となる文字列を抽出し、抽出した文字列を他の文字列に変換することによって、個人名等の特定を不可能としている。例えば、「山田 太郎」という人名を「** **」や「人名1」などの文字列に変換している。 In the configuration described in Patent Document 1, a character string to be masked is extracted based on a proper noun dictionary, and the extracted character string is converted into another character string, thereby making it impossible to specify a personal name or the like. Yes. For example, the personal name “Taro Yamada” is converted into a character string such as “****” or “person name 1”.
しかし、前記特許文献1に記載の構成では、変換処理を行った文字列について、元の文字列に復元することは考慮されていなかった。即ち、人名等を示す文字列を全て共通の文字列(例えば、「** **」)に変換した場合には、元の文字列に復元することは不可能となっていた。従って、変換前の内容を確認するためには元の電子文書を保持することが必要となり、個人情報の漏洩リスクを低くすることができなかった。
また、個人名を「人名1」等と変換した場合においても、少なくとも変換前の文字列(氏名)と変換後の文字列(「人名1」等)との対応情報を記憶しておくことが必要となっており、変換前の電子文書を保持する場合と略同様の漏洩リスクを負うこととなっていた。
However, in the configuration described in Patent Document 1, it is not considered to restore the original character string of the character string that has been subjected to the conversion process. That is, when all character strings indicating personal names or the like are converted into a common character string (for example, “****”), it is impossible to restore the original character string. Therefore, it is necessary to retain the original electronic document in order to confirm the content before conversion, and the risk of leakage of personal information cannot be reduced.
Further, even when the personal name is converted to “person name 1” or the like, correspondence information between at least the character string before conversion (name) and the character string after conversion (such as “person name 1”) may be stored. It is necessary and has the risk of leakage almost the same as the case of holding the electronic document before conversion.
本発明は前記課題を解決するためのものであり、個人情報等に該当するものとして、変換処理対象として指定された文字列についての変換処理手段を備えた文字列変換装置において、変換後の文字列に基づき、元の文字列への復元を可能とするとともに、個人情報の漏洩リスクを低くすることが可能となる文字列変換装置を提供することを目的とする。 The present invention is to solve the above-mentioned problem, and in a character string conversion device provided with conversion processing means for a character string designated as a conversion processing target as corresponding to personal information or the like, An object of the present invention is to provide a character string conversion device that enables restoration to an original character string based on a column and also reduces the risk of leakage of personal information.
前記課題を解決するため本発明の文字列変換装置は、変換処理対象として指定された電子文書中の文字列を、他の文字列に変換する文字列変換装置であって、予め変換文字と、各変換文字を一意に識別する識別子とを定義した文字リストと、変換指示の入力を受付け、前記変換対象としての文字列に含まれる各文字を前記文字リストから検索して、当該文字リストから変換対象文字に付与された識別子に基づき、予め定義された変換規則に従って前記文字リスト中の他の文字に変換する手段と、復元指示の入力を受付け、前記変換後の文字を、前記変換規則に対応した復元規則により、前記文字リストに含まれる変換対象文字に復元する手段とを備えることを特徴とする。
また、前記変換規則は、予め定義された複数の変換規則から任意に選択されたもの又はそれらの組合せとすることを特徴とする。
また、本発明の文字列変換プログラムは、変換処理対象として指定された電子文書中の文字列を、他の文字列に変換する処理をコンピュータに実行させる文字列変換プログラムであって、変換指示の入力を受付け、前記変換対象としての文字列に含まれる各文字を、予め変換文字を格納した文字リストから検索して、当該文字リストから変換対象文字に付与された識別子に基づき、予め定義された変換規則に従って前記文字リスト中の他の文字に変換する処理と、復元指示の入力を受付け、前記変換後の文字を、前記変換規則に対応した復元規則により、前記文字リストに含まれる変換対象文字に復元する処理とをコンピュータに実行させることを特徴とする。
また、前記変換規則は、予め定義された複数の変換規則から任意に選択されたもの又はそれらの組合せとすることを特徴とする。
In order to solve the above problems, the character string conversion device of the present invention is a character string conversion device that converts a character string in an electronic document designated as a conversion processing target into another character string, and a conversion character in advance, A character list that defines an identifier for uniquely identifying each conversion character and an input of a conversion instruction are received, and each character included in the character string as the conversion target is searched from the character list and converted from the character list. Based on an identifier assigned to the target character, means for converting to another character in the character list according to a predefined conversion rule, and accepting an input of a restoration instruction, and the converted character corresponds to the conversion rule Means for restoring to a conversion target character included in the character list according to the restored rule.
The conversion rule may be arbitrarily selected from a plurality of predefined conversion rules or a combination thereof.
A character string conversion program according to the present invention is a character string conversion program for causing a computer to execute a process of converting a character string in an electronic document designated as a conversion processing target into another character string. An input is received, and each character included in the character string as the conversion target is searched from a character list in which conversion characters are stored in advance, and is defined in advance based on an identifier assigned to the conversion target character from the character list. A process of converting to another character in the character list according to a conversion rule and an input of a restoration instruction are accepted, and the character after conversion is included in the character list by the restoration rule corresponding to the conversion rule. It is characterized by causing a computer to execute the process of restoring to.
The conversion rule may be arbitrarily selected from a plurality of predefined conversion rules or a combination thereof.
以上の構成により本発明では、個人情報等を示す文字列の変換を行った電子文書について、文字リスト及び変換規則に基づき、変換後の文字列を変換前の文字列に復元することが可能となる。従って、文字リスト及び変換規則を共有することにより、複数の端末において、個人情報等をマスキングした文書について変換前の内容を確認することが可能となる。
これにより、例えば、携帯端末やPC(パーソナルコンピュータ)から入力された電文を電子メールなどを使って端末間を送受信する場合に、送信する側は、入力された文字列の原文を本文字列変換装置で変換した後、その変換後の電文を送信し、受信する側では受け取った変換後の電文を文字列変換装置で復元することによって、伝送経路にインタネット等のネットワークを用いている場合における伝送中のメッセージの内容が漏洩してしまう可能性の低減に寄与する。
With the above configuration, in the present invention, it is possible to restore a converted character string to a character string before conversion based on a character list and conversion rules for an electronic document converted from a character string indicating personal information or the like. Become. Therefore, by sharing the character list and the conversion rule, it is possible to confirm the content before conversion of the document with the personal information masked in a plurality of terminals.
As a result, for example, when a message input from a portable terminal or a PC (personal computer) is transmitted and received between terminals using e-mail or the like, the transmitting side converts the original character string of the input character string into the character string. After conversion by the device, the converted message is sent, and the received message is restored by the character string conversion device on the receiving side, so that the transmission in the case of using a network such as the Internet as the transmission path This contributes to a reduction in the possibility that the content of the message inside will be leaked.
以下、本発明の一実施の形態に係る文字列変換装置について、図面に基づき説明する。
図1は、本発明の一実施の形態に係る文字列変換装置の概略構成を示すブロック図である。
本実施の形態に係る文字列変換装置は、文字を入力する入力装置10と、文字列変換処理を実行する中央処理装置20と、中央処理装置20での処理に必要な各種プログラム,各種管理テーブル等を格納するプログラムメモリ(ROM)30と、入力装置10からの入力データ,中央処理装置20での処理途中/結果データ等を格納する一時記憶手段としてのデータメモリ(RAM)40と、中央処理装置20で作成した文字列を出力する出力装置50とから構成される。本例の文字列変換装置は、電子文書中において変換処理対象として指定された文字列について、変換処理を行う。
プログラムメモリ30は、文字列変換処理に関し、変換処理手段としての文字列変換プログラム31,一文字変換プログラム32,ひらがなカタカナ変換プログラム33,人名用漢字変換プログラム34,JIS第1第2水準漢字変換プログラム35と、変換文字リストとしてのひらがなカタカナテーブル36,人名用漢字テーブル37,JIS第1第2水準漢字テーブル38とが格納されている。
ひらがなカタカナテーブル36には、日本語のひらがな及びカタカナと母音・子音に対応する数字があらかじめ格納されている。
人名用漢字テーブル37には、戸籍法等により人名に使用できる常用漢字及び人名用漢字別表2232文字があらかじめ格納されている。
JIS第1第2水準漢字テーブル38には、JIS規格によって決められた漢字文字があらかじめ格納されている。
データメモリ40には、入力装置から入力された変換前文字41と変換処理後の変換後文字列42と入力装置から入力された文字列をマスク処理するのか復元処理をするのかを指示されたマスク・復元フラグ43が格納されているとする。
本実施の形態に係る文字列変換装置では、指定されたマスク範囲に含まれる文字が各テーブルに含まれる文字と一致するか否かを判定し、一致する場合には、予め定義された変換規則に従って、当該テーブル内の他の文字に変換する。また、復元処理として、変換された各文字列を変換規則に対応する復元規則に従って変換前の文字列に復元する。
Hereinafter, a character string conversion device according to an embodiment of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing a schematic configuration of a character string conversion apparatus according to an embodiment of the present invention.
The character string conversion device according to the present embodiment includes an
The
In the hiragana katakana table 36, numbers corresponding to Japanese hiragana and katakana and vowels / consonants are stored in advance.
In the personal name kanji table 37, common kanji that can be used for personal names according to the family register method and the like, and 2232 characters according to personal name kanji are stored in advance.
In the JIS first and second level kanji table 38, kanji characters determined by the JIS standard are stored in advance.
In the
In the character string conversion device according to the present embodiment, it is determined whether or not the characters included in the specified mask range match the characters included in each table. If they match, a predefined conversion rule is determined. To convert to other characters in the table. Further, as a restoration process, each converted character string is restored to a character string before conversion according to a restoration rule corresponding to the conversion rule.
図2は、ひらがなカタカナテーブル36の一例と、本例に示すひらがなカタカナテーブルを用いた変換例を示す図である。
本例に示すひらがなカタカナテーブル36では、子音に対応する数字(01〜11)と、母音に対応する数字(01〜05)との組合せにより各文字を識別可能としている。
例えば、変換前文字列210「たなかいちろう」の「た」は、子音が「04」であり、母音が「01」であるため、「0401」で示される。
一方、変換例では、変換規則として「子音に対応する数字」をカウントアップすること、が定義されているものとする。
この場合、変換前文字列210について「た」を「な」に変換する。同様に変換処理を行うことにより、変換前文字列210に示す「たなかいちろう」を、変換後文字列220に示す「なはさきにをく」に変換する。
なお、復元処理においては、変換規則の逆の処理、即ち「子音に対応する数字」をカウントダウンして変換処理を行う。
なお、本例では、ひらがなのみを示しているが、カタカナについても同様のデータ構造のテーブルを用いて変換処理を行う。
FIG. 2 is a diagram showing an example of the hiragana katakana table 36 and a conversion example using the hiragana katakana table shown in this example.
In the hiragana katakana table 36 shown in this example, each character can be identified by a combination of numbers (01 to 11) corresponding to consonants and numbers (01 to 05) corresponding to vowels.
For example, “ta” in the pre-conversion character string 210 “Tanaka Ichiro” is indicated by “0401” because the consonant is “04” and the vowel is “01”.
On the other hand, in the conversion example, it is assumed that “the number corresponding to the consonant” is counted up as a conversion rule.
In this case, “ta” is converted to “na” in the pre-conversion character string 210. Similarly, by performing the conversion process, “Tanaka Ichirou” shown in the pre-conversion character string 210 is converted into “Nahanasaki nioku” shown in the post-conversion character string 220.
Note that in the restoration process, the conversion process is performed by counting down the “number corresponding to the consonant”, which is the reverse process of the conversion rule.
In this example, only hiragana is shown, but conversion processing is also performed for katakana using a table having a similar data structure.
図3は、人名漢字テーブルの一例と、本例に示す人名漢字テーブルを用いた変換例を示す図である。
本例に示す人名漢字テーブル300では、各人名漢字を文字コード順に並べ、各文字に識別番号を付与している。
一方、変換例では、変換規則として識別番号をカウントアップすること、が定義されているものとする。
この場合に、変換前文字列310の「田中一郎」の「田」を「電」に変換する。同様に変換処理を行うことにより、変換前文字列310に示す「田中一郎」を、変換後文字列320に示す「電仲壱楼」に変換する。
なお、復元処理においては、識別番号をカウントダウンして変換処理を行う。
FIG. 3 is a diagram showing an example of a personal name kanji table and a conversion example using the personal name kanji table shown in this example.
In the personal name Chinese character table 300 shown in this example, the personal Chinese characters are arranged in the order of the character codes, and an identification number is assigned to each character.
On the other hand, in the conversion example, it is assumed that counting up an identification number is defined as a conversion rule.
In this case, “Ta” of “Ichiro Tanaka” in the pre-conversion character string 310 is converted to “den”. Similarly, by performing the conversion process, “Ichiro Tanaka” shown in the pre-conversion character string 310 is converted into “Den-Nakarou” shown in the post-conversion character string 320.
In the restoration process, the identification number is counted down to perform the conversion process.
図4は、JIS第1第2水準漢字テーブルの一例と、本例に示すJIS第1第2水準漢字テーブルを用いた変換例を示す図である。
本例に示すJIS第1第2水準漢字テーブル400では、JIS文字コード順に漢字を並べているとともに、人名用漢字テーブルに含まれる漢字か否かを識別する識別フラグが設定されている。
一方、変換例では、変換規則としてJIS文字コードをカウントアップすること及び変換後の文字が人名用漢字テーブルに含まれる文字の場合にはさらにJIS文字コードをカウントアップすること、が定義されているものとする。
この場合に、変換前文字列410の「唖阿逢渥」の「唖」を「娃」に変換する。同様に変換処理を行うことにより、変換前文字列410に示す「唖阿逢渥」を、変換後文字列420に示す「娃挨葵旭」に変換する。
なお、復元処理においては、JIS文字コードをカウントダウンして変換処理を行う。
FIG. 4 is a diagram showing an example of a JIS first level kanji table and a conversion example using the JIS first second level kanji table shown in this example.
In the JIS first and second level kanji table 400 shown in this example, kanji are arranged in the order of JIS character codes, and an identification flag for identifying whether or not the kanji is included in the personal name kanji table is set.
On the other hand, in the conversion example, it is defined that the JIS character code is counted up as a conversion rule and that the JIS character code is further counted up when the converted character is included in the personal name kanji table. Shall.
In this case, “唖” of “唖 阿 逢 渥” in the pre-conversion character string 410 is converted to “娃”. Similarly, by performing the conversion process, “唖 阿 唖” shown in the pre-conversion character string 410 is converted to “に dust 葵 Asa” shown in the post-conversion character string 420.
In the restoration process, the conversion process is performed by counting down the JIS character code.
以上の構成に基づき、本実施の形態に係る文字列変換装置の行う処理について説明する。
図5は、文字列変換装置を構成する文字列変換プログラム31の処理を示すフローチャートである。
文字列変換プログラム31は、変換処理対象として指定された文字列とマスク・復元処理指示の入力を受付け、データメモリ40に変換前文字列41,マスク・復元フラグ43としてそれぞれのデータを待避する(ステップ501)。
その後、入力文字列数を計算し(ステップ502)、以下の処理を一文字単位で行う。
入力された文字列数分の変換処理が済んでいるかどうか判定し(ステップ503)、変換処理が済んでいなければ、未処理文字について一文字変換プログラム32に処理を実行させ(ステップ504)、変換された文字をデータメモリ40に変換後文字列42として格納した後、ステップ503の判定へ戻る。
一方、ステップ503の判定で、入力された文字列数分の変換処理が済んでいる場合は、変換後文字列42の出力処理を行い(ステップ505)、処理を終了する。
Based on the above configuration, processing performed by the character string conversion apparatus according to the present embodiment will be described.
FIG. 5 is a flowchart showing processing of the character
The character
Thereafter, the number of input character strings is calculated (step 502), and the following processing is performed for each character.
It is determined whether or not conversion processing for the number of input character strings has been completed (step 503). If conversion processing has not been completed, the single
On the other hand, if it is determined in
図6は、一文字変換プログラム32の処理を示すフローチャートである。
一文字変換プログラム32は、文字列変換プログラム31から渡された処理対象文字がひらがなカタカナテーブル36にあるかを検索する(ステップ601)。
ステップ601で検索した結果を判定し(ステップ602)、ひらがなカタカナテーブル36にあった場合は、ひらがなカタカナ変換プログラム33に処理を実行させる(ステップ203)。
一方、ステップ602の判定で、ひらがなカタカナテーブル36に無かった場合は、人名用漢字テーブル37にあるかを検索する(ステップ604)。
ステップ604で検索した結果を判定し(ステップ605)、人名用漢字テーブル37にあった場合は、人名用漢字変換プログラム34に処理を実行させる(ステップ606)。
一方、ステップ605の判定で、人名用漢字テーブル37に無かった場合は、JIS第1第2水準漢字テーブル38にあるかを検索する(ステップ607)。
ステップ607で検索した結果を判定し(ステップ608)、JIS第1第2水準漢字テーブル38にあった場合は、JIS第1第2水準漢字変換プログラム35に処理を実行させる(ステップ609)。
一方、ステップ608の判定で、JIS第1第2水準漢字テーブル38に無かった場合は、変換処理は行わずに処理を終了する(ステップ610)。
FIG. 6 is a flowchart showing the processing of the single
The single
The result of the search in
On the other hand, if it is determined in
The result of the search in
On the other hand, if it is determined in
The result of the search in
On the other hand, if it is determined in
図7は、ひらがなカタカナ変換プログラム33の処理を示すフローチャートである。
ひらがなカタカナ文字変換プログラム33は、一文字変換プログラム32から渡された処理対象文字について、ひらがなカタカナテーブル36から子音+母音の数値を取得する(ステップ701)。例えば、図2に示すひらがなカタカナテーブル36では、処理対象文字が「た」の場合、子音+母音が「0401」となる。
次に、データメモリ40にあるマスク・復元フラグ43を判定し(ステップ702)、マスク処理指示であった場合は、子音の数値をカウントアップする(ステップ703)。前述の例では、数値を「0501」とする。
次に、ステップ703でカウントアップした子音の数値とひらがなカタカナテーブル36の範囲を比較し(ステップ704)、カウントアップした子音の数値がひらがなカタカナテーブル36の範囲を超えている場合は、子音の数値を先頭の数値とする(ステップ705)。例えば、図2の例では、カウントアップした数値が「1201」であった場合には、「0101」とする。
ステップ703またはステップ705で計算した子音+母音の数値に基づき、ひらがなカタカナテーブル36から対応する文字を取得する(ステップ706)。前述の例では、数値が「0501」であるため、対応する文字として「な」を取得する。
最後に、ステップ309で取得した文字に置き換えて(ステップ707)、文字列変換プログラム31に渡す。
一方、ステップ702の判定結果が復元指示であった場合には、子音の数値をカウントダウンする(ステップ708)。前述の例で「た」であった場合、子音+母音は「0401」であるため、「0301」となる。
次に、ステップ703と同様、カタカナテーブル36の範囲を比較し(ステップ709)、カウントダウンした子音の数値がひらがなカタカナテーブル36の範囲を超えている場合は、子音の数値を最終の数値とする(ステップ710)。例えば、図2の例では、カウントダウンした数値が「0001」であった場合は、「1101」とする。
ステップ708またはステップ710で計算した子音+母音の数値を元にステップ706,707の処理を行う。
FIG. 7 is a flowchart showing the processing of the hiragana /
The hiragana katakana
Next, the mask / restoration flag 43 in the
Next, the value of the consonant counted up in
Based on the numerical value of consonant + vowel calculated in
Finally, the character is replaced with the character acquired in step 309 (step 707) and passed to the character
On the other hand, if the determination result in
Next, as in
The processing in
図8は、人名用漢字変換プログラム34の処理を示すフローチャートである。
人名用漢字変換プログラム34は、一文字変換プログラム32から渡された処理対象文字について、人名用漢字テーブル37から識別番号を取得する(ステップ801)。例えば、図3に示す人名漢字テーブルでは、処理対象文字が「田」の場合、識別番号は「1350」となる。
次に、データメモリ40にあるマスク・復元フラグ43を判定し(ステップ802)、マスク処理指示であった場合は、識別番号の数値をカウントアップする(ステップ803)。前述の例では、数値を「1351」とする。
次に、ステップ803でカウントアップした識別番号の数値と人名用漢字テーブル37の範囲を比較し(ステップ804)、カウントアップした識別番号の数値が人名用漢字テーブル37の範囲を超えている場合は、識別番号の数値を先頭の数値とする(ステップ805)。例えば図3の例では、カウントアップした数値が「2233」であった場合は、「0001」とする。
ステップ803またはステップ805で計算した識別番号を元に人名用漢字テーブル37に対応する文字を取得する(ステップ806)。前述の例では、数値が「1351」であるため、対応する文字として「電」を取得する。
最後に、ステップ809で取得した文字に置き換えて(ステップ807)、文字列変換プログラム31に渡す。
一方、ステップ802の判定結果が復元指示であった場合は、識別番号の数値をカウントダウンする(ステップ808)。前述の例で「田」であった場合、識別番号の数値は「1350」であるため、「1349」となる。
次に、ステップ803と同様、人名用漢字テーブル37の範囲を比較し(ステップ809)、カウントダウンした識別番号の数値が人名用漢字テーブル37の範囲を超えている場合は、識別番号を人名漢字テーブル37の最終の数値とする(ステップ810)。例えば図3の例では、カウントダウンした数値が「0000」であった場合は、「2232」とする。
ステップ808またはステップ810で計算した識別番号の数値を元にステップ806,807の処理を行う。
FIG. 8 is a flowchart showing the processing of the personal name
The personal name
Next, the mask / restoration flag 43 in the
Next, the numeric value of the identification number counted up in
Based on the identification number calculated in
Finally, the character is replaced with the character acquired in step 809 (step 807) and transferred to the character
On the other hand, if the determination result in
Next, as in
図9は、JIS第1第2水準漢字変換プログラム35の処理を示すフローチャートである。
JIS第1第2水準漢字変換プログラム35は、一文字変換プログラム32から渡された処理対象文字について、JIS第1第2水準漢字テーブル38から対応する文字コード(16進数)を取得する(ステップ901)。例えば、図4に示すJIS第1第2水準漢字テーブルでは、処理対象文字が「唖」であった場合、文字コードは「3022」となる。
次に、データメモリ40にあるマスク・復元フラグ43を判定し(ステップ902)、マスク処理指示であった場合は、文字コードの数値をカウントアップする(ステップ903)。前述の例では、数値を「3023」とする。
次に、ステップ903でカウントアップした文字コードとJIS第1第2水準漢字テーブル38の範囲を比較し(ステップ904)、カウントアップした文字コードの数値がJIS第1第2水準漢字テーブル38の範囲を超えている場合は、文字コードを先頭の数値とする(ステップ905)。例えば図4の例では、カウントアップした文字コードの数値が「7426」であった場合は、「3021」とする。
ステップ903またはステップ905で取得した文字コードに対し、人名用漢字識別フラグが設定されているか否かを判定し(ステップ906)、人名用漢字識別フラグが設定されている場合には、ステップ903からの処理を繰り返す。
一方、人名漢字フラグが設定されていない場合には、JIS第1第2水準漢字テーブル38より該文字コードに対応する文字を取得する(ステップ907)。前述の例では、文字コードの数値が「3023」であるため、対応する文字として「娃」を取得する。
最後に、ステップ907で取得した文字を置き換えて(ステップ908)、文字列変換プログラム31に渡す。
一方、ステップ902の判定結果が復元指示であった場合には、文字コードの数値をカウントダウンする(ステップ909)。前述の例で「唖」であった場合、文字コードの数値は「3022」であるため、「3021」となる。
次に、ステップ904と同様、JIS第1第2水準漢字テーブル38の範囲を比較し(ステップ910)、カウントダウンした文字コードの数値がJIS第1第2水準漢字テーブル38の範囲を超えている場合は、文字コードを最終の数値とする(ステップ911)。例えば図4の例では、カウントダウンした文字コードが「3020」であった場合は、「7426」とする。
ステップ909またはステップ911で取得した文字コードに対し、人名用漢字識別フラグが設定されているか否かを判定し(ステップ912)、人名用漢字識別フラグが設定されている場合には、ステップ907からの処理を繰り返す。
一方、人名用漢字識別フラグが設定されていない場合には、ステップ907,908の処理を行う。
FIG. 9 is a flowchart showing the processing of the JIS first and second level
The JIS first second-level
Next, the mask / restoration flag 43 in the
Next, the character code counted up in
It is determined whether or not the personal name kanji identification flag is set for the character code acquired in
On the other hand, if the personal name kanji flag is not set, the character corresponding to the character code is obtained from the JIS first and second level kanji table 38 (step 907). In the above example, since the numerical value of the character code is “3023”, “娃” is acquired as the corresponding character.
Finally, the character acquired in
On the other hand, if the determination result in
Next, as in
It is determined whether or not the personal name kanji identification flag is set for the character code acquired in
On the other hand, if the personal name kanji identification flag is not set, the processing of
以上のように、本実施の形態に係る文字列変換装置では、予め定義された文字リスト及び変換規則に従って、個人情報等を示す文字列のマスク処理を行うこととしたので、変換後の文字列に基づき、変換前の文字列への復元を行うことが可能となる。 As described above, in the character string conversion device according to the present embodiment, the character string indicating personal information is masked in accordance with a predefined character list and conversion rules. Based on the above, it is possible to restore the character string before conversion.
なお、本発明の文字列変換装置における文字リスト及び変換規則は、前記実施の形態に示すものに限らず、種々のものを定義することが可能である。この場合、変換規則は複数定義されたものの中から任意に選択可能としてもよく、また、複数の変換規則を組み合せて変換処理を行うこととしてもよい。 The character list and conversion rules in the character string conversion device of the present invention are not limited to those shown in the above-described embodiment, and various types can be defined. In this case, conversion rules may be arbitrarily selected from a plurality of conversion rules, or a conversion process may be performed by combining a plurality of conversion rules.
10 入力装置、20 中央処理装置、30 プログラムメモリ、31 文字列変換プログラム、32 一文字変換プログラム、33 ひらがなカタカナ変換プログラム、34 人名用漢字変換プログラム、35 JIS第1第2水準漢字変換プログラム、36 ひらがなカタカナテーブル、37 人名用漢字テーブル、38 JIS第1第2水準漢字テーブル、40 データメモリ、41 変換前文字列、42 変換後文字列、43 マスク・復元フラグ、50 出力装置。
10 input device, 20 central processing unit, 30 program memory, 31 character string conversion program, 32 single character conversion program, 33 hiragana katakana conversion program, 34 personal name kanji conversion program, 35 JIS first level 2 kanji conversion program, 36 hiragana Katakana table, 37 Kanji table for personal names, 38 JIS first level 2 Kanji table, 40 data memory, 41 pre-conversion character string, 42 post-conversion character string, 43 mask / restore flag, 50 output device.
Claims (4)
予め変換文字と、各変換文字を一意に識別する識別子とを定義した文字リストと、
変換指示の入力を受付け、前記変換対象としての文字列に含まれる各文字を前記文字リストから検索して、当該文字リストから変換対象文字に付与された識別子に基づき、予め定義された変換規則に従って前記文字リスト中の他の文字に変換する手段と、
復元指示の入力を受付け、前記変換後の文字を、前記変換規則に対応した復元規則により、前記文字リストに含まれる変換対象文字に復元する手段と
を備えることを特徴とする文字列変換装置。 A character string conversion device for converting a character string in an electronic document designated as a conversion processing target into another character string,
A character list that defines conversion characters and identifiers that uniquely identify each conversion character;
Accepting input of conversion instruction, searching each character included in the character string as the conversion target from the character list, based on an identifier assigned to the conversion target character from the character list, according to a predefined conversion rule Means for converting to other characters in the character list;
A character string conversion apparatus comprising: means for receiving an input of a restoration instruction and restoring the converted character to a conversion target character included in the character list according to a restoration rule corresponding to the conversion rule.
変換指示の入力を受付け、前記変換対象としての文字列に含まれる各文字を、予め変換文字を格納した文字リストから検索して、当該文字リストから変換対象文字に付与された識別子に基づき、予め定義された変換規則に従って前記文字リスト中の他の文字に変換する処理と、
復元指示の入力を受付け、前記変換後の文字を、前記変換規則に対応した復元規則により、前記文字リストに含まれる変換対象文字に復元する処理と
をコンピュータに実行させることを特徴とする文字列変換プログラム。 A character string conversion program that causes a computer to execute processing for converting a character string in an electronic document designated as a conversion processing target into another character string,
Receiving input of conversion instruction, each character included in the character string as the conversion target is searched from a character list in which conversion characters are stored in advance, and based on an identifier given to the conversion target character from the character list, A process of converting to another character in the character list according to a defined conversion rule;
A character string characterized by receiving an input of a restoration instruction and causing a computer to execute a process of restoring the converted character to a conversion target character included in the character list according to a restoration rule corresponding to the conversion rule Conversion program.
The character string conversion program according to claim 3, wherein the conversion rule is arbitrarily selected from a plurality of predefined conversion rules or a combination thereof.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005292350A JP2007102540A (en) | 2005-10-05 | 2005-10-05 | Character string conversion device and character string conversion program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005292350A JP2007102540A (en) | 2005-10-05 | 2005-10-05 | Character string conversion device and character string conversion program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007102540A true JP2007102540A (en) | 2007-04-19 |
Family
ID=38029412
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005292350A Pending JP2007102540A (en) | 2005-10-05 | 2005-10-05 | Character string conversion device and character string conversion program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007102540A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011209944A (en) * | 2010-03-29 | 2011-10-20 | Hitachi Solutions Ltd | Device for generating masking data for test, and program |
JP2012529114A (en) * | 2009-06-01 | 2012-11-15 | アビニシオ テクノロジー エルエルシー | Generating obfuscated values |
US9237136B2 (en) | 2013-02-19 | 2016-01-12 | International Business Machines Corporation | Mapping a glyph to character code in obfuscated data |
-
2005
- 2005-10-05 JP JP2005292350A patent/JP2007102540A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012529114A (en) * | 2009-06-01 | 2012-11-15 | アビニシオ テクノロジー エルエルシー | Generating obfuscated values |
JP2011209944A (en) * | 2010-03-29 | 2011-10-20 | Hitachi Solutions Ltd | Device for generating masking data for test, and program |
US9237136B2 (en) | 2013-02-19 | 2016-01-12 | International Business Machines Corporation | Mapping a glyph to character code in obfuscated data |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10747946B2 (en) | Non-transitory computer-readable storage medium, encoding apparatus, and encoding method | |
JP2008539476A (en) | Spelling presentation generation method and system | |
Kansal et al. | Rule based urdu stemmer | |
JP6680126B2 (en) | Encoding program, encoding device, encoding method, and search method | |
JP2008203984A (en) | Character string conversion apparatus and character string conversion method | |
JP2007102540A (en) | Character string conversion device and character string conversion program | |
Ganfure et al. | Design and implementation of morphology based spell checker | |
JP2011065255A (en) | Data processing apparatus, data name generation method and computer program | |
JP2022055305A (en) | Text processing method for generating text summarization, apparatus, device, and storage medium | |
US20040177077A1 (en) | Unicode normalization | |
KR100399495B1 (en) | Method to convert unicode text to mixed codepages | |
JP6723726B2 (en) | Input support device | |
JP2011154495A (en) | Character code conversion device, character code conversion method and character code conversion program | |
JP2007257188A (en) | Dictionary search device and its control program | |
JP2006092223A (en) | Portable communication terminal and multi-language display control method | |
JP4061283B2 (en) | Apparatus, method and program for converting lexical data to data | |
JP6303508B2 (en) | Document analysis apparatus, document analysis system, document analysis method, and program | |
JP7083473B2 (en) | Input support device | |
JPH07230468A (en) | Method and device for automatically extracting keyword | |
JP4139805B2 (en) | Apparatus, method and program for converting lexical data to data | |
JP2009211365A (en) | Kana-kanji converter, kana-kanji conversion method and program | |
JP4111941B2 (en) | Apparatus, method and program for converting lexical data to data | |
JP2005107614A (en) | User dictionary registration program, system and method | |
JP2004013680A (en) | Character code compression/decompression device and method | |
JP2007212660A (en) | Generating device for dictionary for speech recognition |