JP2006235800A - System for giving invisible information to electronic document and giving method - Google Patents

System for giving invisible information to electronic document and giving method Download PDF

Info

Publication number
JP2006235800A
JP2006235800A JP2005046820A JP2005046820A JP2006235800A JP 2006235800 A JP2006235800 A JP 2006235800A JP 2005046820 A JP2005046820 A JP 2005046820A JP 2005046820 A JP2005046820 A JP 2005046820A JP 2006235800 A JP2006235800 A JP 2006235800A
Authority
JP
Japan
Prior art keywords
character
external
characters
internal
variant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005046820A
Other languages
Japanese (ja)
Inventor
Toshio Uji
俊男 宇治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Printing Bureau
Original Assignee
National Printing Bureau
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Printing Bureau filed Critical National Printing Bureau
Priority to JP2005046820A priority Critical patent/JP2006235800A/en
Publication of JP2006235800A publication Critical patent/JP2006235800A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a system which retrieves a document, without omission, in which a document inputted with external characters and a document inputted with internal characters exist together, and stably gives a versatile external character retrieval function, and also provide a method therefor. <P>SOLUTION: The system is provide with; an external character/variant character conversion table in which external character codes, variant characters of internal characters corresponding to external characters and similarities are stored; a means which retrieves external character codes of the external character/variant character conversion table from external characters included in sentences in an electronic document and retrieves the variant characters of one or more internal characters, whose similarities are at least a certain degree, among the internal characters which correspond to the retrieved external character codes; a means which generates a sentence by replacing external character codes included in an original sentence with the variant characters of one or more internal characters thus retrieved; a means which writes, with a space between words, one or more sentences generated by the replacement with the variant characters; and a means which extracts the character variants of the internal characters corresponding to the external characters, as words, from the words written with a space between them, and embeds the extracted words, as invisible information, into the electronic document. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、電子文書への不可視情報付与システム及び付与方法に係わり、特に、コンピュータによる外字を含む電子文書検索システムに関するものである。   The present invention relates to a system and method for providing invisible information to an electronic document, and more particularly to an electronic document search system including external characters by a computer.

一般に、コンピュータで扱う電子文書には人名や地名などに外字を必要とする場合があり、電子文書への入力としては、仮名漢字変換システムにより行われている。   Generally, an electronic document handled by a computer may require an external character for a person name, a place name, or the like, and input to the electronic document is performed by a kana-kanji conversion system.

従来より、仮名漢字変換システムを用いる場合には、同じ地名や人名であっても電子文書入力者が異なると一方は内字で入力し、別の文書では外字で入力されている場合が発生し、その結果、電子文書検索システムには内字で入力された文書と外字で入力された文書が混在することになり、外字を含む地名や人名を漏れなく検索するためには、内字と外字の両方を検索する必要が発生していた。 Conventionally, when using the Kana-Kanji conversion system, even if the place name and person name are the same, if the electronic document input person is different, one type is entered in internal characters and the other type is entered in external characters. As a result, documents entered in internal characters and documents entered in external characters are mixed in the electronic document search system, and in order to search for place names and personal names that include external characters, internal characters and external characters Both had to be searched.

また、外字を内字の異体字で置き換える場合、特に人名などの際には、本人や原稿作成者の了承を得る必要が発生する場合がある。 In addition, when an external character is replaced with an internal variant, it may be necessary to obtain the approval of the person or the manuscript creator, particularly in the case of a person's name.

電子文書では外字を内字の異体字として置き換えて使用することがあり、簡単に外字を扱う方法としては外字フォント登録機能を用いたり、画像として埋め込む方法がある。 In an electronic document, an external character may be used as a variant of an internal character, and a method of easily handling an external character includes a method of registering an external character font or a method of embedding it as an image.

外字フォント機能や画像として外字を用いる場合には、仮名漢字変換システムでは外字が変換できない上、文書の検索が行えないという問題があった。 In the case of using an external character as an external character font function or an image, the kana-kanji conversion system cannot convert the external character, and the document cannot be searched.

外字による検索機能を実現する方法として、通常の内字検索システムと外字検索システムが密接に関連することにより外字検索を実現しているものがある(例えば、特許文献1、2、3又は4参照)。これらの従来技術では内字検索システムと外字検索システムが密接に関連しているため、検索システム全体を開発する必要があり、膨大な労力を必要とする。また、内字検索システムと外字検索や外字変換機能が同時に稼動するためシステムが複雑になり、複数のプロセスや機器が同時に稼動する必要があり、安定性やメンテナンス性が低下するという問題がある。また、外字検索機能が検索システム自体と連携していることから既存の検索システムに搭載することが困難である。 As a method for realizing a search function using external characters, there is a method in which an external character search is realized by a close relationship between a normal internal character search system and an external character search system (see, for example, Patent Documents 1, 2, 3, or 4). ). In these conventional techniques, the internal character search system and the external character search system are closely related to each other. Therefore, it is necessary to develop the entire search system, which requires a great deal of labor. Further, since the internal character search system and the external character search and external character conversion functions operate simultaneously, the system becomes complicated, and it is necessary to operate a plurality of processes and devices at the same time, resulting in a problem that stability and maintainability are deteriorated. Also, since the external character search function is linked with the search system itself, it is difficult to install it in an existing search system.

特開平9−232313号公報JP-A-9-232313 特開2002−41503号公報JP 2002-41503 A 特開2002−236676号公報JP 2002-236676 A 特開2003−29736号公報JP 2003-29736 A

本発明は、このような問題を解決するためになされたもので、第1の目的は、外字検索機能を持たない検索システムに、容易にかつ安定的に外字検索機能を付与することにあり、第2の目的は対象となる単語が、外字で入力された文書と内字で入力された文書とが混在する文書から漏れのない検索を行うことであり、外字入力機能及び外字検索機能を持たない電子文書検索システムに汎用的かつ安定的に外字検索機能を付与することを実現する、電子文書への不可視情報付与システム及び付与方法を提供することを目的とする。 The present invention has been made to solve such a problem, and a first object is to easily and stably give an external character search function to a search system having no external character search function. The second purpose is to perform a search without omission from a document in which a target word is a mixture of a document input in external characters and a document input in internal characters, and has an external character input function and an external character search function. It is an object of the present invention to provide a system and method for providing invisible information to an electronic document, which can provide a general-purpose and stable external character search function to a non-electronic document search system.

本発明の電子文書への不可視情報付与システムは、外字コード、外字に対応した内字の異体字が字形や意味で関連付けられ格納された外字・異体字変換テーブルと、外字コードを含む電子文書内の文章に含まれる外字コードから前記外字・異体字変換テーブルの外字コードを検索し、一つ又は複数の内字の異体字を検索する手段と、前記電子文書内の文章に対して、前記検索した一つ又は複数の内字の異体字に置き換えた文章を作成する手段と、前記異体字に置き換えて作成した一つ又は複数の文章を分かち書きする手段と、前記分かち書きした文字列から、外字に対応した内字の異体字を分かち書きした文字列として抽出し、前記抽出した分かち書きした文字列を電子文書内に電子情報閲覧ソフトで不可視となる情報として埋め込む手段と、を有することを特徴としている。 The invisible information addition system for an electronic document according to the present invention includes an external character code, an external character / variant character conversion table in which the internal characters corresponding to the external characters are stored in association with the character shape and meaning, and the electronic document including the external character code. Means for retrieving an external character code of the external character / variant character conversion table from external character codes included in the sentence, and searching for one or a plurality of internal character variants, and the search for the sentence in the electronic document A means for creating a sentence replaced with a variant of one or more internal characters, a means for dividing one or more sentences created by replacing with the variant, and a character string from the divided character string into an external character Means for extracting a variant of the corresponding internal character as a character string that is separated and embedding the extracted character string as the information that becomes invisible in the electronic information browsing software in the electronic document; It is characterized by having a.

本発明の電子文書への不可視情報付与システムは、外字・異体字変換テーブルに、外字に対応した内字の異体字が無い場合には、外字コードと外字コードに組み合わされる文字とその読み及び類義語を設定することを特徴としている。   The invisible information addition system for an electronic document according to the present invention is a combination of an external character code and an external character code, a reading thereof, and a synonym when the external character / variant character conversion table does not include an internal character corresponding to the external character. It is characterized by setting.

本発明の電子文書への不可視情報付与システムは、前記外字・異体字変換テーブルに外字の字形と外字に対応した内字の異体字との類似度を具備し、外字コード検索手段に類似度を用い検索される異体字の文字数を制御することを特徴としている。   The system for assigning invisible information to an electronic document according to the present invention has a similarity between an external character shape and an internal variant corresponding to the external character in the external character / variant character conversion table, and the external character code search means has a similarity degree. It is characterized by controlling the number of variants that are used and searched.

本発明の電子文書への不可視情報付与システムは、前記不可視情報として埋め込む分かち書きした文字列の前後に、記号を挿入することにより、検索システムが明らかに分かち書きした文字列として抽出することを特徴としている。   The invisible information imparting system to an electronic document according to the present invention is characterized in that a character string clearly extracted by a search system is extracted by inserting a symbol before and after a character string embedded as invisible information. .

本発明の電子文書への不可視情報付与方法は、外字と内字から構成される電子文書の文章に対して、前記電子文書の文章をすべて内字に置き換え、前記内字に置き換えた文章を分かち書きし、前記分かち書きした文字列のうち外字部分に対応する内字の異体字を、外字コード、外字に対応した内字の異体字が格納された外字・異体字変換テーブルから抽出し、前記抽出した分かち書きした文字列を電子情報閲覧ソフトで不可視となる情報として、もとの電子文書に埋め込むことを特徴としている。 The method for providing invisible information to an electronic document according to the present invention replaces all sentences in the electronic document with internal characters and separates the text replaced with the internal characters with respect to the electronic document composed of external characters and internal characters. The extracted internal character corresponding to the external character portion of the divided character string is extracted from the external character code and the external character / variant character conversion table in which the internal character corresponding to the external character is stored and extracted. Characterized by embedding the character string thus written in the original electronic document as information that becomes invisible with the electronic information browsing software.

以上のように、本発明では検索システムとの連携の必要がなく、電子文書データに不可視情報を付与するシステムであることから、検索システム自体の安定性、メンテナンス性が非常に高く、どのような検索システムにも実装が可能である。 As described above, in the present invention, since there is no need to cooperate with the search system and the invisible information is given to the electronic document data, the stability and maintainability of the search system itself is very high. It can also be implemented in a search system.

また、内字と外字との区別をなくすために、同一対象の単語の記述でも入力者などの違いによる異なる文書間の内字と外字の混在による検索の漏れを完全になくすことが可能となる。 In addition, in order to eliminate the distinction between internal characters and external characters, it is possible to completely eliminate the leakage of search due to a mixture of internal characters and external characters between different documents due to differences in the input person, etc., even when describing the same target word .

本発明の電子文書への不可視情報付与システムは、外字コード、外字に対応した内字の異体字、外字の字形と外字に対応した内字の異体字の類似度の対応を格納する外字・異体字変換テーブルが基礎となっている。
本発明において、外字の字形とは、例えば、「渡なべ」の場合には、「辺」、「邊」、「邉」という字形の違うものがあるが、この三種類の表す意味は同じものをいう。
The invisible information addition system for an electronic document according to the present invention stores an external character code, a variant of an internal character corresponding to the external character, and a correspondence between the shape of the external character and the similarity of the internal variant corresponding to the external character The character conversion table is the basis.
In the present invention, for example, in the case of “Watanabe”, the character shape of the external character includes “edge”, “邊”, and “邉”, but these three types have the same meaning. Say.

本発明は、この外字・異体字変換テーブルを用いて、検索システムで用いる電子文書に、あらかじめ検索システムで扱うことができるように不可視の文字列を埋め込む処理をすることを特徴としている。この不可視の文字列は検索システムが検索対象として扱うことができれば、電子文書中であればどこにあってもよい。 The present invention is characterized in that the external character / variant character conversion table is used to embed an invisible character string in advance so that it can be handled by the search system in an electronic document used in the search system. This invisible character string may be anywhere in the electronic document as long as the search system can handle it as a search target.

不可視情報を埋め込む方法は、外字と内字から構成される文章に対して、外字・異体字変換テーブルを用いて外字に対応した内字の異体字を検索し、外字に対応した内字の異体字を1文字不可視情報として埋め込むと検索の際に単語として検索が行えないため、外字を含む文章を一度内字に置き換え、その文章を分かち書きし、外字部分に対応する内字の異体字による単語を抽出し、不可視情報としてもとの文書に埋め込むものである。 The method of embedding invisible information is to search for internal variants corresponding to external characters using external character / variant character conversion table for sentences composed of external characters and internal characters, and internal variants corresponding to external characters. If you embed a character as invisible information, it cannot be searched as a word when searching. Therefore, replace the sentence that includes the external character with the internal character, write the sentence separately, and use the internal character variant corresponding to the external character part. Are extracted and embedded in the original document as invisible information.

外字に対応した内字の異体字が無い場合には、読みを設定すれば外字を読みに対応させることができる。更に既知の人物であれば旧姓、土地の名称であれば旧称などの類義語を設定することにより検索候補の数を拡張することができる。 If there is no variant of the internal character corresponding to the external character, the external character can correspond to the reading by setting the reading. Furthermore, the number of search candidates can be expanded by setting synonyms such as a maiden name for a known person and an old name for a land name.

更に、例えば、国際標準化により各種の言語を統一的に扱う文字コードとして提案されているユニコード(Unicode)のように中国漢字、韓国漢字などを扱える大規模文字列集合である場合には、日本漢字だけでなく中国漢字、韓国漢字などの外字も扱うことが可能になる。 Furthermore, for example, in the case of a large-scale character string set that can handle Chinese kanji, Korean kanji, etc. as Unicode (Unicode) that has been proposed as a character code that handles various languages in a unified manner by international standardization, Japanese kanji Not only Chinese characters and Korean characters can be handled.

また、本発明では、「・」や「:」などの、検索システムでは記号として扱われるものを文字として不可視情報の単語の前後に挿入することにより、不可視情報の単語を明示的に検索システムに単語として認識させることが可能となる。 In the present invention, words that are treated as symbols in the search system, such as “•” and “:”, are inserted as characters before and after the invisible information word so that the invisible information word is explicitly entered into the search system. It can be recognized as a word.

また、本発明では、外字と外字に対応した内字の異体字の単語の類似度を外字・異体字変換テーブルに格納していることから、情報公開側で類似度に対する閾値を設定することにより、外字に対応した内字の異体字の数を制御し、検索精度を調整することが可能となる。 Also, in the present invention, the similarity between the external characters and the variants of the internal characters corresponding to the external characters is stored in the external characters / variant character conversion table, so that by setting a threshold for similarity on the information disclosure side It is possible to adjust the search accuracy by controlling the number of variants of the internal character corresponding to the external character.

電子文書に外字に対応した内字の異体字の単語を不可視情報としてあらかじめ付与することにより、検索システムと外字検索機能を付与するシステムを別のシステムとして構築できるので、外字検索機能を持たない検索システムに容易にかつ安定的に外字検索機能を付与することが可能になる。 A search system and a system that provides a search function for external characters can be constructed as separate systems by pre-assigning intangible words of internal characters corresponding to external characters to electronic documents, so that searches that do not have an external character search function An external character search function can be easily and stably added to the system.

外字1文字に対して一つ又は複数の対応した内字の異体字の文字列を不可視情報として付与することにより、外字は複数の内字の異体字で検索が可能になり、外字、内字の区別をなくし、漏れのない検索を行うことが可能になる。 By assigning a character string of one or more corresponding variants of the internal character as invisible information to one external character, the external character can be searched by using multiple internal variants. This makes it possible to perform a search without omission.

本発明に係る電子文書への不可視情報付与システム及び付与方法の実施の形態の一例を、図を用いて説明する。図1は、既存の検索システムに、本発明の不可視情報付与システムを組み込んだ情報検索システムの一形態であり、これに限定されるものではない。
本実施例において、分かち書きとは、文章をある単位に区切ることをいい、形態素とは、これ以上細かくすると意味をなさなくなる最小の単位をいう。
An example of an embodiment of a system and method for providing invisible information to an electronic document according to the present invention will be described with reference to the drawings. FIG. 1 shows one form of an information search system in which the invisible information providing system of the present invention is incorporated into an existing search system, and the present invention is not limited to this.
In the present embodiment, the division refers to dividing a sentence into a certain unit, and the morpheme refers to the smallest unit that does not make sense if it is further reduced.

図1は、不可視情報付与システムを組み込んだ情報検索システムの構成図である。本実施例の不可視情報付与システムは不可視情報付与手段5と外字・異体字変換テーブル6とから構成され、既存の検索システムは情報閲覧手段1、情報検索手段2、電子文書データ蓄積部4、情報検索のための電子文書データ蓄積部から生成される検索用インデックス部3から構成される。 FIG. 1 is a configuration diagram of an information retrieval system incorporating an invisible information providing system. The invisible information providing system of this embodiment is composed of an invisible information providing unit 5 and an external character / variant character conversion table 6. The existing search system is an information browsing unit 1, an information search unit 2, an electronic document data storage unit 4, an information The search index unit 3 is generated from an electronic document data storage unit for search.

情報閲覧手段1は、検索画面の表示、検索語の入力、入力された検索語を情報検索手段2に送信し、情報検索手段2からの検索結果の受信と表示、電子文書データの表示のためのリクエストの送信と電子文書データの受信と表示を行い、情報検索手段2と接続する。 The information browsing unit 1 displays a search screen, inputs a search term, transmits the input search term to the information search unit 2, receives and displays a search result from the information search unit 2, and displays electronic document data. The request is transmitted, the electronic document data is received and displayed, and the information search means 2 is connected.

情報検索手段2は、情報閲覧手段1と検索用インデックス部3と電子文書データ蓄積部4とを接続し、あらかじめ電子文書データ蓄積部4から電子文書データを読み込み、検索用インデックスを作成し、検索用インデックス部3に保存する。情報検索手段2は、検索の際に情報閲覧手段1から検索語を受け取り、検索用インデックス部3からインデックスを読み込み、出現頻度による重み付けなどの特定のアルゴリズムによる演算を行い、情報閲覧手段1に検索結果を返す。情報検索手段2は情報閲覧手段1からのリクエストにより電子文書データ蓄積部4から電子文書データを読み込み、情報閲覧手段1にデータを送る。 The information search means 2 connects the information browsing means 1, the search index section 3 and the electronic document data storage section 4, reads electronic document data from the electronic document data storage section 4 in advance, creates a search index, and searches It is stored in the index part 3 for The information search means 2 receives a search word from the information browsing means 1 at the time of search, reads an index from the search index unit 3, performs calculation by a specific algorithm such as weighting by appearance frequency, and searches the information browsing means 1. Returns the result. The information retrieval unit 2 reads electronic document data from the electronic document data storage unit 4 in response to a request from the information browsing unit 1 and sends the data to the information browsing unit 1.

不可視情報付与手段5は、電子文書データ蓄積部4と外字・異体字変換テーブル6と接続し、電子文書データ蓄積部4内の電子文書データにアクセス可能な状態にする。 The invisible information adding means 5 is connected to the electronic document data storage unit 4 and the external character / variant character conversion table 6 so that the electronic document data in the electronic document data storage unit 4 can be accessed.

検索用インデックス部3は、検索速度向上の為に設置されており、検索用インデックス部3がない検索システムもある。本実施例においては、検索用インデックス部3の有無は動作に影響しない。本実施例は電子データに不可視情報を埋め込む方法であることから、図1の接続はプロセス間通信、ネットワーク等どのような接続形態であってもよい。 The search index unit 3 is installed to improve the search speed, and there is a search system without the search index unit 3. In this embodiment, the presence or absence of the search index unit 3 does not affect the operation. Since this embodiment is a method of embedding invisible information in electronic data, the connection in FIG. 1 may be in any connection form such as interprocess communication or a network.

電子文書データでは、あらかじめ外字は外字を一意に区別可能な外字コードを与えて文書を作成し、電子文書データ蓄積部4に登録する。 In the electronic document data, an external character is given in advance an external character code that can uniquely distinguish the external character, and a document is created and registered in the electronic document data storage unit 4.

インデックス作成形の情報検索システムの場合には、インデックスを作成する処理を行う前に外字検索機能を付与する。 In the case of an index creation type information retrieval system, an external character retrieval function is added before the process of creating an index.

図2は、外字に対する内字の異体字の類似度を表す外字・異体字変換テーブル6を示す図である。外字・異体字変換テーブル6は、外字コード、外字画像、外字に対応した内字の異体字及び外字と外字に対応した内字の異体字の類似度から構成され、それぞれのデータはあらかじめ登録しておく。 FIG. 2 is a diagram showing an external character / variant character conversion table 6 representing the similarity of internal characters to external characters. The external character / variant character conversion table 6 is composed of external character codes, external character images, internal variants corresponding to external characters, and similarities between internal characters corresponding to external characters and external characters, and each data is registered in advance. Keep it.

図の横1ラインが1レコードになり、外字コード001で検索すると、外字コード001が付与された複数の内字とその類似度が検索される。外字画像については、外字コード1つに対して外字画像は一つであるため、外字画像は別のテーブルに定義してもよいし、外字を表現するために画像でなくフォントで表現するのであればフォントを定義してもよい。また、「#」等の別の文字に置き換えて表現するのであれば画像自体は定義をする必要はない。 If one horizontal line in the figure is one record and a search is performed with an external character code 001, a plurality of internal characters to which the external character code 001 is assigned and their similarities are searched. As for an external character image, since there is one external character image for each external character code, the external character image may be defined in a separate table, or may be expressed in a font instead of an image in order to express an external character. You may define a font. Further, the image itself need not be defined as long as it is expressed by being replaced with another character such as “#”.

外字と外字に対応した内字の異体字の類似度は人間の主観で設定してもよいし、パターンマッチングなどの画像処理を用いてもよく、外字と外字に対応視した内字の異体字の見た目や渡辺の「辺」と「邊」のように見た目は異なるが意味的に近い等の類似性を表現できていればよい。 The similarity between the external characters and the internal variants corresponding to the external characters may be set by human subjectivity, image processing such as pattern matching may be used, and the internal variants that correspond to the external characters and external characters It is only necessary to be able to express similarities such as “S” and “S” in Watanabe, but different in appearance but close in meaning.

図3は、外字に対応した内字の異体字の文字列の付与方法の流れを示すフローチャートである。このフローチャートは一つの電子文書データに対して外字検索機能を付与することを示しており、電子文書データが複数ある場合には該処理を電子文書データ分繰り返して処理を行う。 FIG. 3 is a flowchart showing a flow of a method for providing a variant character string of an internal character corresponding to an external character. This flowchart shows that an external character search function is given to one electronic document data, and when there are a plurality of electronic document data, the processing is repeated for the electronic document data.

外字機能を付与するための設定値として、抽出する外字に対応した内字の異体字の類似度を設定し、不可視情報付与手段に初期パラメータとしてあらかじめ与えておく。 As a setting value for adding the external character function, the similarity of the internal character variant corresponding to the external character to be extracted is set and given in advance to the invisible information adding means as an initial parameter.

不可視情報付与手段5は、処理において対象とする電子文書データを電子文書データ蓄積部4から読み込み(S1)、「。」「.」等の記号を文章の区切り文字として電子文書データ内部から文章を抽出する(S2)。文章の抽出ができなければ終了の判定(S3)を行い、一つの電子文書データの処理が終了する。文章の抽出ができた場合には、その文章に外字が含まれているか否かの判定(S4)を行い、外字が含まれていない場合には、次の文章の抽出(S2)を行う。 The invisible information adding means 5 reads the target electronic document data from the electronic document data storage unit 4 (S1), and uses a symbol such as “.” Or “.” As a sentence delimiter to read a sentence from within the electronic document data. Extract (S2). If the text cannot be extracted, a termination determination (S3) is performed, and the processing of one electronic document data is terminated. When the sentence can be extracted, it is determined whether or not the external character is included in the sentence (S4). When the external character is not included, the next sentence is extracted (S2).

文章に外字が含まれる場合には、外字コードを検索キーにして外字・異体字変換テーブルを検索し(S5)、外字が登録されているか判定する(S6)。外字が登録されていない場合には、外字コード、外字に類似した内字の異体字を登録する処理(S7)を行う。 If the text contains an external character, the external character / variant character conversion table is searched using the external character code as a search key (S5), and it is determined whether the external character is registered (S6). If an external character is not registered, a process of registering an external character code and an internal variant of the internal character similar to the external character (S7) is performed.

外字コードが見つかった場合、外字と外字に対応した内字の異体字との類似度を参照し、類似度があらかじめ設定されていた閾値以上のものを1つ以上抽出する。閾値以下であっても類似度が最も高い一つの文字の抽出を行い、外字を含む文章の外字部分に抽出された一つ以上の外字に対応した内字の異体字に置き換える。一つの異体字が抽出されれば文章は1つ、複数の異体字が抽出されれば複数の異体字に置き換えた文章を作成する(ステップS8)。 When an external character code is found, the similarity between the external character and the variant of the internal character corresponding to the external character is referred to, and one or more characters whose similarity is equal to or higher than a preset threshold value are extracted. One character having the highest degree of similarity is extracted even if it is equal to or less than the threshold value, and is replaced with an internal character variant corresponding to one or more external characters extracted in the external character portion of the sentence including the external character. If one variant character is extracted, one sentence is created, and if a plurality of variant characters are extracted, a sentence replaced with a plurality of variant characters is created (step S8).

一つの文章中に複数の外字が出現する場合、一つの外字以外を内字に置換し、前記一連の処理を行う。その結果得られた複数の文章に対して、内字に置換した文字を1文字だけ外字に戻し、同様に前記一連の処理を行う。更に、複数の外字があればその個数分の処理を行う。   When a plurality of external characters appear in one sentence, other than one external character is replaced with an internal character, and the series of processes is performed. For the plurality of sentences obtained as a result, only one character replaced with the inner character is returned to the outer character, and the above-described series of processing is similarly performed. Further, if there are a plurality of external characters, the processing for the number is performed.

例えば、内字をX、外字をA、Bとし、外字Aの異体字はa1、a2、a3の3つが抽出され、外字Bの異体字はb1、b2の2つが抽出されたとする。文章が「XXXABXX」の場合、最初に外字Bを異体字b1に置換した文章「XXXAb1XX」を作成し、前記処理を行う。前記処理により「XXXa1b1XX」と「XXXa2b1XX」、「XXXa3b1XX」の三つの文章が得られる。次に得られた三つの文章に対してb1を外字Bに戻し、「XXXa1BXX」と「XXXa2BX」、「XXXa3BXX」の三つの文章に対して前記処理を行うと、「XXXa1b1XX」と「XXXa1b2X」、「XXXa2b1XX」、「XXXa2b2XX」と「XXXa3b1X」、「XXXa3b2XX」の六つの文章を得ることができる。 For example, suppose that the internal character is X, the external character is A, and B, three variants of the external character A are extracted, a1, a2, and a3, and two variants of the external character B are extracted, b1 and b2. When the sentence is “XXXABXX”, a sentence “XXXAb1XX” in which the external character B is replaced with the variant character b1 is created first, and the above processing is performed. Through the above process, three sentences “XXXa1b1XX”, “XXXa2b1XX”, and “XXXa3b1XX” are obtained. Next, b1 is returned to the external character B for the three sentences obtained, and when the above processing is performed on the three sentences `` XXXa1BXX '', `` XXXa2BX '', and `` XXXa3BXX '', `` XXXa1b1XX '' and `` XXXa1b2X '', You can obtain six sentences “XXXa2b1XX”, “XXXa2b2XX”, “XXXa3b1X”, and “XXXa3b2XX”.

外字を内字の異体字に置き換えた一つ以上の文章を分かち書き処理を行う。分かち書き処理は形態素解析プログラムを用いる(S9)。本実施例は分かち書きに形態素解析を用いているが、分かち書きの単位は形態素単位でなく、形態素より大きい単位でもよい。例えば、外字を含む単語が名詞で、その単語を含む連続した名詞が存在する場合には連続した名詞を不可視情報を与える語として抽出してもよい。 One or more sentences in which an external character is replaced with an internal variant are separated. The division writing process uses a morphological analysis program (S9). In this embodiment, morpheme analysis is used for division, but the unit of division is not a morpheme unit but may be a unit larger than a morpheme. For example, when a word including an external character is a noun and there is a continuous noun including the word, the continuous noun may be extracted as a word giving invisible information.

分かち書きした文章からもとの文章の外字部分に相当する単語を抽出する(S10)。この処理により異体字に置き換えた文章が一つであれば一つの単語が、複数の異体字で置き換えれば複数の単語が抽出される。
文章中の外字が複数存在する場合には、重複して同じ異体字による単語が作成される場合があるため、同じ異体字による単語がある場合には重複分を削除する。
A word corresponding to the external character portion of the original sentence is extracted from the divided sentence (S10). If one sentence is replaced with a variant by this process, one word is extracted. If a sentence is replaced with a plurality of variants, a plurality of words are extracted.
When there are a plurality of external characters in a sentence, a duplicate word with the same variant may be created. Therefore, if there is a word with the same variant, the duplicate is deleted.

以上詳述した本実施例に基づいて、例えば、「私は、図2外字画像7(さい)藤です。」という文章があった場合について説明する。 Based on the embodiment described above in detail, for example, a case where there is a sentence “I am the external character image 7 (sai) wisteria in FIG. 2” will be described.

「私は、図2外字画像7(さい)藤です。」の「図2外字画像7(さい)」が、異体字「図2内字の異体字8(さい)」と「図2内字の異体字9(さい)」が閾値を超える異体字として選択された場合、「私は、図2内字の異体字8(さい)藤です。」と「私は図2内字の異体字9(さい)藤です。」の二つの文章を作成する。次にこの二つの文章を、分かち書き処理に形態素解析プログラムを用いて分割を行い、「私 は、 図2内字の異体字8(さい)藤 です 。」と「私 は、 図2内字の異体字9(さい)藤 です 。」のように、分かち書き処理により分割した文章から、外字部分に相当する異体字の単語である「図2内字の異体字8(さい)藤」と「図2内字の異体字9(さい)藤」が抽出される。 “I am the external character image 7 (sai) wisteria in FIG. 2”. “FIG. 2 external character image 7 (sai)” is a variant character “variant character 8 (sai) in FIG. 2 internal character” and “internal character in FIG. If "I'm a variant of 9" is selected as a variant that exceeds the threshold, "I am a variant of the internal character 8 in Fig. 2" and "I'm a variant of the internal character in Fig. 2." 9 ”is created. Next, these two sentences are divided by using a morphological analysis program for the division processing, and “I am the variant character 8 in FIG. 2” and “I am the character in FIG. "This is a variant 9 (Sai) wisteria". From the text divided by the split-writing process, the variant word corresponding to the outer character part is "Figure 2 intial variant 8 (Sai) wisteria" and "Figure “2 internal variant 9” is extracted.

抽出された単語の前後に、「・」や「:」等の、分かち書き処理で明らかに単語の一部とは、認識されない記号などを付加し、電子文書データに不可視情報として付与する(S11)。 Before and after the extracted word, symbols such as “•” and “:” that are clearly unrecognized as part of the word are added to the electronic document data as invisible information (S11). .

電子データ形式がXML形式の場合「<p>私は<gaiji code="123"/>藤です。</p>」と定義されている場合には「<p>私は<gaiji code="123"><itaiji>齋藤</itaiji><itaiji>齊藤</itaiji></gaiji>藤です。</p>」とデータの付与を行う。電子データ形式をXSLTで変換する場合は、<gaij>から<gaij>を表示する際には非表示として扱う定義を行う。 If the electronic data format is XML, then <p> I am <gaiji code = "123" /> Fuji. </ P> "is defined as" <p> I am <gaiji code = " 123 "> <itaiji> Saito </ itaiji> <itaiji> Saito </ itaiji> </ gaiji> This is Fuji. </ P>". When the electronic data format is converted by XSLT, a definition is made to treat it as non-display when <gaij> is displayed from <gaij>.

同様に電子データ形式がHTML形式の場合「私は<IMG SRC="sai.jpg"><span style='display:none'>斉藤</span>藤です。」のように定義を行うことで、不可視情報として扱われる。 Similarly, when the electronic data format is HTML format, “I am <IMG SRC =" sai.jpg "> <span style = 'display: none'> Saito </ span> Fuji.” It is treated as invisible information.

インデックスを作成するタイプの検索システムであれば、電子文書データに不可視情報を付与した後インデックスの生成を行うことで、外字に対応した内字の異体字の単語による検索が可能になる。 If the search system is of a type that creates an index, it is possible to perform a search by using a variant word of an internal character corresponding to an external character by generating an index after adding invisible information to the electronic document data.

全文検索システムにおいては、文書の位置に関係なく単語が検索できることから、不可視情報を付与する位置は文書中のどこにあってもよい。 In the full-text search system, since a word can be searched regardless of the position of the document, the position to which the invisible information is added may be anywhere in the document.

また、外字に対応した内字の異体字が無い場合には、読みを異体字として登録することにより、代用することも可能である。 If there is no variant of the internal character corresponding to the external character, it can be substituted by registering the reading as a variant.

また、外字が人名や地名などの既知のものであれば、外字と内字との組合せが明確に判明するため、人名であれば旧姓、地名であれば旧名称などを類義語検索機能としても使用することが可能になる。 Also, if the external character is a known one such as a person name or place name, the combination of the external character and the internal character is clearly identified, so the maiden name is used as a synonym search function for a person name and the old name is used for a place name. It becomes possible to do.

ユニコードなどの日本漢字、中国漢字、韓国漢字を備える大規模文字列であれば、中国漢字、韓国漢字において、本実施例と同様の手法を用いることにより、中国漢字、韓国漢字も同様に外字の検索機能を付与することが可能になる。 For large-scale character strings with Japanese kanji such as Unicode, Chinese kanji, and Korean kanji, Chinese kanji and Korean kanji are also used for Chinese kanji and Korean kanji by using the same method as this example. A search function can be added.

上記実施例はXML、HTMLの場合であるが、情報検索システムで扱うことができ、かつ、不可視情報を埋め込むことのできる電子文書データフォーマットであればどのようなデータ形式でもよい。 The above embodiment is the case of XML or HTML, but any data format can be used as long as it is an electronic document data format that can be handled by an information search system and can embed invisible information.

ユニコードを扱えるコンピュータでも、すべてのコードに対応したフォントが登録されていない状態がある。情報検索システムと閲覧システムが別々のコンピュータで、ネットワークで接続されている場合、情報検索システムにはユニコードのすべてのフォントを登録し、電子文書データは、JIS第1第2水準で定義された文字を記述する。電子文書内のJIS第1第2水準以外の文字は、画像として表示し、該手法により、読みと単語を不可視情報として登録する。閲覧システムがJIS第1第2水準しか保持していないコンピュータでも表示が行え、読みから検索が可能になる。更に別のJIS第1第2水準以上のフォントを備える閲覧システムがJIS第1第2水準以外の文字で検索を行っても検索が可能になる。 Even computers that can handle Unicode do not have fonts that are compatible with all codes. When the information retrieval system and browsing system are separate computers and connected via a network, all the Unicode fonts are registered in the information retrieval system, and the electronic document data is the characters defined in JIS 1st and 2nd standards. Is described. Characters other than the JIS first and second levels in the electronic document are displayed as images, and readings and words are registered as invisible information by this method. Even a computer whose browsing system holds only the JIS first and second levels can perform display and search from reading. Further, even if a browsing system having a font of another JIS first and second level or higher performs a search using characters other than the JIS first and second levels, the search can be performed.

例えば、JIS第1第2水準では表示できない「シンセン」の「セン」は、「深セン」などのようにカナによる表示がされているが、ユニコードでは表現可能である。本実施例の手法では不可視情報として漢字の「シンセン」を保持することが可能であるため、漢字の「シンセン」の検索リクエストに対しても対応することが可能になる。 For example, “Shenzhen” of “Shenzhen” that cannot be displayed in the JIS first and second levels is displayed in kana like “Shenzhen”, but can be expressed in Unicode. In the method of the present embodiment, it is possible to hold the Chinese character “Shenzhen” as invisible information, so it is possible to respond to a search request for the Chinese character “Shenzhen”.

本発明の実施例では、外字コードと内字の異体字の変換テーブルを用いて外字コードを含む文章から外字に対応した内字の異体字を含む文字列を抽出し、不可視情報として付与することにより、内字の文字列で外字を含む文字列を検索することを可能にする例を示しているが、変換テーブルの外字コードのフィールドに内字コードを登録し、内字と内字の異体字を対応付けることにより、内字の文字列で内字の異体字を含む文字列を検索することができるようになる。例えば、変換テーブルに内字の「斉」と異体字として内字の「斎」を関連付け登録し、上記方法により不可視情報として付与することにより、検索語が「斉藤」の場合「斉藤」と「斎藤」が検索可能になり、検索の際に異体字同士の区別をなくし、検索の漏れをなくすことが可能になる。 In an embodiment of the present invention, a character string including an internal character variant corresponding to the external character is extracted from a sentence including the external character code using a conversion table of the external character code and the internal character variant, and is provided as invisible information. Shows an example that makes it possible to search for a character string including an external character in an internal character string. However, an internal character code is registered in the external character code field of the conversion table, and the internal character and the internal character are different. By associating characters, it is possible to search for a character string including a variant character of the internal character in the character string of the internal character. For example, if the search word is “Saito” and “Saito” and “Sai” as a variant character, it is added as invisible information by the above method. “Saito” can be searched, and it is possible to eliminate the distinction between variants and eliminate the omission of search.

本実施例の検索システムの構成図を示す。The block diagram of the search system of a present Example is shown. 外字に対する内字の異体字の類似度を表す外字・異体字変換テーブルを示す図である。It is a figure which shows the external character and the variant conversion table showing the similarity degree of the variant of the internal character with respect to the external character. 外字に対応した内字の異体字の文字列の付与方法の流れを示すフローチャートである。It is a flowchart which shows the flow of the provision method of the character string of the variant of the internal character corresponding to an external character.

符号の説明Explanation of symbols

1 情報閲覧手段
2 情報検索手段
3 検索用インデックス部
4 電子文書データ蓄積部
5 不可視情報付与手段
6 外字・異体字変換テーブル
7 外字画像
8、9 内字の異体字
DESCRIPTION OF SYMBOLS 1 Information browsing means 2 Information search means 3 Search index part 4 Electronic document data storage part 5 Invisible information provision means 6 External character / variant character conversion table 7 External character image 8, 9 Variant character of internal character

Claims (5)

外字コード、外字に対応した内字の異体字が字形や意味で関連付けられ格納された外字・異体字変換テーブルと、
外字コードを含む電子文書内の文章に含まれる外字コードから前記外字・異体字変換テーブルの外字コードを検索し、一つ又は複数の内字の異体字を検索する手段と、
前記電子文書内の文章に対して、前記検索した一つまたは複数の内字の異体字に置き換えた文章を作成する手段と、
前記異体字に置き換えて作成した一つ又は複数の文章を分かち書きする手段と、
前記分かち書きした文字列から、外字に対応した内字の異体字を分かち書きした文字列として抽出し、前記抽出した分かち書きした文字列を電子文書内に電子情報閲覧ソフトで不可視となる情報として埋め込む手段とを有することを特徴とする電子文書への不可視情報付与システム。
External character / variant character conversion table in which external character codes, internal characters corresponding to external characters are stored in association with the character shape and meaning, and
Means for retrieving an external character code of the external character / variant character conversion table from an external character code included in a sentence in the electronic document including the external character code, and searching for one or a plurality of internal character variants;
Means for creating a sentence in which the retrieved one or more internal characters are substituted for the sentence in the electronic document;
Means for sharing one or more sentences created by replacing the variant characters;
Means for extracting a variant character of an internal character corresponding to an external character from the character string thus written as a character string, and embedding the extracted character string as information invisible in electronic information browsing software in an electronic document; A system for providing invisible information to an electronic document, comprising:
前記外字・異体字変換テーブルに、外字コードと外字コードに組み合わされる文字とその読み及び類義語を設定することを特徴とする請求項1記載の電子文書への不可視情報付与システム。 2. The system for adding invisible information to an electronic document according to claim 1, wherein an external character code, a character combined with the external character code, a reading thereof, and a synonym are set in the external character / variant character conversion table. 前記外字・異体字変換テーブルに外字の字形と外字に対応した内字の異体字との類似度を具備し、外字コード検索手段に類似度を用い検索される異体字の文字数を制御することを特徴とする請求項1記載の電子文書への不可視情報付与システム。 The external character / variant character conversion table has a similarity between an external character shape and an internal variant corresponding to the external character, and controls the number of characters to be searched using the similarity in the external character code search means. The system for providing invisible information to an electronic document according to claim 1. 前記不可視情報として埋め込む分かち書きした文字列の前後に、記号を挿入することにより、検索システムが明らかに分かち書きした文字列として抽出することを特徴とする請求項1、2又は3記載の電子文書への不可視情報付与システム。 The electronic document according to claim 1, 2 or 3, wherein the retrieval system extracts the character string clearly divided by inserting symbols before and after the character string embedded as the invisible information. Invisible information grant system. 外字と内字から構成される電子文書の文章に対して、前記電子文書の文章をすべて内字に置き換え、
前記内字に置き換えた文章を分かち書きし、
前記分かち書きした文字列のうち外字部分に対応する内字の異体字を、外字コード、外字に対応した内字の異体字が格納された外字・異体字変換テーブルから抽出し、
前記抽出した分かち書きした文字列を電子情報閲覧ソフトで不可視となる情報として、もとの電子文書に埋め込むことを特徴とする電子文書への不可視情報付与方法。
For the text of the electronic document composed of external characters and internal characters, replace all the text of the electronic document with internal characters,
Write down the sentence replaced with the internal character,
Extracting a variant of the internal character corresponding to the external character portion of the divided character string from the external character code and the external character / variant character conversion table storing the internal variant of the internal character corresponding to the external character,
A method for providing invisible information to an electronic document, wherein the extracted character string is embedded in the original electronic document as information that becomes invisible with the electronic information browsing software.
JP2005046820A 2005-02-23 2005-02-23 System for giving invisible information to electronic document and giving method Pending JP2006235800A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005046820A JP2006235800A (en) 2005-02-23 2005-02-23 System for giving invisible information to electronic document and giving method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005046820A JP2006235800A (en) 2005-02-23 2005-02-23 System for giving invisible information to electronic document and giving method

Publications (1)

Publication Number Publication Date
JP2006235800A true JP2006235800A (en) 2006-09-07

Family

ID=37043404

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005046820A Pending JP2006235800A (en) 2005-02-23 2005-02-23 System for giving invisible information to electronic document and giving method

Country Status (1)

Country Link
JP (1) JP2006235800A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013196550A (en) * 2012-03-22 2013-09-30 Fuji Xerox Co Ltd Electronic document creation device, printer and program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013196550A (en) * 2012-03-22 2013-09-30 Fuji Xerox Co Ltd Electronic document creation device, printer and program

Similar Documents

Publication Publication Date Title
US8041557B2 (en) Word translation device, translation method, and computer readable medium
US7469251B2 (en) Extraction of information from documents
JP3356536B2 (en) Machine translation equipment
KR102268875B1 (en) System and method for inputting text into electronic devices
JP4401292B2 (en) Glyphlet
EP0686286B1 (en) Text input transliteration system
JP4461769B2 (en) Document retrieval / browsing technique and document retrieval / browsing device
US5475586A (en) Translation apparatus which uses idioms with a fixed and variable portion where a variable portion is symbolic of a group of words
JP2006004427A (en) System and method of searching content of complicated languages such as japanese
JP2007257644A (en) Program, method and device for acquiring translation word based on translation word candidate character string prediction
JPS63231674A (en) Word processing system
MXPA05001676A (en) Method and apparatus for visually emphasizing numerical data contained within an electronic document.
US20070179932A1 (en) Method for finding data, research engine and microprocessor therefor
EP4044047A1 (en) Patent document creating device, method, computer program, computer-readable recording medium, server and system
US7136803B2 (en) Japanese virtual dictionary
JP4160548B2 (en) Document summary creation system, method, and program
JP3372532B2 (en) Computer-readable recording medium for emotion information extraction method and emotion information extraction program
JP5107556B2 (en) Improved Chinese-English translation tool
JP2000148754A (en) Multilingual system, multilingual processing method, and medium storing program for multilingual processing
JP2006235800A (en) System for giving invisible information to electronic document and giving method
JP4953440B2 (en) Morphological analysis device, morphological analysis method, morphological analysis program, and recording medium storing computer program
JP2021101375A (en) Dictionary building device, method for producing dictionary, and program
JP3483585B2 (en) Document search device and document search method
Rapp A Part-of-Speech-Based Search Algorithm for Translation Memories.
JP2621999B2 (en) Document processing device