JP3698400B2 - Multilingual document processing apparatus, multilingual document processing method, and recording medium - Google Patents
Multilingual document processing apparatus, multilingual document processing method, and recording medium Download PDFInfo
- Publication number
- JP3698400B2 JP3698400B2 JP24056599A JP24056599A JP3698400B2 JP 3698400 B2 JP3698400 B2 JP 3698400B2 JP 24056599 A JP24056599 A JP 24056599A JP 24056599 A JP24056599 A JP 24056599A JP 3698400 B2 JP3698400 B2 JP 3698400B2
- Authority
- JP
- Japan
- Prior art keywords
- language
- index
- storage
- multilingual document
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、情報処理分野における多言語文書の登録検索に利用される多言語文書処理装置、多言語文書処理方法及びその多言語文書処理方法を実行するプログラムを記録した記録媒体に関する。
【0002】
【従来の技術】
近年のコンピュータやワードプロセッサの普及により、電子化された大量の文書データが蓄積され、必要に応じて文書データを検索する文書データベースの実用化が進んでいる。文書データベースにおいては、通信ネットワークの発達や国際化に伴い、複数の言語が混在した多言語文書のデータを扱う機会が増加しつつある。
【0003】
多言語文書を蓄積して管理する文書データベースにおける従来の多言語文書処理方法を図16及び図17に基づいて説明する。
多言語文書を登録する際には、入力された登録すべき多言語文書データに基づいて、多言語索引作成部501において検索用の多言語の索引を作成し、多言語索引格納部502に格納する。また、多言語文書データの実体を実体格納部503に格納する。検索を行う際には、入力された検索条件を示す検索文字列を基に、多言語索引照合部504によってその検索文字列と多言語索引格納部502に格納されている多言語索引とを照合し、検索条件に合致した文書の情報を検索結果として出力する。そして、この検索結果に基づき、実体抽出部505によって対応する多言語文書データの実体を実体格納部503から抽出し、多言語文書として出力する。
【0004】
このような多言語文書データの索引や実体を格納する場合、図17に示すように、カラムとレコードからなる表形式のデータベース構造を用いて、そのデータベースにおける複数のカラム511,512,513…にそれぞれ多言語文書データを格納するような方法が一般に採られている。カラム511〜513には、アクセスする単位としてカラムごとに属性(文書名など)が定義され、それぞれのカラムは対応する属性によってのみアクセスが可能となっている。このとき、カラム511に多言語文書データ全体をそのまま格納するか、カラム511に多言語文書データの任意の部分を格納し、カラム512,513に多言語文書データのその他の部分を格納する。このように従来では、複数言語を含む多言語文書データを、そのまま文書の構成に従って単数又は複数のカラムに格納し、検索等を行うようになっていた。
【0005】
多言語の情報を処理する装置としては、特開平1−213744号公報、特開平11−3338号公報などに開示されているものがあり、特に多言語文書の登録検索に関するものとして、特開平9−50442号公報には複数の言語の文を含む文書に対して検索に用いるインデックスを作成して登録し、該インデックスにより文書の検索を行う多言語文書登録検索装置が開示されている。
【0006】
また、複数のカラムに対するアクセスに関する方法としては、特開平6−68151号公報のように該当するカラムと別テーブルのカラムをリンクさせる方法、特開平6−223118号公報のようにデータ構造の論理定義情報に結合情報などを含める方法、特開平8−137735号公報のように仮想的エンティティを記述するテーブルを設ける方法などが開示されている。
【0007】
【発明が解決しようとする課題】
上述したような従来の多言語文書処理装置及び方法では、多言語文書データを格納して管理する場合に、格納領域としては特に言語を意識することなく複数言語が混在した状態で格納するようになっていた。このため、多言語文書データの管理に手間がかかったり、検索等を行う際のアクセスに時間がかかるなどの問題点が生じていた。また、多言語文書データが格納された複数のカラムにアクセスする場合に、従来ではアクセス手順が複雑化し、高速検索が困難であるなどの問題点があった。
【0008】
本発明は、上記事情に鑑みてなされたもので、多言語文書に関する情報を言語ごとに区別して管理することができ、各情報に素早くアクセスして検索等の処理を容易かつ高速に行うことが可能な多言語文書処理装置、多言語文書処理方法及び記録媒体を提供することを目的とする。
【0009】
【課題を解決するための手段】
本発明による多言語文書処理装置は、複数の言語の文字を含む多言語文書データの言語を識別する言語識別手段と、前記多言語文書データに関する索引を言語別に作成する索引作成手段と、前記索引を言語ごとに格納する索引格納手段と、前記言語ごとの索引を使用して多言語文書データの検索を行う検索手段と、を備えたものである。
【0010】
また、好ましくは、前記索引格納手段は、データベースにおける一つのカラムを分割してそれぞれに言語種別を設定した複数の格納領域を備えており、この複数の格納領域から言語種別に対応する格納領域を選択して索引を格納することとする。
【0011】
また、好ましくは、前記索引格納手段は、データベースにおけるそれぞれのカラムに言語種別を設定した複数のカラムを備えており、この複数のカラムから言語種別に対応するカラムを選択して索引を格納することとする。
【0012】
また、好ましくは、前記索引格納手段は、データベースにおける複数のカラム又は一つのカラムを分割した複数の格納領域のそれぞれにデータ格納時の格納言語種別とデータ検索時の検索言語種別とを設定した複数の格納部を備え、この複数の格納部から格納言語種別に対応する格納部を選択して索引を格納するものであり、前記検索手段は、データ検索時に指定された言語種別を含む検索言語種別に対応する格納部を参照し、その格納部の索引により検索を行うこととする。
【0013】
さらに、前記格納言語種別は、前記格納部を構成する一つのカラム又は格納領域に対して唯一の言語種別がそれぞれ設定されることが好ましい。
【0014】
また、前記索引格納手段は、前記複数の格納部としてデータベースにおける一つのカラムを分割してそれぞれに格納言語種別と検索言語種別とを設定した複数の格納領域を備えており、前記格納言語種別は、前記一つの格納領域に対して唯一の言語種別がそれぞれ設定され、これらの格納言語種別のうちの一つが前記カラムの言語種別として設定されることが好ましい。
【0015】
また、前記検索言語種別は、少なくとも一つの言語種別を含む言語種別の組からなり、この言語種別の組がそれぞれの格納部を構成する一つのカラム又は格納領域に対して設定され、この検索言語種別における一つの言語種別は当該格納部に設定された格納言語種別であることが好ましい。
【0016】
また、好ましくは、前記多言語文書データを言語別でかつ所定文字数以内の複数のページに分割するページ分割手段を備え、前記索引作成手段は、前記言語別のページごとに索引を作成することとする。
【0017】
また、好ましくは、前記多言語文書データの実体をデータベースにおける一つのカラムに又は複数のカラムに別々に格納する実体格納手段を備え、この多言語文書データの実体と前記多言語文書データの索引とは別々の格納手段に格納することとする。
【0018】
また、好ましくは、前記言語識別手段は、多言語文書データに含まれる言語識別情報により言語を識別するものであり、前記索引作成手段は、前記言語識別情報を所定の特殊文字に変換し、該特殊文字を含む全ての文字の文字連鎖を言語別に作成することとする。
【0019】
また、好ましくは、前記索引作成手段は、多言語文書データの単語又は2文字の連語を所定の対応文字に変換し、該対応文字を含む全ての文字の文字連鎖を言語別に作成することとする。
【0020】
さらに、前記索引作成手段は、多言語文書データが1文字からなる場合は、その文字に全ての文字と結合可能でかつ検索対象とならない所定の特殊文字を付加して文字連鎖を作成することが好ましい。
【0021】
また、前記索引は、該当する多言語文書データの文書を識別する文書情報と、該文書を所定単位ごとに分割したページを示すページ情報と、該文書内又はページ内における文字の相対的な出現順位或いは絶対的な出現位置の情報とを含むことが好ましい。
【0022】
また、本発明による多言語文書処理装置は、複数の言語の文字を含む多言語文書データの言語を識別する言語識別手段と、前記多言語文書データを言語別でかつ所定単位ごとの複数のページに分割するページ分割手段と、前記多言語文書データに関する索引を前記言語別のページごとに作成する索引作成手段と、前記索引を言語ごとに格納する索引格納手段と、を備えたものである。
【0023】
また、好ましくは、前記多言語文書データの実体を格納する実体格納手段を備えることとする。
【0024】
また、好ましくは、前記言語ごとの索引を使用して検索文字列に該索引が含まれるか否かを判定して多言語文書データの検索を行う検索手段を備えることとする。
【0025】
また、好ましくは、前記言語識別手段は、多言語文書データに含まれる言語識別情報により言語を識別するものであり、前記ページ分割手段は、前記言語識別情報から次の言語識別情報までの文字列を1つのページ又は所定単位ごとに分割した連続するページとして、複数のページに分割してページに格納することとする。
【0026】
また、好ましくは、前記索引作成手段は、該当する多言語文書データの文書を識別する文書番号と、該文書におけるページを示すページ情報と、該文書内又はページ内における文字の相対的な出現順位或いは絶対的な出現位置の情報とを含むものを索引とすることとする。
【0027】
また、好ましくは、前記検索手段による検索結果に基づいて検索文字列を含む多言語文書データの文書情報を取得し、この文書情報に該当する文書の多言語文書データの実体を抽出する実体抽出手段を備えることとする。
【0028】
本発明による多言語文書処理方法は、複数の言語の文字を含む多言語文書データの言語を識別する言語識別ステップと、前記多言語文書データに関する索引を言語別に作成する索引作成ステップと、前記索引を言語ごとに格納する索引格納ステップと、を有するものである。
【0029】
また、好ましくは、前記索引格納ステップにおいて、データベースにおける一つのカラムを分割してそれぞれに言語種別を設定した複数の格納領域を設け、この複数の格納領域から言語種別に対応する格納領域を選択して索引を格納することとする。
【0030】
また、好ましくは、前記索引格納ステップにおいて、データベースにおけるそれぞれのカラムに言語種別を設定した複数のカラムを設け、この複数のカラムから言語種別に対応するカラムを選択して索引を格納することとする。
【0031】
また、好ましくは、前記言語ごとの索引を使用して多言語文書データの検索を行う検索ステップを有し、前記索引格納ステップにおいて、データベースにおける複数のカラム又は一つのカラムを分割した複数の格納領域のそれぞれにデータ格納時の格納言語種別とデータ検索時の検索言語種別とを設定した複数の格納部を設け、この複数の格納部から格納言語種別に対応する格納部を選択して索引を格納し、前記検索ステップにおいて、データ検索時に指定された言語種別を含む検索言語種別に対応する格納部を参照し、その格納部の索引により検索を行うこととする。
【0032】
また、好ましくは、前記多言語文書データを言語別でかつ所定文字数以内の複数のページに分割するページ分割ステップを有し、前記索引作成ステップにおいて、前記言語別のページごとに索引を作成することとする。
【0033】
また、本発明による多言語文書処理方法は、複数の言語の文字を含む多言語文書データの言語を識別する言語識別ステップと、前記多言語文書データを言語別でかつ所定単位ごとの複数のページに分割するページ分割ステップと、前記多言語文書データに関する索引を前記言語別のページごとに作成する索引作成ステップと、前記索引を言語ごとに格納する索引格納ステップと、を有するものである。
【0034】
本発明による記録媒体は、本発明に係る多言語文書処理方法を実行するためのプログラムとして記録したコンピュータにより読み取り可能なものである。
【0035】
本発明では、多言語文書処理における文書管理において、複数の言語の文字を含む多言語文書データの言語を識別し、多言語文書データに関する索引を言語別に作成して、この索引を言語ごとに格納する。この際、データベースにおける1つのカラムに複数の言語の格納領域を備え、言語別に1つの格納領域又は複数の格納領域にデータを格納するか、又は、1つのカラムに格納するデータの言語を設定してデータの格納時に複数のカラムの中から該当する言語のカラムを識別して格納する。これにより、多言語文書データを言語別に処理し言語別に格納することが可能となる。或いは、1つの多言語文書データに対して所定単位ごとの複数のページに分割し、言語種別ごとでページごとに索引を作成して言語別に格納する。これにより、検索文字列指定時に言語種別及びページごとに索引にアクセスして検索することが可能となる。
【0036】
上記作用により、複数の異なる種類の言語に関するデータを各々別々に又は種類別に取り扱うことが可能となり、データ管理上の手順が簡略化される。また、登録時のデータ格納や検索時のデータ照合などのためにカラム又はその中の格納領域にアクセスする際に、言語種別によって対応する格納領域のみにアクセスすることが可能であるため、容易かつ素早いアクセスによって多言語文書データの高速な登録や検索が可能となる。
【0037】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を説明する。
本実施形態では、多言語文書処理装置及び方法として、多言語文書を管理するにあたり、検索のための索引の作成及び格納処理、その索引を用いた検索処理について説明する。なお、それぞれの実施形態の説明では、本発明に係る多言語文書処理装置及び方法について詳述するが、本発明に係る記録媒体については、多言語文書処理方法を実行させるためのプログラムを記録した記録媒体であることから、その説明は以下の多言語文書処理方法の説明に含まれるものである。
【0038】
[第1実施形態]
図1は本発明の第1実施形態に係る多言語文書処理装置の機能的概略構成を示すブロック図、図2は多言語文書データを格納及び参照する部分の機能的構成を示すブロック図である。
【0039】
図1に示すように、本実施形態の多言語文書処理装置は、多言語文書データに関する索引等を言語ごとに分けて格納し管理する構成となっており、入力された登録すべき多言語文書データを各言語別に識別する言語識別手段に該当する登録文字列言語識別部11、多言語文書データの言語別索引を作成する索引作成手段に該当する言語別索引作成部12、作成した索引データを言語別に設けられた格納領域に格納する索引格納手段に該当する言語別索引格納部13、登録する多言語文書の実体データを格納する実体格納手段に該当する実体格納部14、検索時に入力された検索文字列を各言語別に識別する検索文字列言語識別部15、検索文字列の言語別索引を作成する検索文字列言語別索引作成部16、検索文字列の言語別索引と登録された多言語文書の言語別索引とを照合して検索を行う検索手段に該当する言語別索引照合部17、言語別索引の照合に基づく検索結果により多言語文書の実体データを抽出する実体抽出部18を有している。
【0040】
図2は、第1実施形態における多言語文書処理装置の主要部の機能的構成として、多言語文書データを言語別に格納し参照する機能部分を示したものである。第1実施形態では、言語種別により多言語文書データ(索引データ又は実体データ)の格納先を切り替える入出力切替部21、多言語文書データの格納先を識別する言語種別に関する情報を記憶する言語種別記憶部22、言語種別が言語α、言語β、言語γのデータをそれぞれ格納するデータ格納部23,24,25を有している。この図2に示す部分は、図1に示す多言語文書処理装置において主に言語別索引格納部13に対応する。
【0041】
入出力切替部21は、言語種別記憶部22に記憶されている言語種別の情報を参照して入出力を切り替え、格納や参照のためにアクセスする多言語文書データの言語種別が言語αの場合は言語αデータ格納部23に、言語βの場合は言語βデータ格納部24に、言語γの場合は言語γデータ格納部25にそれぞれアクセスできるように、データの入出力を行う。なお、ここでは、説明のため言語種別のとる値の範囲を言語αから言語γの3つとしているが、この言語種別の値の範囲は制限がなく、言語種別に対応するデータ格納部は2つ以上でいくつあってもよい。
【0042】
図3は第1実施形態における多言語文書データの格納に関する多言語文書処理方法を概念的に示したものである。第1実施形態では、データベース構造における一つのカラムを複数の格納領域に分割し、各格納領域に言語種別ごとに分けた多言語文書データをそれぞれ格納する。
【0043】
図3(A)に示すように、カラム31は、文書名などのアクセスする単位を表す属性(カラム名)32が定義され、この属性32によって対応するカラムにアクセスして多言語文書データの格納や参照が可能となっている。このカラム31は、データ格納部23,24,25に対応するように、言語α,言語β,言語γの言語種別ごとに設けられた複数の格納領域33A,33B,33Cに分割された構成となっている。また、図3(B)に示すように、言語種別記憶部22に対応して、カラム31内の各格納領域に割り当てた言語種別を示す言語種別情報36が設定され、カラム31の外部又は内部の所定箇所に記憶されている。
【0044】
このような構成のカラム31にアクセスする場合、複数の格納領域33A,33B,33Cの中から、言語種別情報36に基づいていずれかの格納領域を選択し、対応する言語種別の格納領域にアクセスする。このとき、属性を指定することによって該当するカラムへのアクセスを指示すると、アクセス対象となる多言語文書データの言語種別に応じて、カラム内の対応する言語種別の格納領域にのみアクセスが可能となる。多言語文書データを属性32のカラム31に格納する際、言語種別情報36を参照して、格納するデータの言語種別が言語αの場合は格納領域33Aが、言語βの場合は格納領域33Bが、言語γの場合は格納領域33Cが、それぞれ選択され、選択された格納領域にデータが格納される。なお、ここでは、カラム31には3つの格納領域がある場合を示しているが、格納領域の数は多言語文書データの言語種別の数に応じていくつでも構わない。
【0045】
また、多言語文書の実体データは、1つのカラムにまとめて或いは複数のカラムに別々に格納し、索引データと実体データとを別々の格納手段(カラム、ファイル、ディレクトリ、ディスク等の記録媒体など)に格納するようにする。
【0046】
このように、データベースのカラムにおいて複数のデータ格納領域を設定し、言語種別による格納領域の選択を行う機能を設けることにより、1つの属性に対応するカラムに対して複数の言語別に格納領域を選択してデータを格納することが可能となる。
【0047】
次に、上記のような多言語文書処理装置及び方法において、複数の言語の文章からなる多言語文書として日本語と英語が混在した文書データを対象とし、一つのカラムに日本語と英語の索引をそれぞれの言語別の格納領域に格納し検索する場合の動作手順について説明する。
【0048】
図4は日本語の索引と英語の索引をそれぞれの格納領域に格納した状態を示す説明図、図5は言語種別を識別するための言語識別情報や英単語又は英連語を置き換える特殊文字を示す説明図、図6は登録多言語文書データの索引及び検索文字列の索引を作成する手順を示す説明図である。
【0049】
ここでは、図4に示すように、属性が「本文」のカラム41に言語種別が英語の格納領域42Aと言語種別が日本語の格納領域42Bとを設け、それぞれの言語の索引を格納する場合を例示する。本実施形態では、多言語文書データにおいて、言語識別情報として、以下の文字列が日本語であることを表す<日本語>と、英語であることを表す<英語>とがそれぞれ設けられているものとする。また、日本語の文字は2バイト、英語の文字は1バイトで、それぞれが分かち書き文となっているとする。なお、言語識別情報は、上記のように言語が切り換わる位置で文字列ごとに設けるもの(タグなど)に限らず、個々の文字ごとに設けても良い。言語識別情報としては、構造化文書のタグ、文字のフォントを切り換えるためのフォント情報を含む識別コードや制御コード、JIS X 0202(ISO 2022)拡張符号化方式のエスケープシーケンスなどを用いることができるし、文字コードによっては言語識別情報が無くても言語種別が判別可能な場合は特に言語識別情報を設けていない多言語文書データであっても以下と同様にして言語別に索引を作成して格納することが可能である。
【0050】
図5(A)は言語識別情報と置き換える特殊文字との対応を示したものであり、索引を作成するときには、「<日本語>」は「^V」の特殊文字に、「<英語>」は「^W」の特殊文字にそれぞれ置き換える。また、英語の索引を作成する場合は、図5(B)に示すように英単語を表す文字列をまとめて1文字の特殊文字に置き換えたり、図5(C)に示すように英連語(英語のアルファベット文字列)をまとめて(ここでは2文字ごと)1文字の特殊文字に置き換える。ここでは、図5(B)のように英語文字列の単語「This」を「0x1」、「is」を「0x2」(0xは16進数を示す)のそれぞれの対応文字に変換するようにする。
【0051】
なお、索引を登録する多言語文書データが1文字からなる場合は、全ての文字と結合可能でかつ検索対象とならない特殊文字(使用されていない制御コードに対応する文字コードなどのフォントが割り当てられていない文字)をその文字に付加して文字連鎖を作成する。
【0052】
図6(A)は、「これは This is文書です」を表す登録多言語文書データ43から登録用の索引を作成する手順を示したものである。登録多言語文書データ43には言語識別情報44a,44b,44cが含まれており、日本語文字列「これは」、「文章です」と英語文字列「This is」が区別されている。このとき、言語識別情報は図5(A)の対応表により「<日本語>」は「^V」、「<英語>」は「^W」の特殊文字に置き換え、英語文字列の単語は図5(C)の対応表により「This」は「0x1」、「is」は「0x2」の対応文字にそれぞれ変換する。これにより、言語識別情報は、特殊文字に置き換えられて各言語の文字列の両端で共有される。
【0053】
そして、日本語文字列「これは」については、「これは^W」として索引45a,45b,45cを作成し、英語文字列「This is」については、「^W 0x1 0x2 ^V」として索引45d,45e,45fを作成し、また日本語文字列「文章です」については、「^V文章です」として索引45g,45h,45i,45jを作成する。なお、この例では簡単にするために登録多言語文書データ43の先頭の言語識別情報44aに対応する特殊文字を省略しているが、文字列先頭に特殊文字「^V」を付加して「^Vこれは^W」の索引を作成するようにしても良い。このように作成した索引は、2文字連鎖のものであり、図示しないが各文字連鎖ごとの文書内における相対的な出現順位又は絶対的な出現位置の情報を含む索引データとして格納される。
【0054】
このとき、入力された登録多言語文書データ43において言語識別情報44a,44b,44cによって言語種別を識別して、それぞれの言語の文字列に対応する索引を作成し、図4に示すようにカラム41の各格納領域42A,42Bに言語別に格納する。ここでは、まず日本語文字列「これは」に対応する索引45a〜45cを作成して日本語の格納領域42Bに格納し、次いで英語文字列「This is」に対応する索引45d〜45fを作成して英語の格納領域42Aに格納し、さらに、日本語文字列「文章です」に対応する索引45g〜45jを作成して日本語の格納領域42Bに格納する。これにより、日本語の索引は格納領域42Bに、英語の索引は格納領域42Aにそれぞれ分離されて格納される。
【0055】
登録した多言語文書データに対して検索を行う場合は、入力された検索文字列について同様に索引を作成し、格納されている多言語文書データの索引と照合して一致しているか否かを判断する。この索引の照合結果によって、検索文字列にヒットした多言語文書データ内の文字列があるかどうかが検出される。そして、索引データが格納されているカラムの属性などから、文書名などの多言語文書データに関する情報を得て検索結果として出力する。また、使用者の指示などに応じて多言語文書データの実体データを抽出して出力する。
【0056】
図6(B)は、「これは This is文書」を表す検索文字列46から検索用の索引を作成する手順を示したものである。検索文字列46は言語識別情報47a,47b,47cを含んでおり、日本語文字列「これは」、「文章です」と英語文字列「This is」とが区別されている。上述した登録多言語文書データ43の場合と同様にして、日本語と英語の言語別に検索文字列の索引48a〜48hが作成される。このとき、先頭の言語識別情報47aにより言語種別を日本語に設定し、文字列「これは^W」の索引48a,48b,48cを作成し、日本語の格納領域42Bの索引45a,45b,45cに対して、索引の各文字の出現順位の順に、すなわち索引48aは索引45aと、索引48bは索引45bと、索引48cは索引45cと照合する。
【0057】
次いで、多言語文書データの索引45cの特殊文字「^W」により索引文字列終端の言語が英語に切り替わることを検出し、検索文字列の言語識別情報47bにより言語種別を英語に設定し、文字列「^W 0x1 0x2 ^V」の索引48d,48e,48fを作成し、英語の格納領域42Aの索引45d,45e,45fに対して、索引の各文字の出現順位の順に、すなわち索引48dは索引45dと、索引48eは索引45eと、索引48fは索引45fと照合する。このとき、多言語文書データの索引45cと索引45dの検出により「This is」が「これは」に連続していることを検出し、さらに、索引45fの特殊文字「^V」により索引文字列終端の言語が日本語に切り替わることを検出する。そして、検索文字列の言語識別情報47cにより言語種別を日本語に設定し、文字列「^V文章」の索引48g,48hを作成し、日本語の格納領域42Bの索引45g,45hに対して、索引の各文字の出現順位の順に、すなわち索引48gは索引45gと、索引48hは索引45hと照合する。このとき、多言語文書データの索引45fと索引45gの検出により「文章」が「This is」に連続していることが検出される。
【0058】
以上の照合によって、検索文字列の索引48a〜48hと多言語文書データの索引45a〜45hとが一致した場合は、これらの索引の文字連鎖に対応した文字列、すなわち検索文字列46が登録多言語文書データ43において含まれることが検出されたことになる。
【0059】
上記の例では、日本語と英語の2つの異なる言語が連続する文字列で登録及び検索する例を示したが、言語ごとに別々に格納された索引を別々に利用して言語別に検索することも可能である。例えば、登録多言語文書データ43に対して英語検索により「This」で検索する場合は、言語種別を英語に設定して格納領域42Aに格納された索引のみと照合するれば良い。
【0060】
本実施形態では、多言語文書データの索引データなどを格納する一つのカラムを複数の格納領域に分割し、言語ごとに分離してそれぞれの格納領域にデータを格納するようにしている。これにより、多言語文書データを管理する場合に、複数の異なる種類の言語に関するデータを言語別に取り扱うことができ、データ管理上の手順を簡略化できる。また、登録時のデータ格納や検索時のデータ照合などのためにカラムにアクセスする際に、言語種別によって対応する格納領域のみにアクセスすることができ、容易かつ素早いアクセスによって高速な登録や検索が可能となる。
【0061】
[第2実施形態]
図7は第2実施形態に係る多言語文書データを登録及び検索する部分の機能的構成を示すブロック図である。
【0062】
第2実施形態では、多言語文書処理装置の主要部の機能的構成として、多言語文書データを言語別に格納及び参照可能なように、データベースの各カラムの属性と言語種別を定義するデータ定義部51、入力される多言語文書データに対し言語別の索引等の登録処理を行う言語別登録部52、多言語文書データを指定カラムに格納するデータ格納部53、言語種別に従って指定カラムに対して言語別の検索処理を行う言語別検索部54を有している。
【0063】
言語別登録部52及び言語別検索部54は、データ定義部51で定義された言語種別に従って、それぞれ指定カラムに対して対応する言語の登録処理、検索処置を行う。これにより、複数のカラムにおいてそれぞれのカラムに言語種別を設定し、複数の異なる言語のデータをそれぞれ対応する指定カラムに対して同時に登録、検索することが可能となる。なお、データ定義部51により定義する属性数はいくつであっても良い。
【0064】
図8は第2実施形態における多言語文書データの格納に関する多言語文書処理方法を概念的に示したものである。第2実施形態では、データベース構造における複数のカラムのそれぞれに対して言語種別を割り当てて定義し、各カラムに言語種別ごとに分けた多言語文書データをそれぞれ格納する。
【0065】
図8(A)に示すように、属性A,属性B,属性Cがそれぞれ定義されたカラム61,62,63を有し、これらのカラムの属性に対して図8(B)に示すように言語種別として言語α,言語β,言語γのデータ定義情報64が定義される。複数のカラム61,62,63に対してデータを格納する際には、データ定義情報64を参照して言語種別に対応する属性のカラムを判別し、そのカラム(指定カラム)に対してアクセスする。これにより、多言語文書データの実体及び索引を登録する場合に、言語種別ごとに索引作成等の言語処理を行って対応するカラムに登録すべきデータを格納することができる。また、複数のカラム61,62,63に格納されたデータを検索する場合は、データ定義情報64を参照して言語種別に対応する属性のカラムを判別し、そのカラム(指定カラム)に対してアクセスすることにより、言語種別ごとに検索文字列照合等の言語処理を行って検索することができる。
【0066】
次に、第2実施形態の多言語文書処理装置及び方法において、複数の言語の文章からなる多言語文書として日本語と英語が混在した文書データを対象とし、複数のカラムに対して日本語と英語の索引をそれぞれの対応するカラムに言語別に格納し検索する場合の動作手順について説明する。
【0067】
図9は日本語の索引と英語の索引をそれぞれのカラムに格納した状態を示す説明図である。ここでは、図9(B)に示すようにデータ定義情報73を設定し、図9(A)に示すように属性が「本文A」で言語種別が「日本語」のカラム71と、属性が「本文B」で言語種別が「英語」のカラム72とを設け、それぞれの言語別の索引を対応するカラムに格納する。登録多言語文書データ及び検索文字列は図6に示したものと同様の場合を例示する。
【0068】
登録多言語文書データの索引を作成して格納する場合、日本語文字列の索引45a〜45c,45g〜45jは対応する属性「本文A」を指定してカラム71に格納し、英語文字列の索引45d〜45fは対応する属性「本文B」を指定してカラム72に格納する。
【0069】
検索文字列46によって検索する場合、まず日本語文字列の索引48a〜48cを索引の各文字の出現順位の順に属性「本文A」のカラム71に格納された索引45a〜45cと照合する。次いで、英語文字列の索引48d〜48fを索引の各文字の出現順位の順に属性「本文B」のカラム72に格納された索引45d〜45fと照合する。このとき、多言語文書データの索引45cと索引45dの検出により「This is」が「これは」に連続していることが検出される。そして、日本語文字列の索引48g,48hを索引の各文字の出現順位の順に属性「本文A」のカラム71に格納された索引45g,45hと照合する。このとき、多言語文書データの索引45fと索引45gの検出により「文章」が「This is」に連続していることが検出される。
【0070】
以上の照合によって、検索文字列の索引48a〜48hと多言語文書データの索引45a〜45hとが一致した場合は、これらの索引の文字連鎖に対応した文字列、すなわち検索文字列46が登録多言語文書データ43において含まれることが検出されたことになる。
【0071】
第2実施形態では、多言語文書データの索引データなどを格納する複数のカラムを言語種別ごとに定義し、言語ごとにカラムを区別してそれぞれのカラムにデータを格納するようにしている。これにより、第1実施形態と同様に、多言語文書データを管理する場合に複数の異なる種類の言語に関するデータを言語別に取り扱うことができ、日本語と英語など複数言語が連続する文書データの登録及び検索が容易かつ高速に実行可能となる。
【0072】
この第2実施形態は、それぞれの言語に関する索引等のデータを1つの専用のカラムに格納して言語を別々に検索する方法により多言語文書データを管理する場合に特に効果的である。また、第2実施形態の多言語文書処理装置及び方法では、一度カラムの属性を言語別に定義してしまえば、言語種別を意識することなく言語別にカラムにアクセスして検索することができる。例えば、属性として「本文A」を指定すると言語種別が日本語となり、日本語文字列の登録及び検索が行われ、同様に「本文B」を指定すると英語文字列の登録及び検索を行うことができる。
【0073】
[第3実施形態]
図10は第3実施形態に係る多言語文書データを格納及び検索する部分の機能的構成を示すブロック図である。
【0074】
第3実施形態では、多言語文書処理装置の主要部の機能的構成として、多言語文書データを言語別に格納及び参照可能なように、格納時に多言語文書データの格納先を選択する格納領域選択部81、格納時及び検索時の言語種別を記憶する言語種別記憶部82、言語種別が言語α、言語β、言語γのデータをそれぞれ格納するデータ格納部83,84,85、各言語のデータ格納部83,84,85に格納する言語種別を記憶する格納言語種別記憶部86、検索時にデータ格納部83,84,85を選択する検索領域選択部87、各言語のデータ格納部83,84,85における検索言語種別の組を記憶する検索言語種別記憶部88を有している。なお、ここでは、説明のため言語種別を3つとしているが、言語種別及び対応するデータ格納部は2つ以上のいくつでも良い。
【0075】
格納領域選択部81は、多言語文書データの索引データ等を格納する場合に、言語種別記憶部82に入力された格納時の言語種別がいずれであるかを格納言語種別記憶部86にある格納言語種別情報を参照して識別し、データ格納部83,84,85のうちの対応する格納言語種別のデータ格納部を選択し、データの格納を行う。また、検索領域選択部87は、多言語文書データを検索する場合に、言語種別記憶部82に入力された検索時の言語種別がいずれであるかを検索言語種別記憶部88にある検索言語種別の組の情報を参照して識別し、データ格納部83,84,85のうちの対応する検索言語種別の組のデータ格納部を選択し、データの検索を行う。
【0076】
図11は第3実施形態における多言語文書データの格納に関する多言語文書処理方法を概念的に示したものである。第3実施形態では、データベース構造における一つのカラムを複数の格納領域に分割し、各格納領域に格納言語種別と検索言語種別の組とを設定して、言語種別ごとに分けた多言語文書データをそれぞれ対応する格納領域に格納するとともに、検索文字列の言語種別に応じて対応する格納領域にアクセスして検索を行う。
【0077】
図11(A)に示すように、カラム91は、文書名などのアクセスする単位を表す属性92が定義されるとともに、データ格納部83,84,85に対応するように、言語α,言語β,言語γの言語種別ごとに設けられた複数の格納領域93A,93B,93Cに分割された構成となっている。なお、属性92には多言語文書データの主となる言語種別の情報も含まれるものとする。また、この例では、第1実施形態と同様に1つのカラムを複数の格納領域に分割して言語別にデータを格納する場合を示したが、第2実施形態と同様に複数のカラムのそれぞれに格納言語種別及び検索言語種別を定義して言語別にデータを格納するようにしても同様な作用効果が得られる。
【0078】
また、図11(B)に示すように、格納言語種別記憶部86及び検索言語種別記憶部88に対応して、カラム91内の各格納領域に割り当てた格納言語種別及び検索言語種別を示す言語種別情報96が設定され、カラム91の外部又は内部の所定箇所に記憶されている。検索言語種別は、多言語文書データにおいて用いられる格納言語種別を含む言語種別の組を示したものである。例えば、検索言語種別Eは言語α、検索言語種別Fは言語α及び言語β、検索言語種別Gは言語α及び言語γとする。ここで、格納言語種別は各カラム又は格納領域において唯一の言語種別が設定される。また、検索言語種別は1つ以上の言語種別の組からなり、その中の1つの言語種別が格納言語種別となるように設定される。
【0079】
入力された多言語文書データをカラム91に格納する場合、言語種別情報96の格納言語種別に基づいて、複数の格納領域93A,93B,93Cの中からいずれかの格納領域を選択し、対応する言語種別の格納領域にアクセスして格納する。すなわち、格納言語種別が言語αの場合は格納領域93Aが、言語βの場合は格納領域93Bが、言語γの場合は格納領域93Cが選択される。また、カラム91に格納された多言語文書データの検索を行う場合は、言語種別情報96の検索言語種別に基づいていずれかの格納領域を選択し、対応する言語種別の格納領域にアクセスしてデータを参照する。この場合、検索言語種別Eの場合は格納領域93Aが、検索言語種別Fの場合は格納領域93Bが、検索言語種別Gの場合は格納領域93Cが選択される。すなわち、言語αの場合は格納領域93A,93B,93Cの全格納領域が、言語βの場合は格納領域93Bが、言語γの場合は格納領域93Cが選択されることになる。なお、ここでは、カラム91には3つの格納領域が多重化された場合を示しているが、この多重化した格納領域の数はいくつでも構わない。
【0080】
このように、データベースのカラムにおいて複数のデータ格納領域を設定し、格納する言語種別と検索する言語種別の組とによりそれぞれの格納領域の選択を行う機能を設けることにより、1つの属性に対応するカラムに対して複数の言語別に格納領域を選択してデータを格納及び検索することが可能となる。
【0081】
次に、第3実施形態の多言語文書処理装置及び方法において、複数の言語の文章からなる多言語文書として日本語と英語が混在した文書データを対象とし、複数のカラムに対して日本語と英語の索引をそれぞれの対応するカラムに言語別に格納し検索する場合の動作手順について説明する。
【0082】
図12は日本語の索引と英語の索引をそれぞれの格納領域に格納した状態を示す説明図、図13は登録多言語文書データの索引及び検索文字列の索引を作成する手順を示す説明図である。
【0083】
ここでは、図12に示すように、属性が「本文(日本語)」のカラム101に格納言語種別が日本語で検索言語種別が日本語である格納領域102Aと、格納言語種別が英語で検索言語種別が日本語及び英語である格納領域102Bとを設け、それぞれの言語の索引を格納する場合を例示する。
【0084】
この場合、日本語の索引は格納領域102Aに、英語の索引は格納領域102Bにそれぞれ分割されて格納される。検索を行う際には、日本語が指定された場合は格納領域102A及び102Bにアクセス可能となり、英語が指定された場合は格納領域102Bのみにアクセス可能となって、検索文字列によって検索が実行される。主となる言語種別である日本語を指定して検索を行う場合は、英語の文字は日本語の中に埋め込まれたものと判断し、日本語と同じ方法で索引を作成し検索する。
【0085】
図13(A)は、「これは This is文書です」を表す登録多言語文書データ103から登録用の索引を作成する手順を示したものである。登録多言語文書データ103には第1実施形態と同様に言語識別情報が含まれており、「これは」と「文章です」の日本語文字列104a,104cと、「This is」の英語文字列104bとが区別されている。まず、言語識別情報を省略して文字列104a,104b,104cを連結し、英語文字列「This is」を対応文字「0x1 0x2」に変換した連結文字データ105とする。
【0086】
そして、カラム101に定義された主となる言語種別(ここでは日本語)により、日本語文字列として索引106a〜106hを作成する。この場合、日本語文字列「これは」に関する索引である、索引106aから日本語文字列104aと英語文字列104bとの連結を示す索引106cまでを格納領域102Aに格納し、英語文字列「This is」に関する索引である、索引106dから英語文字列104bと日本語文字列104cとの連結を示す索引106eまでを格納領域102Bに格納し、日本語文字列「文章です」に関する索引である索引106fから索引106hまでを格納領域102Aに格納する。
【0087】
このように登録された多言語文書データに対して検索を行う場合は、入力された検索文字列について同様に索引を作成し、格納されている多言語文書データの索引と照合して一致しているか否かを判断する。図13(B)は、「これは This is文書」を表す検索文字列107から検索用の索引を作成する手順を示したものである。検索文字列107は日本語文字列108a,108cと英語文字列108bとを含んでいるため、2つの格納領域102A,102Bの検索言語種別の組の両方に含まれる日本語を指定する。これにより、検索文字列107について格納領域102Aと102Bの両方にアクセスして検索することができる。
【0088】
このとき、上述した登録多言語文書データ103の場合と同様にして、検索文字列107の連結文字データ109から索引110a〜110fを作成し、格納されている索引106a〜106fと各文字の出現順位の順に照合する。すなわち、索引110a,110b,110cを日本語の格納領域102Aの索引106a,106b,106cと出現順位に従って照合し、索引110d,110eを日本語及び英語の格納領域102Bの索引106d,106eと出現順位に従って照合し、索引110fを日本語の格納領域102Aの索引106fと照合する。
【0089】
以上の照合によって、検索文字列の索引110a〜110fと多言語文書データの索引106a〜106fとが一致した場合は、これらの索引の文字連鎖に対応した文字列、すなわち検索文字列107が登録多言語文書データ103において含まれることが検出されたことになる。
【0090】
第3実施形態では、多言語文書データの索引データなどを格納する一つのカラムを複数の格納領域に分割し、各格納領域に格納言語種別と検索言語種別との組を定義して、それぞれの格納言語種別に対応する格納領域にデータを格納するとともに、対応する検索言語種別の格納領域にアクセスして検索するようにしている。これにより、第1実施形態と同様に、多言語文書データを管理する場合に複数の異なる種類の言語に関するデータを言語別に取り扱うことができ、日本語と英語など複数言語が連続する文書データの登録及び検索が容易かつ高速に実行可能となる。
【0091】
この第3実施形態は、複数の言語からなる多言語文書データを登録して管理する際に、その索引を1つの言語の索引として扱う多言語の登録検索を行う場合にに特に効果的である。例えば、主となる言語種別(上記例では日本語)の検索文字列では特に言語種別を意識することなく全格納領域にアクセスして検索でき、他の言語(上記例では英語)の検索文字列では一部の格納領域のみにアクセスするため、高速な検索が可能である。
【0092】
[第4実施形態]
図14は第4実施形態に係る多言語文書データを格納及び検索する部分の機能的構成を示すブロック図である。
【0093】
第4実施形態では、多言語文書処理装置の主要部の機能的構成として、多言語文書データを言語別にページごとに格納可能なように、多言語で構成された文書データを読み取って文書ごとに識別するための文書情報(文書番号)を付与する多言語文書データ入力部121、入力された多言語文書データからタグなどの言語識別情報を検出して言語種別を判定する言語識別手段に該当する言語種別判定部122、判定された言語種別に基づいて多言語文書データに対して文書番号単位で言語別にページ番号の割り付けを行うページ分割手段に該当するページ分割部123、文書番号、ページ番号、言語種別を取得して各ページに含まれる文書データに対して言語別に索引を作成する索引作成手段に該当する言語別索引作成部124、作成された索引を言語別にカラムに格納する索引格納手段に該当する言語別索引格納部125、文書番号と多言語文書データそのものの実体を格納する実体格納手段に該当する実体格納部126を有している。
【0094】
ページ分割部123は、多言語文書データを文書番号単位で言語別に分割してページ番号の割り付けを行い、その言語種別の文書データの長さが予め設定した1ページの長さを超えた場合には複数ページにさらに分割して言語種別ごとにページ番号を割り付ける。言語別索引作成部124は、各ページに含まれる文書データに対して各文字の出現順位又は出現位置を計算し、文書番号、ページ番号、文字の出現順位又は出現位置を含む索引データを言語種別ごとに分割して作成する。言語別索引格納部125は、作成された索引データを例えば言語種別ごとに索引ファイルとして格納する。
【0095】
また、多言語文書データを高速検索可能なように、検索文字列と指定された検索言語種別を読み取る検索文字列入力部127、言語別索引格納部125に格納された検索言語種別に対応する索引と検索文字列とを照合して検索を行う検索手段に該当する文字列検索部128、文字列検索部128の検索結果に基づいて該当する文書番号の多言語文書データの実体を実体格納部126から抽出し出力する実体抽出手段に該当する実体抽出部129を有している。
【0096】
文字列検索部128は、指定された検索言語種別に対応する索引ファイルを言語別索引格納部125から読み取り、検索文字列を含む索引ファイルを検出して索引データの文字列と検索文字列とが一致するかを判定し、一致した索引データに該当する文書番号を出力する。実体抽出部129は、文字列検索部128により取得された文書番号に対応する文書データの実体を読み出して検索結果として出力する。
【0097】
図15は第4実施形態における多言語文書データの格納及び検索に関する多言語文書処理方法を概念的に示したものである。図15において、(A)は多言語文書データの登録(索引格納)に関する動作を、(B)は多言語文書データの検索に関する動作を示している。
【0098】
多言語文書データの索引を登録する場合は、図15(A)に示すように、登録多言語文書データ131を言語種別ごと及びページごとに分割して索引を作成し格納する。この登録多言語文書データ131は、<日本語>、<英語>のタグにより日本語と英語の言語種別が区別されている。なお、これらの言語の他に、中国語、韓国語など多数の言語をタグで示して区別することも可能である。
【0099】
まず、入力した登録多言語文書データ131に文書番号として「本文X」を付与する。なお、文書番号は「文書1」などの連続番号とか、任意の番号や符号でも良い。また、この登録多言語文書データ131の実体は実体データ139として格納される。次いで、登録多言語文書データ131における文字列の言語種別をタグにより判定し、言語種別ごとに複数ページに分割してページ番号を付与する。図15の例は、言語種別が日本語でページ番号P1が割り付けられた文書レコード132a、言語種別が英語でページ番号P2が割り付けられた文書レコード132b、言語種別が日本語で複数ページに分割されてページ番号P3〜P7が割り付けられた文書レコード132c〜132gを示している。
【0100】
そして、複数のページごとに分割された文書レコード132a〜132gに対して、それぞれ上述した実施形態と同様に索引を作成する。本実施形態では、文書番号「本文X」、ページ番号「P1」〜「P7」、文字連鎖の情報を含む索引データを作成し、索引ファイルとして言語種別ごとにカラムに格納する。すなわち、日本語の文書レコード132a,132c〜132gに関する索引データは索引ファイル133a〜133fとして日本語の格納領域に格納され、英語の文書レコード132bに関する索引データは索引ファイル134aとして英語の格納領域に格納される。なお、索引データとしては、文字連鎖だけでなく、各文字の出現順位や出現位置も合わせて格納しても良い。
【0101】
上記のように格納された多言語文書データに対する検索の第1例を図15(B)に示す。この第1例は、多言語検索文字列データ135として、検索文字列が「文書」で、検索言語種別として「日本語」が指定された場合の動作である。このとき、入力された多言語検索文字列データ135に基づいて検索言語種別を判断し、日本語の索引ファイルを指定する。そして、日本語の索引ファイルの中に検索文字列「文書」の文字連鎖が含まれるかどうかを判定し、この「文書」が含まれる索引ファイル133cを検出する。さらに、この索引ファイル133cに格納されている索引データ136として対応する文書番号「本文X」を取得する。次いで、「本文X」に該当する実体データ139を読み出して検索結果として出力する。なお、検索結果としては、第1段階として文書番号を基にした文書データの識別情報のみを出力し、その後ユーザの指示に応じて実体データを出力するようにしても良い。
【0102】
また、図15(C)は多言語文書データに対する検索の第2例である。この第2例のように、検索文字列と検索言語種別に加えてページ間隔を指定した多言語検索文字列データ137を用いて検索することも可能である。このページ間隔は、検索文字列が所定の範囲内にまとまって存在するか又はバラバラに存在するかを判定するいわゆる近傍検索に用いられるもので、一致した文字列の出現位置の間隔の指定範囲(同一の検索文字列の出現範囲指定値)に対応するものである。ここでは、検索文字列が「文」、検索言語種別が「日本語」、ページ間隔として「5ページ以内」が指定された場合の動作を示す。
【0103】
この場合、入力された多言語検索文字列データ137に基づいて検索言語種別を判断し、日本語の索引ファイルの中に検索文字列「文」の文字連鎖が含まれるかどうかを判定して、この「文」が含まれる索引ファイル133c及び133eを検出する。そして、これらの索引ファイル133c,133eに格納されている索引データ138として、ページ番号「P3」,「P7」を含むデータ「本文X、P3、文書」「本文X、P7、文章」を取得する。次いで、ページ間隔が7−3+1=5ページであることを算出して、指定ページ間隔である「5ページ以内」かどうかを判定する。この判定結果により、この場合は5ページ以内であるので、索引ファイル133c,133eに対応する索引データの文書番号「本文X」を取得し、「本文X」に該当する実体データ139を読み出して検索結果として出力する。
【0104】
以上の手順により、多言語文書データのページ別の登録とともに、格納された多言語文書データに対する検索が行われ、検索文字列に一致した文書データが抽出される。
【0105】
第4実施形態では、多言語文書データを言語種別ごとかつ所定文字数ごとに複数ページに分割して、格納及び検索を行うようにしている。これにより、多言語文書データを管理する場合に、複数の異なる種類の言語に関するデータをページ別に取り扱うことができるため、言語別の管理がさらにしやすくなり、日本語と英語など複数言語が連続する文書データの登録及び検索が容易かつ高速に実行可能となる。
【0106】
以上説明したように、本実施形態によれば、多言語文書処理における文書管理において、1つのカラムに複数の言語の格納領域を備え、言語別に1つの格納領域又は複数の格納領域にデータを格納するか、又は、1つのカラムに格納するデータの言語を設定してデータの格納時に複数のカラムの中から該当する言語のカラムを自動的に識別することにより、多言語文書データを言語別に処理し言語別に格納することが可能となる。また、1つの文書データに対して複数のページに分割し、かつ言語種別ごとにページと言語種別を組にした索引ファイルを作成して言語別のカラムに格納することにより、検索文字列指定時に言語種別及びページごとにカラムにアクセスして検索することが可能となる。
【0107】
このとき、データベースのカラムにおいて、1つのカラムに複数の格納領域を多重化し、これらの格納領域の中の言語種別に対応する1つの格納領域にアクセスしたり、複数のカラムのそれぞれに言語種別を定義して該当する言語種別のカラムにアクセスすることが容易に実行可能である。
【0108】
上記作用により、複数の異なる種類の言語データを各々別々に又は種類別に扱うことができ、その結果、多言語文書検索において言語別の検索を行う場合に、指定した言語の索引を直ちにアクセスして探索できるので、多言語文書を高速に検索することができる。また、特定の言語だけの索引を削除することも可能であり、1つの言語しかなかった索引を多言語に拡張することも容易に行うことができるため、規模の縮小や拡大などのスケーラビリティが高いデータベースを構築できるなど、多大な効果が得られる。
【0109】
【発明の効果】
以上説明したように本発明によれば、多言語文書に関する情報を言語ごとに区別して管理することができ、各情報に素早くアクセスして検索等の処理を容易かつ高速に行うことが可能となる効果が得られる。
【図面の簡単な説明】
【図1】本発明の第1実施形態に係る多言語文書処理装置の機能的概略構成を示すブロック図である。
【図2】第1実施形態に係る多言語文書データを格納及び参照する部分の機能的構成を示すブロック図である。
【図3】第1実施形態における多言語文書データの格納に関する多言語文書処理方法を概念的に示した説明図である。
【図4】第1実施形態において日本語の索引と英語の索引をそれぞれの格納領域に格納した状態を示す説明図である。
【図5】言語種別を識別するための言語識別情報や英単語又は英連語を置き換える特殊文字を示す説明図である。
【図6】第1実施形態において登録多言語文書データの索引及び検索文字列の索引を作成する手順を示す説明図である。
【図7】第2実施形態に係る多言語文書データを登録及び検索する部分の機能的構成を示すブロック図である。
【図8】第2実施形態における多言語文書データの格納に関する多言語文書処理方法を概念的に示した説明図である。
【図9】第2実施形態において日本語の索引と英語の索引をそれぞれのカラムに格納した状態を示す説明図である。
【図10】第3実施形態に係る多言語文書データを格納及び検索する部分の機能的構成を示すブロック図である。
【図11】第3実施形態における多言語文書データの格納に関する多言語文書処理方法を概念的に示した説明図である。
【図12】第3実施形態において日本語の索引と英語の索引をそれぞれの格納領域に格納した状態を示す説明図である。
【図13】第3実施形態において登録多言語文書データの索引及び検索文字列の索引を作成する手順を示す説明図である。
【図14】第4実施形態に係る多言語文書データを格納及び検索する部分の機能的構成を示すブロック図である。
【図15】第4実施形態における多言語文書データの格納及び検索に関する多言語文書処理方法を概念的に示した説明図である。
【図16】従来の多言語文書処理装置の機能的概略構成を示すブロック図である。
【図17】従来の多言語文書データの格納方法を概念的に示した説明図である。
【符号の説明】
11 登録文字列言語識別部
12 言語別索引作成部
13 言語別索引格納部
14 実体格納部
15 検索文字列言語識別部
16 検索文字列言語別索引作成部
17 言語別索引照合部
18 実体抽出部
21 入出力切替部
22 言語種別記憶部
23,24,25 データ格納部
31 カラム
32 属性
33A,33B,33C 格納領域
36 言語種別情報[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a multilingual document processing apparatus, a multilingual document processing method, and a recording medium on which a program for executing the multilingual document processing method is used for registration search of multilingual documents in the information processing field.
[0002]
[Prior art]
With the spread of computers and word processors in recent years, a large amount of digitized document data is accumulated, and a document database for searching for document data as necessary is being put to practical use. In document databases, with the development and internationalization of communication networks, opportunities to handle multilingual document data in which a plurality of languages are mixed are increasing.
[0003]
A conventional multilingual document processing method in a document database for storing and managing multilingual documents will be described with reference to FIGS.
When registering a multilingual document, the multilingual
[0004]
When storing such an index or entity of multilingual document data, as shown in FIG. 17, using a tabular database structure consisting of columns and records, a plurality of
[0005]
As devices for processing multilingual information, there are devices disclosed in JP-A-1-213744, JP-A-11-3338, and the like. No.-50442 discloses a multilingual document registration / retrieval device that creates and registers an index used for searching for a document including sentences in a plurality of languages, and searches the document using the index.
[0006]
Further, as a method related to access to a plurality of columns, a method of linking a corresponding column and a column of another table as in JP-A-6-68151, or a logical definition of a data structure as in JP-A-6-223118 A method of including combined information in information, a method of providing a table describing a virtual entity as disclosed in Japanese Patent Laid-Open No. 8-137735, and the like are disclosed.
[0007]
[Problems to be solved by the invention]
In the conventional multilingual document processing apparatus and method as described above, when storing and managing multilingual document data, the storage area is stored in a mixed state without being conscious of the language. It was. For this reason, problems have arisen in that it takes time to manage multilingual document data, and it takes time to perform access when performing a search or the like. Further, when accessing a plurality of columns in which multilingual document data is stored, conventionally, there are problems such as complicated access procedures and difficulty in high-speed search.
[0008]
The present invention has been made in view of the above circumstances, and can manage information related to multilingual documents separately for each language, and can quickly access each information and perform processing such as search easily and at high speed. An object is to provide a possible multilingual document processing apparatus, multilingual document processing method, and recording medium.
[0009]
[Means for Solving the Problems]
A multilingual document processing apparatus according to the present invention , Double Language identifying means for identifying the language of multilingual document data including characters in a number of languages, index creating means for creating an index related to the multilingual document data for each language, and index storing means for storing the index for each language Search means for searching for multilingual document data using the index for each language.
[0010]
Preferably, the index storage means includes a plurality of storage areas in which one column in the database is divided and a language type is set for each, and a storage area corresponding to the language type is selected from the plurality of storage areas. Select and store the index.
[0011]
Preferably, the index storage means includes a plurality of columns in which a language type is set for each column in the database, and selects a column corresponding to the language type from the plurality of columns to store the index. And
[0012]
Preferably, the index storage means includes a plurality of columns in which a storage language type at the time of data storage and a search language type at the time of data search are set in each of a plurality of storage areas obtained by dividing a plurality of columns or one column in a database. A storage unit corresponding to a storage language type is selected from the plurality of storage units and an index is stored, and the search means includes a search language type including a language type specified at the time of data search Referring to the storage unit corresponding to, a search is performed using the index of the storage unit.
[0013]
Furthermore, as the storage language type, it is preferable that a unique language type is set for each column or storage area constituting the storage unit.
[0014]
Further, the index storage means includes a plurality of storage areas in which one column in the database is divided as the plurality of storage units and a storage language type and a search language type are respectively set, and the storage language type is Preferably, only one language type is set for the one storage area, and one of these storage language types is set as the language type of the column.
[0015]
The search language type is composed of a set of language types including at least one language type, and the set of language types is set for one column or storage area constituting each storage unit. One language type in the type is preferably a storage language type set in the storage unit.
[0016]
Preferably, the apparatus further comprises page dividing means for dividing the multilingual document data into a plurality of pages by language and within a predetermined number of characters, and the index creating means creates an index for each page by language. To do.
[0017]
Preferably, the apparatus further comprises entity storage means for separately storing the entity of the multilingual document data in one column or a plurality of columns in the database, and the entity of the multilingual document data, the index of the multilingual document data, Are stored in separate storage means.
[0018]
Preferably, the language identification unit identifies a language based on language identification information included in multilingual document data, and the index creation unit converts the language identification information into a predetermined special character, and A character chain of all characters including special characters will be created for each language.
[0019]
Preferably, the index creating means converts words or two-letter collocations of multilingual document data into predetermined corresponding characters, and creates a character chain of all characters including the corresponding characters for each language. .
[0020]
Further, when the multilingual document data is composed of one character, the index creating means may create a character chain by adding a predetermined special character that can be combined with all characters and is not a search target. preferable.
[0021]
The index includes document information for identifying a document of the corresponding multilingual document data, page information indicating a page obtained by dividing the document into predetermined units, and relative appearance of characters in the document or page. It is preferable that information on rank or absolute appearance position is included.
[0022]
The multilingual document processing apparatus according to the present invention , Double Language identifying means for identifying the language of multilingual document data including characters in a number of languages, page dividing means for dividing the multilingual document data into a plurality of pages for each language and for each predetermined unit, and the multilingual document Index creation means for creating an index relating to data for each page for each language, and index storage means for storing the index for each language.
[0023]
Preferably, an entity storage means for storing the entity of the multilingual document data is provided.
[0024]
Preferably, the apparatus further comprises search means for searching for multilingual document data by using the index for each language to determine whether or not the search character string includes the index.
[0025]
Preferably, the language identifying unit identifies a language based on language identification information included in multilingual document data, and the page dividing unit includes a character string from the language identification information to the next language identification information. Are divided into a plurality of pages and stored in a page as one page or continuous pages divided every predetermined unit.
[0026]
Preferably, the index creating means includes a document number for identifying a document of the corresponding multilingual document data, page information indicating a page in the document, and a relative appearance order of characters in the document or page. Alternatively, an index including information on an absolute appearance position is used.
[0027]
Preferably, the entity extracting unit obtains the document information of the multilingual document data including the search character string based on the search result by the search unit, and extracts the entity of the multilingual document data of the document corresponding to the document information. It shall be provided with.
[0028]
A multilingual document processing method according to the present invention provides: , Double A language identifying step for identifying a language of multilingual document data including characters in a number of languages, an index creating step for creating an index for the multilingual document data for each language, and an index storing step for storing the index for each language , Has.
[0029]
Preferably, in the index storage step, a plurality of storage areas each having a language type set for each column in the database are provided, and a storage area corresponding to the language type is selected from the plurality of storage areas. Store the index.
[0030]
Preferably, in the index storing step, a plurality of columns in which a language type is set is provided for each column in the database, and an index is stored by selecting a column corresponding to the language type from the plurality of columns. .
[0031]
Preferably, the method further comprises a search step for searching for multilingual document data using an index for each language, and a plurality of storage areas obtained by dividing a plurality of columns or one column in the database in the index storage step. Are provided with a plurality of storage units in which the storage language type at the time of data storage and the search language type at the time of data search are set, and an index is stored by selecting a storage unit corresponding to the storage language type from the plurality of storage units In the search step, the storage unit corresponding to the search language type including the language type specified at the time of data search is referred to, and the search is performed using the index of the storage unit.
[0032]
Preferably, the method further comprises a page dividing step for dividing the multilingual document data into a plurality of pages for each language and within a predetermined number of characters, and creating an index for each page for each language in the index creating step. And
[0033]
Also, the multilingual document processing method according to the present invention is , Double A language identifying step for identifying a language of multilingual document data including characters in a number of languages, a page dividing step for dividing the multilingual document data into a plurality of pages for each language and for each predetermined unit, and the multilingual document An index creation step for creating an index for data for each page for each language; and an index storage step for storing the index for each language.
[0034]
The recording medium according to the present invention comprises: According to the present invention It can be read by a computer recorded as a program for executing a multilingual document processing method.
[0035]
In the present invention, in document management in multilingual document processing, the language of multilingual document data including characters in a plurality of languages is identified, an index relating to the multilingual document data is created for each language, and the index is stored for each language. To do. At this time, a single column in the database is provided with a storage area for a plurality of languages, and data is stored in one storage area or a plurality of storage areas for each language, or the language of data stored in a single column is set. When the data is stored, the corresponding language column is identified from the plurality of columns and stored. Thereby, multilingual document data can be processed for each language and stored for each language. Alternatively, one multilingual document data is divided into a plurality of pages for each predetermined unit, and an index is created for each page for each language type and stored for each language. This makes it possible to search by accessing the index for each language type and page when specifying a search character string.
[0036]
By the above operation, it becomes possible to handle data related to a plurality of different types of languages separately or by type, and the procedure for data management is simplified. In addition, when accessing a column or a storage area in the column for data storage at the time of registration or data collation at the time of search, it is possible to access only the corresponding storage area depending on the language type. Fast access enables high-speed registration and retrieval of multilingual document data.
[0037]
DETAILED DESCRIPTION OF THE INVENTION
Embodiments of the present invention will be described below with reference to the drawings.
In the present embodiment, as a multilingual document processing apparatus and method, an index creation and storage process for searching and a search process using the index when managing a multilingual document will be described. In the description of each embodiment, the multilingual document processing apparatus and method according to the present invention will be described in detail. On the recording medium according to the present invention, a program for executing the multilingual document processing method is recorded. Since it is a recording medium, the description is included in the following description of the multilingual document processing method.
[0038]
[First Embodiment]
FIG. 1 is a block diagram showing a functional schematic configuration of a multilingual document processing apparatus according to the first embodiment of the present invention, and FIG. 2 is a block diagram showing a functional configuration of a part that stores and references multilingual document data. .
[0039]
As shown in FIG. 1, the multilingual document processing apparatus according to the present embodiment is configured to store and manage an index or the like related to multilingual document data for each language. Registered character string
[0040]
FIG. 2 shows a functional part that stores and refers to multilingual document data by language as a functional configuration of the main part of the multilingual document processing apparatus according to the first embodiment. In the first embodiment, the input /
[0041]
The input /
[0042]
FIG. 3 conceptually shows the multilingual document processing method related to the storage of multilingual document data in the first embodiment. In the first embodiment, one column in the database structure is divided into a plurality of storage areas, and multilingual document data divided for each language type is stored in each storage area.
[0043]
As shown in FIG. 3A, an attribute (column name) 32 representing a unit to be accessed such as a document name is defined in the
[0044]
When accessing the
[0045]
In addition, entity data of multilingual documents are stored in one column or separately in a plurality of columns, and index data and entity data are stored in different storage means (columns, files, directories, recording media such as disks, etc. ).
[0046]
In this way, by setting a plurality of data storage areas in the database column and providing a function for selecting a storage area by language type, a storage area can be selected for each column corresponding to one attribute by a plurality of languages. Thus, data can be stored.
[0047]
Next, in the multilingual document processing apparatus and method as described above, as a multilingual document composed of sentences in a plurality of languages, document data in which Japanese and English are mixed is targeted, and a Japanese and English index is provided in one column. A description will be given of the operation procedure when storing and searching in each language storage area.
[0048]
FIG. 4 is an explanatory diagram showing a state in which a Japanese index and an English index are stored in respective storage areas, and FIG. 5 shows language identification information for identifying a language type and special characters for replacing English words or English collocations. FIG. 6 is an explanatory diagram showing a procedure for creating an index of registered multilingual document data and an index of search character strings.
[0049]
In this case, as shown in FIG. 4, a
[0050]
FIG. 5A shows the correspondence between the language identification information and the special character to be replaced. When creating an index, “<Japanese>” is replaced with the special character “^ V” and “<English>”. Replace with the special character "^ W". Also, when creating an English index, character strings representing English words are collectively replaced with one special character as shown in FIG. 5B, or an English collocation (as shown in FIG. 5C). English alphabet strings) are replaced together (in this case, every two characters) and replaced with one special character. Here, as shown in FIG. 5B, the word “This” in the English character string is converted to the corresponding characters “0x1” and “is” is converted to “0x2” (0x indicates a hexadecimal number). .
[0051]
If the multilingual document data to be indexed consists of one character, special characters that can be combined with all characters and are not searchable (fonts such as character codes corresponding to unused control codes are assigned. Character chain) is added to the character to create a character chain.
[0052]
FIG. 6A shows a procedure for creating an index for registration from the registered
[0053]
And for the Japanese character string “This is”,
[0054]
At this time, the language type is identified by the
[0055]
When searching for registered multilingual document data, an index is created in the same way for the input search character string, and it is checked whether it matches with the stored multilingual document data index. to decide. Whether or not there is a character string in the multilingual document data that has hit the search character string is detected based on the collation result of this index. Then, information related to multilingual document data such as the document name is obtained from the attribute of the column storing the index data and output as a search result. In addition, entity data of multilingual document data is extracted and output in accordance with a user instruction.
[0056]
FIG. 6B shows a procedure for creating a search index from the
[0057]
Next, it is detected that the language at the end of the index character string is switched to English by the special character “^ W” of the
[0058]
If the index 48a to 48h of the search character string matches the
[0059]
In the above example, two different languages, Japanese and English, are registered and searched with a continuous character string. However, the index stored separately for each language should be used separately to search by language. Is also possible. For example, when the registered
[0060]
In the present embodiment, one column for storing index data of multilingual document data is divided into a plurality of storage areas, and data is stored in each storage area separately for each language. Thus, when managing multilingual document data, data related to a plurality of different types of languages can be handled for each language, and the procedure for data management can be simplified. In addition, when accessing a column for data storage during registration or data collation during search, only the corresponding storage area can be accessed depending on the language type, and high-speed registration and search can be performed easily and quickly. It becomes possible.
[0061]
[Second Embodiment]
FIG. 7 is a block diagram showing a functional configuration of a part for registering and searching multilingual document data according to the second embodiment.
[0062]
In the second embodiment, as a functional configuration of the main part of the multilingual document processing apparatus, a data definition unit that defines attributes and language types of each column of the database so that multilingual document data can be stored and referenced by language. 51, a language-
[0063]
The language-
[0064]
FIG. 8 conceptually shows a multilingual document processing method related to storage of multilingual document data in the second embodiment. In the second embodiment, a language type is assigned and defined for each of a plurality of columns in the database structure, and multilingual document data divided for each language type is stored in each column.
[0065]
As shown in FIG. 8 (A), there are
[0066]
Next, in the multilingual document processing apparatus and method according to the second embodiment, document data in which Japanese and English are mixed as a multilingual document composed of sentences in a plurality of languages, and Japanese and An operation procedure when an English index is stored and searched for each language in a corresponding column will be described.
[0067]
FIG. 9 is an explanatory diagram showing a state in which a Japanese index and an English index are stored in respective columns. Here, the
[0068]
When an index of registered multilingual document data is created and stored, the Japanese
[0069]
When searching by the
[0070]
If the index 48a to 48h of the search character string matches the
[0071]
In the second embodiment, a plurality of columns for storing index data of multilingual document data and the like are defined for each language type, and the data is stored in each column by distinguishing the column for each language. Thus, as in the first embodiment, when managing multilingual document data, data related to a plurality of different types of languages can be handled by language, and registration of document data in which a plurality of languages such as Japanese and English are continuous is registered. And the search can be executed easily and at high speed.
[0072]
This second embodiment is particularly effective when multilingual document data is managed by a method in which data such as an index related to each language is stored in one dedicated column and languages are searched separately. Further, in the multilingual document processing apparatus and method of the second embodiment, once the column attributes are defined for each language, it is possible to access and search the columns for each language without being aware of the language type. For example, if “text A” is specified as an attribute, the language type is Japanese, and a Japanese character string is registered and searched. Similarly, if “text B” is specified, an English character string is registered and searched. it can.
[0073]
[Third Embodiment]
FIG. 10 is a block diagram showing a functional configuration of a part for storing and retrieving multilingual document data according to the third embodiment.
[0074]
In the third embodiment, as a functional configuration of the main part of the multilingual document processing apparatus, a storage area selection for selecting a storage destination of multilingual document data at the time of storage so that multilingual document data can be stored and referred to by
[0075]
When storing index data of multilingual document data or the like, the storage
[0076]
FIG. 11 conceptually shows a multilingual document processing method related to storage of multilingual document data in the third embodiment. In the third embodiment, one column in the database structure is divided into a plurality of storage areas, a set of storage language type and search language type is set in each storage area, and multilingual document data divided for each language type Are stored in the corresponding storage areas, and the corresponding storage areas are accessed according to the language type of the search character string to perform a search.
[0077]
As shown in FIG. 11A, the
[0078]
Further, as shown in FIG. 11B, in correspondence with the storage language
[0079]
When the input multilingual document data is stored in the
[0080]
In this way, by setting a plurality of data storage areas in the database column and providing a function for selecting each storage area based on the combination of the language type to be stored and the language type to be searched, it corresponds to one attribute. Data can be stored and retrieved by selecting storage areas for a plurality of languages for the column.
[0081]
Next, in the multilingual document processing apparatus and method according to the third embodiment, document data in which Japanese and English are mixed as a multilingual document composed of sentences in a plurality of languages, and Japanese and An operation procedure when an English index is stored and searched for each language in a corresponding column will be described.
[0082]
FIG. 12 is an explanatory diagram illustrating a state in which a Japanese index and an English index are stored in respective storage areas, and FIG. 13 is an explanatory diagram illustrating a procedure for creating an index of registered multilingual document data and an index of a search character string. is there.
[0083]
Here, as shown in FIG. 12, a
[0084]
In this case, the Japanese index is stored in the
[0085]
FIG. 13A shows a procedure for creating a registration index from the registered
[0086]
Then, indexes 106 a to 106 h are created as Japanese character strings according to the main language type (in this case, Japanese) defined in the
[0087]
When searching for multilingual document data registered in this way, an index is created in the same manner for the input search character string, and the index matches the stored multilingual document data index. Determine whether or not. FIG. 13B shows a procedure for creating a search index from the
[0088]
At this time, as in the case of the registered
[0089]
If the index 110a to 110f of the search character string matches the index 106a to 106f of the multilingual document data by the above collation, the character string corresponding to the character chain of these indexes, that is, the
[0090]
In the third embodiment, one column for storing index data of multilingual document data is divided into a plurality of storage areas, and a set of storage language type and search language type is defined in each storage area. Data is stored in the storage area corresponding to the storage language type, and the storage area corresponding to the search language type is accessed and searched. Thus, as in the first embodiment, when managing multilingual document data, data related to a plurality of different types of languages can be handled by language, and registration of document data in which a plurality of languages such as Japanese and English are continuous is registered. And the search can be executed easily and at high speed.
[0091]
The third embodiment is particularly effective when performing multilingual registration search in which multilingual document data composed of a plurality of languages is registered and managed, and the index is handled as an index of one language. . For example, a search character string of the main language type (Japanese in the above example) can access and search the entire storage area without being particularly conscious of the language type, and a search character string in another language (English in the above example) Since only a part of the storage area is accessed, a high-speed search is possible.
[0092]
[Fourth Embodiment]
FIG. 14 is a block diagram showing a functional configuration of a part for storing and retrieving multilingual document data according to the fourth embodiment.
[0093]
In the fourth embodiment, as the functional configuration of the main part of the multilingual document processing apparatus, the multilingual document data is read for each document by reading the multilingual document data so that the multilingual document data can be stored for each page. The multilingual document
[0094]
The
[0095]
Also, an index corresponding to the search language type stored in the search character
[0096]
The character
[0097]
FIG. 15 conceptually shows a multilingual document processing method related to storage and retrieval of multilingual document data in the fourth embodiment. 15A shows an operation related to registration (index storage) of multilingual document data, and FIG. 15B shows an operation related to search of multilingual document data.
[0098]
When registering an index of multilingual document data, as shown in FIG. 15A, the registered
[0099]
First, “text X” is assigned to the input registered
[0100]
Then, an index is created for each of the document records 132a to 132g divided into a plurality of pages as in the above-described embodiment. In this embodiment, index data including document number “text X”, page numbers “P1” to “P7”, and character chain information is created, and stored as an index file in a column for each language type. That is, the index data relating to the
[0101]
FIG. 15B shows a first example of search for multilingual document data stored as described above. The first example is an operation when the search character string is “document” and the search language type is “Japanese” as the multilingual search
[0102]
FIG. 15C is a second example of search for multilingual document data. As in the second example, it is also possible to perform a search using the multilingual search
[0103]
In this case, the search language type is determined based on the input multilingual search
[0104]
Through the above procedure, the multilingual document data is registered for each page and the stored multilingual document data is searched, and the document data matching the search character string is extracted.
[0105]
In the fourth embodiment, multilingual document data is divided into a plurality of pages for each language type and for each predetermined number of characters for storage and retrieval. As a result, when managing multilingual document data, data related to multiple different types of languages can be handled on a page-by-page basis, making it easier to manage by language, and multiple languages such as Japanese and English are consecutive. Registration and retrieval of document data can be performed easily and at high speed.
[0106]
As described above, according to the present embodiment, in document management in multilingual document processing, one column is provided with storage areas for a plurality of languages, and data is stored in one storage area or a plurality of storage areas for each language. Multilingual document data can be processed by language by setting the language of data stored in one column and automatically identifying the corresponding language column from multiple columns when storing data However, it is possible to store them by language. In addition, by dividing a single document data into multiple pages and creating an index file that combines a page and language type for each language type and storing them in a language-specific column, a search character string can be specified. It is possible to search by accessing the column for each language type and page.
[0107]
At this time, in the database column, a plurality of storage areas are multiplexed in one column, and one storage area corresponding to the language type in these storage areas is accessed, or the language type is assigned to each of the plurality of columns. It is easy to define and access the corresponding language type column.
[0108]
With the above action, multiple different types of language data can be handled separately or by type. As a result, when searching by language in multilingual document search, the specified language index is immediately accessed. Since it is possible to search, multilingual documents can be searched at high speed. In addition, it is possible to delete an index for only a specific language, and an index that has only one language can be easily expanded to multiple languages, so the scalability such as reduction or expansion of scale is high. A great effect can be obtained, such as the construction of a database.
[0109]
【The invention's effect】
As described above, according to the present invention, information related to multilingual documents can be managed separately for each language, and each information can be quickly accessed to perform processing such as search easily and at high speed. An effect is obtained.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a functional schematic configuration of a multilingual document processing apparatus according to a first embodiment of the present invention.
FIG. 2 is a block diagram showing a functional configuration of a part for storing and referring to multilingual document data according to the first embodiment.
FIG. 3 is an explanatory diagram conceptually showing a multilingual document processing method related to storage of multilingual document data in the first embodiment.
FIG. 4 is an explanatory diagram showing a state in which a Japanese index and an English index are stored in respective storage areas in the first embodiment.
FIG. 5 is an explanatory diagram showing language identification information for identifying a language type and special characters for replacing English words or English collocations.
FIG. 6 is an explanatory diagram showing a procedure for creating an index of registered multilingual document data and an index of search character strings in the first embodiment.
FIG. 7 is a block diagram showing a functional configuration of a part for registering and searching multilingual document data according to the second embodiment.
FIG. 8 is an explanatory view conceptually showing a multilingual document processing method related to storage of multilingual document data in the second embodiment.
FIG. 9 is an explanatory diagram showing a state in which a Japanese index and an English index are stored in respective columns in the second embodiment.
FIG. 10 is a block diagram showing a functional configuration of a part that stores and retrieves multilingual document data according to the third embodiment.
FIG. 11 is an explanatory diagram conceptually showing a multilingual document processing method related to storage of multilingual document data in the third embodiment.
FIG. 12 is an explanatory diagram showing a state in which a Japanese index and an English index are stored in respective storage areas in the third embodiment.
FIG. 13 is an explanatory diagram showing a procedure for creating an index of registered multilingual document data and an index of search character strings in the third embodiment.
FIG. 14 is a block diagram showing a functional configuration of a part for storing and retrieving multilingual document data according to the fourth embodiment.
FIG. 15 is an explanatory diagram conceptually showing a multilingual document processing method related to storage and retrieval of multilingual document data in the fourth embodiment.
FIG. 16 is a block diagram showing a schematic functional configuration of a conventional multilingual document processing apparatus.
FIG. 17 is an explanatory diagram conceptually showing a conventional method for storing multilingual document data.
[Explanation of symbols]
11 Registered character string language identifier
12 Language indexing section
13 Language-specific index storage
14 Entity storage
15 Search string language identifier
16 Search string language index creation part
17 Language-specific index matching section
18 Entity extraction unit
21 I / O switching part
22 Language type storage
23, 24, 25 Data storage
31 columns
32 attributes
33A, 33B, 33C Storage area
36 Language type information
Claims (10)
前記多言語文書データに関する索引を言語別に作成する索引作成手段と、
前記索引を言語ごとに格納する索引格納手段と、前記言語ごとの索引を使用して多言語文書データの検索を行う検索手段と、を備え、
前記言語識別手段は、前記多言語文書データに含まれる言語識別情報により言語を識別するものであり、
前記索引作成手段は、前記言語識別情報を所定の特殊文字に変換し、該特殊文字を含む全ての文字の文字連鎖を言語別に作成することを特徴とする多言語文書処理装置。Language identification means for identifying the language of multilingual document data including characters of a plurality of languages and different languages being continuous ;
Index creation means for creating an index for the multilingual document data for each language;
Index storage means for storing the index for each language, and search means for searching multilingual document data using the index for each language ,
The language identification means identifies a language by language identification information included in the multilingual document data,
The multi-language document processing apparatus , wherein the index creating means converts the language identification information into a predetermined special character and creates a character chain of all characters including the special character for each language.
前記多言語文書データに関する索引を言語別に作成する索引作成手段と、
前記索引を言語ごとに格納する索引格納手段と、前記言語ごとの索引を使用して多言語文書データの検索を行う検索手段と、を備え、
前記索引作成手段は、前記多言語文書データの単語又は2文字の連語を所定の対応文字に変換し、該対応文字を含む全ての文字の文字連鎖を言語別に作成することを特徴とする多言語文書処理装置。A language identification means for identifying unrealized different languages the language of the multilingual document data multiple consecutive language characters,
Index creation means for creating an index for the multilingual document data for each language;
Index storage means for storing the index for each language, and search means for searching multilingual document data using the index for each language ,
The index creation means converts words or two-letter collocations of the multilingual document data into predetermined corresponding characters, and creates a character chain of all characters including the corresponding characters for each language. Document processing device.
前記検索手段は、データ検索時に指定された言語種別を含む検索言語種別に対応する格納部を参照し、その格納部の索引により検索を行うことを特徴とする請求項1又は2に記載の多言語文書処理装置。The index storage means includes a plurality of storage units in which a storage language type at the time of data storage and a search language type at the time of data search are set in each of a plurality of columns in the database or a plurality of storage areas obtained by dividing one column. The storage unit corresponding to the storage language type is selected from the plurality of storage units and the index is stored.
The searching means refers to the storage unit corresponding to the search language type including language type specified at the time of data retrieval, multi according to claim 1 or 2, characterized in that to search the index for the storage unit Language document processing device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP24056599A JP3698400B2 (en) | 1999-08-26 | 1999-08-26 | Multilingual document processing apparatus, multilingual document processing method, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP24056599A JP3698400B2 (en) | 1999-08-26 | 1999-08-26 | Multilingual document processing apparatus, multilingual document processing method, and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001067368A JP2001067368A (en) | 2001-03-16 |
JP3698400B2 true JP3698400B2 (en) | 2005-09-21 |
Family
ID=17061423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP24056599A Expired - Lifetime JP3698400B2 (en) | 1999-08-26 | 1999-08-26 | Multilingual document processing apparatus, multilingual document processing method, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3698400B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004213240A (en) | 2002-12-27 | 2004-07-29 | Casio Comput Co Ltd | Data structure, information display control device, and program |
JP2004362280A (en) * | 2003-06-05 | 2004-12-24 | Hitachi Ltd | Broadcast program accumulation device |
WO2009069239A1 (en) | 2007-11-27 | 2009-06-04 | Mitsubishi Electric Corporation | Map information processing device |
US8756215B2 (en) | 2009-12-02 | 2014-06-17 | International Business Machines Corporation | Indexing documents |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0765026A (en) * | 1993-06-30 | 1995-03-10 | Matsushita Electric Ind Co Ltd | Document filing device |
JPH0916616A (en) * | 1995-06-30 | 1997-01-17 | Toyo Joho Syst:Kk | Device for generating/retrieving index data |
JP4149544B2 (en) * | 1997-03-10 | 2008-09-10 | 株式会社東芝 | Full-text search system and recording medium recording full-text search program |
JP4031844B2 (en) * | 1997-03-25 | 2008-01-09 | 株式会社日立製作所 | Search method and system |
-
1999
- 1999-08-26 JP JP24056599A patent/JP3698400B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2001067368A (en) | 2001-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5745745A (en) | Text search method and apparatus for structured documents | |
US6081804A (en) | Method and apparatus for performing rapid and multi-dimensional word searches | |
JP3696731B2 (en) | Structured document search method and apparatus, and computer-readable recording medium recording a structured document search program | |
US7260570B2 (en) | Retrieving matching documents by queries in any national language | |
JPH0765035A (en) | Structured document retrieving device | |
JPH07282063A (en) | Machine translation device | |
JPH05174064A (en) | Method and device for document retrieval | |
JP4254763B2 (en) | Document search system, document search method, and document search program | |
JP3220865B2 (en) | Full text search method | |
JP3022539B1 (en) | Document search device | |
JP2693914B2 (en) | Search system | |
JP3698400B2 (en) | Multilingual document processing apparatus, multilingual document processing method, and recording medium | |
JPH08147311A (en) | Method for retrieving structured document and device therefor | |
JP3497243B2 (en) | Document search method and apparatus | |
JPH08329116A (en) | Method for retrieving structured document | |
JP3303881B2 (en) | Document search method and apparatus | |
US20040143574A1 (en) | System and method for creating a data file for use in searching a database | |
JPH05101102A (en) | Retrieval device | |
JPH06348757A (en) | Device and method for retrieving document | |
JP3859044B2 (en) | Index creation method and search method | |
JP3071703B2 (en) | Table creation apparatus and method | |
JP3477822B2 (en) | Document registration search system | |
JPH10162011A (en) | Information retrieval method, information retrieval system, information retrieval terminal equipment, and information retrieval device | |
JP3376996B2 (en) | Full text search method | |
JP3187671B2 (en) | Electronic dictionary display |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050216 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050406 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050629 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050704 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090715 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090715 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100715 Year of fee payment: 5 |