JP3666066B2 - Multilingual document registration and retrieval device - Google Patents

Multilingual document registration and retrieval device Download PDF

Info

Publication number
JP3666066B2
JP3666066B2 JP22114995A JP22114995A JP3666066B2 JP 3666066 B2 JP3666066 B2 JP 3666066B2 JP 22114995 A JP22114995 A JP 22114995A JP 22114995 A JP22114995 A JP 22114995A JP 3666066 B2 JP3666066 B2 JP 3666066B2
Authority
JP
Japan
Prior art keywords
word
keyword
unregistered
document
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP22114995A
Other languages
Japanese (ja)
Other versions
JPH0950442A (en
Inventor
誠 安藤
明男 山下
一雄 相原
辰臣 喜多
直美 平岡
裕子 松尾
浩 山口
真司 川本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP22114995A priority Critical patent/JP3666066B2/en
Publication of JPH0950442A publication Critical patent/JPH0950442A/en
Application granted granted Critical
Publication of JP3666066B2 publication Critical patent/JP3666066B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、複数の種類の言語で記述された文を含む文書に対して検索のためのインデックスを登録して、文書を検索する多言語文書登録検索装置に関し、更に詳細には、複数の種類の言語で記述された文書のテキストデータベースから、複数の言語に対応してキーワードを抽出してインデックスとして登録し、登録したインデックスを用いて、多言語のテキストデータベースを検索する多言語文書登録検索装置に関するものである。
【0002】
【従来の技術】
従来から、複数の種類の言語で記述された文を含む多言語文書に対する文書検索装置として、例えば、特開平4−21180号公報に記載された「文書検索装置」が知られている。この「文書検索装置」は、自国語で作成されたキーワードを持つデータベースと、そのキーワードを入力してデータベースを検索する文書検索装置において、自国語および他国語の辞書を持ち、他国語で入力されたキーワードに対しては、当該キーワードを自国語に変換し、自国語のキーワードでデータベースを検索する。そして、検索した文書の文書名と、選択された文書の全文を他国語に変換して、画面に表示するように構成されている。
【0003】
【発明が解決しようとする課題】
ところで、文書検索の処理にインデックスを用いる文書検索を行う場合、検索対象となる文書が母国語のように1ヶ国語(例えば日本語)の言語だけでなく、引用文献として引用される箇所では、その他の国の言語(例えば英語)も含まれている場合が多くあるので、これに対しては、文書検索装置におけるインデックスを複数の言語(多言語)に対応させておかなければ、十分な文書の検索を行うことはできない。
【0004】
従来、文書検索の処理にインデックスを用いる文書検索装置において、文書検索に用いるインデックスの作成方法は、形態素解析を行って単語を切り出し、単語をキーワードとしてインデックスを作成する。その場合、通常、形態素解析を行う言語が1ヶ国の言語(例えば日本語のみ)であるため、その他の国の言語の単語については、単に固有名詞の単語として切り出すことしかできなかった。そのため、切り出した単語をキーワードとしてインデックスに登録するために、標準の表記や、原形に戻すことができず、したがって、その場合、検索用のインデックスの作成では、そのまま、既登録語に対する未登録語として抽出して、インデックスに登録することしかできなかった。
【0005】
このため、対象文書に異なる国の言語が多く含まれている場合は、検索インデックスとして登録する単語のキーワード(固有名詞)の語数が多くなり、インデックスサイズが必要以上に大きくなってしまうという問題があった。
【0006】
また、このような文書検索装置において、文書検索を行う場合には、キーワードとして登録されている例えば固有名詞のインデックスと同じパターンの文字列でしか検索できず、適切な範囲の検索が十分に行えないという問題があった。つまり、文書検索の際には、形態素解析により切り出した単語(固有名詞)と全く同じパターンの文字列でないとヒットせず、検索しても所望の検索文書がヒットされないという不具合があった。
【0007】
前述した特開平4−21180号公報に記載の「文書検索装置」のように、ある言語のキーワードが登録されており、その国の言語以外の言語での検索要求があった場合には、例えば、それと同じ意味の既に登録されている言語の言葉に翻訳することによって、他の国の言語を含む文書についても検索ができるように構成できるが、その場合においても、検索のためのインデックスは自国語のみのキーワードで構成されており、多言語で構成された文書に対するインデックスの登録に対する配慮がなされていないという問題点があった。
【0008】
本発明は、これらの問題を解決するためになされたものであり、本発明の第1の目的は、複数の言語で記述された文を含む文書に対して、できる限りそれらの異なる各々の言語に対応して形態素解析を行い、単語を切り出し、キーワードを抽出して、キーワードの登録が行えるようにして、多言語で記述された文を含む文書に対しても未登録語を最小限に押さえるようにした多言語文書登録検索装置を提供することにある。
【0009】
また、本発明の第2の目的は、複数の言語で記述された文を含む文書に対し、複数の言語に対応して形態素解析により単語を切り出し、キーワードを抽出してキーワードの登録を行う場合、解析する範囲の重複を避け、インデックスサイズを最小に押さえ、かつ、検索を行う場合の検索精度を向上させる多言語文書登録検索装置を提供することにある。
【0010】
また、本発明の第3の目的は、複数の言語で記述された文を含む文書に対し、自国語以外の言語の単語の語形変化や、表記の揺れにも対応でき、検索を行う場合の検索精度の向上を計ると共に、不必要な未登録語の抽出を最小限に押さえ、インデックスサイズを最小に押さえることができる多言語文書登録検索装置を提供することにある。
【0011】
更に、本発明の第4の目的は、複数の言語で記述された文を含む文書に対し、複数の言語に対応して形態素解析により単語を切り出す場合、それぞれの複数の言語対応の形態素解析の組み合わせによる対象テキストの重複した解析を避けて、できる限り効率的に最適に形態素解析を行い、多言語で記述された文を含む文書に対して未登録語を最小限に押さえるようにした多言語文書登録検索装置を提供することにある。
【0012】
【課題を解決するための手段】
上記のような目的を達成するため、本発明の第1の特徴とする多言語文書登録検索装置は、複数の言語の文を含む文書に対して検索に用いるインデックスを作成して登録し、該インデックスにより文書の検索を行う多言語文書登録検索装置において、複数の言語の文を含む文書を格納する多言語文書格納手段(3)と、前記文書に対し異なる言語の文に対応している複数の単語切り出し手段を制御して形態素解析を行い、文書のキーワードを抽出するキーワード抽出手段(2)と、前記キーワード抽出手段により抽出されたキーワードを対応する文書の識別子と共にインデックスとして登録するインデックス登録手段(4)と、検索条件を入力する検索条件入力手段(11)と、前記検索条件入力手段によって入力された検索条件から単語を切り出し、切り出した単語とインデックスのキーワードとを照合するインデックス照合手段(12)と、キーワードと単語の照合結果により検索条件に適合する文書を読み出す読出し手段(14)とを備えることを特徴とする。
【0013】
また、本発明の第2の特徴とする多言語文書登録検索装置においては、前記キーワード抽出手段は、切り出し対象言語が異なる複数の単語切り出し手段(21a,22a,23a)と、前記複数の単語切り出し手段の処理優先度を設定する設定手段(27)と、前記複数の単語切り出し手段を処理優先度に従って制御し、文書から単語を切り出して、キーワードを抽出するキーワード抽出制御手段(26)と、抽出されたキーワードと該キーワードの単語が切り出された文書の識別子を対応させてインデックスに登録するインデックス登録手段(28)とを備えることを特徴とする。
【0014】
また、本発明の第3の特徴とする多言語文書登録検索装置においては、前記キーワード抽出制御手段は、ある処理優先度の単語切り出し手段で識別不能とされた語を、次の処理優先度の単語切り出し手段で処理し、切り出された単語については、該単語の識別子をキーワードとし、複数の単語切り出し手段で最後まで識別不能とされた単語については、該単語をキーワードとすることを特徴とする。
【0015】
また、本発明の第4の特徴とする多言語文書登録検索装置は、更に、登録する文書を入力してキーワード抽出を指示する入力手段(1)と登録する文書,インデックスおよび該辞書ファイルに登録されていない単語を保持する保持手段(3,5)とを備えることを特徴とする。
【0016】
また、本発明の第5の特徴とする多言語文書登録検索装置においては、前記キーワード抽出手段は、複数の言語の文から構成される文書からそれぞれの言語の文に対して形態素解析により単語を切り出す複数の単語切出し手段(21a,22a,23a)と、前記複数の単語切り出し手段がそれぞれに参照する言語に対応する辞書を格納する複数の辞書ファイル(21b,22b,23b)と、前記複数の単語切出し手段を適用する順番の設定を行う順序設定手段(27)と、前記順序設定手段により設定された順に複数の単語切り出し手段を制御して前記文書から対応する多言語の文の単語を切り出す制御を行う制御手段(26)とを備えることを特徴とする。
【0017】
また、本発明の第6の特徴とする多言語文書登録検索装置においては、更に、単語切出し手段により未登録語として判断された単語に関しては一時的に未登録キーワード候補として保持する未登録キーワード候補保持手段(25)と、それ以外の辞書から抽出された単語に関しては一時的にキーワード候補として保持しておくキーワード候補保持手段(24)とを備え、前記制御手段(26,27)は、1段目の単語切出し手段を制御して、複数の言語の文を含む文書を入力として、形態素解析により単語の切り出しを行い、未登録語と判断された単語に関しては、一時的に未登録キーワード候補として前記未登録キーワード候補保持手段に保持し、辞書から抽出された単語に関してはキーワード候補として、前記キーワード候補保持手段に保持する処理を行い、順次に各々の単語切出し手段を制御して、前段の単語切り出し手段により前記未登録キーワード候補保持手段に保持された未登録語候補を入力として、形態素解析により単語の切り出しを行い、未登録語と判断された単語に関しては、そのまま前記未登録キーワード候補保持手段に残し、辞書から抽出された単語に関しては前記未登録キーワード候補保持手段より削除し、前記キーワード候補保持手段に追加保持する処理を行い、最終的に前記キーワード候補保持手段に保持されたキーワード候補をキーワードとし、前記未登録キーワード候補保持手段に保持された未登録キーワードを未登録キーワードとして対応する文書の識別子と共にインデックスに登録することを特徴とする。
【0018】
また、本発明の第7の特徴とする多言語文書登録検索装置は、複数の言語の文を含む文書に対して検索に用いるインデックスを作成して登録し、該インデックスにより文書の検索を行う多言語文書登録検索装置において、複数の言語の文を含む文書を格納するテキストデータベースと、前記文書に対し異なる言語の文に対応している複数の単語切り出し手段を制御して形態素解析を行い、文書のキーワードを抽出するキーワード抽出手段と、前記キーワード抽出手段により抽出されたキーワードを対応する文書の識別子と共にインデックスとして登録するインデックス登録手段と、検索条件を入力する検索条件入力手段(11)と、前記検索条件入力手段によって入力された検索条件から単語を切り出してインデックスと照合する多言語対応のインデックス照合手段(12)と、前記インデックス照合手段の照合結果により、対応する文書をテキストデータベースから抽出する抽出手段(14)とを有することを特徴とする。
【0019】
また、本発明の第8の特徴とする多言語文書登録検索装置においては、前記インデックス照合手段は、複数の言語から構成される文書からそれぞれ対応の言語の文に対して形態素解析を行って単語を切り出す複数の単語切出し手段(131a,132a,133a)と、複数の単語切出し手段を組み合わせて当該前記単語切出し手段を適用する順番を設定する順序設定手段(137)と、前記順序設定手段により設定した順に検索条件入力手段によって入力された検索条件の単語を切り出す制御を行う制御手段(136)とを有することを特徴とする。
【0020】
また、本発明の第9の特徴とする多言語文書登録検索装置においては、単語切出し手段により未登録語として判断された単語に関しては一時的に未登録検索語候補として保持する未登録検索語候補保持手段(134)と、それ以外の辞書から抽出された単語に関しては一時的に検索語候補として保持しておく検索語候補保持手段(135)とを備え、前記制御手段(13,137)は、1段目の単語切出し手段を制御して、複数の言語の文を含む文書を入力として、形態素解析により単語の切り出しを行い、未登録語と判断された単語に関しては、一時的に未登録検索語候補として前記未登録検索語候補保持手段に保持し、辞書から抽出された単語に関しては検索語候補として、前記検索語候補保持手段に保持する処理を行い、順次に各々の単語切出し手段を制御して、前段の単語切り出し手段により前記未登録検索語候補保持手段に保持された未登録語候補を入力として、形態素解析により単語の切り出しを行い、未登録語と判断された単語に関しては、そのまま前記未登録検索語候補保持手段に残し、辞書から抽出された単語に関しては前記未登録検索語候補保持手段より削除し、前記検索語候補保持手段に追加保持する処理を行い、最終的に前記検索語候補保持手段に保持された検索語候補を検索語とし、前記未登録検索語候補保持手段に保持された未登録検索語候補を未登録検索語として、インデックス照合し、対応する文書をテキストデータベース部により抽出して結果情報を出力することを特徴とする。
【0021】
このような様々な特徴を有する本発明の多言語文書登録検索装置によれば、ここで第1の特徴とする多言語文書登録検索装置においては、多言語文書格納手段(3)が、複数の言語の文を含む文書を格納しており、キーワード抽出手段(2)が、前記文書に対し異なる言語の文に対応している複数の単語切り出し手段を制御して形態素解析を行い、文書のキーワードを抽出する。インデックス登録手段(4)は、前記キーワード抽出手段により抽出されたキーワードを対応する文書の識別子と共にインデックスとして登録する。
【0022】
文書の検索を行う場合、検索条件入力手段(11)により、検索条件を入力すると、インデックス照合手段(12)が、前記検索条件入力手段によって入力された検索条件から単語を切り出し、切り出した単語とインデックスのキーワードとを照合する。そして、読出し手段(14)が、キーワードと単語の照合結果により検索条件に適合する文書を読み出す。このようにして、複数の言語の文を含む文書に対して検索に用いるインデックスを作成して登録し、該インデックスにより文書の検索を行う。
【0023】
また、本発明の第2の特徴とする多言語文書登録検索装置においては、インデックスを作成するために、キーワード抽出手段には、切り出し対象言語が異なる複数の単語切り出し手段(21a,22a,23a)が備えられており、設定手段(27)が、前記複数の単語切り出し手段の処理優先度を設定すると、キーワード抽出制御手段(26)が、前記複数の単語切り出し手段を処理優先度に従って制御し、文書から単語を切り出して、キーワードを抽出する。インデックス登録手段(28)は、抽出されたキーワードと該キーワードの単語が切り出された文書の識別子を対応させてインデックスに登録する。これにより、複数の言語の文を含む文書に対しては、それぞれの対象言語に対応して複数の各々の単語切り出し手段により、形態素解析を行ってキーワードの単語を切り出せる。このため、多言語で記述された文書に対して未登録語を最小限に押さえて、検索時に用いるインデックスを作成することができる。
【0024】
また、本発明の第3の特徴とする多言語文書登録検索装置においては、複数の言語の文を含む文書に対し、それぞれの対象言語に対応して複数の各々の単語切り出し手段により、形態素解析を行ってキーワードの単語を切り出す場合、前記キーワード抽出制御手段が、ある処理優先度の単語切り出し手段で識別不能とされた語を、次の処理優先度の単語切り出し手段で処理し、切り出された単語については、該単語の識別子をキーワードとする。また、複数の単語切り出し手段で最後まで識別不能とされた単語については、該単語をキーワードとする。これにより、複数の言語で記述された文書に対して、それぞれの言語に対応した形態素解析により単語を切り出すことができ、解析する範囲の重複を避けて、キーワードを抽出することができる。このようにして、キーワードの登録を行う場合のインデックスサイズを最小に押さえることができる。
【0025】
また、本発明の第4の特徴とする多言語文書登録検索装置によれば、文書登録するために、更に、入力手段(1)と保持手段(3,5)が備えられている。入力手段(1)が、登録する文書を入力してキーワード抽出を指示すると、キーワード抽出手段(2)が、単語の切り出しに用いる辞書を備え形態素解析によって文書のキーワードを抽出し、登録手段(4)が、前記キーワード抽出手段により抽出されたキーワードを対応する文書の識別子と共にインデックスに登録する。この結果、保持手段(3,5)には、登録する文書,インデックスおよび該辞書ファイルに登録されていない単語が保持される。これにより、複数の言語の文を含む文書に対して検索に用いるインデックスを作成して登録し、該インデックスにより文書の検索を行うことができる。
【0026】
本発明の第5の特徴とする多言語文書登録検索装置によれば、前記キーワード抽出手段において、複数の単語切出し手段(21a,22a,23a)が、複数の言語の文から構成される文書からそれぞれの言語の文に対して形態素解析により単語を切り出す場合、複数の辞書ファイル(21b,22b,23b)が、前記複数の単語切り出し手段(21a,22a,23a)のそれぞれに参照する言語に対応する辞書を格納しているので、順序設定手段(27)により、前記複数の単語切出し手段を適用する順番の設定を行うと、制御手段(26)が、前記順序設定手段により設定された順に複数の単語切り出し手段を制御して前記文書から対応する多言語の文の単語を切り出す制御を行う。
【0027】
また、本発明の第6の特徴とする多言語文書登録検索装置においては、未登録キーワード候補保持手段(25)は、単語切出し手段により未登録語として判断された単語に関しては一時的に未登録キーワード候補として保持し、また、それ以外の辞書から抽出された単語に関しては、キーワード候補保持手段(24)により、一時的にキーワード候補として保持する。多言語対応にキーワードの抽出を行う場合、前記制御手段(26,27)は、1段目の単語切出し手段を制御して、複数の言語の文を含む文書を入力として、形態素解析により単語の切り出しを行う。これにより、未登録語と判断された単語に関しては、一時的に未登録キーワード候補として前記未登録キーワード候補保持手段に保持し、辞書から抽出された単語に関してはキーワード候補として、前記キーワード候補保持手段に保持する処理を行う。
【0028】
続いて、順次に各々の単語切出し手段を制御して、前段の単語切り出し手段により、前記未登録キーワード候補保持手段に保持された未登録語候補を入力として、形態素解析により単語の切り出しを行い、未登録語と判断された単語に関しては、そのまま前記未登録キーワード候補保持手段に残し、辞書から抽出された単語に関しては前記未登録キーワード候補保持手段より削除し、前記キーワード候補保持手段に追加保持する処理を行う。
【0029】
そして、最終的に前記キーワード候補保持手段に保持されたキーワード候補をキーワードとし、前記未登録キーワード候補保持手段に保持された未登録キーワードを未登録キーワードとして対応する文書の識別子と共にインデックスに登録する。このようにして、順次に形態素解析により単語の切り出しを行うので、複数の言語に対応するそれぞれの複数の形態素解析の組み合わせによる対象テキストの重複した解析を避けて、できる限り効率的に最適に形態素解析を行うことができ、多言語で記述された文を含む文書に対して未登録語を最小限に押さえるようにできる。
【0030】
また、本発明の第7の特徴とする多言語文書登録検索装置によれば、文書検索するために、特徴的に、検索条件入力手段(11)と、多言語対応のインデックス照合手段(12)と、抽出手段(14)とを備えており、検索条件入力手段(11)が、検索条件を入力すると、多言語対応のインデックス照合手段(12)が、前記検索条件入力手段によって入力された検索条件から単語を切り出してインデックスと照合する。抽出手段(14)は、前記インデックス照合手段の照合結果により、対応する文書をテキストデータベースから抽出する。これより、複数の言語の文を含む文書に対して検索に用いるインデックスが作成して登録してある場合に、該インデックスにより文書の検索を行うことができる。
【0031】
また、文書検索を行う場合、本発明の第8の特徴とする多言語文書登録検索装置によれば、前記インデックス照合手段において、複数の単語切出し手段(131a,132a,133a)が、複数の言語の文から構成される文書からそれぞれ対応の言語の文に対して形態素解析を行って単語を切り出すので、順序設定手段(137)により、複数の単語切出し手段を組み合わせて当該前記単語切出し手段を適用する順番を設定し、制御手段(136)によって、前記順序設定手段により設定した順に検索条件入力手段によって入力された検索条件から単語を切り出す制御を行い、そして、検索条件の単語により文書の検索を行う。
【0032】
また、本発明の第9の特徴とする多言語文書登録検索装置においては、未登録検索語候補保持手段(134)が、単語切出し手段により未登録語として判断された単語に関しては一時的に未登録検索語候補として保持しており、それ以外の辞書から抽出された単語に関しては、検索語候補保持手段(135)により、一時的に検索語候補として保持しておく。
【0033】
前記制御手段(136,137)が、1段目の単語切出し手段を制御して、複数の言語の文を含む文書を入力として、形態素解析により単語の切り出しを行い、未登録語と判断された単語に関しては、一時的に未登録検索語候補として前記未登録検索語候補保持手段に保持し、辞書から抽出された単語に関しては検索語候補として、前記検索語候補保持手段に保持する処理を行う。
【0034】
続いて、順次に各々の単語切出し手段を制御して、前段の単語切り出し手段により前記未登録検索語候補保持手段に保持された未登録語候補を入力として、形態素解析により単語の切り出しを行い、未登録語と判断された単語に関しては、そのまま前記未登録検索語候補保持手段に残し、辞書から抽出された単語に関しては、前記未登録検索語候補保持手段より削除し、前記検索語候補保持手段に追加保持する処理を行う。
【0035】
そして、最終的に前記検索語候補保持手段に保持された検索語候補を検索語とし、前記未登録検索語候補保持手段に保持された未登録検索語を未登録検索語として、インデックス照合し、対応する文書をテキストデータベース部により抽出して結果情報を出力する。
【0036】
このようにして、複数の言語の文を含む文書に対して検索に用いるインデックスを作成して登録し、該インデックスにより文書の検索を行うので、複数の言語で記述された文書に対して、自国語以外の単語の語形変化や、表記の揺れにも対応でき、検索精度の向上が計れる。また、不必要な未登録語の抽出を最小限に押さえており、インデックスサイズを最小に押さえることができる。更に、また、複数の言語で記述された文書に対して、複数の言語に対応するそれぞれの複数の形態素解析の組み合わせによる対象テキストの重複した解析を避けて、できる限り効率的に最適に形態素解析を行うことができ、多言語で記述された文書に対して未登録語を最小限に押さえるようにできる。
【0037】
【発明の実施の形態】
以下、本発明を実施する形態について、図面を参照して具体的に説明する。図1は本発明の一実施例にかかる多言語文書登録検索装置の構成を示すブロック図である。図1において、1は入力処理部、2は多言語キーワード抽出部、3はテキストデータベース部、4はインデックス登録部、5はインデックスファイル部、11は検索条件入力部、12は多言語インデックス登録部、13は表示部、14はテキスト抽出部である。
【0038】
テキストデータベース部3には、例えば、英語の記述された文および日本語で記述された文などの複数の言語で記述された文を含む文書(110:図11)が格納されている。入力処理部1が、ユーザからの文書の登録の入力指示を受け付けると、多言語キーワード抽出部2は、ユーザにより指示された文書に対して、そのキーワードを抽出する処理を行う。ここで、キーワードを抽出する文書は、例えば、入力処理部1から入力されて、テキストデータベース部3に登録された文書であり、または、テキストデータベース部3に既に登録されている文書である。これに文書に対して、キーワードを抽出する文書が指定され、その文書に対して、キーワードを抽出する処理が行われる。
【0039】
多言語キーワード抽出部2には、後述するように、各国の言語に対応して形態素解析を行う複数の形態素解析部(21a〜23a:図2)が備えられており、この複数の各国の言語対応の形態素解析部を順次に制御して、効率的に文書中の異なる言語の文に対応してそれぞれに形態素解析を行い、単語を切り出し、キーワードを抽出する処理を行う。複数の形態素解析部には、それぞれに解析する言語に対応して言語対応に辞書ファイルが設けられており、形態素解析を行い単語を切り出す場合に、各言語に対応する単語は、各々の国の言語に対応する該当の辞書と比較される。
【0040】
ある言語の辞書ファイルに登録されている単語は、キ−ワード候補として、キーワード候補保持部に一時的に保持され、ある言語の辞書に登録されていない単語は、未登録キーワード候補として一時的に未登録キーワード候補保持部に保持される。そして、未登録キーワード候補の単語は、次の言語の形態素解析部により形態素解析が行われる。このようにして、次の国の言語に対応する辞書と比較する際に、先の未登録キーワード候補の単語を含めて、形態素解析を行い、単語を切り出して、キーワードを抽出する処理を行う。
【0041】
このようにして抽出されたキーワードは、インデックス登録部4により、当該キーワードに対応する文書の識別子と共にインデックスとして、インデックスファイル部5のインデックテーブルに登録される。
【0042】
ユーザが所望する文書の検索を行う場合、ユーザは検索条件入力部11から検索条件を入力する。検索条件が入力されると、多言語インデックス照合部12では、入力された検索条件から単語を切り出し、切り出した単語とインデックテーブルのインデックスのキーワードとを照合する。そして、その照合結果によってテキスト抽出部14により、キーワードと単語の照合結果により検索条件に適合する文書を読み出し、表示部13において、読み出された文書を表示する。
【0043】
図2は、多言語キーワード抽出部の要部の構成を示すブロック図である。図2には、多言語キーワード抽出部における各々の要素のブロックと共に、そのデータの流れが示されている。図2において、1は入力処理部、21aは第1番目の形態素解析部、21bは第1番目の辞書ファイル部、22aは第2番目の形態素解析部、22bは第2番目の辞書ファイル部、23aは第N番目の形態素解析部、23bは第N番目の辞書ファイル部である。24はキーワード候補保持部、25は未登録キーワード候補保持部、26はキーワード/未登録キーワード決定部、27は順序設定部、28はインデックス登録部、29はインデックスファイル部である。
【0044】
図2に示すように、多言語キーワード抽出部には、各々の国の言語の文の形態素解析を行うためのそれぞれの言語に対応する複数の形態素解析部(21a〜23a)と、各形態素解析部に各々の言語の辞書データを供給する各国語対応の複数の辞書ファイル部(21b〜23b)とが備えられており、これらの複数の形態素解析部(21a〜23a)を制御して、効率的に多言語の文の形態素解析を行うために、その多言語文書の形態素解析を行う順序を設定する順序設定部27と、その作業メモリとして、解析された単語をキーワード候補として一時的に登録しておくキーワード候補保持部24と、1つ言語に対応する形態素解析部では解析されなかった単語については、別の言語に対応する形態素解析部での形態素解析を行うために、一時的に登録しておく未登録キーワード候補保持部25が設けられている。そして、形態素解析が終了した場合に、キーワード/未登録キーワード決定部26において、登録するキーワードとする単語と、未登録キーワードとしておく単語を決定し、インデックス登録部28において、キーワードが抽出された文書の識別子と対応づけて、インデックスファイル部29に登録する。
【0045】
図3は、キーワード抽出処理を行う場合に用いられる制御テーブルの内容を説明する図である。図3(a)にキーワード抽出管理テーブル30を示しており、図3(b)に、形態素解析管理テーブル36を示しており、また、図3(c)に解析対象文字列タイプ設定テーブル37を示している。
【0046】
キーワード抽出管理テーブル30は、図3(a)に示すように、多言語キーワード抽出部に備えられている各々の形態素解析部の使用状態を管理するテーブルであり、番号フィールド31,対応言語種別フィールド32,順番フィールド33,使用フラグフィールド34,および解析対象文字列タイプフィールド35から構成されている。各々のフィールドに使用する形態素解析部の条件データを設定する。例えば、上から2番目のエントリには、日本語対応で形態素解析を行う形態素解析部の条件が設定されており、番号フィールド31には“2”が設定され、対応言語種別フィールド32には“日本語対応”と設定され、順番フィールド33には“1”が設定され、使用フラグフィールド34は“ON”が設定されている。また、解析対象文字列タイプフィールド35には“テキスト−ALL”が設定されて、ここでの条件データが設定されている。つまり、この条件データからは、「第2番目の形態素解析部は、日本語対応に用いられ、多言語文書の形態素解析を1番目に行い、その解析対象文字列の範囲を、テキスト全部として行う」ことを意味している。
【0047】
キーワード抽出処理で用いられる形態素解析部は、形態素解析管理テーブル36により管理される。形態素解析管理テーブル36においては、図3(b)に示すように、使用可能な各国語対応の形態素解析部の個数nと、現在使われている形態素解析部の番号iとのデータが管理されている。また、解析対象文字列の範囲の設定のために、図3(c)に示すように、解析対象文字列タイプ設定テーブル37が設けられている。解析対象文字列タイプ設定テーブル37には、解析対象文字列タイプに応じて、その解析対象文字列の範囲規定されている。例えば、解析対象文字列タイプが“未登録語群”である場合には、解析対象文字列の範囲を「未登録キーワード候補保持部あるいは未登録検索語保持部のキーワード候補の全て」とするように設定され、また、解析対象文字列タイプが“テキスト−ALL”である場合には、解析対象文字列の範囲を「登録文書あるいは検索式の全てのテキスト」とするように設定されている。
【0048】
次に、これらの制御テーブルを用いて、図2に示すようなキーワード抽出処理部における多言語文書登録処理について説明する。図4は多言語文書登録処理の全体の処理フローを示すフローチャートである。図4に示すフローチャートは、1ヶ国以上の言語で記述されている文書をそれぞれの言語に対応している形態素解析を行うことによって、キーワードとする単語を切り出し、インデックスに登録する処理の全体の流れを示している。また、図5は、多言語文書登録処理の中のキーワード抽出管理テーブルの条件の設定処理の処理フローを示すフローチャートであり、図6は、多言語文書登録処理の中の解析対象文字列範囲の設定処理の処理フローを示すフローチャートであり、図7は、多言語文書登録処理の中のキーワード抽出処理の処理フローを示すフローチャートである。また、図8は、多言語文書登録処理の中の未登録キーワード候補処理の処理フローを示すフローチャートである。
【0049】
まず、図4のフローチャートを参照して、多言語文書登録処理の全体の処理を説明する。処理を開始すると、まず、ステップ41において、入力処理部1により、文書の登録指示を行う。次に、ステップ42において、キーワード抽出条件の設定処理(図5)を行い、続いて、次のステップ43において、形態素解析の解析対象の文字列集合の設定処理(図6)を行う。つまり、キーワード抽出処理で用いる形態素解析部の条件を設定し、続いて、条件を設定した形態素解析部を用いて解析を行う対象の文字列集合の設定を行う。文字列集合の設定処理では、例えば、登録文書のテキストの全てか、未登録キーワード候補群の文字列の集合か等を設定し、具体的に形態素解析を行う解析対象の文字列集合の設定を行う。
【0050】
これらの設定の処理が終ると、次に、キーワード抽出処理の制御を行うため、ステップ44において、現在使っている形態素解析部の番号(順序)を示す変数iを“1”と設定し、文書登録の処理の最初に使う形態素解析部をセットする。次に、ステップ45において、変数iに対応する言語の形態素解析部の使用フラグがオンであるか否かを判定する。使用フラグがオンでなければ、変数iの番号の形態素解析部による形態素解析の処理は行わないので、次の番号の形態素解析部の処理に進めるため、ステップ52に進む。
【0051】
また、ステップ45の判定において、変数iに対応する言語の形態素解析部の使用フラグがオンである場合、すなわち、キーワード抽出管理テーブル30で順序を示す変数iに対応する言語(「解析する順番」がiとなっている言語)の形態素解析のエントリーの「使用フラグ」がONになっている場合、次のステップ46に進み、文字列集合に対し、第i番目の対応の形態素解析部による順次のキーワード抽出処理(図7)を行う。このキーワード抽出処理では、後述するように、キーワード抽出管理テーブル30の条件データにより、第i番目の順序の形態素解析部のエントリの解析対象文字列のタイプで設定された文字列集合に対して第i番目の対応する形態素解析部によりキーワードを抽出する。
【0052】
次に、ステップ47において、抽出されたキーワードが(第i番目の)形態素解析用辞書に登録されているか否かを判定し、登録されていなければ、ステップ48に進み、未登録キーワード候補として対応する文書IDと共に、未登録キーワード候補保持部に記憶し、ステップ51に進む。また、ステップ47の判定において、抽出されたキーワードが形態素解析用辞書に登録されていると判定された場合、ステップ49に進み、キーワード候補として対応する文書IDと共に、キーワード候補保持部に記憶する。そして、次に、ステップ50において、未登録キーワード候補処理(図8)を行う。この未登録キーワード候補処理では、後述するように、先の形態素解析部の処理では未登録キーワード候補とされたが、後の形態素解析部の処理でキーワード候補とされた単語について、文字列照合を行い、照合された単語については未登録キーワードから外す処理を行う。この未登録キーワード候補処理が終ると、次に、ステップ51に進む。
【0053】
ステップ51においては、登録文書の第i番目の形態素解析部によるキーワード抽出が終了したか否かを判定する。キーワード抽出が終了していなければ、ステップ46に戻り、ステップ46からの処理を繰り返し行う。また、このステップ51の判定処理により、第i番目に対応する形態素解析部によるキーワード抽出処理の終了が確認できれば、次の形態素解析部によるキーワード抽出処理を行うため、次のステップ52において、使用する形態素解析部の順序を示す変数iをインクリメントして、つまり、変数iを(i=i+1として)カウントアップし、次のステップ53において、使用可能な各国語対応の形態素解析部の個数nと次に使用する形態素解析部の順序を示す変数iと比較する。
【0054】
この比較の結果、n≧iであれば、第i番目の形態素解析部によるキーワード抽出処理は完了していないので、ステップ45に戻り、ステップ45からの処理を繰り返し行う。また、n<iであれば、キーワード抽出管理テーブルに設定された条件により使用可能状態になっている形態素解析部による解析はすべて終了したことなので、次に、ステップ54に進み、キーワード候補群と未登録キーワード群の中からインデックスを作成する処理を行う。これにより、一通りの文書の登録処理は終了するので、次に、ステップ55において、文書の登録を終了するか否かを判定し、その外の文書の登録処理を行う場合には、ステップ41に処理を戻し、ステップ41からの処理を繰り返し行う。また、文書の登録を終了する場合には、ここでの一連の処理を終了する。
【0055】
次に、多言語文書登録処理の中のキーワード抽出管理テーブルの条件の設定処理について説明する。この処理は、図4の多言語文書登録処理の全体の処理フローのステップ42において実行される処理である。図5のフローチャートを参照する。ここでの処理が開始されると、ステップ61に進み、キーワード抽出管理テーブルに記憶させている各国語対応の形態素解析部の数をカウントし、この形態素解析部の数を示す変数nに設定する。つまり、キーワード抽出管理テーブル30に登録されている形態素解析部の数がmであったとすると、n=mと設定される。次に、ステップ62において、各国語対応の形態素解析部を用いて、解析する順番をキーワード抽出管理テーブル30の順番フィールド33に設定する。そして、次のステップ63において、この文書登録時に使用する各国語対応の形態素解析を設定するため、各国の言語対応の形態素解析部を使用するか使用しないかを、キーワード抽出管理テーブル30の使用フラグフィールド34においてON/OFFフラグによって設定する。これにより、キーワード抽出管理テーブルの条件の設定処理が終了する。
【0056】
次に、多言語文書登録処理の中の解析対象文字列範囲の設定処理について説明する。この処理は、前述したように、図4の多言語文書登録処理の全体の処理フローのステップ43において実行される処理である。図6のフローチャートを参照する。この処理を開始すると、まず、ステップ71において、キーワード抽出管理テーブル30に記憶している各国語対応の形態素解析部のエントリの番号を示す変数jを“1”に設定する。次に、ステップ72において、キーワード抽出管理テーブルの第j番目のエントリの各言語対応の形態素解析部に対する解析対象文字列のタイプを、解析対象文字列タイプ設定テーブルの中から選ぶ。前述したように、解析対象文字列タイプ設定テーブル37には、解析対象文字列のタイプの種類に対応して、形態素解析を行う文字列の範囲を設定しており、この設定された解析対象文字列タイプ設定テーブル37の解析対象文字列タイプの種類から、解析対象文字列の種類を選択し、キーワード抽出管理テーブル30の解析対象文字列タイプフィールド35に設定する。
【0057】
次に、ステップ73に進み、第j番目の形態素解析部の「解析する順番」が1番目であるか否かを判定する。第j番目の形態素解析部の順番が1番目である場合には、ステップ74に進み、先に設定した解析対象文字列タイプを無視して強制的に「テキスト−ALL」と設定する。そして、ステップ75に進み。これにより、1番目の形態素解析部で解析する解対象文字列の範囲は、常に登録文書のテキスト全てとする。また、ステップ73の判定において、形態素解析部の順番が1番目でない場合には、そのまま、ステップ75に進む。
【0058】
続いて、次の形態素解析部のエントリにおける解析対象文字列タイプの設定を行うため、次に、ステップ75において、変数jをインクリメントして、次のステップ76において、j≦nであるか否かを判定する。j≦nであれば、未だ設定がなされていない形態素解析部に対応するエントリがあるので、ステップ72に戻り、ステップ72からの処理を繰り返す。また、j≦nでなければ、ここでの処理を終了する。つまり、変数jをキーワード抽出管理テーブル30に記憶させている形態素解析部の数nと比較して、jがnと同じか小さい場合は、ステップ72に戻る。そうでない場合は、処理を終了する。
【0059】
これにより、キーワード抽出管理テーブル30において、各々の形態素解析部に対して解析対象の文字列集合の設定処理が完了する。ここでの解析対象の文字列集合として、例えば、登録文書のテキストの全てか、未登録キーワード候補群の文字列の集合か等を設定する処理が完了するので、各々の形態素解析部は、この設定内容に従って、キーワード抽出処理を行う。
【0060】
次に、多言語文書登録処理の中のキーワード抽出処理について説明する。図7のフローチャートを参照する。この処理は、前述したように、図4の多言語文書登録処理の全体の処理フローのステップ46において実行される処理である。ここでのキーワード抽出処理を開始し、ステップ81に進むと、ステップ81において、キーワード抽出管理テーブルの解析対象文字列タイプで設定された文字列集合に対して形態素解析を行って単語を切り出す。つまり、文字列集合の形態素解析が終っていない位置から、形態素解析により単語を切り出す。
【0061】
次に、ステップ82において、切り出された単語に不要語が含まれるか否かを判定する。不要語が含まれていなければ、そのまま、ステップ88に進み、直ちに、不要語以外の単語を抽出したキーワードとし、ここでの処理を終了とする。また、切り出された単語に不要語が含まれる場合、ステップ83に進み、変数iが“1”であるか否かを判定する。変数iが“1”である場合、現在使っている形態素解析部は、第1番目の形態素解析部であるので、未登録キーワード候補に対する処理はなく、この場合も、ステップ88に進み、不要語以外の単語を抽出したキーワードとして、ここでの処理を終了する。
【0062】
ステップ83の判定において、変数iが“1”でないと判定された場合には、次に、ステップ84に進み、解析順序がi番目の形態素解析の解析対象文字列は未登録語群であるか否かを判定する。解析対象文字列が未登録語群でない場合、ステップ85に進み、切り出された単語により、未登録キーワード候補に対して文字列照合を行う。そして、次のステップ86において、その文字列照合の結果を判定する。照合できた場合には、ステップ87に進み、未登録キーワード候補から切り出された単語あるいは文字列照合した単語を外し、次に、ステップ88において、不要語以外の単語を抽出したキーワードとして、ここでの処理を終了する。
【0063】
また、ステップ86の判定において、文字列照合できたことが判定できなかった場合には、ステップ87の処理を行うことなく、ステップ88に進み、不要語以外の単語を抽出したキーワードとして、ここでの処理を終了する。
【0064】
次に、多言語文書登録処理の中の未登録キーワード候補処理の設定処理について説明する。図8のフローチャートを参照する。この処理は、前述したように、図4の多言語文書登録処理の全体の処理フローのステップ50において実行される処理である。この未登録キーワード候補処理を開始して、ステップ91に進むと、まず、現在使っている形態素解析の順序を示す変数iが“1”であるか否かを判定する。変数iが“1”であれば、前述のように、現在使っている形態素解析部は、第1番目の形態素解析部であるので、未登録キーワード候補に対する処理はなく、直ちに、この未登録キーワード候補処理の処理を終了する。
【0065】
また、ステップ91の判定において、変数iが“1”でないことが確認できれば、ステップ92に進み、解析順序がi番目の形態素解析の解析対象文字列は未登録語群であるか否かを判定する。すなわち、キーワード抽出管理テーブル30において、解析順序が第i番目の形態素解析部に対応のエントリの解析対象文字列タイプフィールド35の設定が「未登録語群」であるか否かを判定する。この判定の結果、解析対象文字列タイプが「未登録語群」であれば、ステップ95において、未登録キーワード候補から抽出されたキーワードを外して、この処理を終了する。
【0066】
ステップ92の判定において、解析対象文字列タイプが「未登録語群」でなければ、ステップ93に進み、抽出されたキーワードを未登録キーワード候補に対して文字列照合を行い、次のステップ94において、この文字列照合の結果を判定する。この判定の結果、文字列照合できた場合には、ステップ95に進み、未登録キーワード候補から抽出されたキーワードを外して、この処理を終了する。また、文字列照合できなければ、そのまま、この処理を終了する。
【0067】
このようにして、未登録キーワード候補に対する処理が行われ、この結果、先の形態素解析部の処理では未登録キーワード候補とされたが、後の形態素解析部の処理でキーワード候補とされた単語について、文字列照合を行い、照合された単語については未登録キーワードから外す処理を行う。
【0068】
次に、複数の言語で記述された文を含む文書を登録する場合について、具体的に複数の言語で記述された文を含む文書を例示して、その動作例を説明する。図9は、多言語文書の一例を示す図である。図9に示すように、ここでの多言語文書99は、日本語と英語の文章が存在する文書であり、多言語文書99を新たに文書登録する場合について説明する。この場合には、文書全体に対して、まず日本語での形態素解析を行い、次に、解析されなかった部分について、英語での形態素解析を行い、キーワード抽出を行い、キーワードと共に当該文書(文書の識別番号)を登録する。
【0069】
この多言語文書登録検索装置に、「英語」,「日本語」,「中国語」,および「アラビア語」対応の4つのそれぞれの言語に対応する形態素解析を行える形態素解析部が設けられている場合、キーワード抽出の条件を規定するキーワード抽出管理テーブル30には、図3(a)に示すように、それぞれの形態素解析部の制御の条件の設定がなされている。したがって、この場合、キーワード抽出管理テーブル30に登録されている形態素解析部の数は“4”(n=4)とカウントされ(ステップ61:図5)、図3(b)に示すように、形態素解析管理テーブル36に、レコード形式で(あるいは変数として)一時的に記憶される。
【0070】
また、キーワード抽出管理テーブル30の条件の設定においては、各々の形態素解析部で文書を解析する順番を、例えば、「日本語」,「英語」,「アラビア語」,「中国語」の順とするため、キーワード抽出管理テーブル30の順番フィールド33には、それぞれの言語対応の形態素解析部に対応して、上から順にその順番を「2」,「1」,「4」,「3」と設定する(ステップ62:図5)。
【0071】
また、文書登録の処理の中のキーワード抽出の処理で使用する形態素解析部の言語の種類を、ここでは「日本語」,「英語」,および「中国語」とするので、キーワード抽出管理テーブル30において、「日本語」,「英語」および「中国語」の対応のエントリの使用フラグフィールド34を「ON」として、「アラビア語」の対応のエントリの使用フラグフィールド34は「OFF」とする。
【0072】
更に、文書登録の処理の中のキーワード抽出の処理で形態素解析する各々の形態素解析部の解析対象の文字列の範囲を特定して、効率よくキーワード抽出の処理を実行するため、4つのそれぞれの言語に対応する形態素解析部に対して、2番目以降に設定している形態素解析の処理では、解析の対象とする文字列群を必ずしも常に登録する文書全体を範囲とせず、解析の対象とするテキストあるいは文字列の範囲あるいはそれらの集合を指定する。
【0073】
このため、図3(c)に示すように、解析対象文字列タイプ設定テーブル37において、予め定義している形態素解析を行う文字列の範囲に対応する解析対象文字列タイプを、キーワード抽出管理テーブル30の解析対象文字列タイプフィールド35に設定する。この例では、キーワード抽出管理テーブル30の解析対象文字列タイプフィールド35には、上から順に、「未登録語群」,「テキスト−ALL」,「未登録語群」,「テキスト−範囲指定」と設定しており、日本語対応の形態素解析部では、文書の全体を解析対象とするが、英語対応の形態素解析部および中国語対応の形態素解析部では、解析対象を未登録語群としている。なお、この場合、第1番目で形態素解析を行う形態素解析部に関しては、デフォルトで「テキスト−ALL」として必ず最初は登録文書の文書の全体を解析するように強制的に設定し直される(ステップ73〜ステップ74:図6)。
【0074】
このようにして、キーワード抽出管理テーブル30に使用する各々の形態素解析部の順番,解析対象文字列範囲などの条件が設定されると、設定された条件に従って各々の形態素解析部が制御されて、キーワード抽出の処理が実行される。キーワード抽出の処理が開始されると、まず、順番が第1番目に設定されている形態素解析部を用いて形態素解析を行う。この例では、順序が1番目の「日本語対応」の形態素解析部により、その「使用フラグ」が“ON”になっていることを確認してから(ステップ45)、この形態素解析部に対応して設定された文字列集合に対してキーワード抽出を行う。つまり、この場合には「テキスト−ALL」が設定されているので、登録文書の全てのテキストに対してキーワード抽出を行う(ステップ46)。
【0075】
キーワード抽出の処理(図7)においては、切り出された単語のうち不要語として判断されるようなもの以外をキーワードとする。「日本語」の形態素解析の処理は、第1番目の解析処理であるため、未登録キーワード候補に対する不要語の処理は行わない。そして、次に抽出されたキーワードが日本語形態素解析用の辞書に登録されているかどうかを判定し(ステップ47)、登録されているものについては、文書IDと共にキーワード候補として記憶する(ステップ48)。
【0076】
図10(a)および図10(b)は、日本語対応の形態素解析部によるキーワード抽出処理が終った段階のキーワード候補保持部および未登録キーワード候補保持部の内容を対比して示す図である。例えば、登録する文書(図9)の識別番号(文書ID)を“20204”とすると、「日本語」の形態素解析による全てのキーワード候補の登録処理が終った段階で、図10(a)に示すように、キーワード候補保持部100の文書(fileID)101に対するキーワード候補102には、文書ID=20204の文書に対するキーワード候補として、形態素解析によって切り出した単語の「イラク」,「クウェート」,「国」,…,「爆撃機」が記憶される。一方、形態素解析用の辞書に登録されていないものは「日本語」の形態素解析による全ての未登録キーワード候補の登録処理が終った段階で、図10(b)に示すように、未登録キーワード候補保持部103の文書(fileID)104に対する未登録キーワード候補105には、文書ID=20204の文書に対する未登録キーワード候補として、同じく、形態素解析により切り出した単語の「パトリオット」,「The」,「Ministry」,「of」,…,「recently」が記憶される。
【0077】
このようにして、「日本語」の形態素解析による処理が終了すると、続いて、次の対応する言語の「英語」の形態素解析による処理を開始する。この場合において、前述の場合と同様に、キーワード抽出管理テーブル30の条件に従って、順序が2番目の「英語」の形態素解析部により、その「使用フラグ」も“ON”になっていることを確認してから(ステップ45)、この形態素解析部に対応して設定された文字列集合に対してキーワード抽出を行う。つまり、この場合にはキーワード抽出管理テーブル30の解析対象文字列タイプフィールド35には、その解析対象文字列タイプとして、「未登録語群」が設定されているので、図10(b)に示すように、未登録キーワード候補保持部103の文書(fileID)104に対する未登録キーワード候補105に記憶されている文字列に対して、キーワード抽出の処理を行う。すなわち、現在の登録対象文書である文書ID=20204の文書に対して、全文書の英語対応の形態素解析を行うことなく、先に未登録キーワード候補として抽出されている文字列に対して、キーワード抽出の処理を行う(ステップ46)。
【0078】
この場合のキーワード抽出の処理(図7)においても、前述の場合と同様に、切り出された単語のうち不要語として判断されるようなもの以外をキーワードとする。つまり、この処理により、未登録語キーワード候補に対する不要語の処理として、不要語と判断される例えば「The」,「of」などが、未登録キーワード候補から外される。そして、抽出されたキーワードが英語形態素解析用の辞書に登録されているか否かを判定し(ステップ47)、登録されているものについては、文書IDと共にキーワード候補として記憶する(ステップ48)。
【0079】
図11(a)および図11(b)は、次の英語対応の形態素解析部によるキーワード抽出処理が終った段階のキーワード候補保持部および未登録キーワード候補保持部の内容を対比して示す図である。前述のように、ここでの登録する文書(図9)の識別番号(文書ID)を“20204”とすると、未登録キーワード候補に対して、「英語」の形態素解析による全ての登録処理が終った段階においては、図10(b)に示す未登録キーワード候補保持部103の文書(fileID)104に対応する未登録キーワード候補105に記憶されている文字列「Ministry」,「Education」,…,「said」,「recently」に対して、英語対応の形態素解析部での形態素解析が行われて、その結果、切り出された単語の中で、英語形態素解析用の辞書に登録されている単語を、図11(a)に示すように、キーワード候補保持部110の文書(fileID)111に対するキーワード候補112に追加記憶する。つまり、文書ID=20204の文書に対するキーワード候補として、その対応のエントリに「ministry」,「education」,…,「say」,「recent」として追加記憶する。
【0080】
なお、この説明の形態素解析の処理の中では、特に触れていないが、形態素解析により単語を切り出す際に、単語の幾つかの表語を標準形に統一する処理も同時に行われる。つまり、「Ministry」→「ministry」,「Education」→「education」のように、大文字を小文字に統一する処理、また、「said」→「say」のように原形に統一する処理などが行われる。このようにして、1つの言語の形態素解析では未登録キーワード候補とされた単語を、別の言語での形態素解析を行うことによってキーワード候補として抽出し、そのキーワード候補として抽出されたキーワードを、未登録キーワード候補から外す処理を行う。
【0081】
このようにして、英語対応の形態素解析用の辞書に登録されていないもの、この例の場合には「Monbushou」が残るので、これを未登録語キーワード候補として記憶する。「英語」の形態素解析による全てのキーワード抽出の処理が終った段階では、図11(b)に示すように、未登録キーワード候補保持部113の文書(fileID)114に対する未登録キーワード候補115には、文書ID=20204の文書に対する未登録キーワード候補として、その対応するエントリに「パトリオット」,「Monbushou」が記憶されている状態になる。
【0082】
このようにして、「英語」の形態素解析による処理が終了すると、続いて、第3番目の順序の言語対応する形態素解析部による処理に入る。つまり、次の対応する言語の「アラビア語」対応の形態素解析部による処理に入ることになるが、しかし、キーワード抽出管理テーブル30において「アラビア語」の形態素解析部の「使用フラグ」は“OFF”になっているので、この場合には、前述の場合と同様に、キーワード抽出管理テーブル30の条件に従って、順序が3番目の「アラビア語」対応の形態素解析部の「使用フラグ」の“ON”が確認できず(ステップ45)、この「アラビア語」対応の形態素解析部による処理はスキップする。
【0083】
このようにして、第3番目の順序の言語に対応する形態素解析部による処理がスキップされると、続いて、第4番目の順序の言語に対応する形態素解析部による処理に入る。この場合においても、前述の場合と同様に、キーワード抽出管理テーブル30の条件に従って処理が進められる。この場合、順序が第4番目の「中国語」対応の形態素解析部の「使用フラグ」は“ON”になっていることが確認できるので(ステップ45)、この「中語語」対応の形態素解析部によって、その対応に設定された文字列集合に対してキーワード抽出を行う。この場合、キーワード抽出管理テーブル30の解析対象文字列タイプフィールド35には、その解析対象文字列タイプとして「未登録語群」が設定されているので、図11(b)に示す未登録キーワード候補保持部113の文書(fileID)114に対する未登録キーワード候補115に記憶されている文字列に対して、続いて形態素解析を行い、そのキーワード抽出の処理を行う。すなわち、現在の登録対象文書である文書ID=20204の文書に対して、現在の未登録キーワード候補として先に抽出されている文字列に対して、継続してキーワード抽出の処理を行う(ステップ46)。
【0084】
この場合のキーワード抽出の処理(図7)においても、前述の場合と同様に、切り出された単語のうち不要語として判断されるようなもの以外をキーワードとするが、該当するものはなく、また、未登録キーワード候補保持部113の未登録キーワード候補115として記憶されている文字列に対しては「中国語」に該当するものはないため、「中国語」の形態素解析によるキーワード抽出の処理が終了しても、図11(a)および図11(b)に示すように、キーワード候補記憶部110および未登録キーワード候補記憶部113の内容の変化はない。
【0085】
このようにして、全ての言語に対する形態素解析によるキーワードの抽出の処理が終了すると、これまでの処理により抽出したキーワードの内容に従って、インデックステーブル(120:図12)が作成される。図12に示すように、インデックステーブル120は、多言語の文書検索のためのインデックスとして、各々の抽出されたキーワード121に対応して、文書(fileID)122と当該文書の未登録語フラグ123が登録されているテーブルである。ここでのインデックステーブル120に登録されるインデックスは、キーワード121の単語を基本として、その対応の文書(fileID)122の文書IDがソートされ、当該文書IDの文書に関して、未登録キーワードがある場合に、その旨の未登録フラグが設定される。このようなインデックステーブル120が作成されると、ここでの多言語文書の文書登録の作業は終了する。
【0086】
次に、このようにした作成されたインデックテーブル120のインデックスを用いて、多言語文書検索を行う場合について説明する。
【0087】
ユーザが所望する文書の検索を行う場合、前述したように、ユーザは、検索条件入力部(11:図1)により検索条件を入力する。検索条件が入力されると、多言語インデックス照合部(12:図1)において、入力された検索条件の検索条件式から単語を切り出し、切り出した単語とインデックテーブルのインデックスのキーワードとを照合する。この照合結果によって、テキスト抽出部(14:図1)により、インデックスと単語の照合結果により検索条件に適合する文書を読み出し、表示部(13:図1)において、読み出された文書を表示する。
【0088】
図13は、多言語インデックス照合部の要部の構成を示すブロック図である。図13には、多言語インデックス照合部における各々の要素のブロックと共に、検索条件から形態素解析を行って検索式を決定する場合のデータの流れが示されている。図13において、3はテキストデータベース部、11は検索条件入力部、14はテキスト抽出部、131aは第1番目の形態素解析部、131bは第1番目の辞書ファイル部、132aは第2番目の形態素解析部、132bは第2番目の辞書ファイル部、133aは第N番目の形態素解析部、133bは第N番目の辞書ファイル部である。134は検索語候補保持部、135は未登録検索語候補保持部、136は検索式決定部、137は順序設定部である。
【0089】
図13に示すように、多言語インデックス照合部には、検索条件として入力される検索条件式の各々の国の言語の文の形態素解析を行うためのそれぞれの言語に対応する複数の形態素解析部(131a〜133a)と、各形態素解析部に各々の言語の辞書データを供給する各国語対応の複数の辞書ファイル部(131b〜133b)とが備えられており、これらの複数の形態素解析部(131a〜133a)を制御して、効率的に多言語の検索条件の形態素解析を行うために、その多言語の検索条件の形態素解析を行う順序を設定する順序設定部137と、その作業メモリとして、解析された検索条件の単語を検索語候補として一時的に登録しておく検索語候補保持部134と、1つ言語に対応する形態素解析部では解析されなかった検索条件の単語については、別の言語に対応する形態素解析部で形態素解析を行うために、一時的に登録しておく未登録検索語候補保持部135が設けられている。そして、検索条件の検索条件式の形態素解析が終了した場合に、検索式決定部136において、検索式とする単語を決定し、テキスト抽出部14により、インデックスの文書IDによって、テキストデータベース部3から検索条件に適合する文書を抽出する。
【0090】
図14は、多言語文書検索処理の全体の処理フローを示すフローチャートである。図14に示すフローチャートは、1ヶ国以上の言語で記述されている検索条件の中の検索条件式をそれぞれの言語に対応している形態素解析を行うことによって、検索語とする単語を切り出し、検索式を作成し、文書の検索を行う処理の全体の流れを示している。また、図15は、多言語文書検索処理の中の検索語抽出処理の処理フローを示すフローチャートであり、図16は、多言語文書検索処理の中の未登録検索語候補処理の処理フローを示すフローチャートである。
【0091】
まず、図14のフローチャートを参照して、多言語文書検索処理の全体の処理を説明する。処理を開始すると、まず、ステップ141において、検索式入力部11により、文書検索を行う場合の多言語の検索条件式を入力する。次に、ステップ142において、検索語抽出条件の設定処理を行い、続いて、次のステップ143において、形態素解析の解析対象の文字列集合の設定処理を行う。すなわち、この場合には、前述したキーワード抽出処理におけるキーワード抽出管理テーブルと同様に、検索語抽出管理テーブル(図示せず)により、検索語の切り出しのための形態素解析部の条件を設定し、続いて、更に、条件を設定した形態素解析部を用いて解析を行う対象の文字列集合の設定を行う。文字列集合の設定処理では、例えば、検索条件式のテキストの全てか、未登録検索語候補群の文字列の集合か(未登録語群)等を設定し、具体的に形態素解析を行う解析対象の文字列集合の設定を行う。なお、特に検索語抽出管理テーブルを設けず、前述のキーワード抽出管理テーブル30を、ここでの検索語抽出管理テーブルとして用いるようにしてもよい。
【0092】
これらの設定の処理が終ると、次に、検索式を作成する検索語の抽出処理の制御を行うため、ステップ144において、現在使っている形態素解析部の順序を示す変数iを“1”と設定し、検索条件式の形態素解析の処理の最初に使う形態素解析部をセットする。次に、ステップ145において、変数iに対応する言語の形態素解析部の使用フラグがオンであるか否かを判定する。使用フラグがオンでなければ、変数iの番号の形態素解析部による形態素解析の処理は行わないので、次の番号の形態素解析部の処理に進めるため、ステップ152に進む。
【0093】
また、ステップ145の判定において、変数iに対応する言語の形態素解析部の使用フラグがオンである場合、すなわち、検索語抽出管理テーブルで順序を示す変数iに対応する言語(「解析する順番」がiとなっている言語)の形態素解析のエントリーの「使用フラグ」がONになっている場合、次のステップ146に進み、文字列集合に対し、第i番目の対応の形態素解析部による順次の検索語の抽出処理(図15)を行う。この検索語の抽出処理では、後述するように、検索語抽出管理テーブルの条件データにより、第i番目の順序の形態素解析部のエントリの解析対象文字列のタイプで設定された文字列集合に対して第i番目の対応する形態素解析部により検索語(キーワード)を抽出する。
【0094】
次に、ステップ147において、抽出された検索語が(第i番目の)形態素解析用辞書に登録されているか否かを判定する。このステップ147の判定で、登録されていなければ、ステップ148に進み、未登録検索語候補として対応する検索条件式と共に、未登録検索語候補保持部に記憶し、ステップ151に進む。また、ステップ147の判定において、抽出された検索語が形態素解析用辞書に登録されていると判定された場合、ステップ149に進み、検索語候補として対応する検索条件式と共に、検索語候補保持部に記憶する。そして、次に、ステップ150において、未登録検索語候補処理(図16)を行う。この未登録検索語候補処理では、後述するように、先の形態素解析部の処理では未登録検索語候補とされたが、後の形態素解析部の処理で検索語候補とされた単語について、文字列照合を行い、照合された単語については未登録検索語から外す処理を行う。この未登録検索語候補処理が終ると、次に、ステップ151に進む。
【0095】
ステップ151においては、第i番目の形態素解析部による検索語抽出が終了したか否かを判定する。検索語抽出が終了していなければ、ステップ146に戻り、ステップ146からの処理を繰り返し行う。また、このステップ151の判定処理により、第i番目に対応する形態素解析部による検索語抽出処理の終了が確認できれば、次の形態素解析部による検索語抽出処理を行うため、次のステップ152において、使用する形態素解析部の順序を示す変数iをインクリメントして、つまり、変数iを(i=i+1として)カウントアップし、次のステップ153において、使用可能な各国語対応の形態素解析部の個数nと次に使用する形態素解析部の順序を示す変数iと比較する。
【0096】
この比較の結果、n≧iであれば、第i番目の形態素解析部による検索語抽出処理は完了していないので、ステップ145に戻り、ステップ145からの処理を繰り返し行う。また、n<iであれば、検索語抽出管理テーブルに設定された条件により使用可能状態になっている形態素解析部による解析はすべて終了したことなので、次に、ステップ154に進み、検索語候補群と未登録検索語群の中から検索式を作成する処理を行う。これにより、多言語の文書検索のための検索式が作成されたので、次に、ステップ155において、作成された検索式によりインデックスのキーワードと照合を行い、対応する文書を抽出し、ここでの処理を終了する。
【0097】
次に、多言語文書検索処理の中の検索語抽出処理について説明する。図15のフローチャートを参照する。この処理は、前述したように、図14の多言語文書検索処理の全体の処理フローのステップ146において実行される処理である。ここでの検索語抽出処理を開始し、ステップ161に進むと、ステップ161において、検索語抽出管理テーブルの解析対象文字列タイプで設定された検索条件式の文字列集合に対して形態素解析を行い単語を切り出す。すなわち、前回の文字列集合の形態素解析が終っていない位置から、形態素解析の処理により単語を切り出す。
【0098】
次に、ステップ162において、切り出された単語に不要語が含まれるか否かを判定する。不要語が含まれていなければ、そのまま、ステップ168に進み、直ちに、不要語以外の単語を抽出した検索語とし、ここでの処理を終了とする。また、切り出された単語に不要語が含まれる場合、ステップ163に進み、変数iが“1”であるか否かを判定する。変数iが“1”である場合、現在使っている形態素解析部は、第1番目の形態素解析部であるので、未登録検索語候補に対する処理はなく、この場合も、ステップ168に進み、不要語以外の単語を抽出した検索語として、ここでの処理を終了する。
【0099】
ステップ163の判定において、変数iが“1”でないと判定された場合、次に、ステップ164に進み、解析順序がi番目の形態素解析の解析対象文字列は未登録語群であるか否かを判定する。解析対象文字列が未登録語群でない場合、ステップ165に進み、切り出された単語により、未登録検索語候補に対して文字列照合を行う。そして、次のステップ166において、その文字列照合の結果を判定する。照合できた場合には、ステップ167に進み、未登録検索語候補から切り出された単語あるいは文字列照合した単語を外し、次に、ステップ168において、不要語以外の単語を抽出した検索語として、この処理を終了する。
【0100】
また、ステップ166の判定において、文字列照合できたことが判定できなかった場合には、ステップ167の処理を行うことなく、ステップ168に進み、不要語以外の単語を抽出した検索語として、ここでの処理を終了する。
【0101】
次に、多言語文書検索処理の中の未登録検索語候補処理について説明する。図16のフローチャートを参照する。この処理は、前述したように、図14の多言語文書検索処理の全体の処理フローのステップ150において実行される処理である。この未登録検索語候補処理を開始して、ステップ171に進むと、まず、現在使っている形態素解析部の順序を示す変数iが“1”であるか否かを判定する。変数iが“1”であれば、前述のように、現在使っている形態素解析部は、第1番目の形態素解析部であるので、未登録検索語候補に対する処理はなく、直ちに、この未登録検索語候補処理の処理を終了する。
【0102】
また、ステップ171の判定において、変数iが“1”でないことが確認できれば、ステップ172に進み、解析順序がi番目の形態素解析の解析対象文字列は未登録語群であるか否かを判定する。すなわち、検索語抽出の条件の制御テーブルにおいて、解析順序が第i番目の形態素解析部に対応のエントリの解析対象文字列タイプフィールドの設定が「未登録語群」であるか否かを判定する。この判定の結果、解析対象文字列タイプが「未登録語群」であれば、ステップ175において、未登録検索語候補から抽出された検索語を外して、この処理を終了する。
【0103】
ステップ172の判定において、解析対象文字列タイプが「未登録語群」でなければ、ステップ173に進み、抽出された検索語を未登録検索語候補に対して文字列照合を行い、次のステップ174において、この文字列照合の結果を判定する。この判定の結果、文字列照合できた場合には、ステップ175に進み、未登録検索語候補から抽出された検索語を外して、この処理を終了する。また、文字列照合できなければ、そのまま、この処理を終了する。
【0104】
このようにして、未登録検索語候補に対する処理が行われ、この結果、先の形態素解析部の処理では未登録検索語候補とされたが、後の形態素解析部の処理で検索語候補とされた単語について、文字列照合を行い、照合された単語については未登録検索語から外す処理を行う。
【0105】
次に、複数の言語で記述された文を含む検索条件の検索条件式により、多言語文書を検索する場合について、具体的に検索条件式を例示して、その動作例を説明する。図17は、多言語で記述された文を含む検索条件の検索条件式の一例を示す図である。図17に示すように、ここでの検索条件179は、日本語と英語の文章が存在する文の検索条件式であり、この検索条件179の文から検索語を切り出し、文書検索を行うする場合について説明する。この場合には、複数の言語で記述された検索条件式の全体に対して、まず日本語での形態素解析を行い、次に、解析されなかった部分について、英語での形態素解析を行って、検索語の抽出を行い、抽出した検索語により検索式を生成し、該当する文書を検索する。
【0106】
この多言語文書登録検索装置には、「英語」,「日本語」,「中国語」,および「アラビア語」対応の4つのそれぞれの言語に対応する形態素解析を行える形態素解析部が設けられている場合、検索語抽出の条件を規定する検索語抽出管理テーブルには、図3(a)に示すキーワード抽出管理テーブル30と同様な内容で、それぞれの形態素解析部の制御の条件の設定がなされているものとする。ここでは、特に、検索語抽出管理テーブルの内容は図示しないが、必要に応じて、図3(a)に示すキーワード抽出管理テーブル30を、検索語抽出管理テーブルと同様なものとして参照する。したがって、この場合の検索語抽出管理テーブルに登録されている形態素解析部の数は“4”(n=4)とカウントされ、同様に、形態素解析管理テーブル(36:図3(b))に、レコード形式で(あるいは変数として)一時的に記憶される。
【0107】
検索語抽出管理テーブルの条件の設定においては、各々の形態素解析部で文書を解析する順番を、例えば、「日本語」,「英語」,「アラビア語」,「中国語」の順とするため、検索語抽出管理テーブル(キーワード抽出管理テーブル30)の順序フィールドの「解析する順番」には、それぞれの言語対応の形態素解析部に対応して、それぞれ順にその順番を「2」,「1」,「4」,「3」と設定する。
【0108】
また、検索語抽出の処理で使用する形態素解析部の言語の種類を、ここでは「日本語」,「英語」,および「中国語」とするので、検索語抽出管理テーブル(キーワード抽出管理テーブル30)において、「日本語」,「英語」および「中国語」の対応のエントリの使用フラグを「ON」とし、「アラビア語」の対応のエントリの使用フラグは「OFF」とする。
【0109】
更に、文書検索の処理の中の検索語抽出の処理で形態素解析する各々の形態素解析部の解析対象の文字列の範囲を特定して、効率よく検索語抽出の処理を実行するため、4つのそれぞれの言語に対応する形態素解析部に対して、2番目以降に設定している形態素解析の処理では、解析の対象とする文字列群を必ずしも常に検索条件式の文の全体を範囲とせず、解析の対象とするテキストあるいは文字列の範囲あるいはそれらの集合を指定する。
【0110】
このため、キーワード抽出の場合と同様に、図3(c)に示すように、解析対象文字列タイプ設定テーブル37において、予め定義している形態素解析を行う文字列の範囲に対応する解析対象文字列タイプを、検索語抽出管理テーブル(キーワード抽出管理テーブル30)の中の各エントリの解析対象文字列タイプとして設定する。この例では、検索語抽出管理テーブルの解析対象文字列タイプとして、「英語」,「日本語」,「中国語」,および「アラビア語」対応の形態素解析部に対応して、それぞれ「未登録語群」,「テキスト−ALL」,「未登録語群」,「テキスト−範囲指定」と設定する。
【0111】
したがって、この場合、日本語対応の形態素解析部では、文書の全体を解析対象とするが、英語対応の形態素解析部および中国語対応の形態素解析部では、解析対象を未登録語群としている。なお、第1番目で形態素解析を行う形態素解析部に関しては、デフォルトで「テキスト−ALL」として必ず最初は登録文書の文書の全体を解析するように強制的に設定し直される。
【0112】
このようにして検索語抽出管理テーブル(キーワード抽出管理テーブル30)により、使用する各々の形態素解析部の順番,解析対象文字列範囲などの条件が設定されると、設定された条件に従って各々の形態素解析部が制御されて、検索語抽出の処理が実行される。検索語抽出の処理が開始されると、まず、順番が第1番目に設定されている形態素解析部を用いて形態素解析を行う。この例では、順序が1番目の「日本語対応」の形態素解析部により、その「使用フラグ」が“ON”になっていることを確認してから(ステップ145)、この形態素解析部に対応して設定された文字列集合に対して検索語抽出を行う。つまり、この場合には「テキスト−ALL」が設定されているので、検索条件式の全てのテキストに対して検索語抽出を行う(ステップ146)。
【0113】
検索語抽出の処理(図15)においては、切り出された単語のうち不要語として判断されるようなもの以外を検索語とする処理を行う。「日本語」の形態素解析の処理は、第1番目の解析処理であるため、未登録検索語候補に対する不要語の処理は行わない。そして、次に抽出された検索語が日本語形態素解析用の辞書に登録されているかどうかを判定し(ステップ147)、登録されているものについては、対応する検索条件式と共に検索語候補として記憶する(ステップ148)。
【0114】
図18(a)および図18(b)は、日本語対応の形態素解析部による検索語抽出処理が終った段階の検索語候補保持部および未登録検索語候補保持部の内容を対比して示す図である。例えば、図17に示すような検索条件式179の多言語の文「イラク部隊の撤退とパトリオットミサイルとMinistry of Education」に対し、「日本語」の形態素解析による全ての検索語候補の登録処理が終った段階では、図18(a)に示すように、検索語候補保持部の検索語候補181には、検索語候補として、形態素解析により切り出した単語の「イラク」,「部隊」,「撤退」,「ミサイル」が記憶されると共に、一方、形態素解析用の辞書に登録されていないものは「日本語」の形態素解析による全ての未登録検索語候補の登録処理が終った段階で、図18(b)に示すように、未登録検索語候補保持部の未登録検索語候補182には、同じく、「日本語」の形態素解析によって切り出した「パトリオット」,「Ministry」,「of」,「Education」が、未登録検索語候補として記憶される。
【0115】
このようにして、「日本語」の形態素解析による処理が終了すると、続いて、次の対応する言語の「英語」の形態素解析による処理を開始する。この場合において、前述の場合と同様に、検索語抽出管理テーブル(キーワード抽出管理テーブル30)の条件に従って、順序が2番目の「英語」の形態素解析部による処理を行うが、その場合にも、その「使用フラグ」も“ON”になっていることを確認してから(ステップ145)、この形態素解析部に対応して設定された文字列集合に対して検索語抽出を行う。つまり、この場合には検索語抽出管理テーブル(キーワード抽出管理テーブル30)の解析対象文字列タイプとして、「未登録語群」が設定されているので、図18(b)に示すように、未登録検索語候補保持部の未登録検索語候補182の文字列に対して、検索語抽出の処理を行う(ステップ146)。
【0116】
この場合の検索語抽出の処理(図15)においても、前述の場合と同様に、切り出された単語のうち不要語として判断されるようなもの以外を検索語とする。つまり、この処理により、未登録語検索語候補に対する不要語の処理として、不要語と判断される「of」が、未登録検索語候補から外される。そして、抽出された検索語が英語形態素解析用の辞書に登録されているか否かを判定し(ステップ147)、登録されているものについては、対応する検索条件式と共に検索語候補として記憶する(ステップ148)。
【0117】
図19(a)および図19(b)は、次の英語対応の形態素解析部による検索語抽出処理が終った段階の検索語候補保持部および未登録検索語候補保持部の内容を対比して示す図である。図18(b)の未登録検索語候補182に対して、「英語」の形態素解析による全ての登録処理が終った段階において、その文字列「Ministry」,「Education」に対して、英語対応の形態素解析部での形態素解析が行われて、その結果、切り出された単語の中で、英語形態素解析用の辞書に登録されている単語を、図19(a)に示すように、検索語候補保持部の検索語候補191に、検索語候補として「ministry」および「education」が、追加記憶される。また、前述の場合と同様に、この説明の形態素解析の処理の中では、特に触れていないが、形態素解析により単語を切り出す際に、大文字を小文字に統一する表語を標準形に統一する処理が、同時に行われる。このようにして、1つの言語の形態素解析では、未登録検索語候補とされた単語を、別の言語での形態素解析を行うことによって検索語候補として抽出し、その検索語候補として抽出された検索語を、未登録検索語候補から外す処理を行う。
【0118】
この結果、英語対応の形態素解析用の辞書に登録されていないもの、この例の場合には「パトリオット」が残るので、これを未登録語検索語候補として記憶する。「英語」の形態素解析による全ての検索語抽出の処理が終った段階では、図19(b)に示すように、未登録検索語候補保持部の未登録検索語候補192として「パトリオット」が記憶されている状態になる。
【0119】
このようにして、「英語」の形態素解析による処理が終了すると、続いて、第3番目の順序の言語対応する形態素解析部による処理に入る。つまり、次の対応する言語の「アラビア語」対応の形態素解析部による処理に入ることになるが、しかし、検索語抽出管理テーブル(キーワード抽出管理テーブル30)において「アラビア語」の形態素解析部の「使用フラグ」は“OFF”になっているので、この場合には、前述の場合と同様に、検索語抽出管理テーブル(キーワード抽出管理テーブル30)の条件に従って、順序が3番目の「アラビア語」対応の形態素解析部の「使用フラグ」の“ON”が確認できず(ステップ145)、この「アラビア語」対応の形態素解析部による処理はスキップする。
【0120】
このようにして、第3番目の順序の言語に対応する形態素解析部による処理がスキップされると、続いて、第4番目の順序の言語に対応する形態素解析部による処理に入る。この場合においても、前述の場合と同様に、検索語抽出管理テーブル(キーワード抽出管理テーブル30)の条件に従って処理が進められる。この場合、順序が第4番目の「中国語」対応の形態素解析部の「使用フラグ」は“ON”になっていることが確認できるので(ステップ45)、この「中語語」対応の形態素解析部によって、その対応に設定された文字列集合に対して検索語抽出を行う。この場合、検索語抽出管理テーブル(キーワード抽出管理テーブル30)の解析対象文字列タイプには、その解析対象文字列タイプとして「未登録語群」が設定されているので、図19(b)に示す未登録検索語候補保持部の未登録検索語候補192に記憶されている文字列に対して、続いて形態素解析を行い、その検索語抽出の処理を行う(ステップ146)。
【0121】
この場合の検索語抽出の処理(図15)においても、前述の場合と同様に、切り出された単語のうち不要語として判断されるようなもの以外を検索語とする処理を行うが、該当するものはなく、また、未登録検索語候補保持部の未登録検索語候補192として記憶されている文字列に対しては「中国語」に該当するものはないため、「中国語」の形態素解析による検索語抽出の処理が終了しても、図19(a)および図19(b)に示すように、検索語候補記憶部および未登録検索語候補記憶部の内容の変化はない。
【0122】
このようにして、全ての言語に対する形態素解析による検索語の抽出の処理が終了すると、これまでの処理により抽出した検索語の内容に従って、図20に示すように、検索式200が作成される。検索式200は、多言語の文書検索のための検索キー201と未登録語フラグ202の配列となっており、検索式200により、その検索キー201と未登録語フラグ202が、例えば、図12に示すようなインデックステーブル120のインデックス(キーワード,文書ID,未登録語フラグ)と照合され、その対応の文書IDから多言語文書(図9)が読み出される。
【0123】
【発明の効果】
以上に説明したように、本発明の多言語文書登録検索装置によれば、1か国以上の言語で記述され文を含む文書あるいは検索条件式があり、それらの文書を登録し、また、検索条件式により検索を行う場合、可能な限り記述された言語に対する形態素解析部の処理を組合せて、できる限り、精度を上げて単語を切り出せるようにしている。このため、登録の際に作成するインデックスのサイズもコンパクトにできる。また、文書検索の際にも、インデックスとの照合の精度(再現率)を上げることができる。また、キーワード抽出管理テーブルに「解析する順番」、「使用フラグ」そして、「解析対象文字列のタイプ」といったキーワード抽出における条件の制御情報を埋め込むことによって、各形態素解析で単に対象テキストを重複して解析するのでなく、状況に応じて最適に効率的に解析できるようになる。これらの条件は、ユーザによりカスタマイズすることにより、ユーザに対応して任意に多言語文書の登録および検索が可能となる。
【図面の簡単な説明】
【図1】 図1は本発明の一実施例にかかる多言語文書登録検索装置の構成を示すブロック、
【図2】 図2は多言語キーワード抽出部の要部の構成を示すブロック図、
【図3】 図3はキーワード抽出処理を行う場合に用いられる制御テーブルの内容を説明する図、
【図4】 図4は多言語文書登録処理の全体の処理フローを示すフローチャート、
【図5】 図5は多言語文書登録処理の中のキーワード抽出管理テーブルの条件の設定処理の処理フローを示すフローチャート、
【図6】 図6は多言語文書登録処理の中の解析対象文字列範囲の設定処理の処理フローを示すフローチャート、
【図7】 図7は多言語文書登録処理の中のキーワード抽出処理の処理フローを示すフローチャート、
【図8】 図8は多言語文書登録処理の中の未登録キーワード候補処理の処理フローを示すフローチャート、
【図9】 図9は多言語文書の一例を示す図、
【図10】 図10(a)および図10(b)は日本語対応の形態素解析部によるキーワード抽出処理が終った段階のキーワード候補保持部および未登録キーワード候補保持部の内容を対比して示す図、
【図11】 図11(a)および図11(b)は次の英語対応の形態素解析部によるキーワード抽出処理が終った段階のキーワード候補保持部および未登録キーワード候補保持部の内容を対比して示す図、
【図12】 図12は作成された多言語対応のインデックステーブルの一例を示す図、
【図13】 図13は多言語インデックス照合部の要部の構成を示すブロック図、
【図14】 図14は多言語文書検索処理の全体の処理フローを示すフローチャート、
【図15】 図15は多言語文書検索処理の中の検索語抽出処理の処理フローを示すフローチャート、
【図16】 図16は多言語文書検索処理の中の未登録検索語候補処理の処理フローを示すフローチャート、
【図17】 図17は多言語で記述された文を含む検索条件の検索条件式の一例を示す図、
【図18】 図18(a)および図18(b)は、日本語対応の形態素解析部による検索語抽出処理が終った段階の検索語候補保持部および未登録検索語候補保持部の内容を対比して示す図、
【図19】 図19(a)および図19(b)は、次の英語対応の形態素解析部による検索語抽出処理が終った段階の検索語候補保持部および未登録検索語候補保持部の内容を対比して示す図、
【図20】 図20は多言語の検索条件式により生成された検索式の一例を示す図である。
【符号の説明】
1…入力処理部、2…多言語キーワード抽出部、3…テキストデータベース部、4…インデックス登録部、5…インデックスファイル部、11…検索条件入力部、12…多言語インデックス登録部、13…表示部、14…テキスト抽出部、21a…第1番目の形態素解析部、21b…第1番目の辞書ファイル部、22a…第2番目の形態素解析部、22b…第2番目の辞書ファイル部、23a…第N番目の形態素解析部、23b…第N番目の辞書ファイル部、24…キーワード候補保持部、25…未登録キーワード候補保持部、26…キーワード/未登録キーワード決定部、27…順序設定部、28…インデックス登録部、29…インデックスファイル部、30…キーワード抽出管理テーブル、31…番号フィールド、32…対応言語種別フィールド、33…順番フィールド、34…使用フラグフィールド、35…解析対象文字列タイプフィールド、36…形態素解析管理テーブル、37…解析対象文字列タイプ設定テーブル、99…多言語文書、100…キーワード候補記憶部、101…文書(fileID)、102…キーワード候補、103…未登録キーワード候補記憶保持部、104…文書(fileID)、105…未登録キーワード候補、110…キーワード候補記憶部、111…文書(fileID)、112…キーワード候補、113…未登録キーワード候補記憶保持部、114…文書(fileID)、115…未登録キーワード候補、120…インデックステーブル、121…抽出されたキーワード、122…文書(fileID)、123…未登語フラグ、131a…第1番目の形態素解析部、131b…第1番目の辞書ファイル部、132a…第2番目の形態素解析部、132b…第2番目の辞書ファイル部、133a…第N番目の形態素解析部、133b…第N番目の辞書ファイル部、134…検索語候補保持部、135…未登録検索語候補保持部、136…検索式決定部、137…順序設定部、179は検索条件、181…検索語候補、182…未登録検索語候補、191…検索語候補、192…未登録検索語候補、200…検索式、201…検索キー、202…未登録語フラグ。
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a multilingual document registration / retrieval apparatus for registering a search index for a document including sentences described in a plurality of types of languages, and more specifically, a plurality of types of documents. Multilingual document registration and retrieval device that extracts keywords from a text database of documents written in multiple languages and registers them as an index and searches the multilingual text database using the registered index It is about.
[0002]
[Prior art]
Conventionally, as a document search apparatus for a multilingual document including sentences described in a plurality of types of languages, for example, a “document search apparatus” described in JP-A-4-21180 is known. This "document search device" is a database that has keywords created in its own language and a document search device that searches the database by inputting the keywords, and has a dictionary of the native language and other languages, and is input in other languages. For the keyword, the keyword is converted into the native language, and the database is searched with the keyword of the native language. Then, the document name of the retrieved document and the entire text of the selected document are converted into another language and displayed on the screen.
[0003]
[Problems to be solved by the invention]
By the way, when performing a document search using an index for document search processing, the document to be searched is not only a single language (for example, Japanese) as in the native language, but is also cited as a cited document. Languages from other countries (for example, English) are often included. For this reason, if the index in the document search device does not correspond to multiple languages (multiple languages), sufficient documents are available. You cannot search for.
[0004]
2. Description of the Related Art Conventionally, in a document search apparatus that uses an index for document search processing, an index generation method used for document search performs morphological analysis, cuts out words, and creates an index using the words as keywords. In that case, since the language for performing morphological analysis is usually a language of one country (for example, only Japanese), words of languages of other countries can only be extracted as proper noun words. Therefore, in order to register the extracted word as a keyword in the index, it cannot be restored to the standard notation or original form. Therefore, in this case, in the creation of the index for search, the unregistered word for the already registered word is left as it is. I could only extract it and register it in the index.
[0005]
For this reason, when the target document contains many languages from different countries, the number of keywords (proprietary nouns) of words to be registered as a search index increases and the index size becomes unnecessarily large. there were.
[0006]
In addition, in such a document search apparatus, when searching for a document, it is possible to search only with a character string having the same pattern as, for example, a proper noun index registered as a keyword, and an appropriate range can be sufficiently searched. There was no problem. That is, when searching for a document, there is a problem in that a character string having exactly the same pattern as a word (proprietary noun) cut out by morphological analysis will not be hit, and a desired search document will not be hit even if searched.
[0007]
When a keyword in a certain language is registered and a search request is made in a language other than the language of the country as in the “document search device” described in Japanese Patent Application Laid-Open No. Hei 4-21180, for example, It is possible to search for documents including languages of other countries by translating into words of already registered languages that have the same meaning. There is a problem in that it is composed of keywords only in Japanese, and no consideration is given to index registration for documents composed of multiple languages.
[0008]
The present invention has been made to solve these problems, and a first object of the present invention is to provide a document including sentences written in a plurality of languages, as much as possible to each of those different languages. The morpheme analysis is performed in response to the above, the words are extracted, the keywords are extracted, and the keywords can be registered, so that unregistered words can be minimized even for documents containing sentences written in multiple languages. An object of the present invention is to provide a multilingual document registration / retrieval apparatus.
[0009]
A second object of the present invention is to extract a word by morphological analysis corresponding to a plurality of languages, extract a keyword, and register the keyword for a document including sentences written in a plurality of languages. Another object of the present invention is to provide a multilingual document registration / retrieval device that avoids duplication of the range to be analyzed, minimizes the index size, and improves retrieval accuracy when performing retrieval.
[0010]
In addition, the third object of the present invention is to cope with a change in the form of words in a language other than the native language and fluctuation of the notation for a document including sentences described in a plurality of languages, and when searching. An object of the present invention is to provide a multilingual document registration / retrieval device capable of improving search accuracy, minimizing the extraction of unnecessary unregistered words and minimizing the index size.
[0011]
Furthermore, a fourth object of the present invention is to extract a word by morphological analysis corresponding to a plurality of languages for a document including sentences described in a plurality of languages, and to perform a morphological analysis corresponding to each of the plurality of languages. Multi-language that avoids duplicate analysis of target texts by combination and performs morphological analysis optimally as efficiently as possible, and minimizes unregistered words for documents containing sentences written in multiple languages The object is to provide a document registration / retrieval apparatus.
[0012]
[Means for Solving the Problems]
In order to achieve the above object, a multilingual document registration / retrieval device as a first feature of the present invention creates and registers an index used for retrieval for a document including sentences in a plurality of languages, In a multilingual document registration / retrieval apparatus that searches documents by index, multilingual document storage means (3) for storing documents including sentences in a plurality of languages, and corresponding to sentences in different languages with respect to the documents Controlling multiple word segmentation means A keyword extraction unit (2) for performing morphological analysis and extracting a keyword of the document, an index registration unit (4) for registering the keyword extracted by the keyword extraction unit together with an identifier of the corresponding document, and a search condition A search condition input means (11) for inputting, an index matching means (12) for cutting out a word from the search conditions input by the search condition input means, and matching the cut-out word with an index keyword, It is characterized by comprising reading means (14) for reading out a document that meets the search condition based on the collation result.
[0013]
Also, a multilingual document registration / retrieval device as a second feature of the present invention In the keyword extraction means Process priority is given to a plurality of word segmentation means (21a, 22a, 23a) having different segmentation target languages, a setting means (27) for setting processing priority of the plurality of word segmentation means, and the plurality of word segmentation means. Index that controls according to the degree, extracts a keyword from a document, and extracts a keyword, and an index that associates the extracted keyword with the identifier of the document from which the word of the keyword is extracted and registers it in the index Registration means (28).
[0014]
In the multilingual document registration / retrieval apparatus according to the third aspect of the present invention, the keyword extraction control unit may identify a word that cannot be identified by a word extraction unit with a certain processing priority, with a next processing priority. The extracted word is processed by the word extracting means, the identifier of the word is used as a keyword, and the word that cannot be identified to the end by a plurality of word extracting means is used as the keyword. .
[0015]
A multilingual document registration / retrieval device as a fourth feature of the present invention is: Furthermore, Input means (1) for inputting a document to be registered and instructing keyword extraction; , It is characterized by comprising holding means (3, 5) for holding a document to be registered, an index, and a word not registered in the dictionary file.
[0016]
In the multilingual document registration / retrieval apparatus according to the fifth feature of the present invention, the keyword extracting means extracts a word from a document composed of a plurality of language sentences by morphological analysis for each language sentence. A plurality of word extraction means (21a, 22a, 23a), a plurality of dictionary files (21b, 22b, 23b) for storing dictionaries corresponding to languages referred to by the plurality of word extraction means; An order setting means (27) for setting the order in which the word extracting means is applied, and a plurality of word extracting means are controlled in the order set by the order setting means to extract corresponding multilingual sentence words from the document. And control means (26) for performing control.
[0017]
In the multilingual document registration / retrieval apparatus as the sixth feature of the present invention, Furthermore, An unregistered keyword candidate holding means (25) that temporarily holds the word determined as an unregistered word by the word extracting means, and a keyword that is temporarily extracted from other dictionaries. Keyword candidate holding means (24) for holding as candidates, and the control means (26, 27) controls the first word extraction means to input a document including sentences in a plurality of languages. The word is extracted by morphological analysis, and the word determined to be an unregistered word is temporarily stored in the unregistered keyword candidate holding means as an unregistered keyword candidate, and the keyword candidate is extracted from the dictionary The keyword candidate storage means performs processing to control each word extraction means in order, The unregistered word candidate held in the unregistered keyword candidate holding unit by the output unit is input, the word is cut out by morphological analysis, and the word that is determined to be an unregistered word is directly used as the unregistered keyword candidate holding unit. The word extracted from the dictionary is deleted from the unregistered keyword candidate holding unit, and added and held in the keyword candidate holding unit. Finally, the keyword candidates held in the keyword candidate holding unit are A keyword is registered, and the unregistered keyword held in the unregistered keyword candidate holding means is registered in the index together with the identifier of the corresponding document as an unregistered keyword.
[0018]
A multilingual document registration / retrieval device as a seventh feature of the present invention creates and registers an index used for searching for a document including sentences in a plurality of languages, and searches the document using the index. In the language document registration and retrieval device, Keyword extraction for extracting text keywords by controlling morphological analysis by controlling a text database storing documents containing sentences in multiple languages and a plurality of word segmenting means corresponding to sentences in different languages. Means, and an index registration means for registering the keyword extracted by the keyword extraction means together with an identifier of the corresponding document as an index, Search condition input means (11) for inputting a search condition, index collation means (12) for multilingual correspondence that cuts out a word from the search condition input by the search condition input means and collates with an index, and the index collation means And extracting means (14) for extracting a corresponding document from a text database based on the collation result.
[0019]
In the multilingual document registration / retrieval apparatus according to the eighth feature of the present invention, the index matching means performs morphological analysis on a sentence in a corresponding language from a document composed of a plurality of languages, A plurality of word extracting means (131a, 132a, 133a) for extracting Multiple A word setting means (137) for combining the word cutting means to set the order in which the word cutting means is applied, and a control for cutting out the search condition words input by the search condition input means in the order set by the order setting means And control means (136) for performing the above.
[0020]
In the multilingual document registration / retrieval apparatus according to the ninth feature of the present invention, unregistered search word candidates that are temporarily stored as unregistered search word candidates for words determined by the word extracting means as unregistered words. A storage means (134) and a search word candidate storage means (135) for temporarily storing words extracted from other dictionaries as search word candidates, the control means (13) 6 , 137) controls the word extraction means in the first stage, receives a document including sentences in a plurality of languages, extracts words by morphological analysis, and temporarily determines words that are determined as unregistered words. The unregistered search word candidate is held in the unregistered search word candidate holding unit, and the word extracted from the dictionary is stored as the search word candidate in the search word candidate holding unit. The word extraction means is controlled, the unregistered word candidate held in the unregistered search word candidate holding means is input by the word extraction means in the previous stage, the word is extracted by morphological analysis, and it is determined as an unregistered word The words are left as they are in the unregistered search word candidate holding means, and the words extracted from the dictionary are deleted from the unregistered search word candidate holding means, and the search word candidate holding means Performs additional holding processing, finally sets the search word candidate held in the search word candidate holding means as a search word, and sets the unregistered search word candidate held in the unregistered search word candidate holding means as an unregistered search word As a feature, index matching is performed, a corresponding document is extracted by a text database unit, and result information is output.
[0021]
According to the multilingual document registration / retrieval apparatus of the present invention having such various features, in the multilingual document registration / retrieval apparatus having the first feature, the multilingual document storage means (3) includes a plurality of A document including a sentence in a language is stored, and the keyword extracting means (2) corresponds to a sentence in a different language for the document. Controlling multiple word segmentation means Perform morphological analysis and extract keyword of document. The index registration means (4) registers the keyword extracted by the keyword extraction means as an index together with the identifier of the corresponding document.
[0022]
When searching for a document, when the search condition is input by the search condition input means (11), the index matching means (12) cuts out a word from the search condition input by the search condition input means, Match the index keyword. Then, the reading means (14) reads a document that meets the search condition based on the keyword / word matching result. In this way, an index used for search is created and registered for a document including sentences in a plurality of languages, and the document is searched using the index.
[0023]
In the multilingual document registration / retrieval apparatus as the second feature of the present invention, an index is created. Therefore, keyword extraction means include A plurality of word segmentation means (21a, 22a, 23a) having different segmentation target languages are provided. When the setting means (27) sets the processing priority of the plurality of word segmentation means, the keyword extraction control means (26 ) Controls the plurality of word segmenting means according to the processing priority, segments a word from the document, and extracts a keyword. The index registration means (28) registers the extracted keyword and the identifier of the document from which the word of the keyword is extracted in association with the index. Thus, for a document including sentences in a plurality of languages, a keyword word can be cut out by performing morphological analysis by each of a plurality of word cutout means corresponding to each target language. For this reason, it is possible to create an index to be used at the time of searching while minimizing unregistered words for a document described in multiple languages.
[0024]
In the multilingual document registration / retrieval apparatus according to the third feature of the present invention, a morphological analysis is performed on a document containing sentences in a plurality of languages by a plurality of word segmenting means corresponding to each target language. When the keyword extraction unit extracts a keyword word, the keyword extraction control unit processes the word that cannot be identified by the word extraction unit with a certain processing priority by the word extraction unit with the next processing priority, and is extracted. For a word, the identifier of the word is a keyword. In addition, regarding a word that cannot be identified to the end by a plurality of word segmenting means, the word is used as a keyword. As a result, a word described in a plurality of languages can be extracted by morphological analysis corresponding to each language, and keywords can be extracted while avoiding overlapping analysis ranges. In this way, the index size when registering keywords can be minimized.
[0025]
According to the multilingual document registration / retrieval apparatus as the fourth feature of the present invention, document registration In addition, to Input means (1) and , Holding means (3, 5) Is provided. When the input means (1) inputs a document to be registered and instructs keyword extraction, the keyword extraction means (2) includes a dictionary used for word segmentation, extracts a keyword of the document by morphological analysis, and registers (4 ) Registers the keyword extracted by the keyword extracting means in the index together with the identifier of the corresponding document. As a result, the holding means (3, 5) holds the document to be registered, the index, and the word not registered in the dictionary file. As a result, an index used for search can be created and registered for a document including sentences in a plurality of languages, and the document can be searched using the index.
[0026]
According to the multilingual document registration / retrieval apparatus as the fifth feature of the present invention, in the keyword extracting means, the plurality of word extracting means (21a, 22a, 23a) is based on a document composed of sentences in a plurality of languages. When words are extracted by morphological analysis for sentences in each language, a plurality of dictionary files (21b, 22b, 23b) correspond to languages referred to by the plurality of word extraction means (21a, 22a, 23a), respectively. When the order setting unit (27) sets the order in which the plurality of word extraction units are applied, the control unit (26) sets a plurality of dictionaries in the order set by the order setting unit. Is controlled to cut out words of a corresponding multilingual sentence from the document.
[0027]
Further, in the multilingual document registration / retrieval apparatus as the sixth feature of the present invention, the unregistered keyword candidate holding means (25) temporarily unregisters words determined as unregistered words by the word extracting means. The words stored as keyword candidates and the words extracted from other dictionaries are temporarily stored as keyword candidates by the keyword candidate holding means (24). When extracting keywords for multilingual correspondence, the control means (26, 27) controls the word extraction means in the first stage to input a document including sentences in a plurality of languages and input a word by morphological analysis. Cut out. Thereby, the word determined to be an unregistered word is temporarily stored in the unregistered keyword candidate holding unit as an unregistered keyword candidate, and the keyword candidate holding unit is used as a keyword candidate for a word extracted from the dictionary. Perform the process to hold.
[0028]
Subsequently, each word extraction unit is sequentially controlled, and the unregistered word candidate held in the unregistered keyword candidate holding unit is input by the preceding word extraction unit, and the word is extracted by morphological analysis, A word determined to be an unregistered word is left as it is in the unregistered keyword candidate holding unit, and a word extracted from the dictionary is deleted from the unregistered keyword candidate holding unit and additionally held in the keyword candidate holding unit. Process.
[0029]
Finally, the keyword candidates held in the keyword candidate holding unit are set as keywords, and the unregistered keywords held in the unregistered keyword candidate holding unit are registered in the index together with the identifiers of the corresponding documents as unregistered keywords. In this way, the words are cut out sequentially by morphological analysis, so that the morpheme is optimized as efficiently as possible by avoiding duplicate analysis of the target text by the combination of multiple morphological analyzes corresponding to multiple languages. Analysis can be performed, and unregistered words can be suppressed to a minimum with respect to a document including sentences written in multiple languages.
[0030]
According to the multilingual document registration / retrieval apparatus as the seventh feature of the present invention, In order to A search condition input means (11), a multilingual index matching means (12), and an extraction means (14) are provided. When the search condition input means (11) inputs a search condition, multilingual support is provided. Index collating means (12) extracts words from the search condition input by the search condition input means and collates them with the index. The extraction means (14) extracts the corresponding document from the text database based on the collation result of the index collation means. Accordingly, when an index used for searching is created and registered for a document including sentences in a plurality of languages, the document can be searched using the index.
[0031]
Also, when performing a document search, according to the multilingual document registration / retrieval apparatus as the eighth feature of the present invention, in the index collating means, a plurality of word extracting means (131a, 132a, 133a) are provided in a plurality of languages. Morphological analysis is performed on a sentence in a corresponding language from a document composed of sentences of Multiple Control for cutting out words from the search condition input by the search condition input means in the order set by the order setting means by the control means (136). Then, the document is searched by the word of the search condition.
[0032]
Further, in the multilingual document registration / retrieval apparatus according to the ninth feature of the present invention, the unregistered search word candidate holding means (134) temporarily does not store a word determined as an unregistered word by the word extracting means. Words stored as registered search word candidates and words extracted from other dictionaries are temporarily stored as search word candidates by the search word candidate holding means (135).
[0033]
The control means (136, 137) controls the word extraction means at the first stage, receives a document including sentences in a plurality of languages, extracts words by morphological analysis, and is determined to be an unregistered word The word is temporarily stored in the unregistered search word candidate holding unit as an unregistered search word candidate, and the word extracted from the dictionary is stored in the search word candidate holding unit as a search word candidate. .
[0034]
Subsequently, each word extracting unit is sequentially controlled, and unregistered word candidates held in the unregistered search word candidate holding unit are input by the previous word extracting unit, and words are cut out by morphological analysis, The words determined to be unregistered words are left as they are in the unregistered search word candidate holding means, and the words extracted from the dictionary are deleted from the unregistered search word candidate holding means, and the search word candidate holding means Perform the process to add and hold.
[0035]
Finally, the search word candidate held in the search word candidate holding unit is set as a search word, the unregistered search word held in the unregistered search word candidate holding unit is set as an unregistered search word, and index matching is performed. The corresponding document is extracted by the text database unit and the result information is output.
[0036]
In this way, an index used for search is created and registered for a document including sentences in a plurality of languages, and the document is searched using the index, so that a document described in a plurality of languages can be automatically searched. It can cope with changes in the form of words other than Japanese and fluctuations in notation, improving search accuracy. In addition, unnecessary unregistered word extraction is minimized, and the index size can be minimized. In addition, for documents written in multiple languages, optimal morphological analysis is performed as efficiently as possible by avoiding duplicate analysis of the target text by combining multiple morphological analyzes corresponding to multiple languages. It is possible to keep unregistered words to a minimum for documents written in multiple languages.
[0037]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments for carrying out the present invention will be specifically described with reference to the drawings. FIG. 1 is a block diagram showing a configuration of a multilingual document registration / retrieval apparatus according to an embodiment of the present invention. In FIG. 1, 1 is an input processing unit, 2 is a multilingual keyword extraction unit, 3 is a text database unit, 4 is an index registration unit, 5 is an index file unit, 11 is a search condition input unit, and 12 is a multilingual index registration unit. , 13 is a display unit, and 14 is a text extraction unit.
[0038]
The text database unit 3 stores a document (110: FIG. 11) including sentences written in a plurality of languages, such as sentences written in English and sentences written in Japanese. When the input processing unit 1 receives an input instruction for document registration from the user, the multilingual keyword extraction unit 2 performs processing for extracting the keyword for the document instructed by the user. Here, the document from which the keyword is extracted is, for example, a document input from the input processing unit 1 and registered in the text database unit 3 or a document already registered in the text database unit 3. A document from which a keyword is extracted is designated for the document, and a process for extracting the keyword is performed on the document.
[0039]
As will be described later, the multilingual keyword extraction unit 2 includes a plurality of morpheme analysis units (21a to 23a: FIG. 2) that perform morphological analysis corresponding to the language of each country. Corresponding morpheme analyzers are sequentially controlled to efficiently perform morpheme analysis corresponding to sentences in different languages in the document, extract words, and extract keywords. A plurality of morpheme analyzers are provided with language-corresponding dictionary files corresponding to the languages to be analyzed, and when morphological analysis is performed and words are extracted, the words corresponding to each language are It is compared with the corresponding dictionary corresponding to the language.
[0040]
Words registered in a dictionary file in a language are temporarily held as keyword candidates in the keyword candidate holding unit, and words not registered in a dictionary in a language are temporarily stored as unregistered keyword candidates. It is stored in the unregistered keyword candidate storage unit. The unregistered keyword candidate word is subjected to morphological analysis by the morphological analysis unit of the next language. In this way, when comparing with the dictionary corresponding to the language of the next country, the morphological analysis is performed including the word of the previous unregistered keyword candidate, the word is extracted, and the keyword is extracted.
[0041]
The keyword extracted in this way is indexed by the index registration unit 4 as an index together with the identifier of the document corresponding to the keyword. The Registered in the table.
[0042]
When a user searches for a desired document, the user inputs a search condition from the search condition input unit 11. When the search condition is input, the multilingual index matching unit 12 cuts out the word from the input search condition, and extracts the extracted word and the index. The Matches against index keyword in table. Then, the text extraction unit 14 reads out a document that matches the search condition based on the matching result of the keyword and the word based on the collation result, and displays the read document on the display unit 13.
[0043]
FIG. 2 is a block diagram illustrating a configuration of a main part of the multilingual keyword extraction unit. FIG. 2 shows a data flow together with a block of each element in the multilingual keyword extraction unit. In FIG. 2, 1 is an input processing unit, 21a is a first morpheme analysis unit, 21b is a first dictionary file unit, 22a is a second morpheme analysis unit, 22b is a second dictionary file unit, 23a is the Nth morpheme analyzer. , 23b is the Nth dictionary file part It is. Reference numeral 24 is a keyword candidate holding unit, 25 is an unregistered keyword candidate holding unit, 26 is a keyword / unregistered keyword determining unit, 27 is an order setting unit, 28 is an index registration unit, and 29 is an index file unit.
[0044]
As shown in FIG. 2, the multilingual keyword extraction unit includes a plurality of morpheme analysis units (21 a to 23 a) corresponding to each language for performing morphological analysis of sentences in each country language, and each morpheme analysis. Are provided with a plurality of dictionary file sections (21b to 23b) corresponding to national languages for supplying dictionary data of each language to the section, and the plurality of morpheme analysis sections (21a to 23a) are controlled to improve efficiency. In order to perform multilingual sentence morphological analysis, the order setting unit 27 for setting the order of performing morphological analysis of the multilingual document, and temporarily registering the analyzed words as keyword candidates as its working memory The word candidate holding unit 24 and the words that have not been analyzed by the morpheme analysis unit corresponding to one language, Unregistered keyword candidate holding unit 25 is provided to keep to register. When the morphological analysis is completed, the keyword / unregistered keyword determination unit 26 determines a word to be registered and a word to be unregistered keyword, and the index registration unit 28 extracts the keyword. Are registered in the index file unit 29 in association with the identifier.
[0045]
FIG. 3 is a diagram for explaining the contents of a control table used when performing keyword extraction processing. 3A shows the keyword extraction management table 30, FIG. 3B shows the morphological analysis management table 36, and FIG. 3C shows the analysis target character string type setting table 37. Show.
[0046]
As shown in FIG. 3A, the keyword extraction management table 30 is a table for managing the usage state of each morpheme analysis unit provided in the multilingual keyword extraction unit, and includes a number field 31 and a corresponding language type field. 32, an order field 33, a use flag field 34, and an analysis target character string type field 35. The condition data of the morphological analyzer used for each field is set. For example, in the second entry from the top, the condition of the morpheme analysis unit that performs morphological analysis in Japanese is set, “2” is set in the number field 31, and “2” is set in the corresponding language type field 32. “Japanese” is set, “1” is set in the order field 33, and “ON” is set in the use flag field 34. In addition, “text-ALL” is set in the analysis target character string type field 35, and the condition data here is set. In other words, from this condition data, “The second morpheme analysis unit is used for Japanese, performs morpheme analysis of multilingual documents first, and performs the range of the analysis target character string as the entire text. "Means.
[0047]
The morpheme analysis unit used in the keyword extraction process is managed by the morpheme analysis management table 36. In the morpheme analysis management table 36, as shown in FIG. 3B, data on the number n of usable morpheme analysis units corresponding to each language and the number i of the currently used morpheme analysis unit is managed. ing. Further, an analysis target character string type setting table 37 is provided for setting the range of the analysis target character string, as shown in FIG. The analysis target character string type setting table 37 includes a range of the analysis target character string according to the analysis target character string type. But It is prescribed. For example, when the analysis target character string type is “unregistered word group”, the range of the analysis target character string is set to “all keyword candidates in the unregistered keyword candidate holding unit or the unregistered search word holding unit”. In addition, when the analysis target character string type is “text-ALL”, the range of the analysis target character string is set to “all text of registered document or search expression”.
[0048]
Next, multilingual document registration processing in the keyword extraction processing unit as shown in FIG. 2 will be described using these control tables. FIG. 4 is a flowchart showing an overall processing flow of the multilingual document registration processing. The flowchart shown in FIG. 4 is an overall flow of processing for extracting a word as a keyword and registering it in an index by performing a morphological analysis corresponding to each language of a document described in one or more languages. Is shown. FIG. 5 is a flowchart showing the processing flow of the keyword setting management table condition setting process in the multilingual document registration process. FIG. 6 shows the analysis target character string range in the multilingual document registration process. FIG. 7 is a flowchart showing a processing flow of the keyword extraction processing in the multilingual document registration processing. FIG. 8 is a flowchart showing a processing flow of unregistered keyword candidate processing in multilingual document registration processing.
[0049]
First, the overall process of the multilingual document registration process will be described with reference to the flowchart of FIG. When the processing is started, first, in step 41, the input processing unit 1 issues a document registration instruction. Next, in step 42, keyword extraction condition setting processing (FIG. 5) is performed, and subsequently, in step 43, character string set setting processing (FIG. 6) to be analyzed in morphological analysis is performed. That is, the condition of the morpheme analysis unit used in the keyword extraction process is set, and then the target character string set to be analyzed is set using the morpheme analysis unit in which the condition is set. In the character string set setting process, for example, it is set whether all the text of the registered document or the character string set of the unregistered keyword candidate group, and the setting of the character string set to be analyzed that specifically performs the morphological analysis is set. Do.
[0050]
When these setting processes are completed, the variable i indicating the number (order) of the currently used morpheme analysis unit is set to “1” in step 44 to control the keyword extraction process. Set the morphological analyzer used at the beginning of the registration process. Next, in step 45, it is determined whether or not the use flag of the morphological analyzer of the language corresponding to the variable i is on. If the use flag is not turned on, the morpheme analysis process by the morpheme analysis unit having the number of the variable i is not performed.
[0051]
If the use flag of the morphological analysis unit of the language corresponding to the variable i is turned on in the determination in step 45, that is, the language corresponding to the variable i indicating the order in the keyword extraction management table 30 ("analysis order"). When the “usage flag” of the morphological analysis entry of the language in which i is i) is ON, the process proceeds to the next step 46, and the character set is sequentially processed by the i-th corresponding morphological analysis unit. The keyword extraction process (FIG. 7) is performed. In this keyword extraction processing, as will be described later, the first character set is set for the character string set set by the type of the analysis target character string of the entry of the ith morphological analysis unit in accordance with the condition data of the keyword extraction management table 30. A keyword is extracted by the i-th corresponding morphological analyzer.
[0052]
Next, in step 47, it is determined whether or not the extracted keyword is registered in the (i-th) morpheme analysis dictionary. If it is not registered, the process proceeds to step 48, where it is handled as an unregistered keyword candidate. Together with the document ID to be stored in the unregistered keyword candidate holding unit, the process proceeds to step 51. If it is determined in step 47 that the extracted keyword is registered in the morphological analysis dictionary, the process proceeds to step 49 and is stored in the keyword candidate holding unit together with the corresponding document ID as a keyword candidate. Then, in step 50, unregistered keyword candidate processing (FIG. 8) is performed. In this unregistered keyword candidate process, as will be described later, character string matching is performed on words that have been unregistered keyword candidates in the process of the previous morpheme analysis unit, but have been determined as keyword candidates in the process of the subsequent morpheme analysis unit. The collated word is removed from the unregistered keyword. When this unregistered keyword candidate process ends, the process proceeds to step 51.
[0053]
In step 51, it is determined whether or not the keyword extraction by the i-th morphological analysis unit of the registered document is completed. If keyword extraction has not been completed, the process returns to step 46 and the processing from step 46 is repeated. Further, if the completion of the keyword extraction process by the i-th corresponding morpheme analysis unit can be confirmed by the determination process of step 51, the keyword extraction process by the next morpheme analysis unit is performed. The variable i indicating the order of the morpheme analyzers is incremented, that is, the variable i is counted up (i = i + 1), and in the next step 53, the number n of morpheme analyzers corresponding to each national language that can be used and the next Is compared with a variable i indicating the order of the morpheme analysis units used for
[0054]
As a result of this comparison, if n ≧ i, the keyword extraction process by the i-th morpheme analyzer has not been completed, so the process returns to step 45 and the processes from step 45 are repeated. If n <i, the analysis by the morpheme analysis unit that is in a usable state according to the conditions set in the keyword extraction management table has been completed. An index is created from an unregistered keyword group. This completes the document registration process. Therefore, in step 55, it is determined whether or not the document registration is to be ended. If the other document registration process is to be performed, step 41 is performed. The processing is returned to step 4 and the processing from step 41 is repeated. Further, when the registration of the document is finished, the series of processes here is finished.
[0055]
Next, the process for setting the conditions of the keyword extraction management table in the multilingual document registration process will be described. This process is a process executed in step 42 of the overall process flow of the multilingual document registration process of FIG. Reference is made to the flowchart of FIG. When the process is started, the process proceeds to step 61, where the number of morpheme analyzers corresponding to each language stored in the keyword extraction management table is counted and set to a variable n indicating the number of morpheme analyzers. . That is, if the number of morphological analysis units registered in the keyword extraction management table 30 is m, n = m is set. Next, step 62 In The order of analysis is set in the order field 33 of the keyword extraction management table 30 using the morphological analysis unit corresponding to each language. Then, in the next step 63, in order to set the morphological analysis corresponding to the national language used at the time of document registration, whether to use the morphological analysis unit corresponding to the language of each country is used. In the field 34, the ON / OFF flag is set. Thereby, the setting process of the condition of the keyword extraction management table ends.
[0056]
Next, in the multilingual document registration process Solution of The analysis target character string range setting process will be described. As described above, this process is a process executed in step 43 of the overall process flow of the multilingual document registration process of FIG. Refer to the flowchart of FIG. When this process is started, first, in step 71, a variable j indicating the entry number of the morphological analysis unit corresponding to each national language stored in the keyword extraction management table 30 is set to “1”. Next, in step 72, the type of the analysis target character string for the morphological analysis unit corresponding to each language in the jth entry of the keyword extraction management table is selected from the analysis target character string type setting table. As described above, the analysis target character string type setting table 37 sets a range of character strings to be subjected to morphological analysis in accordance with the type of analysis target character string type. The type of analysis target character string is selected from the types of analysis target character string types in the column type setting table 37 and set in the analysis target character string type field 35 of the keyword extraction management table 30.
[0057]
Next, the process proceeds to step 73, where it is determined whether or not the “order of analysis” of the j-th morpheme analyzer is first. If the order of the j-th morpheme analyzer is first, the process proceeds to step 74 to forcibly set “text-ALL” ignoring the previously set analysis target character string type. Then, the process proceeds to step 75. As a result, the range of the solution target character string analyzed by the first morpheme analyzer is always the entire text of the registered document. If it is determined in step 73 that the order of the morphological analysis units is not first, the process proceeds to step 75 as it is.
[0058]
Subsequently, in order to set the analysis target character string type in the entry of the next morphological analysis unit, next, in step 75, the variable j is incremented, and in the next step 76, whether or not j ≦ n is satisfied. Determine. If j ≦ n, there is an entry corresponding to a morpheme analyzer that has not been set, so the process returns to step 72 and the processing from step 72 is repeated. If j ≦ n is not satisfied, the processing here ends. That is, the variable j is compared with the number n of morphological analysis units stored in the keyword extraction management table 30. If j is equal to or smaller than n, the process returns to step 72. If not, the process ends.
[0059]
Thereby, in the keyword extraction management table 30, the setting processing of the character string set to be analyzed is completed for each morphological analysis unit. As the analysis target character string set, for example, the process of setting all of the text of the registered document or the set of character strings of the unregistered keyword candidate group is completed. Perform keyword extraction processing according to the settings.
[0060]
Next, a keyword extraction process in the multilingual document registration process will be described. Reference is made to the flowchart of FIG. As described above, this process is a process executed in step 46 of the entire process flow of the multilingual document registration process of FIG. When the keyword extraction process is started and the process proceeds to step 81, a word is cut out in step 81 by performing morphological analysis on the character string set set by the character string type to be analyzed in the keyword extraction management table. That is, a word is cut out by morphological analysis from a position where the morphological analysis of the character string set is not completed.
[0061]
Next, in step 82, it is determined whether or not an unnecessary word is included in the extracted word. If an unnecessary word is not included, the process proceeds to step 88 as it is, and a word other than the unnecessary word is immediately extracted as a keyword, and the processing here ends. If the extracted word includes an unnecessary word, the process proceeds to step 83 to determine whether or not the variable i is “1”. When the variable i is “1”, the currently used morpheme analysis unit is the first morpheme analysis unit, so there is no processing for the unregistered keyword candidate. The processing here ends as a keyword obtained by extracting words other than.
[0062]
If it is determined in step 83 that the variable i is not “1”, the process proceeds to step 84, where the analysis target character string of the i-th morpheme analysis is an unregistered word group. Determine whether or not. If the character string to be analyzed is not an unregistered word group, the process proceeds to step 85, and character string matching is performed on the unregistered keyword candidate using the extracted word. Then, in the next step 86, the result of character string matching is determined. If the collation is successful, the process proceeds to step 87, where the words extracted from the unregistered keyword candidates or the words subjected to the character string collation are removed, and then in step 88, the words other than unnecessary words are extracted as keywords. Terminate the process.
[0063]
If it is not determined in step 86 that the character string has been collated, the process in step 87 is performed. And Then, the process proceeds to step 88, and the process here ends as a keyword obtained by extracting words other than unnecessary words.
[0064]
Next, the setting process of the unregistered keyword candidate process in the multilingual document registration process will be described. Reference is made to the flowchart of FIG. As described above, this process is a process executed in step 50 of the entire process flow of the multilingual document registration process of FIG. When the unregistered keyword candidate process is started and the process proceeds to step 91, first, it is determined whether or not the variable i indicating the currently used morphological analysis order is “1”. If the variable i is “1”, as described above, the morpheme analysis unit currently used is the first morpheme analysis unit, so there is no processing for the unregistered keyword candidate. The candidate process is terminated.
[0065]
If it is confirmed in step 91 that the variable i is not “1”, the process proceeds to step 92 to determine whether or not the character string to be analyzed in the i-th morpheme analysis is an unregistered word group. To do. That is, in the keyword extraction management table 30, it is determined whether or not the setting of the analysis target character string type field 35 of the entry corresponding to the i-th morpheme analysis unit in the analysis order is “unregistered word group”. If the result of this determination is that the character string type to be analyzed is “unregistered word group”, in step 95, the keywords extracted from the unregistered keyword candidates are removed, and this process ends.
[0066]
If it is determined in step 92 that the character string type to be analyzed is not “unregistered word group”, the process proceeds to step 93, where the extracted keyword is subjected to character string matching against unregistered keyword candidates. The result of this character string matching is determined. As a result of the determination, if the character string can be collated, the process proceeds to step 95, the keyword extracted from the unregistered keyword candidates is removed, and this process is terminated. If the character string cannot be collated, this process is terminated as it is.
[0067]
In this way, the processing for the unregistered keyword candidate is performed. As a result, the word which has been determined as the unregistered keyword candidate in the processing of the previous morpheme analysis unit, but is determined as the keyword candidate in the processing of the subsequent morpheme analysis unit. Character string matching is performed, and the matched word is removed from unregistered keywords.
[0068]
Next, in the case of registering a document including a sentence described in a plurality of languages, an example of the operation will be described by specifically illustrating a document including a sentence described in a plurality of languages. FIG. 9 is a diagram illustrating an example of a multilingual document. As shown in FIG. 9, the multilingual document 99 here is a document in which Japanese and English sentences exist, and a case where the multilingual document 99 is newly registered will be described. In this case, the entire document is first subjected to morphological analysis in Japanese, then the unanalyzed part is subjected to morphological analysis in English, keyword extraction is performed, and the document (document Registration number).
[0069]
This multilingual document registration / retrieval apparatus is provided with a morpheme analysis unit capable of performing morphological analysis corresponding to each of four languages corresponding to “English”, “Japanese”, “Chinese”, and “Arabic”. In this case, in the keyword extraction management table 30 that defines the keyword extraction conditions, the control conditions of the respective morphological analysis units are set as shown in FIG. Therefore, in this case, the number of morphological analysis units registered in the keyword extraction management table 30 is counted as “4” (n = 4) (step 61: FIG. 5), and as shown in FIG. It is temporarily stored in the morphological analysis management table 36 in a record format (or as a variable).
[0070]
Further, in setting the conditions of the keyword extraction management table 30, the order in which each morphological analysis unit analyzes the document is, for example, “Japanese”, “English”, “Arabic”, “Chinese”. Therefore, in the order field 33 of the keyword extraction management table 30, the order is “2”, “1”, “4”, “3” in order from the top, corresponding to each language-compatible morphological analysis unit. Setting is made (step 62: FIG. 5).
[0071]
In addition, since the language type of the morphological analysis unit used in the keyword extraction process in the document registration process is “Japanese”, “English”, and “Chinese”, the keyword extraction management table 30 is used. , The use flag field 34 of the entry corresponding to “Japanese”, “English” and “Chinese” is set to “ON”, and the use flag field 34 of the entry corresponding to “Arabic” is set to “OFF”.
[0072]
Further, in order to efficiently execute the keyword extraction process by specifying the range of the character string to be analyzed by each morphological analysis unit that performs morphological analysis in the keyword extraction process in the document registration process, In the morpheme analysis process set for the second and subsequent morpheme analysis units corresponding to the language, the entire document in which the character string group to be analyzed is not always registered is necessarily included in the scope, and is subject to analysis. Specifies a range of text or a string or a set of them.
[0073]
Therefore, as shown in FIG. 3C, in the analysis target character string type setting table 37, an analysis target character string type corresponding to a predefined character string range to be subjected to morphological analysis is displayed as a keyword extraction management table. It is set in 30 analysis target character string type fields 35. In this example, the analysis target character string type field 35 of the keyword extraction management table 30 includes, in order from the top, “unregistered word group”, “text-ALL”, “unregistered word group”, “text-range designation”. In the Japanese morphological analysis unit, the entire document is subject to analysis, but the English morphological analysis unit and the Chinese morphological analysis unit set the analysis target as an unregistered word group. . In this case, the first morpheme analysis unit that performs morpheme analysis is forcibly reset to default to “text-ALL” by default so that the entire document of the registered document is first analyzed (step). 73-step 74: FIG. 6).
[0074]
Thus, when conditions such as the order of each morpheme analysis unit used in the keyword extraction management table 30 and the character string range to be analyzed are set, each morpheme analysis unit is controlled according to the set conditions, Keyword extraction processing is executed. When the keyword extraction process is started, first, morpheme analysis is performed using the morpheme analysis unit set in the first order. In this example, after confirming that the “use flag” is “ON” by the first “Japanese correspondence” morpheme analysis unit (step 45), this morpheme analysis unit is supported. Keyword extraction is performed on the set of character strings. That is, in this case, since “text-ALL” is set, keyword extraction is performed on all texts of the registered document (step 46).
[0075]
In the keyword extraction process (FIG. 7), keywords other than those that are determined as unnecessary words among the extracted words are used as keywords. Since the “Japanese” morpheme analysis process is the first analysis process, unnecessary word processing for unregistered keyword candidates is not performed. Then, it is determined whether or not the next extracted keyword is registered in the Japanese morphological analysis dictionary (step 47), and the registered keyword is stored as a keyword candidate together with the document ID (step 48). .
[0076]
FIG. 10A and FIG. 10B are diagrams showing the contents of the keyword candidate holding unit and the unregistered keyword candidate holding unit at the stage where the keyword extraction processing by the Japanese-compatible morpheme analysis unit is completed. . For example, if the identification number (document ID) of the document to be registered (FIG. 9) is “20204”, the registration process of all keyword candidates by morphological analysis of “Japanese” is completed, and FIG. As shown, the keyword candidates 102 for the document (fileID) 101 of the keyword candidate holding unit 100 include the words “Iraq”, “Kuwait”, “country” of words extracted by morphological analysis as keyword candidates for the document with document ID = 20204. Border "...""Bomber" is memorized. On the other hand, those that are not registered in the dictionary for morpheme analysis are the unregistered keywords as shown in FIG. 10B at the stage where all the unregistered keyword candidates are registered by the “Japanese” morpheme analysis. For the unregistered keyword candidate 105 for the document (fileID) 104 in the candidate holding unit 103, the words “patriot”, “The”, “ "Ministry", "of", ..., "recently" are stored.
[0077]
In this way, when the process based on the “Japanese” morpheme analysis is completed, the process based on the “English” morpheme analysis of the next corresponding language is started. In this case, as in the case described above, according to the conditions of the keyword extraction management table 30, the second “English” morpheme analyzer confirms that the “usage flag” is also “ON”. Then (step 45), keyword extraction is performed on the character string set set corresponding to this morphological analysis unit. That is, in this case, “unregistered word group” is set as the analysis target character string type in the analysis target character string type field 35 of the keyword extraction management table 30, and therefore, as shown in FIG. In this manner, keyword extraction processing is performed on the character string stored in the unregistered keyword candidate 105 for the document (fileID) 104 in the unregistered keyword candidate holding unit 103. That is, a keyword with respect to a character string previously extracted as an unregistered keyword candidate without performing an English-supported morphological analysis on all documents for a document with document ID = 20204, which is the current registration target document. An extraction process is performed (step 46).
[0078]
Also in the keyword extraction processing (FIG. 7) in this case, as in the case described above, the extracted words other than those determined as unnecessary words are used as keywords. That is, by this processing, for example, “The”, “of”, etc., which are determined as unnecessary words, are excluded from the unregistered keyword candidates as processing of unnecessary words for the unregistered word keyword candidates. Then, it is determined whether or not the extracted keyword is registered in the English morphological analysis dictionary (step 47), and the registered keyword is stored as a keyword candidate together with the document ID (step 48).
[0079]
FIG. 11A and FIG. 11B are diagrams showing the contents of the keyword candidate holding unit and the unregistered keyword candidate holding unit at the stage where the keyword extraction processing by the next English-compatible morpheme analysis unit is finished, in comparison. is there. As described above, if the identification number (document ID) of the document to be registered (FIG. 9) is “20204”, all registration processing by “English” morphological analysis is completed for the unregistered keyword candidate. In this stage, the character strings “Ministry”, “Education”,... Stored in the unregistered keyword candidate 105 corresponding to the document (fileID) 104 of the unregistered keyword candidate holding unit 103 shown in FIG. For “said” and “recently”, morphological analysis is performed by the morphological analysis unit for English, and as a result, the words registered in the English morphological analysis dictionary are extracted. As shown in FIG. 11A, the keyword candidate 112 is additionally stored in the keyword candidate 112 for the document (fileID) 111 in the keyword candidate holding unit 110. That is, as keyword candidates for the document with document ID = 20204, “ministry”, “education”,..., “Say”, “recent” are additionally stored in the corresponding entries.
[0080]
Although not particularly mentioned in the processing of morphological analysis in this description, when a word is cut out by morphological analysis, a process of unifying several table words of the word into a standard form is also performed at the same time. In other words, processes such as “Ministry” → “ministry”, “Education” → “education”, and processing to unify uppercase letters into lowercase, and processes to unify the original form such as “said” → “say” are performed. . In this way, a word that has been an unregistered keyword candidate in one language is extracted as a keyword candidate by performing a morphological analysis in another language, and the keyword extracted as the keyword candidate is Process to remove from registered keyword candidates.
[0081]
In this way, those not registered in the English morphological analysis dictionary, in this example, “Monbushou” remain, and are stored as unregistered word keyword candidates. At the stage when all the keyword extraction processes by the “English” morphological analysis are finished, as shown in FIG. 11B, the unregistered keyword candidates 115 corresponding to the document (fileID) 114 of the unregistered keyword candidate holding unit 113 are displayed. As a non-registered keyword candidate for the document with document ID = 20204, “patriot” and “Monbushou” are stored in the corresponding entries.
[0082]
In this way, when the processing by the “English” morpheme analysis is completed, the process by the morpheme analysis unit corresponding to the language in the third order is subsequently entered. That is, the processing by the morpheme analyzer corresponding to “Arabic” of the next corresponding language is entered, but the “usage flag” of the “Arabic” morpheme analyzer in the keyword extraction management table 30 is “OFF”. In this case, as in the case described above, “ON” of the “usage flag” of the third “Arabic” morpheme analyzer corresponding to the condition of the keyword extraction management table 30 is used. "Cannot be confirmed (step 45), and the processing by the morpheme analyzer corresponding to" Arabic "is skipped.
[0083]
Thus, if the process by the morpheme analysis unit corresponding to the third order language is skipped, the process by the morpheme analysis unit corresponding to the fourth order language is entered. Also in this case, the processing proceeds according to the conditions of the keyword extraction management table 30 as in the case described above. In this case, it can be confirmed that the “usage flag” of the fourth “Chinese” corresponding morpheme analysis unit is “ON” (step 45). The analysis unit performs keyword extraction on the character string set set for the correspondence. In this case, since the “unregistered word group” is set as the analysis target character string type in the analysis target character string type field 35 of the keyword extraction management table 30, the unregistered keyword candidates shown in FIG. Subsequently, the morphological analysis is performed on the character string stored in the unregistered keyword candidate 115 for the document (fileID) 114 in the holding unit 113, and the keyword extraction process is performed. That is, the keyword extraction process is continuously performed on the character string previously extracted as the current unregistered keyword candidate for the document with the document ID = 20204 that is the current registration target document (step 46). ).
[0084]
In the keyword extraction process (FIG. 7) in this case, as in the case described above, the extracted words other than those judged as unnecessary words are used as keywords. Since no character string stored as the unregistered keyword candidate 115 in the unregistered keyword candidate holding unit 113 corresponds to “Chinese”, keyword extraction processing by morphological analysis of “Chinese” is performed. Even if the processing is completed, the contents of the keyword candidate storage unit 110 and the unregistered keyword candidate storage unit 113 do not change as shown in FIGS.
[0085]
In this way, when the keyword extraction process by morphological analysis for all languages is completed, an index table (120: FIG. 12) is created in accordance with the contents of the keyword extracted by the processes so far. As shown in FIG. 12, the index table 120 includes a document (file ID) 122 and an unregistered word flag 123 of the document corresponding to each extracted keyword 121 as an index for multilingual document search. It is a registered table. The index registered in the index table 120 is based on the case where the document ID of the corresponding document (fileID) 122 is sorted based on the word of the keyword 121, and there is an unregistered keyword for the document with the document ID. , An unregistered flag to that effect is set. When such an index table 120 is created, the document registration work for multilingual documents ends here.
[0086]
Then the index created like this The A case where a multilingual document search is performed using the index of the table 120 will be described.
[0087]
When searching for a document desired by the user, as described above, the user inputs a search condition using the search condition input unit (11: FIG. 1). When the search condition is input, the multilingual index matching unit (12: FIG. 1) cuts out a word from the search condition expression of the input search condition, and the extracted word and index The Matches against index keyword in table. Based on the collation result, the text extraction unit (14: FIG. 1) reads a document that matches the search condition based on the collation result between the index and the word, and the display unit (13: FIG. 1) displays the read document. .
[0088]
FIG. 13 is a block diagram illustrating a configuration of a main part of the multilingual index matching unit. FIG. 13 shows a data flow when a search expression is determined by performing a morphological analysis from a search condition together with a block of each element in the multilingual index matching unit. In FIG. 13, 3 is a text database part, 11 is a search condition input part, 14 is a text extraction part, 131a is a first morpheme analysis part, 131b is a first dictionary file part, and 132a is a second morpheme. An analysis unit, 132b is a second dictionary file unit, and 133a is an Nth morpheme analysis unit. 133b is the Nth dictionary file part It is. 134 is a search word candidate holding unit, 135 is an unregistered search word candidate holding unit, 136 is a search formula determining unit, and 137 is an order setting unit.
[0089]
As shown in FIG. 13, the multilingual index matching unit includes a plurality of morpheme analysis units corresponding to each language for performing a morphological analysis of a sentence in each language of a search condition expression input as a search condition. (131a to 133a) and a plurality of dictionary file units (131b to 133b) corresponding to each language that supply dictionary data of each language to each morpheme analysis unit, and the plurality of morpheme analysis units ( 131a to 133a) to control the morphological analysis of the multilingual search condition in an efficient manner, the order setting unit 137 for setting the order in which the morphological analysis of the multilingual search condition is performed, and its working memory The search term candidate holding unit 134 for temporarily registering the words of the analyzed search conditions as search term candidates and the search terms not analyzed by the morpheme analysis unit corresponding to one language For word, in order to perform the morphological analysis by the morphological analysis unit corresponding to another language, unregistered search word candidate holding unit 135 that temporarily registers are provided. Then, when the morphological analysis of the search condition expression of the search condition is completed, the search expression determination unit 136 determines a word to be the search expression, and the text extraction unit 14 determines from the text database unit 3 according to the index document ID. Extract documents that meet the search criteria.
[0090]
FIG. 14 is a flowchart showing the overall processing flow of the multilingual document search processing. The flowchart shown in FIG. 14 cuts out a word as a search word by performing a morphological analysis corresponding to each search condition expression in a search condition described in one or more languages, and performs a search. An overall flow of processing for creating an expression and searching for a document is shown. FIG. 15 is a flowchart showing a processing flow of search word extraction processing in multilingual document search processing, and FIG. 16 shows a processing flow of unregistered search word candidate processing in multilingual document search processing. It is a flowchart.
[0091]
First, the overall processing of multilingual document search processing will be described with reference to the flowchart of FIG. When the process is started, first, in step 141, the search expression input unit 11 inputs a multilingual search condition expression for document search. Next, in step 142, search word extraction condition setting processing is performed, and then in step 143, setting processing of a character string set to be analyzed in morphological analysis is performed. That is, in this case, similarly to the keyword extraction management table in the keyword extraction process described above, the search word extraction management table (not shown) is used to set the conditions of the morphological analysis unit for extracting the search word, In addition, a set of character strings to be analyzed is set using a morphological analysis unit in which conditions are set. In the character string set setting process, for example, the entire text of the search condition expression or the character string set of the unregistered search word candidate group (unregistered word group) is set, and the analysis is performed specifically for morphological analysis. Set the target character string set. It should be noted that the keyword extraction management table 30 described above may be used as the search word extraction management table without providing the search word extraction management table.
[0092]
When these setting processes are completed, the variable i indicating the order of the currently used morpheme analysis unit is set to “1” in step 144 in order to control the extraction process of the search word for creating the search expression. Set and set the morpheme analyzer used at the beginning of the morphological analysis process of the search condition formula. Next, in step 145, it is determined whether or not the use flag of the morphological analyzer of the language corresponding to the variable i is on. If the use flag is not on, the morpheme analysis process by the morpheme analysis unit with the number of the variable i is not performed.
[0093]
If the use flag of the morphological analysis unit of the language corresponding to the variable i is turned on in the determination in step 145, that is, the language corresponding to the variable i indicating the order in the search word extraction management table ("analysis order"). When the “usage flag” of the morphological analysis entry of the language in which i is i) is ON, the process proceeds to the next step 146, where the i-th corresponding morphological analysis unit sequentially performs the character string set. The search word extraction process (FIG. 15) is performed. In this search word extraction process, as will be described later, for a set of character strings set by the type of analysis target character string of the entry of the i-th order morpheme analysis unit according to the condition data of the search word extraction management table Then, a search word (keyword) is extracted by the i-th corresponding morphological analysis unit.
[0094]
Next, in step 147, it is determined whether or not the extracted search term is registered in the (i-th) morphological analysis dictionary. If it is determined in step 147 that it is not registered, the process proceeds to step 148 where the search condition expression corresponding to the unregistered search word candidate is stored in the unregistered search word candidate holding unit, and the process proceeds to step 151. If it is determined in step 147 that the extracted search word is registered in the morphological analysis dictionary, the process proceeds to step 149 and the search word candidate holding unit together with the search condition expression corresponding to the search word candidate. To remember. Then, in step 150, unregistered search word candidate processing (FIG. 16) is performed. In this unregistered search word candidate process, as will be described later, a word that has been determined as an unregistered search word candidate in the process of the previous morpheme analysis unit, Column matching is performed, and the matched word is removed from unregistered search terms. When the unregistered search word candidate process is finished, the process proceeds to step 151.
[0095]
In step 151, it is determined whether or not the search word extraction by the i-th morpheme analyzer has been completed. If the search term extraction is not completed, the process returns to step 146 and the process from step 146 is repeated. If the end of the search word extraction process by the i-th corresponding morpheme analysis unit can be confirmed by the determination process of step 151, the search word extraction process by the next morpheme analysis unit is performed. The variable i indicating the order of the morpheme analysis units to be used is incremented, that is, the variable i is counted up (i = i + 1), and in the next step 153, the number n of morpheme analysis units corresponding to each national language that can be used is n. And a variable i indicating the order of the morpheme analyzer to be used next.
[0096]
As a result of this comparison, if n ≧ i, the search word extraction process by the i-th morpheme analyzer has not been completed, so the process returns to step 145 and the processes from step 145 are repeated. If n <i, the analysis by the morpheme analysis unit that is in a usable state according to the conditions set in the search word extraction management table has been completed, so the process proceeds to step 154 to search word candidates. A process for creating a search expression from the group and the unregistered search word group is performed. As a result, a search expression for multilingual document search is created. Next, in step 155, the created search expression is used to match the index keyword, and the corresponding document is extracted. The process ends.
[0097]
Next, a search word extraction process in the multilingual document search process will be described. Reference is made to the flowchart of FIG. As described above, this process is a process executed in step 146 of the overall process flow of the multilingual document search process of FIG. When the search word extraction process is started and the process proceeds to step 161, morphological analysis is performed on the character string set of the search condition formula set in the search target character string type of the search word extraction management table in step 161. Cut out a word. That is, the word is cut out by the morphological analysis process from the position where the previous morphological analysis of the character string set is not completed.
[0098]
Next, in step 162, it is determined whether or not an unnecessary word is included in the extracted word. If an unnecessary word is not included, the process proceeds to step 168 as it is, and immediately, a search word other than the unnecessary word is extracted as a search word, and the process ends here. If the extracted word includes an unnecessary word, the process proceeds to step 163 to determine whether or not the variable i is “1”. When the variable i is “1”, the currently used morpheme analyzer is the first morpheme analyzer, so there is no processing for unregistered search word candidates. In this case as well, the process proceeds to step 168 and is unnecessary. The processing here ends as a search term obtained by extracting a word other than the word.
[0099]
If it is determined in step 163 that the variable i is not “1”, the process proceeds to step 164, and whether or not the analysis target character string of the i-th morphological analysis in the analysis order is an unregistered word group. Determine. If the analysis target character string is not an unregistered word group, the process proceeds to step 165, and character string matching is performed on the unregistered search word candidate using the extracted word. Then, in the next step 166, the result of character string matching is determined. If collation is successful, the process proceeds to step 167 to remove words or character strings collated from unregistered search word candidates, and then in step 168, as search words from which words other than unnecessary words are extracted, This process ends.
[0100]
If it is not determined in step 166 that the character string has been matched, the process proceeds to step 168 without performing the process in step 167, and a search term extracted from words other than unnecessary words is used here. The process in is terminated.
[0101]
Next, an unregistered search word candidate process in the multilingual document search process will be described. Reference is made to the flowchart of FIG. As described above, this process is a process executed in step 150 of the entire process flow of the multilingual document search process of FIG. When the unregistered search word candidate process is started and the process proceeds to step 171, first, it is determined whether or not the variable i indicating the order of the currently used morpheme analyzer is “1”. If the variable i is “1”, as described above, the morpheme analysis unit currently used is the first morpheme analysis unit, so there is no processing for the unregistered search word candidate, and this unregistered is immediately performed. The search term candidate process is terminated.
[0102]
If it is confirmed in step 171 that the variable i is not “1”, the process proceeds to step 172 to determine whether or not the analysis target character string of the i-th morphological analysis is an unregistered word group. To do. That is, it is determined whether or not the setting of the analysis target character string type field of the entry corresponding to the i-th morpheme analysis unit in the search word extraction condition control table is “unregistered word group”. . If the result of this determination is that the character string type to be analyzed is “unregistered word group”, in step 175, the search word extracted from the unregistered search word candidates is removed, and this process ends.
[0103]
If it is determined in step 172 that the character string type to be analyzed is not “unregistered word group”, the process proceeds to step 173, the extracted search word is subjected to character string matching with the unregistered search word candidate, and the next step In 174, the result of this character string matching is determined. As a result of the determination, if the character string can be collated, the process proceeds to step 175, the search word extracted from the unregistered search word candidates is removed, and this process is terminated. If the character string cannot be collated, this process is terminated as it is.
[0104]
In this way, the processing for the unregistered search word candidate is performed, and as a result, it is determined as the unregistered search word candidate in the process of the previous morpheme analysis unit, but is determined as the search word candidate in the process of the later morpheme analysis unit. Character strings are collated with respect to the detected words, and processing for removing the collated words from unregistered search words is performed.
[0105]
Next, when searching a multilingual document using a search condition expression of search conditions including sentences described in a plurality of languages, a specific example of the search condition expression will be described and an operation example will be described. FIG. 17 is a diagram illustrating an example of a search condition expression of a search condition including a sentence described in multiple languages. As shown in FIG. 17, the search condition 179 here is a search condition expression for a sentence in which Japanese and English sentences exist, and a document is searched by extracting a search word from the sentence of the search condition 179. Will be described. In this case, the entire search condition expression described in a plurality of languages is first subjected to morphological analysis in Japanese, and then the portion that has not been analyzed is subjected to morphological analysis in English. A search term is extracted, a search expression is generated from the extracted search term, and a corresponding document is searched.
[0106]
This multilingual document registration / retrieval apparatus is provided with a morpheme analysis unit that can perform morpheme analysis corresponding to each of four languages “English”, “Japanese”, “Chinese”, and “Arabic”. In the search term extraction management table that defines the search term extraction conditions, the control conditions of the respective morphological analysis units are set with the same contents as the keyword extraction management table 30 shown in FIG. It shall be. Here, in particular, the contents of the search word extraction management table are not shown, but the keyword extraction management table 30 shown in FIG. 3A is referred to as similar to the search word extraction management table as necessary. Therefore, the number of morpheme analyzers registered in the search word extraction management table in this case is counted as “4” (n = 4), and similarly, the morpheme analysis management table (36: FIG. 3 (b)). , Temporarily stored in record format (or as a variable).
[0107]
In setting the search term extraction management table conditions, the order of document analysis by each morphological analysis unit is, for example, “Japanese”, “English”, “Arabic”, and “Chinese”. The “analysis order” in the order field of the search word extraction management table (keyword extraction management table 30) corresponds to each language-compatible morpheme analysis unit, and the order is “2” and “1”, respectively. , “4”, “3”.
[0108]
Also, since the language type of the morphological analysis unit used in the search word extraction processing is “Japanese”, “English”, and “Chinese” here, the search word extraction management table (keyword extraction management table 30). ), The use flag of the entry corresponding to “Japanese”, “English” and “Chinese” is set to “ON”, and the use flag of the entry corresponding to “Arabic” is set to “OFF”.
[0109]
Further, in order to efficiently execute the search word extraction process by specifying the range of the character string to be analyzed by each morpheme analysis unit that performs the morphological analysis in the search word extraction process in the document search process, In the morphological analysis processing set for the second and subsequent morphological analysis units corresponding to each language, the character string group to be analyzed does not always fall within the scope of the entire sentence of the search condition expression. Specify the range of text or character string to be analyzed or a set of them.
[0110]
For this reason, as in the case of keyword extraction, as shown in FIG. 3C, in the analysis target character string type setting table 37, the analysis target character corresponding to the predefined character string range to be subjected to morphological analysis. The column type is the character string type to be analyzed for each entry in the search word extraction management table (keyword extraction management table 30). Set up Determine. In this example, the character string types to be analyzed in the search word extraction management table are “unregistered” corresponding to the morphological analysis units corresponding to “English”, “Japanese”, “Chinese”, and “Arabic”. “Word group”, “text-ALL”, “unregistered word group”, “text-range specification” are set.
[0111]
Therefore, in this case, the Japanese-compatible morphological analysis unit sets the entire document as an analysis target, but the English-compatible morpheme analysis unit and the Chinese-compatible morpheme analysis unit set the analysis target as an unregistered word group. Note that the morpheme analysis unit that performs the first morpheme analysis is always forcibly set as “text-ALL” by default to always analyze the entire document of the registered document.
[0112]
In this way, when conditions such as the order of each morpheme analysis unit to be used and the character string range to be analyzed are set by the search word extraction management table (keyword extraction management table 30), each morpheme is set according to the set conditions. The analysis unit is controlled, and search word extraction processing is executed. When the search word extraction process is started, first, morpheme analysis is performed using the morpheme analyzer that is set in the first order. In this example, after confirming that the “usage flag” is “ON” by the first “Japanese correspondence” morpheme analysis unit (step 145), this morpheme analysis unit is supported. Search term extraction is performed on the set of character strings. That is, in this case, since “text-ALL” is set, search word extraction is performed for all texts in the search condition formula (step 146).
[0113]
In the search word extraction process (FIG. 15), the extracted words other than those that are determined as unnecessary words are used as search words. Since the “Japanese” morphological analysis process is the first analysis process, unnecessary word processing for unregistered search word candidates is not performed. Then, it is determined whether or not the next extracted search word is registered in the Japanese morphological analysis dictionary (step 147), and the registered search word is stored as a search word candidate together with the corresponding search condition expression. (Step 148).
[0114]
FIG. 18A and FIG. 18B show the contents of the search word candidate holding unit and the unregistered search word candidate holding unit at the stage where the search word extraction processing by the Japanese-compatible morpheme analysis unit is completed. FIG. For example, with respect to the multilingual sentence “Retreat of Iraqi unit, Patriot missile and Ministry of Education” in the search condition formula 179 as shown in FIG. 17, registration processing of all search word candidates by morphological analysis of “Japanese” is performed. At the final stage, as shown in FIG. 18 (a), the search word candidate 181 of the search word candidate holding unit includes “Iraq”, “unit”, “withdrawal” of the words extracted by morphological analysis as search word candidates. ”And“ missiles ”are stored, while those not registered in the dictionary for morphological analysis are registered at the stage where all unregistered search word candidate registration processing by“ Japanese ”morphological analysis is completed. As shown in FIG. 18B, unregistered search word candidates 182 in the unregistered search word candidate holding unit are similarly “patriot”, “Ministry”, “of”, "Education Is stored as an unregistered search word candidate.
[0115]
In this way, when the process based on the “Japanese” morpheme analysis is completed, the process based on the “English” morpheme analysis of the next corresponding language is started. In this case, as in the case described above, the processing by the second “English” morpheme analyzer is performed according to the conditions of the search word extraction management table (keyword extraction management table 30). After confirming that the “usage flag” is also “ON” (step 145), search word extraction is performed on the character string set set corresponding to this morpheme analyzer. That is, in this case, “unregistered word group” is set as the character string type to be analyzed in the search word extraction management table (keyword extraction management table 30), so as shown in FIG. Search word extraction processing is performed on the character string of the unregistered search word candidate 182 in the registered search word candidate holding unit (step 146).
[0116]
In the search word extraction process (FIG. 15) in this case, as in the case described above, the extracted words other than those determined as unnecessary words are used as search words. That is, by this process, “of” determined as an unnecessary word is excluded from the unregistered search word candidates as an unnecessary word process for the unregistered word search word candidates. Then, it is determined whether or not the extracted search word is registered in the dictionary for English morphological analysis (step 147), and the registered search word is stored as a search word candidate together with the corresponding search condition formula ( Step 148).
[0117]
19 (a) and 19 (b) compare the contents of the search word candidate holding unit and the unregistered search word candidate holding unit at the stage where the search word extraction processing by the next English-compatible morpheme analysis unit is completed. FIG. In the stage where all the registration processes by the morphological analysis of “English” are completed for the unregistered search word candidate 182 in FIG. 18B, the character strings “Ministry” and “Education” are supported in English. As a result of the morpheme analysis in the morpheme analysis unit, among the extracted words, the words registered in the English morpheme analysis dictionary are searched word candidates as shown in FIG. “Ministry” and “education” are additionally stored as search word candidates in the search word candidate 191 of the holding unit. As in the case described above, the morphological analysis process described in this explanation is not particularly mentioned, but when extracting words by morphological analysis, the process of unifying uppercase letters into lowercase letters is standardized. Are performed at the same time. In this way, in the morphological analysis of one language, a word that is an unregistered search word candidate is extracted as a search word candidate by performing a morphological analysis in another language, and is extracted as the search word candidate A process for removing a search term from unregistered search term candidates is performed.
[0118]
As a result, those that are not registered in the English-compatible morphological analysis dictionary, in this example, “patriot” remain, and are stored as unregistered word search word candidates. At the stage where the processing of extracting all the search words by the “English” morpheme analysis is finished, as shown in FIG. 19B, “patriot” is stored as the unregistered search word candidate 192 of the unregistered search word candidate holding unit. It will be in the state.
[0119]
In this way, when the processing by the “English” morpheme analysis is completed, the process by the morpheme analysis unit corresponding to the language in the third order is subsequently entered. That is, the processing by the morpheme analyzer corresponding to “Arabic” of the next corresponding language is entered, but in the search word extraction management table (keyword extraction management table 30), the morpheme analyzer of “Arabic” is used. Since the “use flag” is “OFF”, in this case, as in the case described above, the third “Arabic” in the order according to the conditions of the search word extraction management table (keyword extraction management table 30). "ON" of the "usage flag" of the morpheme analysis unit corresponding to "" cannot be confirmed (step 145), and the process by the morpheme analysis unit corresponding to "Arabic" is skipped.
[0120]
Thus, if the process by the morpheme analysis unit corresponding to the third order language is skipped, the process by the morpheme analysis unit corresponding to the fourth order language is entered. In this case as well, the process proceeds according to the conditions of the search word extraction management table (keyword extraction management table 30) as in the case described above. In this case, it can be confirmed that the “usage flag” of the fourth “Chinese” corresponding morpheme analysis unit is “ON” (step 45). The analysis unit extracts a search term from the character string set set for the correspondence. In this case, since “unregistered word group” is set as the analysis target character string type in the analysis target character string type of the search word extraction management table (keyword extraction management table 30), FIG. Subsequently, a morphological analysis is performed on the character string stored in the unregistered search word candidate 192 of the unregistered search word candidate holding section shown, and the search word extraction process is performed (step 146).
[0121]
In the search word extraction process (FIG. 15) in this case, as in the case described above, a process other than a word that is determined as an unnecessary word among the extracted words is performed as a search word. There is nothing, and no character string stored as the unregistered search word candidate 192 of the unregistered search word candidate holding unit corresponds to “Chinese”, so the morphological analysis of “Chinese” Even if the search word extraction process by is completed, as shown in FIGS. 19A and 19B, there is no change in the contents of the search word candidate storage unit and the unregistered search word candidate storage unit.
[0122]
In this way, when the search word extraction process by morphological analysis for all languages is completed, a search expression 200 is created as shown in FIG. 20 according to the contents of the search word extracted by the process so far. The search formula 200 is an array of a search key 201 and an unregistered word flag 202 for searching a multilingual document, and the search key 200 and the unregistered word flag 202 are, for example, shown in FIG. Are collated with the index (keyword, document ID, unregistered word flag) of the index table 120 as shown in FIG. 9 and a multilingual document (FIG. 9) is read from the corresponding document ID.
[0123]
【The invention's effect】
As described above, according to the multilingual document registration / retrieval apparatus of the present invention, there are documents including texts or search condition expressions described in one or more languages, and those documents are registered and searched. When performing a search using conditional expressions, Meet By combining the processing of the morpheme analyzer, the word can be extracted with as much accuracy as possible. For this reason, the size of the index created at the time of registration can be made compact. In addition, the accuracy (reproducibility) of collation with the index can be improved during document search. Also, by embedding the control information of the keyword extraction conditions such as “analysis order”, “use flag”, and “analysis target character string type” in the keyword extraction management table, the target text is simply duplicated in each morphological analysis. Analysis can be performed optimally and efficiently according to the situation. By customizing these conditions by the user, it becomes possible to arbitrarily register and search multilingual documents corresponding to the user.
[Brief description of the drawings]
FIG. 1 is a block diagram showing the configuration of a multilingual document registration / retrieval apparatus according to an embodiment of the present invention;
FIG. 2 is a block diagram showing a configuration of a main part of a multilingual keyword extraction unit;
FIG. 3 is a diagram for explaining the contents of a control table used when performing keyword extraction processing;
FIG. 4 is a flowchart showing an overall processing flow of multilingual document registration processing;
FIG. 5 is a flowchart showing a processing flow of a keyword setting management table condition setting process in a multilingual document registration process;
FIG. 6 is a flowchart showing a processing flow of analysis target character string range setting processing in multilingual document registration processing;
FIG. 7 is a flowchart showing a processing flow of keyword extraction processing in multilingual document registration processing;
FIG. 8 is a flowchart showing a processing flow of unregistered keyword candidate processing in multilingual document registration processing;
FIG. 9 is a diagram showing an example of a multilingual document;
FIGS. 10A and 10B show the contents of the keyword candidate holding unit and the unregistered keyword candidate holding unit at the stage where the keyword extraction processing by the Japanese-compatible morpheme analysis unit has been completed, in comparison with each other. Figure,
FIGS. 11 (a) and 11 (b) compare the contents of the keyword candidate holding unit and the unregistered keyword candidate holding unit at the stage where the keyword extraction processing by the next English-compatible morpheme analysis unit is completed. Figure showing
FIG. 12 is a view showing an example of a created multilingual index table;
FIG. 13 is a block diagram showing a configuration of a main part of a multilingual index matching unit;
FIG. 14 is a flowchart showing an overall processing flow of multilingual document search processing;
FIG. 15 is a flowchart showing a processing flow of search word extraction processing in multilingual document search processing;
FIG. 16 is a flowchart showing a processing flow of unregistered search word candidate processing in multilingual document search processing;
FIG. 17 is a diagram illustrating an example of a search condition expression for a search condition including sentences written in multiple languages;
FIGS. 18A and 18B show the contents of the search word candidate holding unit and the unregistered search word candidate holding unit at the stage where the search word extraction processing by the Japanese-compatible morpheme analysis unit is finished. Figure showing in comparison,
FIGS. 19A and 19B show the contents of the search word candidate holding unit and the unregistered search word candidate holding unit at the stage where the search word extraction processing by the next English-compatible morpheme analysis unit is completed. Figure showing the comparison,
FIG. 20 is a diagram showing an example of a search expression generated by a multilingual search condition expression.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 ... Input processing part, 2 ... Multilingual keyword extraction part, 3 ... Text database part, 4 ... Index registration part, 5 ... Index file part, 11 ... Search condition input part, 12 ... Multilingual index registration part, 13 ... Display 14, text extraction unit, 21 a, first morpheme analysis unit, 21 b, first dictionary file unit, 22 a, second morpheme analysis unit, 22 b, second dictionary file unit, 23 a,. Nth morphological analyzer , 23b ... Nth dictionary file part , 24 ... keyword candidate holding unit, 25 ... unregistered keyword candidate holding unit, 26 ... keyword / unregistered keyword determining unit, 27 ... order setting unit, 28 ... index registration unit, 29 ... index file unit, 30 ... keyword extraction management Table 31, number field 32, corresponding language type field 33, order field 34, use flag field 35, analysis target character string type field, 36 morphological analysis management table 37, analysis target character string type setting table 99 ... Multilingual document, 100 ... Keyword candidate storage unit, 101 ... Document (fileID), 102 ... Keyword candidate, 103 ... Unregistered keyword candidate storage holding unit, 104 ... Document (fileID), 105 ... Unregistered keyword candidate, 110 ... keyword candidate storage unit, 111 ... document (fileID , 112 ... keyword candidates, 113 ... unregistered keyword candidate storage unit, 114 ... document (fileID), 115 ... unregistered keyword candidates, 120 ... index table, 121 ... extracted keywords, 122 ... document (fileID), 123 ... Unregistered flag, 131a ... first morpheme analyzer, 131b ... first dictionary file part, 132a ... second morpheme analyzer, 132b ... second dictionary file part, 133a ... N Th morpheme analyzer 133b ... Nth dictionary file part 134 ... Search word candidate holding unit, 135 ... Unregistered search word candidate holding unit, 136 ... Search formula determining unit, 137 ... Order setting unit, 179: Search condition, 181 ... Search word candidate, 182 ... Unregistered search word candidate 191 ... Search word candidate, 192 ... Unregistered search word candidate, 200 ... Search formula, 201 ... Search key, 202 ... Unregistered word flag.

Claims (9)

複数の言語の文を含む文書に対して検索に用いるインデックスを作成して登録し、該インデックスにより文書の検索を行う多言語文書登録検索装置において、
複数の言語の文を含む文書を格納する多言語文書格納手段と、
前記文書に対し異なる言語の文に対応している複数の単語切り出し手段を制御して形態素解析を行い、文書のキーワードを抽出するキーワード抽出手段と、
前記キーワード抽出手段により抽出されたキーワードを対応する文書の識別子と共にインデックスとして登録するインデックス登録手段と、
検索条件を入力する検索条件入力手段と、
前記検索条件入力手段によって入力された検索条件から単語を切り出し、切り出した単語とインデックスのキーワードとを照合するインデックス照合手段と、
キーワードと単語の照合結果により検索条件に適合する文書を読み出す読出し手段と
を備えることを特徴とする多言語文書登録検索装置。
In a multilingual document registration / retrieval device that creates and registers an index used for searching for a document including sentences in a plurality of languages, and searches for a document using the index,
Multilingual document storage means for storing a document including sentences in a plurality of languages;
A keyword extracting unit that controls a plurality of word segmenting units corresponding to sentences in different languages for the document, performs morphological analysis, and extracts a keyword of the document;
Index registration means for registering the keyword extracted by the keyword extraction means as an index together with the identifier of the corresponding document;
Search condition input means for inputting search conditions;
An index matching unit that cuts out a word from the search condition input by the search condition input unit and matches the extracted word with an index keyword;
A multilingual document registration / retrieval apparatus, comprising: a reading unit that reads out a document that meets a search condition based on a keyword and word collation result.
請求項1に記載の多言語文書登録検索装置において、
前記キーワード抽出手段は、
切り出し対象言語が異なる複数の単語切り出し手段と、
前記複数の単語切り出し手段の処理優先度を設定する設定手段と、
前記複数の単語切り出し手段を処理優先度に従って制御し、文書から単語を切り出し、キーワードを抽出するキーワード抽出制御手段と、
抽出されたキーワードと該キーワードの単語が切り出された文書の識別子を対応させてインデックスに登録するインデックス登録手段と
を備えることを特徴とする多言語文書登録検索装置。
The multilingual document registration / retrieval apparatus according to claim 1 ,
The keyword extracting means includes
A plurality of word segmentation means having different segmentation target languages;
Setting means for setting processing priorities of the plurality of word extracting means;
Keyword extraction control means for controlling the plurality of word extracting means according to processing priority, extracting words from a document, and extracting keywords;
A multilingual document registration / retrieval device comprising: index registration means for registering an extracted keyword and an identifier of a document from which the word of the keyword is extracted in association with each other.
請求項2に記載の多言語文書登録検索装置において、
前記キーワード抽出制御手段は、ある処理優先度の単語切り出し手段で識別不能とされた語を、次の処理優先度の単語切り出し手段で処理し、切り出された単語については、該単語の識別子をキーワードとし、複数の単語切り出し手段で最後まで識別不能とされた単語については、該単語をキーワードとする
ことを特徴とする多言語文書登録検索装置。
The multilingual document registration / retrieval apparatus according to claim 2,
The keyword extraction control unit processes a word that cannot be identified by a word extraction unit with a certain processing priority by a word extraction unit with a next processing priority. A multilingual document registration / retrieval apparatus characterized in that, for a word that cannot be identified to the end by a plurality of word segmenting means, the word is used as a keyword.
請求項1に記載の多言語文書登録検索装置において、更に、
登録する文書を入力してキーワード抽出を指示する入力手段と
登録する文書,インデックスおよび該辞書ファイルに登録されていない単語を保持する保持手段と
を備えることを特徴とする多言語文書登録検索装置。
The multilingual document registration / retrieval apparatus according to claim 1 , further comprising:
An input means for inputting a document to be registered and instructing keyword extraction ;
A multilingual document registration / retrieval apparatus comprising: a document to be registered; an index; and a holding unit that holds a word that is not registered in the dictionary file.
請求項4に記載の多言語文書登録検索装置において、
前記キーワード抽出手段は、
複数の言語の文から構成される文書からそれぞれの言語の文に対して形態素解析により単語を切り出す複数の単語切出し手段と、
前記複数の単語切り出し手段がそれぞれに参照する言語に対応する辞書を格納する複数の辞書ファイルと、
前記複数の単語切出し手段を適用する順番の設定を行う順序設定手段と、
前記順序設定手段により設定された順に複数の単語切り出し手段を制御して前記文書から対応する多言語の文の単語を切り出す制御を行う制御手段と
を備えることを特徴とする多言語文書登録検索装置。
The multilingual document registration / retrieval apparatus according to claim 4,
The keyword extracting means includes
A plurality of word cutout means for cutting out a word by the morphological analysis and corresponds to the statement of the respective language from the document consisting of text in multiple languages,
A plurality of dictionary files storing dictionaries corresponding to languages referred to by the plurality of word segmenting means;
Order setting means for setting the order of applying the plurality of word cutting means;
A multilingual document registration / retrieval device comprising: a control unit configured to control a plurality of word segmenting units in the order set by the sequence setting unit to perform segmenting of words of a corresponding multilingual sentence from the document. .
請求項5に記載の多言語文書登録検索装置において、更に、
単語切出し手段により未登録語として判断された単語に関しては一時的に未登録キーワード候補として保持する未登録キーワード候補保持手段と、
それ以外の辞書から抽出された単語に関しては一時的にキーワード候補として保持しておくキーワード候補保持手段と
を備え、前記制御手段は、
1段目の単語切出し手段を制御して、複数の言語の文を含む文書を入力として、形態素解析により単語の切り出しを行い、未登録語と判断された単語に関しては、一時的に未登録キーワード候補として前記未登録キーワード候補保持手段に保持し、辞書から抽出された単語に関してはキーワード候補として、前記キーワード候補保持手段に保持する処理を行い、
順次に各々の単語切出し手段を制御して、前段の単語切り出し手段により前記未登録キーワード候補保持手段に保持された未登録語候補を入力として、形態素解析により単語の切り出しを行い、未登録語と判断された単語に関しては、そのまま前記未登録キーワード候補保持手段に残し、辞書から抽出された単語に関しては前記未登録キーワード候補保持手段より削除し、前記キーワード候補保持手段に追加保持する処理を行い、
最終的に前記キーワード候補保持手段に保持されたキーワード候補をキーワードとし、前記未登録キーワード候補保持手段に保持された未登録キーワードを未登録キーワードとして対応する文書の識別子と共にインデックスに登録する
ことを特徴とする多言語文書登録検索装置。
The multilingual document registration / retrieval apparatus according to claim 5, further comprising:
Unregistered keyword candidate holding means for temporarily holding as an unregistered keyword candidate a word determined as an unregistered word by the word extracting means;
A keyword candidate holding unit that temporarily holds a word extracted from another dictionary as a keyword candidate, and the control unit includes:
The first word extraction means is controlled to input a document including sentences in a plurality of languages, and a word is extracted by morphological analysis. For a word determined to be an unregistered word, an unregistered keyword is temporarily stored. The unregistered keyword candidate holding means is stored as a candidate, and the word extracted from the dictionary is stored as the keyword candidate in the keyword candidate holding means.
Sequentially controlling each word extracting means, the unregistered word candidate held in the unregistered keyword candidate holding means by the previous word extracting means as an input, the word is extracted by morphological analysis, and unregistered words and The determined word is left as it is in the unregistered keyword candidate holding unit, the word extracted from the dictionary is deleted from the unregistered keyword candidate holding unit, and additionally stored in the keyword candidate holding unit.
Finally, the keyword candidate held in the keyword candidate holding unit is set as a keyword, and the unregistered keyword held in the unregistered keyword candidate holding unit is registered as an unregistered keyword together with the identifier of the corresponding document. Multilingual document registration and retrieval device.
複数の言語の文を含む文書に対して検索に用いるインデックスを作成して登録し、該インデックスにより文書の検索を行う多言語文書登録検索装置において、
複数の言語の文を含む文書を格納するテキストデータベースと、
前記文書に対し異なる言語の文に対応している複数の単語切り出し手段を制御して形態素解析を行い、文書のキーワードを抽出するキーワード抽出手段と、
前記キーワード抽出手段により抽出されたキーワードを対応する文書の識別子と共にインデックスとして登録するインデックス登録手段と、
検索条件を入力する検索条件入力手段と、
前記検索条件入力手段によって入力された検索条件から単語を切り出し、切り出した単語とインデックスのキーワードとを照合するインデックス照合手段と、
前記インデックス照合手段の照合結果により、対応する文書を前記テキストデータベースから抽出する抽出手段と
を備えることを特徴とする多言語文書登録検索装置。
In a multilingual document registration / retrieval device that creates and registers an index used for searching for a document including sentences in a plurality of languages, and searches for a document using the index,
A text database for storing documents containing sentences in multiple languages;
A keyword extracting unit that controls a plurality of word segmenting units corresponding to sentences in different languages for the document, performs morphological analysis, and extracts a keyword of the document;
Index registration means for registering the keyword extracted by the keyword extraction means as an index together with the identifier of the corresponding document;
Search condition input means for inputting search conditions;
An index matching unit that cuts out a word from the search condition input by the search condition input unit and matches the extracted word with an index keyword;
A multilingual document registration / retrieval apparatus comprising: an extraction unit that extracts a corresponding document from the text database based on a collation result of the index collation unit.
請求項7に記載の多言語文書登録検索装置において、
前記インデックス照合手段は、
複数の言語から構成される文書からそれぞれ対応の言語の文に対して形態素解析を行って単語を切り出す複数の単語切出し手段と、
複数の単語切出し手段を組み合わせて当該前記単語切出し手段を適用する順番を設定する順序設定手段と、
前記順序設定手段により設定した順に検索条件入力手段によって入力された検索条件の単語を切り出す制御を行う制御手段と
を有することを特徴とする多言語文書登録検索装置。
The multilingual document registration / retrieval apparatus according to claim 7,
The index matching means includes
A plurality of word extraction means for extracting words by performing morphological analysis on sentences in a corresponding language from documents composed of a plurality of languages;
Order setting means for setting the order of applying the word cutting means by combining a plurality of word cutting means;
A multilingual document registration / retrieval apparatus, comprising: a control unit that performs control for extracting words of the search condition input by the search condition input unit in the order set by the order setting unit.
請求項8に記載の多言語文書登録検索装置において、更に、
単語切出し手段により未登録語として判断された単語に関しては一時的に未登録検索語候補として保持する未登録検索語候補保持手段と、
それ以外の辞書から抽出された単語に関しては一時的に検索語候補として保持しておく検索語候補保持手段と
を備え、前記制御手段は、
1段目の単語切出し手段を制御して、複数の言語の文を含む文書を入力として、形態素解析により単語の切り出しを行い、未登録語と判断された単語に関しては、一時的に未登録検索語候補として前記未登録検索語候補保持手段に保持し、辞書から抽出された単語に関しては検索語候補として、前記検索語候補保持手段に保持する処理を行い、
順次に各々の単語切出し手段を制御して、前段の単語切り出し手段により前記未登録検索語候補保持手段に保持された未登録語候補を入力として、形態素解析により単語の切り出しを行い、未登録語と判断された単語に関しては、そのまま前記未登録検索語候補保持手段に残し、辞書から抽出された単語に関しては前記未登録検索語候補保持手段より削除し、前記検索語候補保持手段に追加保持する処理を行い、
最終的に前記検索語候補保持手段に保持された検索語候補を検索語とし、前記未登録検索語候補保持手段に保持された未登録検索語を未登録検索語として、インデックス照合し、対応する文書をテキストデータベース部により抽出して結果情報を出力する
ことを特徴とする多言語文書登録検索装置。
The multilingual document registration / retrieval apparatus according to claim 8, further comprising:
Unregistered search word candidate holding means for temporarily holding the word determined as an unregistered word by the word cutting means as an unregistered search word candidate;
Search word candidate holding means for temporarily holding as a search word candidate for words extracted from other dictionaries, the control means,
The first word extraction unit is controlled to input a document including sentences in a plurality of languages, extract words by morphological analysis, and temporarily search for unregistered words determined to be unregistered words A word candidate is held in the unregistered search word candidate holding means, and a word extracted from the dictionary is processed as a search word candidate and held in the search word candidate holding means,
Sequentially controlling each word segmentation means, using the unregistered word candidate held in the unregistered search word candidate holding means by the previous word segmentation means as input, segmenting words by morphological analysis, and unregistered words For words determined to be left as they are in the unregistered search word candidate holding means, words extracted from the dictionary are deleted from the unregistered search word candidate holding means and additionally held in the search word candidate holding means. Process,
Finally, the search word candidate held in the search word candidate holding means is used as a search word, the unregistered search word held in the unregistered search word candidate holding means is used as an unregistered search word, and index matching is performed. A multilingual document registration / retrieval apparatus for extracting a document by a text database unit and outputting result information.
JP22114995A 1995-08-08 1995-08-08 Multilingual document registration and retrieval device Expired - Fee Related JP3666066B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP22114995A JP3666066B2 (en) 1995-08-08 1995-08-08 Multilingual document registration and retrieval device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP22114995A JP3666066B2 (en) 1995-08-08 1995-08-08 Multilingual document registration and retrieval device

Publications (2)

Publication Number Publication Date
JPH0950442A JPH0950442A (en) 1997-02-18
JP3666066B2 true JP3666066B2 (en) 2005-06-29

Family

ID=16762242

Family Applications (1)

Application Number Title Priority Date Filing Date
JP22114995A Expired - Fee Related JP3666066B2 (en) 1995-08-08 1995-08-08 Multilingual document registration and retrieval device

Country Status (1)

Country Link
JP (1) JP3666066B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001331496A (en) * 2000-05-22 2001-11-30 Nec Corp Domain term dictionary preparation system and method
US20060059424A1 (en) * 2004-09-15 2006-03-16 Petri Jonah W Real-time data localization
JP5224851B2 (en) * 2008-02-27 2013-07-03 インターナショナル・ビジネス・マシーンズ・コーポレーション Search engine, search system, search method and program

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6231475A (en) * 1985-08-02 1987-02-10 Canon Inc Natural language processor
JPH0421180A (en) * 1990-05-16 1992-01-24 Matsushita Graphic Commun Syst Inc Document retrieving device

Also Published As

Publication number Publication date
JPH0950442A (en) 1997-02-18

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US4775956A (en) Method and system for information storing and retrieval using word stems and derivative pattern codes representing familes of affixes
US5983171A (en) Auto-index method for electronic document files and recording medium utilizing a word/phrase analytical program
US5303150A (en) Wild-card word replacement system using a word dictionary
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
US20050097080A1 (en) System and method for automatically locating searched text in an image file
JP4160548B2 (en) Document summary creation system, method, and program
JPH09198395A (en) Document retrieval device
JP3666066B2 (en) Multilingual document registration and retrieval device
US20040054677A1 (en) Method for processing text in a computer and a computer
JPH0877196A (en) Extracting device for document information
JPH06195371A (en) Unregistered word acquiring system
JPH07325826A (en) Japanese language processing system
JP2001005830A (en) Information processor, its method and computer readable memory
KR102338949B1 (en) System for Supporting Translation of Technical Sentences
JPH0750486B2 (en) Keyword extractor
JPS63228326A (en) Automatic key word extracting system
JP3187671B2 (en) Electronic dictionary display
JPH0635971A (en) Document retrieving device
JPH0561902A (en) Mechanical translation system
JPH07296005A (en) Japanese text registration/retrieval device
JPH08115340A (en) Document retrieval device and generating device for index file used for the same
KR20020003701A (en) Method of automatic key feature extraction for a digital document
JPH0954781A (en) Document retrieving system
JP3375978B2 (en) Document processing device

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040316

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040517

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050315

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050328

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080415

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090415

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100415

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110415

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120415

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130415

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140415

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees