JP2004258759A

JP2004258759A - テキスト解析装置、方法及びプログラム

Info

Publication number: JP2004258759A
Application number: JP2003046049A
Authority: JP
Inventors: Kuniko Saito; 邦子齋藤; Masaaki Nagata; 昌明永田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2003-02-24
Filing date: 2003-02-24
Publication date: 2004-09-16
Anticipated expiration: 2023-02-24
Also published as: JP4088171B2

Abstract

【課題】ヨーロッパ系言語（特に英語）とアジア系言語（特に日本語・中国語・韓国語）を対象として、同一システムで複数の言語を解析できるテキスト解析装置及びその方法等を提供する。
【解決手段】文字コード変換部１に文字コードが入力されると、その言語のローカルコードからユニコードに変換し、字句解析部２が、言語別字句解析規則を抽出しそれに基づいて入力文を字句解析し、単語候補を生成する。この単語候補に対して解析エンジン５が、言語別統計的言語モデルを抽出し、それに含まれる単語ｕｎｉｇｒａｍモデルにより辞書引きを行い形態素候補を作成し、その形態素候補に対して言語別統計的言語モデルに基づいて解析処理を行う。最後に、文字コード変換部６が、ユニコードからＸ語のローカルコードへ文字コード変換し、Ｘ語解析済テキストを出力する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、複数の言語を対象として形態素解析や固有表現抽出等を行う多言語処理技術に関連し、情報検索・テキスト音声合成・機械翻訳等の様々な自然言語処理アプリケーションにおいて、特にアジア系言語とヨーロッパ系言語を同じアプリケーションで処理する場合に必須となる技術に関する。
【０００２】
【従来の技術】
インターネットの普及が進む現在、ネットワークを通じて様々な言語で書かれた情報に接する機会が日々増加している。ある検索エンジンの２０００年の調査では、全世界のＷｅｂページの分布は、１位：英語（７６．６％）、２位：日本語（２．７７％）、３位：ドイツ語（２．２８％）、以下、中国語（１．６９％）、フランス語（１．０９％）、スペイン語（０．８１％）、韓国語（０．６５％）と続いている。分布の大半を占めている英語は勿論のこと、日本・中国・韓国などのアジア圏からも有益な情報を得られなければ、折角の豊富な情報資源を十分活用しているとは言えない。
【０００３】
そのため、日本語だけでなく外国語、特に英語やアジア系言語からも情報収集し、翻訳して内容を理解したいという要望は非常に強い。このように多言語情報資源を活用するためには、扱いたい言語についての解析技術の開発が必須である。
【０００４】
従来、各言語の解析技術については、それを母国語とする地域の研究機関が個別に技術開発し、別の言語をターゲットとする際は改めて開発し直すことがよくあった。そのため複数の言語を処理できるシステムの開発維持には膨大な時間とコストがかかっていた。そこで近年では、一つのシステムで複数の言語を同時に解析できる多言語処理技術の開発が進められており、特にヨーロッパ系言語圏ではテキスト音声合成や情報検索などで複数の言語を一つのシステムで扱う多言語処理の研究が非常に進んでいる（例えば、非特許文献１参照）。一方、日中韓などのアジア系言語圏では、それぞれ個別の言語についての言語処理技術は進んでいるものの（例えば、非特許文献２、特願２００２−１３９９８６参照）、多言語処理技術の研究は殆ど行われていない。特にヨーロッパ系言語とアジア系言語を両方扱う多言語処理技術については報告されていない。
【０００５】
この状況の原因として、言語の特徴の違いが考えられる。ヨーロッパ系言語は予め単語を空白で区切って記述するので、単語の認定が容易であるのに対し、アジア系言語の多くは単語を繋げて書くので、どこからどこまでが一つの単語なのかを認定することが非常に困難である。これが、ヨーロッパ系言語圏では多言語処理技術の研究が進んでいるが、アジア系言語圏ではまだ発展途上にある理由のひとつと考えられる。アジア系言語において、複数の言語を扱う自然言語処理アプリケーションを開発するためには、言語別に存在する複数のシステムを統合するコストが膨大になるという問題がある。
【０００６】
しかしながら、先に述べた通りアジア系言語圏でも、Ｗｅｂ上の大部分を占める多言語情報源を有効に活用するために、ヨーロッパ系言語、特に英語も含めた多言語処理技術への期待は高い。
【０００７】
ところで特許文献１には、言語識別を行うに際して、言語の記述の特徴、すなわち、その言語で頻繁に出現する特定文字を解析する技術が開示されている。具体的には、特定文字計数器から入力された文字列中の特定文字数、及び入力文字計数器から入力された文字列の文字数を出現率算出器が受け取り、特定文字の出現率を算出し、予め格納されている特定文字の標準出現率と比較器において比較することにより、入力文字列の言語を識別する構成である。
【０００８】
【非特許文献１】
Ｓｐｒｏａｔ，Ｒ．：ＭｕｌｔｉｌｉｎｇｕａｌＴｅｘｔＡｎａｌｙｓｉｓｆｏｒＴｅｘｔ−ｔｏ−ＳｐｅｅｃｈＳｙｎｔｈｅｓｉｓ，ＥＣＡＩＷｏｒｋｓｈｏｐｏｎＥｘｔｅｎｄｅｄＦｉｎｉｔｅ−ＳｔａｔｅＭｏｄｅｌｓｏｆＬａｎｇｕａｇｅ，１９９６．
【非特許文献２】
Ｎａｇａｔａ，Ｍ．：ＡＰａｒｔｏｆｓｐｅｅｃｈＥｓｔｉｍａｔｉｏｎＭｅｔｈｏｄｆｏｒＪａｐａｎｅｓｅＵｎｋｎｏｗｎＷｏｒｄｓｕｓｉｎｇａＳｔａｔｉｓｔｉｃａｌＭｏｄｅｌｏｆＭｏｒｐｈｏｌｏｇｙａｎｄＣｏｎｔｅｘｔ，ＡＣＬ−９９，ｐｐ２７７−２８４，１９９９．
【特許文献１】
特開２０００−２３１５５９号公報
【０００９】
【発明が解決しようとする課題】
Ｗｅｂ上にある膨大な多言語情報資源を有効に活用するためには、自然言語処理アプリケーションの開発維持コスト削減の上で、多言語処理技術が必須である。しかしながら、現状では、アジア系言語の多言語処理技術が未発達であり、ましてヨーロッパ系言語とアジア系言語を複数同時に共通のシステムで扱うことのできる多言語処理技術は殆ど研究例がない。
【００１０】
本発明は上記問題に鑑みてなされたものであって、その目的とするところは、ヨーロッパ系言語（特に英語）とアジア系言語（特に日本語・中国語・韓国語）を対象として、同一装置で複数の言語を解析できるテキスト解析装置及びその方法等を提供することにある。
【００１１】
【課題を解決するための手段】
本発明では、処理対象となる言語全てを装置内で全言語共通のコードに変換し、字句解析部において言語の違いに依存しやすい単語候補の作成を適切に行い、言語別の字句解析規則及び統計的言語モデルを切り替えることにより、複数の言語を同一の装置で解析できるようにしたものである。
【００１２】
本願発明のテキスト解析装置では、前記目的を達成するため、複数の言語を対象に、文字コードとして入力されたテキストに対して形態素解析及び固有表現抽出を行い、出力するテキスト解析装置において、任意の言語のテキストを文字コードとして入力するとともに、入力言語の種類を入力する文字コード入力手段と、前記文字コード入力手段により入力された文字コードを、全言語共通の文字コードに変換する第１の文字コード変換手段と、言語別の各文字種と単語の平均単語長との対応及び文中の空白の扱い方により決定される、文字コードから単語候補を切り出すための字句解析規則を言語別に記憶する言語別字句解析規則記憶手段と、前記言語別字句解析規則記憶手段から当該言語の字句解析規則を抽出する言語別字句解析規則抽出手段と、前記言語別字句解析規則抽出手段によって抽出された言語別解析規則に従い、前記第１の文字コード変換手段により変換された文字コードから単語候補を切り出す文字コード解析手段と、単語群及び単語群と単語区切り・原型・品詞・読み・固有情報との対応情報を含む統計的言語モデルを言語別に記憶する言語別統計的言語モデル記憶手段と、前記言語別統計的言語モデル記憶手段から当該言語の統計的言語モデルを抽出する言語別統計的言語モデル抽出手段と、前記言語別統計的言語モデル抽出手段によって抽出された言語別統計的言語モデルに含まれる単語群と単語候補の対応を調べ形態素候補とし、該形態素候補に対応する前記言語別統計的言語モデルの単語区切り・原型・品詞・読み・固有情報を付与する解析処理を行う単語候補解析手段と、前記単語候補解析手段により解析された単語の文字コードを当該言語の文字コードに変換し、解析済みテキストを生成する第２の文字コード変換手段と、前記解析済みテキストを出力する解析済テキスト出力手段とを設ける。
【００１３】
本発明に係るテキスト解析装置は、第１及び第２の文字コード変換手段が入出力の前後で各言語固有のローカルコードと全言語共通のコード間の変換を行い、装置内では全て全言語共通コードで符号化された文字列を処理対象とする。また、言語別字句解析規則を基に文字コード解析手段により言語の違いを吸収しながら入力文を字句解析し、単語候補を生成する。更に単語候補解析手段が、言語別統計的言語モデルに基づいて単語候補の形態素解析及び固有表現抽出を行う。以上により、アジア系言語、ヨーロッパ系言語にかかわらず複数の言語を対象として、同一の装置で動作するテキスト解析装置を実現できる。
【００１４】
本願発明のテキスト解析方法は、複数の言語を対象に、文字コードとして入力されたテキストに対して形態素解析及び固有表現抽出を行い、出力するテキスト解析方法おいて、任意の言語のテキストが文字コードとして入力されるとともに、入力言語の種類が入力されると、該文字コードを全言語共通の文字コードに変換する工程と、言語別の各文字種と単語の平均単語長との対応及び文中の空白の扱い方により決定される、文字コードから単語候補を切り出すための字句解析規則を言語別に記憶する言語別字句解析規則記憶手段から、当該言語の字句解析規則を抽出する工程と、抽出された言語別解析規則に従い、変換された文字コードから単語候補を切り出す工程と、単語群及び単語群と単語区切り・原型・品詞・読み・固有情報との対応情報を含む統計的言語モデルを言語別に記憶する言語別統計的言語モデル記憶手段から当該言語の統計的言語モデルを抽出する工程と、抽出された言語別統計的言語モデルに含まれる単語群と単語候補の対応を調べ形態素候補とし、該形態素候補に対応する前記言語別統計的言語モデルの単語区切り・原型・品詞・読み・固有情報を付与する解析処理を行う工程と、解析された単語候補の文字コードを当該言語の文字コードに変換し、解析済みテキストを生成する工程と、前記解析済みテキストを出力する工程とを有することを特徴とするテキスト解析方法により上記目的を達成する。
【００１５】
本願発明と前記特許文献１の技術とでは、言語の記述の特徴に基づいて言語処理を行うが、本願発明では各言語の平均文字長や空白の扱い方の言語間の相違を考慮しているのに対し、特許文献１の発明では各言語に頻繁に出現する特定文字を言語処理の基準としている点で異なり、それゆえ装置構成も異なる。また、前者が、アジア系言語、ヨーロッパ系言語にかかわらず複数の言語を対象として、同一の装置でテキストの形態素解析及び固有表現抽出を行うことができるのに対し、後者では、入力された言語を識別するという効果を有する。
【００１６】
【発明の実施の形態】
本発明の一の実施形態にかかるテキスト解析装置１０について、図１を参照しながらその構成及び動作を説明する。
【００１７】
図１のテキスト解析装置１０（以下、装置１０と略記）において、１は文字コード変換部、２は言語別字句解析規則データベース、３は字句解析部、４は言語別統計的言語モデルデータベース、５は解析エンジン、６は文字コード変換部である。
【００１８】
文字コード変換部１は、ローカルコード（各言語に与えられたコード）で書かれたＸ語（任意の言語）プレーンテキストと言語の種類が入力されると、Ｘ語プレーンテキストをローカルコードからユニコード（全言語共通に与えられたコード）に変換する。装置１０内では全ての言語をユニコードで処理する。尚、ここでユニコードとは一つの例にすぎず、全言語共通のコードであればユニコードに限らなくてよい。
【００１９】
一方、文字コード変換部６は、ユニコードで形態素解析及び固有表現抽出された文字コードを、Ｘ語のローカルコードに変換し、ローカルコードで書かれたＸ語解析済テキストを出力する。
【００２０】
ローカルコードとは、計算機で文字を扱うために言語別に設定されているコードセットであり、例えば日本語では、ＥＵＣ−ＪＰ、ＳＪＩＳ等、中国語ではＧＢ等、韓国語ではＫＳＣ等がある。これらのローカルコードでは、異なる言語を同時に扱うことができない。そこで、世界中の言語を一つのコードセットにまとめたものが、ユニコードである。ユニコードを用いると、英語、日本語、中国語等を同時に扱うことができ、複数の言語を処理する多言語解析技術においては有用である。ユニコードとは、アルファベット、数字、記号、漢字（日中韓共通）、ひらがな、カタカナ、ハングル等の文字種のコードポイント範囲がプロパティとして定義されているだけでなく、利用者が目的に応じてプロパティをユーザ定義することも可能である。本発明では、文字種のプロパティ情報は、後記の字句解析部３で利用される。
【００２１】
字句解析部３は入力された文字列から単語候補を切り出す。単語候補を切り出す処理にあたり、２つの点を基準として解析する。
【００２２】
既に述べた通り、英語等のヨーロッパ言語は空白によって単語の分別を認識するが、日本語・中国語・韓国語等のアジア系言語の多くは、単語を繋げて書く習慣がある。例えば、韓国語では、ある程度空白を用いて区切ってはいるが、単語単位よりも長い文節単位で区切り、区切り型にも個人差がある。そのため、アジア系言語ではまず文から単語認定を行うことが処理の上で不可欠である。即ち、ヨーロッパ系言語では単語認定の必要がないのに対し、アジア系言語では単語認定が非常に難しい。そのため、この単語認定が、アジア系言語を処理する上で重要なポイントである。
【００２３】
単語を認定するにあたり、まず入力文字列から単語候補となる文字列を切り出す。最も単純な手法は、各位置においてｍ文字の文字を全て単語とみなすものである。即ち、長さｎの文字列からなる入力文を、ｓ＝ｃ_１…ｃ_ｎとすると、入力文中の位置ｉにおいて長さｍの文字列ｃ_ｉ…ｃ_{ｉ＋ｍ−１}（１≦ｍ≦ｎ＋１−ｉ）を全て単語候補とする。これは多くの言語で共通に適応できる手法ではあるが、単語候補の中には単語にはなりえない文字列を大量に含むことになるため、後に行う統計的言語モデルに基づく解析処理において、確率計算の場合の数が膨大となって解析速度が遅くなり、実用上問題がある。そこでより効果的な単語候補認定の処理が必要となる。
【００２４】
単語の認定においては、文字種が重要な手がかりとなることが多い。例えば、言語共通に言えるのは、数字と記号の列は製品番号や電話／郵便／番地番号表記であるとか、アルファベットとある記号類の列がＵＲＬやメールアドレスであるということである。ただし、国によって微妙に流儀が代わる場合があることには注意が必要である。
【００２５】
これらを考慮し、本発明の字句解析部３は、言語別の平均単語長を、単語候補認定の一つの基準とする。
【００２６】
言葉別の特徴としては、日本語では文字種の変わり目が単語の切れ目になりやすい。特に、カタカナはひとまとまりで外来語等を示すことが多い。また、文字種の構成によって平均単語長も異なる。例えば、漢字なら２文字前後、平仮名なら１から４文字程度といった具合である。
【００２７】
しかしながら、中国語や韓国語では文の殆どがそれぞれ漢字またはハングルという同一の文字種で構成されているため、日本語ほど文字種の情報が有効ではないが、アルファベットや数字等、文字種が変われば単語の切れ目になりやすいという傾向、及び文字種によって平均単語長が異なるという性質を利用することができる。中国語では殆どの漢字は１から２文字であるが、外来語を漢字で表現する時は４文字程度となる。韓国語では、漢字１文字がハングル１文字に対応し、またハングルは子音−母音−子音を含むので、日本語のカタカナ外来語に想到するものは大体３文字程度で表現される。
【００２８】
本発明の字句解析部３は、単語候補を切り出す処理にあたり、さらに言語別に異なる空白の扱いを処理基準とする。
【００２９】
日本語・中国語の場合、空白が入力文にある場合、空白を常に１つの単語として認定して出力に含むことが期待される。しかし、英語や韓国語等、単語または文節の区切りとして空白を用いる言語の場合は、入力文に含まれる空白を１つの単語として認定し、出力することは期待されない。例えば、Ｉｈａｖｅａｐｅｎ．であれば‘Ｉ／代名詞’‘ｈａｖｅ／動詞’‘ａ／冠詞’‘ｐｅｎ／名詞’と解析されるべきであり、‘Ｉ／代名詞’‘／空白’‘ｈａｖｅ／動詞’‘／空白’‘ａ／冠詞’‘／空白’‘ｐｅｎ／名詞’とはならない。しかし、英語や韓国語では空白を含む単語（複数の単語からなる複合語）は数多く存在し、例えば、ＩｌｉｖｅｉｎＮｅｗＹｏｒｋ．であれば、‘Ｉ／代名詞’‘ｌｉｖｅ／動詞’‘ｉｎ／前置詞’‘ＮｅｗＹｏｒｋ／名詞’のように、‘ＮｅｗＹｏｒｋ／名詞’で１つの単語と認定したい場面は多い。
【００３０】
この空白の扱いの差は、後に説明する解析エンジン５で用いる統計的言語モデルにおいて、空白を言語モデルに含むべきかという問題と関係する。日本語や中国語では殆ど空白が登場しないため、空白が登場したという事実が１つの重大な手がかりといえるが、英語や韓国語のように区切りとして空白を多様する言語では、空白は連接の手がかりとして重要な情報を持たないのである。
【００３１】
このように言語別、または同じ言語でも状況によって異なる空白の扱いの差を吸収するために字句解析部３は機能する。日本語・中国語では常に空白を単語候補として生成させ、英語・韓国語では、空白単独では単語候補とせず無視し、複数の単語からなる単語を候補とするときには空白を含めるといった規則を記述しておけばよい。
【００３２】
各言語に則した処理規則について説明する。図２乃至図５は、字句解析部３が従う言語別字句解析規則の１例である。文字種によって切り出す単語の長さが決めてある。言語別に文字種の構成や単語長等の特徴が異なるが、それぞれ規則で書き分けることができる。
【００３３】
図２は、日本語における文字種と対応する字句解析規則の１例を表している。日本語では文字種の変わり目が単語の切れ目になりやすい。特に、カタカナはひとまとまりで外来語等を示すことが多い。また、文字種の構成によって平均単語長も異なる。例えば、漢字なら２文字前後、平仮名なら１から４文字程度といった具合である。このような日本語の特徴を考慮し、文字種が漢字であれば１から３文字までの範囲で文字列を切り出し、平仮名であれば文字種が変わるまで１から５文字までの範囲で文字列を切り出し、カタカナであれば文字種が変わるまで１つにまとめ、字種境界までスキップする。また、アルファベットまたは数字であれば、文字種が変わるまで１つにまとめ、字種境界までスキップし、記号は１文字で切り出す。例えば、「ＡＤＳＬが」であれば、「ＡＤＳＬ」「が」のみを生成し、「Ａ」「ＡＤ」「ＡＤＳ」等は生成しない。小数点や位取りの記号「．」「，」を数字とともにまとめたい場合は、ユニコードの文字種プロパティをユーザ定義し、数字「０〜９」に記号「．」「，」を含むようにしておけばよい。尚、日本語の場合は、漢字と平仮名からなる単語も存在するので、漢字と平仮名の文字列が連続していたら、３文字までの範囲で繋げるという規則を設けた。
【００３４】
図６は、言語別字句解析規則に基づいた字句解析によって切り出される単語候補の日本語についての１例である。漢字は１から３文字（例えば、「研」「研究」「研究所」）、平仮名は１から４文字（例えば、「れ」「れて」「れてい」「れていま」）で文字列を切り出し、カタカナ（例えば、サービス）、記号（例えば、ｋｍ）、数字（例えば、５０）、アルファベット（例えば、ＡＤＳＬ）は同じ文字種のものをひとまとめにし、その途中位置では単語候補を生成している。さらに、「離」「離れ」「離れる」のように、３文字までの漢字かな混じりの候補も生成する。
【００３５】
中国語や韓国語では文の殆どがそれぞれ漢字またはハングルという同一の文字種で構成されているため、日本語ほど文字種の情報が有効ではないが、アルファベットや数字等、文字種が変われば単語の切れ目になりやすいという傾向、及び文字種によって平均単語長が異なるという性質を利用することができる。中国語では殆どの漢字は１から２文字であるが、外来語を漢字で表現する時は４文字程度となる。韓国語では、漢字１文字がハングル１文字に対応し、またハングルは子音−母音−子音を含むので、日本語のカタカナ外来語に想到するものは大体３文字程度で表現される。これらの特徴に鑑み、韓国語では図３の例に示すように、文字種がハングルであるときは、文字種が変わるまで１から３文字までの範囲で文字列を切り出し、漢字、アルファベットまたは数字であるときは、文字種が変わるまで１つにまとめ、字種境界までスキップし、記号であれば１文字で切り出す。尚、空白の場合は、次の文字位置へスキップする。中国語では図４の例に示すように、文字種が漢字のときは、文字種が変わるまで１から４文字までの範囲で文字列を切り出し、アルファベットまたは数字であるときは、文字種が変わるまで１つにまとめ、字種境界までスキップする。また、記号のときは１文字で切り出す。
【００３６】
英語等のヨーロッパ系言語の場合は、前述のように単語間が空白なので単語の分別を行いやすい。したがって、図５の例に示すように、文字種がアルファベットの場合は、文字種が変わるまで、または空白が現れるまで一つにまとめ、数字のときは、文字種が変わるまで一つにまとめ、字種境界までスキップし、記号の場合は、１文字で切り出す。尚、空白の場合は、次の文字位置へスキップする。また、ヨーロッパ系言語の場合は、空白を挟んだ複数の単語が１つの複合語を表す場合があるので、アルファベットの単語が連続したら、３単語までの範囲で間に空白を挟んだ状態で繋げる。
【００３７】
図７は、言語別字句解析規則に基づいた字句解析によって切り出される単語候補の英語についての１例である。英語では、空白は単語候補とはせず無視しながら、空白で区切られた文字列を単語候補とする。これにより、複数の単語からなる複合語（３単語までのアルファベット列）からなる単語候補（例えば、ＮｅｗＹｏｒｋ）も切り出される。
【００３８】
図２乃至図５の言語別字句解析規則は、言語別字句解析規則データベース２に格納されており、字句解析部３は、この規則を参照しながら状況に応じて単語候補を作成することで、言語の違いを吸収することが可能となる。ここで利用する文字種の情報はユニコードのプロパティから得る。
【００３９】
以上のようにして、文字種とその平均単語長及び空白の扱い方から字句解析規則を言語別に記述し、言語別字句解析規則データベース２に格納しておき、字句解析部２で入力によって指定された解析する言語について言語別字句解析規則データベース２から当該字句解析規則を参照することによって、字句解析部３は言語毎に適切な単語候補を生成でき、言語の違いを吸収することができる。
【００４０】
解析エンジン５では、字句解析部３で生成された単語候補に対し、辞書引きを行い、辞書に含まれる単語群に対応する単語候補を形態素候補とする。辞書にない単語の場合は未知語として形態素候補とし、これらの形態素候補に対して統計的言語モデルに基づく解析処理を実行する。統計的言語モデルは、言語別に言語別統計的言語モデルデータベース４に格納されており、解析エンジン５は解析処理の際、指定された言語の統計的言語モデルを参照する。尚、ここでいう辞書引きで使用する辞書とは、統計的言語モデルに含まれる単語ｕｎｉｇｒａｍモデルのことを指す。これは、単語とその出現頻度が記録されたテーブルであり、この単語のエントリから、表記をキーにして単語を検索すれば辞書引きが可能となる。
【００４１】
統計的言語モデルは、目的の処理に応じて様々であるが、いくつか例を挙げると、形態素解析処理では、単語ｂｉｇｒａｍモデル、品詞ｔｒｉｇｒａｍモデル等、固有表現抽出処理では、隠れマルコフモデル等がある。これらのモデルは、いずれも単語区切り・原型・品詞・読み・固有情報等の連接頻度から学習できるものであり、予め人手で単語区切り・原型・品詞・読み・固有情報等が付与されている学習コーパスを、言語別に用意しておけば、そのデータからモデルに必要な連接頻度を学習することができる。即ち、この解析エンジン５で使用する統計的言語モデルは、言語に依存しない共通のアルゴリズムで実現できる。
【００４２】
解析エンジン５では、言語別統計的言語モデルに含まれる単語群と単語の区切り・原型・品詞・読み等の対応情報から、辞書引きにより決定した形態素候補に対応する単語の区切り・原型・品詞・読み等を抽出し形態素候補に付与する。さらに言語別統計的言語モデルに含まれる単語群と固有情報の対応情報から、辞書引きにより決定した形態素候補に対応する固有情報を抽出し形態素候補に付与する。
【００４３】
文字コード変換部６は、解析結果をユニコードからＸ語のローカルコードに変換し、最終的には入力テキストをローカルコードで書かれた解析済テキストとして出力する。
【００４４】
図８に、形態素解析（中国語、韓国語）、固有表現抽出（英語、日本語）の入出力結果の一例を示す。形態素解析では単語に分割され、中国語の場合は読みと品詞情報が、韓国語の場合は原型と品詞情報が付加されている。固有表現抽出では、形態素解析情報（英語では原型と品詞情報、日本語では読みと品詞情報）の他に、更に固有表現情報（人名＜ＰＳＮ＞、地名＜ＬＯＣ＞、組織名＜ＯＲＧ＞等、固有表現を示す情報）が付加されている。この例では、プロパティのユーザ定義をさらに増やし、「１９８４年」「１月」「２，３００万」等の数字を含む表現をより自然に候補として選択できるようにしてある。
【００４５】
図９を参照し、本発明のテキスト解析装置１０の処理手順について説明する。本発明のテキスト解析装置１０は、アジア系言語、ヨーロッパ系言語にかかわらず、任意の言語を扱うことができるので、処置対象となる言語をＸ語とする。文字コード変換部１は、Ｘ語プレーンテキストが入力されるとともに、入力言語の種類（Ｘ語）が入力され、文字コードを認識すると、そのＸ語のローカルコードがユニコードに変換される。入力言語の種類は字句解析部３及び解析エンジン５に記憶される（Ｓ１）。続いて、字句解析部３が、言語別の各文字種と単語の平均単語長との対応及び文中の空白の扱い方により決定され、言語別字句解析規則データベース２においてハードディスク等に書き込まれている言語別字句解析規則であって、入力されたＸ語に対応するものを抽出し（Ｓ２）、それに基づいて入力文を字句解析し、単語候補を切り出す（Ｓ３）。続いて解析エンジン５が、言語別統計的言語モデルデータベース４のハードディスク等に格納された言語別の単語区切り・原型・品詞・読み・固有情報等を含む、入力されたＸ言語の言語別統計的言語モデルを抽出し（Ｓ４）、それに含まれる単語ｕｎｉｇｒａｍモデルの単語群と単語候補の対応を調べ形態素候補とし、その形態素候補に対して、単語区切り・原型・品詞・読み・固有情報等含む言語別統計的言語モデルに基づいて、各形態素候補の単語区切り・原型・品詞・読み・固有情報等を付与する解析処理を行う（Ｓ５）。最後に、文字コード変換部６が、ユニコードからＸ語のローカルコードへ文字コード変換し（Ｓ６）、Ｘ語解析済テキストを出力する（Ｓ７）。
【００４６】
ここで、処理ステップＳ１乃至Ｓ７をコンピュータのＣＰＵ等の制御手段で実行することにより、本願発明のテキスト解析方法を実現することが可能である。言語別統計的言語モデル、単語ｕｎｉｇｒａｍモデルはいずれもコンピュータのハードディスク等の記憶手段に記憶されているものを用いる。
【００４７】
尚、本発明のテキスト解析方法は、コンピュータのＣＰＵ等の制御手段にＣＤ等の記憶媒体や通信回線から本願発明のテキスト解析プログラムをダウンロードする等により実現することができる。
【００４８】
【発明の効果】
以上説明したように、本発明によれば、言語別字句解析規則データベースに格納された言語別字句解析規則と、その規則に基づいて動作する字句解析部と、言語別統計的言語モデルデータベースに格納された言語別統計的言語モデルと、そのモデルに基づいて統計的言語処理を行う解析エンジンの動作により、テキスト解析装置内の動作を全て全言語共通のコードに統一することにより、単語または文節間の空白の扱いや、字種等の言語の違いに影響を受ける単語候補の作成を適切に処理し、言語別の規則及び言語モデルを切り替えながら、同一の装置で複数の言語、とりわけアジア系言語とヨーロッパ系言語であっても、同一の装置において言語処理が可能となる。
【図面の簡単な説明】
【図１】本発明におけるテキスト解析装置の一実施形態の機能ブロック図
【図２】字句解析規則の日本語の場合の例を示す図
【図３】字句解析規則の韓国語の場合の例を示す図
【図４】字句解析規則の中国語の場合の例を示す図
【図５】字句解析規則の英語の場合の例を示す図
【図６】字句解析で生成する単語候補の日本語の場合の例を示す図
【図７】字句解析で生成する単語候補の英語の場合の例を示す図
【図８】形態素解析及び固有表現抽出の例を示す図
【図９】本願発明の動作を示すフローチャート
【符号の説明】１、６…文字コード変換部、２…言語別字句解析規則データベース、３…字句解析部、４…言語別統計的言語モデルデータベース、５…解析エンジン、６…文字コード変換部、１０…テキスト解析装置。

Claims

複数の言語を対象に、文字コードとして入力されたテキストに対して形態素解析及び固有表現抽出を行い、出力するテキスト解析装置であって、
任意の言語のテキストを文字コードとして入力するとともに、入力言語の種類を入力する文字コード入力手段と、
前記文字コード入力手段により入力された文字コードを、全言語共通の文字コードに変換する第１の文字コード変換手段と、
言語別の各文字種と単語の平均単語長との対応及び文中の空白の扱い方により決定される、文字コードから単語候補を切り出すための字句解析規則を言語別に記憶する言語別字句解析規則記憶手段と、
前記言語別字句解析規則記憶手段から当該言語の字句解析規則を抽出する言語別字句解析規則抽出手段と、
前記言語別字句解析規則抽出手段によって抽出された言語別解析規則に従い、前記第１の文字コード変換手段により変換された文字コードから単語候補を切り出す文字コード解析手段と、
単語群及び単語群と単語区切り・原型・品詞・読み・固有情報との対応情報を含む統計的言語モデルを言語別に記憶する言語別統計的言語モデル記憶手段と、
前記言語別統計的言語モデル記憶手段から当該言語の統計的言語モデルを抽出する言語別統計的言語モデル抽出手段と、
前記言語別統計的言語モデル抽出手段によって抽出された言語別統計的言語モデルに含まれる単語群と単語候補の対応を調べ形態素候補とし、該形態素候補に対応する前記言語別統計的言語モデルの単語区切り・原型・品詞・読み・固有情報を付与する解析処理を行う単語候補解析手段と、
前記単語候補解析手段により解析された単語の文字コードを当該言語の文字コードに変換し、解析済みテキストを生成する第２の文字コード変換手段と、
前記解析済みテキストを出力する解析済テキスト出力手段とを有する
ことを特徴とするテキスト解析装置。
複数の言語を対象に、文字コードとして入力されたテキストに対して形態素解析及び固有表現抽出を行い、出力するテキスト解析方法であって、
任意の言語のテキストが文字コードとして入力されるとともに、入力言語の種類が入力されると、該文字コードを全言語共通の文字コードに変換する工程と、
言語別の各文字種と単語の平均単語長との対応及び文中の空白の扱い方により決定される、文字コードから単語候補を切り出すための字句解析規則を言語別に記憶する言語別字句解析規則記憶手段から、当該言語の字句解析規則を抽出する工程と、
抽出された言語別解析規則に従い、変換された文字コードから単語候補を切り出す工程と、
単語群及び単語群と単語区切り・原型・品詞・読み・固有情報との対応情報を含む統計的言語モデルを言語別に記憶する言語別統計的言語モデル記憶手段から当該言語の統計的言語モデルを抽出する工程と、
抽出された言語別統計的言語モデルに含まれる単語群と単語候補の対応を調べ形態素候補とし、該形態素候補に対応する前記言語別統計的言語モデルの単語区切り・原型・品詞・読み・固有情報を付与する解析処理を行う工程と、
解析された単語候補の文字コードを当該言語の文字コードに変換し、解析済みテキストを生成する工程と、
前記解析済みテキストを出力する工程とを有する
ことを特徴とするテキスト解析方法。
複数の言語を対象に、文字コードとして入力されたテキストに対して形態素解析及び固有表現抽出を行い、出力するテキスト解析プログラムであって、
任意の言語のテキストが文字コードとして入力されるとともに、入力言語の種類が入力されると、該文字コードを全言語共通の文字コードに変換する工程と、
言語別の各文字種と単語の平均単語長との対応及び文中の空白の扱い方により決定される、文字コードから単語候補を切り出すための字句解析規則を言語別に記憶する言語別字句解析規則記憶手段から、当該言語の字句解析規則を抽出する工程と、
抽出された言語別解析規則に従い、変換された文字コードから単語候補を切り出す工程と、
単語群及び単語群と単語区切り・原型・品詞・読み・固有情報との対応をよりなる統計的言語モデルを言語別に記憶する言語別統計的言語モデル記憶手段から当該言語の統計的言語モデルを抽出する工程と、
抽出された言語別統計的言語モデルに含まれる単語群と単語候補の対応を調べ形態素候補とし、該形態素候補に対応する前記言語別統計的言語モデルの単語区切り・原型・品詞・読み・固有情報を付与する解析処理を行う工程と、
解析された単語候補の文字コードを当該言語の文字コードに変換し、解析済みテキストを生成する工程と、
前記解析済みテキストを出力する工程とをコンピュータに実行させる
ことを特徴とするテキスト解析プログラム。