JP2004258759A - テキスト解析装置、方法及びプログラム - Google Patents

テキスト解析装置、方法及びプログラム Download PDF

Info

Publication number
JP2004258759A
JP2004258759A JP2003046049A JP2003046049A JP2004258759A JP 2004258759 A JP2004258759 A JP 2004258759A JP 2003046049 A JP2003046049 A JP 2003046049A JP 2003046049 A JP2003046049 A JP 2003046049A JP 2004258759 A JP2004258759 A JP 2004258759A
Authority
JP
Japan
Prior art keywords
language
word
character code
text
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003046049A
Other languages
English (en)
Other versions
JP4088171B2 (ja
Inventor
Kuniko Saito
邦子 齋藤
Masaaki Nagata
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003046049A priority Critical patent/JP4088171B2/ja
Publication of JP2004258759A publication Critical patent/JP2004258759A/ja
Application granted granted Critical
Publication of JP4088171B2 publication Critical patent/JP4088171B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】ヨーロッパ系言語(特に英語)とアジア系言語(特に日本語・中国語・韓国語)を対象として、同一システムで複数の言語を解析できるテキスト解析装置及びその方法等を提供する。
【解決手段】文字コード変換部1に文字コードが入力されると、その言語のローカルコードからユニコードに変換し、字句解析部2が、言語別字句解析規則を抽出しそれに基づいて入力文を字句解析し、単語候補を生成する。この単語候補に対して解析エンジン5が、言語別統計的言語モデルを抽出し、それに含まれる単語unigramモデルにより辞書引きを行い形態素候補を作成し、その形態素候補に対して言語別統計的言語モデルに基づいて解析処理を行う。最後に、文字コード変換部6が、ユニコードからX語のローカルコードへ文字コード変換し、X語解析済テキストを出力する。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、複数の言語を対象として形態素解析や固有表現抽出等を行う多言語処理技術に関連し、情報検索・テキスト音声合成・機械翻訳等の様々な自然言語処理アプリケーションにおいて、特にアジア系言語とヨーロッパ系言語を同じアプリケーションで処理する場合に必須となる技術に関する。
【0002】
【従来の技術】
インターネットの普及が進む現在、ネットワークを通じて様々な言語で書かれた情報に接する機会が日々増加している。ある検索エンジンの2000年の調査では、全世界のWebページの分布は、1位:英語(76.6%)、2位:日本語(2.77%)、3位:ドイツ語(2.28%)、以下、中国語(1.69%)、フランス語(1.09%)、スペイン語(0.81%)、韓国語(0.65%)と続いている。分布の大半を占めている英語は勿論のこと、日本・中国・韓国などのアジア圏からも有益な情報を得られなければ、折角の豊富な情報資源を十分活用しているとは言えない。
【0003】
そのため、日本語だけでなく外国語、特に英語やアジア系言語からも情報収集し、翻訳して内容を理解したいという要望は非常に強い。このように多言語情報資源を活用するためには、扱いたい言語についての解析技術の開発が必須である。
【0004】
従来、各言語の解析技術については、それを母国語とする地域の研究機関が個別に技術開発し、別の言語をターゲットとする際は改めて開発し直すことがよくあった。そのため複数の言語を処理できるシステムの開発維持には膨大な時間とコストがかかっていた。そこで近年では、一つのシステムで複数の言語を同時に解析できる多言語処理技術の開発が進められており、特にヨーロッパ系言語圏ではテキスト音声合成や情報検索などで複数の言語を一つのシステムで扱う多言語処理の研究が非常に進んでいる(例えば、非特許文献1参照)。一方、日中韓などのアジア系言語圏では、それぞれ個別の言語についての言語処理技術は進んでいるものの(例えば、非特許文献2、特願2002−139986参照)、多言語処理技術の研究は殆ど行われていない。特にヨーロッパ系言語とアジア系言語を両方扱う多言語処理技術については報告されていない。
【0005】
この状況の原因として、言語の特徴の違いが考えられる。ヨーロッパ系言語は予め単語を空白で区切って記述するので、単語の認定が容易であるのに対し、アジア系言語の多くは単語を繋げて書くので、どこからどこまでが一つの単語なのかを認定することが非常に困難である。これが、ヨーロッパ系言語圏では多言語処理技術の研究が進んでいるが、アジア系言語圏ではまだ発展途上にある理由のひとつと考えられる。アジア系言語において、複数の言語を扱う自然言語処理アプリケーションを開発するためには、言語別に存在する複数のシステムを統合するコストが膨大になるという問題がある。
【0006】
しかしながら、先に述べた通りアジア系言語圏でも、Web上の大部分を占める多言語情報源を有効に活用するために、ヨーロッパ系言語、特に英語も含めた多言語処理技術への期待は高い。
【0007】
ところで特許文献1には、言語識別を行うに際して、言語の記述の特徴、すなわち、その言語で頻繁に出現する特定文字を解析する技術が開示されている。具体的には、特定文字計数器から入力された文字列中の特定文字数、及び入力文字計数器から入力された文字列の文字数を出現率算出器が受け取り、特定文字の出現率を算出し、予め格納されている特定文字の標準出現率と比較器において比較することにより、入力文字列の言語を識別する構成である。
【0008】
【非特許文献1】
Sproat, R.: Multilingual Text Analysis for Text−to−Speech Synthesis, ECAI Workshop on Extended Finite−State Models of Language, 1996.
【非特許文献2】
Nagata, M.: A Part of speech Estimation Method for Japanese Unknown Words using a Statistical Model of Morphology and Context, ACL−99, pp277−284, 1999.
【特許文献1】
特開2000−231559号公報
【0009】
【発明が解決しようとする課題】
Web上にある膨大な多言語情報資源を有効に活用するためには、自然言語処理アプリケーションの開発維持コスト削減の上で、多言語処理技術が必須である。しかしながら、現状では、アジア系言語の多言語処理技術が未発達であり、ましてヨーロッパ系言語とアジア系言語を複数同時に共通のシステムで扱うことのできる多言語処理技術は殆ど研究例がない。
【0010】
本発明は上記問題に鑑みてなされたものであって、その目的とするところは、ヨーロッパ系言語(特に英語)とアジア系言語(特に日本語・中国語・韓国語)を対象として、同一装置で複数の言語を解析できるテキスト解析装置及びその方法等を提供することにある。
【0011】
【課題を解決するための手段】
本発明では、処理対象となる言語全てを装置内で全言語共通のコードに変換し、字句解析部において言語の違いに依存しやすい単語候補の作成を適切に行い、言語別の字句解析規則及び統計的言語モデルを切り替えることにより、複数の言語を同一の装置で解析できるようにしたものである。
【0012】
本願発明のテキスト解析装置では、前記目的を達成するため、複数の言語を対象に、文字コードとして入力されたテキストに対して形態素解析及び固有表現抽出を行い、出力するテキスト解析装置において、任意の言語のテキストを文字コードとして入力するとともに、入力言語の種類を入力する文字コード入力手段と、前記文字コード入力手段により入力された文字コードを、全言語共通の文字コードに変換する第1の文字コード変換手段と、言語別の各文字種と単語の平均単語長との対応及び文中の空白の扱い方により決定される、文字コードから単語候補を切り出すための字句解析規則を言語別に記憶する言語別字句解析規則記憶手段と、前記言語別字句解析規則記憶手段から当該言語の字句解析規則を抽出する言語別字句解析規則抽出手段と、前記言語別字句解析規則抽出手段によって抽出された言語別解析規則に従い、前記第1の文字コード変換手段により変換された文字コードから単語候補を切り出す文字コード解析手段と、単語群及び単語群と単語区切り・原型・品詞・読み・固有情報との対応情報を含む統計的言語モデルを言語別に記憶する言語別統計的言語モデル記憶手段と、前記言語別統計的言語モデル記憶手段から当該言語の統計的言語モデルを抽出する言語別統計的言語モデル抽出手段と、前記言語別統計的言語モデル抽出手段によって抽出された言語別統計的言語モデルに含まれる単語群と単語候補の対応を調べ形態素候補とし、該形態素候補に対応する前記言語別統計的言語モデルの単語区切り・原型・品詞・読み・固有情報を付与する解析処理を行う単語候補解析手段と、前記単語候補解析手段により解析された単語の文字コードを当該言語の文字コードに変換し、解析済みテキストを生成する第2の文字コード変換手段と、前記解析済みテキストを出力する解析済テキスト出力手段とを設ける。
【0013】
本発明に係るテキスト解析装置は、第1及び第2の文字コード変換手段が入出力の前後で各言語固有のローカルコードと全言語共通のコード間の変換を行い、装置内では全て全言語共通コードで符号化された文字列を処理対象とする。また、言語別字句解析規則を基に文字コード解析手段により言語の違いを吸収しながら入力文を字句解析し、単語候補を生成する。更に単語候補解析手段が、言語別統計的言語モデルに基づいて単語候補の形態素解析及び固有表現抽出を行う。以上により、アジア系言語、ヨーロッパ系言語にかかわらず複数の言語を対象として、同一の装置で動作するテキスト解析装置を実現できる。
【0014】
本願発明のテキスト解析方法は、複数の言語を対象に、文字コードとして入力されたテキストに対して形態素解析及び固有表現抽出を行い、出力するテキスト解析方法おいて、任意の言語のテキストが文字コードとして入力されるとともに、入力言語の種類が入力されると、該文字コードを全言語共通の文字コードに変換する工程と、言語別の各文字種と単語の平均単語長との対応及び文中の空白の扱い方により決定される、文字コードから単語候補を切り出すための字句解析規則を言語別に記憶する言語別字句解析規則記憶手段から、当該言語の字句解析規則を抽出する工程と、抽出された言語別解析規則に従い、変換された文字コードから単語候補を切り出す工程と、単語群及び単語群と単語区切り・原型・品詞・読み・固有情報との対応情報を含む統計的言語モデルを言語別に記憶する言語別統計的言語モデル記憶手段から当該言語の統計的言語モデルを抽出する工程と、抽出された言語別統計的言語モデルに含まれる単語群と単語候補の対応を調べ形態素候補とし、該形態素候補に対応する前記言語別統計的言語モデルの単語区切り・原型・品詞・読み・固有情報を付与する解析処理を行う工程と、解析された単語候補の文字コードを当該言語の文字コードに変換し、解析済みテキストを生成する工程と、前記解析済みテキストを出力する工程とを有することを特徴とするテキスト解析方法により上記目的を達成する。
【0015】
本願発明と前記特許文献1の技術とでは、言語の記述の特徴に基づいて言語処理を行うが、本願発明では各言語の平均文字長や空白の扱い方の言語間の相違を考慮しているのに対し、特許文献1の発明では各言語に頻繁に出現する特定文字を言語処理の基準としている点で異なり、それゆえ装置構成も異なる。また、前者が、アジア系言語、ヨーロッパ系言語にかかわらず複数の言語を対象として、同一の装置でテキストの形態素解析及び固有表現抽出を行うことができるのに対し、後者では、入力された言語を識別するという効果を有する。
【0016】
【発明の実施の形態】
本発明の一の実施形態にかかるテキスト解析装置10について、図1を参照しながらその構成及び動作を説明する。
【0017】
図1のテキスト解析装置10(以下、装置10と略記)において、1は文字コード変換部、2は言語別字句解析規則データベース、3は字句解析部、4は言語別統計的言語モデルデータベース、5は解析エンジン、6は文字コード変換部である。
【0018】
文字コード変換部1は、ローカルコード(各言語に与えられたコード)で書かれたX語(任意の言語)プレーンテキストと言語の種類が入力されると、X語プレーンテキストをローカルコードからユニコード(全言語共通に与えられたコード)に変換する。装置10内では全ての言語をユニコードで処理する。尚、ここでユニコードとは一つの例にすぎず、全言語共通のコードであればユニコードに限らなくてよい。
【0019】
一方、文字コード変換部6は、ユニコードで形態素解析及び固有表現抽出された文字コードを、X語のローカルコードに変換し、ローカルコードで書かれたX語解析済テキストを出力する。
【0020】
ローカルコードとは、計算機で文字を扱うために言語別に設定されているコードセットであり、例えば日本語では、EUC−JP、SJIS等、中国語ではGB等、韓国語ではKSC等がある。これらのローカルコードでは、異なる言語を同時に扱うことができない。そこで、世界中の言語を一つのコードセットにまとめたものが、ユニコードである。ユニコードを用いると、英語、日本語、中国語等を同時に扱うことができ、複数の言語を処理する多言語解析技術においては有用である。ユニコードとは、アルファベット、数字、記号、漢字(日中韓共通)、ひらがな、カタカナ、ハングル等の文字種のコードポイント範囲がプロパティとして定義されているだけでなく、利用者が目的に応じてプロパティをユーザ定義することも可能である。本発明では、文字種のプロパティ情報は、後記の字句解析部3で利用される。
【0021】
字句解析部3は入力された文字列から単語候補を切り出す。単語候補を切り出す処理にあたり、2つの点を基準として解析する。
【0022】
既に述べた通り、英語等のヨーロッパ言語は空白によって単語の分別を認識するが、日本語・中国語・韓国語等のアジア系言語の多くは、単語を繋げて書く習慣がある。例えば、韓国語では、ある程度空白を用いて区切ってはいるが、単語単位よりも長い文節単位で区切り、区切り型にも個人差がある。そのため、アジア系言語ではまず文から単語認定を行うことが処理の上で不可欠である。即ち、ヨーロッパ系言語では単語認定の必要がないのに対し、アジア系言語では単語認定が非常に難しい。そのため、この単語認定が、アジア系言語を処理する上で重要なポイントである。
【0023】
単語を認定するにあたり、まず入力文字列から単語候補となる文字列を切り出す。最も単純な手法は、各位置においてm文字の文字を全て単語とみなすものである。即ち、長さnの文字列からなる入力文を、s=c…cとすると、入力文中の位置iにおいて長さmの文字列c…ci+m−1(1≦m≦n+1−i)を全て単語候補とする。これは多くの言語で共通に適応できる手法ではあるが、単語候補の中には単語にはなりえない文字列を大量に含むことになるため、後に行う統計的言語モデルに基づく解析処理において、確率計算の場合の数が膨大となって解析速度が遅くなり、実用上問題がある。そこでより効果的な単語候補認定の処理が必要となる。
【0024】
単語の認定においては、文字種が重要な手がかりとなることが多い。例えば、言語共通に言えるのは、数字と記号の列は製品番号や電話/郵便/番地番号表記であるとか、アルファベットとある記号類の列がURLやメールアドレスであるということである。ただし、国によって微妙に流儀が代わる場合があることには注意が必要である。
【0025】
これらを考慮し、本発明の字句解析部3は、言語別の平均単語長を、単語候補認定の一つの基準とする。
【0026】
言葉別の特徴としては、日本語では文字種の変わり目が単語の切れ目になりやすい。特に、カタカナはひとまとまりで外来語等を示すことが多い。また、文字種の構成によって平均単語長も異なる。例えば、漢字なら2文字前後、平仮名なら1から4文字程度といった具合である。
【0027】
しかしながら、中国語や韓国語では文の殆どがそれぞれ漢字またはハングルという同一の文字種で構成されているため、日本語ほど文字種の情報が有効ではないが、アルファベットや数字等、文字種が変われば単語の切れ目になりやすいという傾向、及び文字種によって平均単語長が異なるという性質を利用することができる。中国語では殆どの漢字は1から2文字であるが、外来語を漢字で表現する時は4文字程度となる。韓国語では、漢字1文字がハングル1文字に対応し、またハングルは子音−母音−子音を含むので、日本語のカタカナ外来語に想到するものは大体3文字程度で表現される。
【0028】
本発明の字句解析部3は、単語候補を切り出す処理にあたり、さらに言語別に異なる空白の扱いを処理基準とする。
【0029】
日本語・中国語の場合、空白が入力文にある場合、空白を常に1つの単語として認定して出力に含むことが期待される。しかし、英語や韓国語等、単語または文節の区切りとして空白を用いる言語の場合は、入力文に含まれる空白を1つの単語として認定し、出力することは期待されない。例えば、I have a pen.であれば‘I/代名詞’‘have/動詞’‘a/冠詞’‘pen/名詞’と解析されるべきであり、‘I/代名詞’‘/空白’‘have/動詞’‘/空白’‘a/冠詞’‘/空白’‘pen/名詞’とはならない。しかし、英語や韓国語では空白を含む単語(複数の単語からなる複合語)は数多く存在し、例えば、I live in New York.であれば、‘I/代名詞’‘live/動詞’‘in/前置詞’‘New York/名詞’のように、‘New York/名詞’で1つの単語と認定したい場面は多い。
【0030】
この空白の扱いの差は、後に説明する解析エンジン5で用いる統計的言語モデルにおいて、空白を言語モデルに含むべきかという問題と関係する。日本語や中国語では殆ど空白が登場しないため、空白が登場したという事実が1つの重大な手がかりといえるが、英語や韓国語のように区切りとして空白を多様する言語では、空白は連接の手がかりとして重要な情報を持たないのである。
【0031】
このように言語別、または同じ言語でも状況によって異なる空白の扱いの差を吸収するために字句解析部3は機能する。日本語・中国語では常に空白を単語候補として生成させ、英語・韓国語では、空白単独では単語候補とせず無視し、複数の単語からなる単語を候補とするときには空白を含めるといった規則を記述しておけばよい。
【0032】
各言語に則した処理規則について説明する。図2乃至図5は、字句解析部3が従う言語別字句解析規則の1例である。文字種によって切り出す単語の長さが決めてある。言語別に文字種の構成や単語長等の特徴が異なるが、それぞれ規則で書き分けることができる。
【0033】
図2は、日本語における文字種と対応する字句解析規則の1例を表している。日本語では文字種の変わり目が単語の切れ目になりやすい。特に、カタカナはひとまとまりで外来語等を示すことが多い。また、文字種の構成によって平均単語長も異なる。例えば、漢字なら2文字前後、平仮名なら1から4文字程度といった具合である。このような日本語の特徴を考慮し、文字種が漢字であれば1から3文字までの範囲で文字列を切り出し、平仮名であれば文字種が変わるまで1から5文字までの範囲で文字列を切り出し、カタカナであれば文字種が変わるまで1つにまとめ、字種境界までスキップする。また、アルファベットまたは数字であれば、文字種が変わるまで1つにまとめ、字種境界までスキップし、記号は1文字で切り出す。例えば、「ADSLが」であれば、「ADSL」「が」のみを生成し、「A」「AD」「ADS」等は生成しない。小数点や位取りの記号「.」「,」を数字とともにまとめたい場合は、ユニコードの文字種プロパティをユーザ定義し、数字「0〜9」に記号「.」「,」を含むようにしておけばよい。尚、日本語の場合は、漢字と平仮名からなる単語も存在するので、漢字と平仮名の文字列が連続していたら、3文字までの範囲で繋げるという規則を設けた。
【0034】
図6は、言語別字句解析規則に基づいた字句解析によって切り出される単語候補の日本語についての1例である。漢字は1から3文字(例えば、「研」「研究」「研究所」)、平仮名は1から4文字(例えば、「れ」「れて」「れてい」「れていま」)で文字列を切り出し、カタカナ(例えば、サービス)、記号(例えば、km)、数字(例えば、50)、アルファベット(例えば、ADSL)は同じ文字種のものをひとまとめにし、その途中位置では単語候補を生成している。さらに、「離」「離れ」「離れる」のように、3文字までの漢字かな混じりの候補も生成する。
【0035】
中国語や韓国語では文の殆どがそれぞれ漢字またはハングルという同一の文字種で構成されているため、日本語ほど文字種の情報が有効ではないが、アルファベットや数字等、文字種が変われば単語の切れ目になりやすいという傾向、及び文字種によって平均単語長が異なるという性質を利用することができる。中国語では殆どの漢字は1から2文字であるが、外来語を漢字で表現する時は4文字程度となる。韓国語では、漢字1文字がハングル1文字に対応し、またハングルは子音−母音−子音を含むので、日本語のカタカナ外来語に想到するものは大体3文字程度で表現される。これらの特徴に鑑み、韓国語では図3の例に示すように、文字種がハングルであるときは、文字種が変わるまで1から3文字までの範囲で文字列を切り出し、漢字、アルファベットまたは数字であるときは、文字種が変わるまで1つにまとめ、字種境界までスキップし、記号であれば1文字で切り出す。尚、空白の場合は、次の文字位置へスキップする。中国語では図4の例に示すように、文字種が漢字のときは、文字種が変わるまで1から4文字までの範囲で文字列を切り出し、アルファベットまたは数字であるときは、文字種が変わるまで1つにまとめ、字種境界までスキップする。また、記号のときは1文字で切り出す。
【0036】
英語等のヨーロッパ系言語の場合は、前述のように単語間が空白なので単語の分別を行いやすい。したがって、図5の例に示すように、文字種がアルファベットの場合は、文字種が変わるまで、または空白が現れるまで一つにまとめ、数字のときは、文字種が変わるまで一つにまとめ、字種境界までスキップし、記号の場合は、1文字で切り出す。尚、空白の場合は、次の文字位置へスキップする。また、ヨーロッパ系言語の場合は、空白を挟んだ複数の単語が1つの複合語を表す場合があるので、アルファベットの単語が連続したら、3単語までの範囲で間に空白を挟んだ状態で繋げる。
【0037】
図7は、言語別字句解析規則に基づいた字句解析によって切り出される単語候補の英語についての1例である。英語では、空白は単語候補とはせず無視しながら、空白で区切られた文字列を単語候補とする。これにより、複数の単語からなる複合語(3単語までのアルファベット列)からなる単語候補(例えば、New York)も切り出される。
【0038】
図2乃至図5の言語別字句解析規則は、言語別字句解析規則データベース2に格納されており、字句解析部3は、この規則を参照しながら状況に応じて単語候補を作成することで、言語の違いを吸収することが可能となる。ここで利用する文字種の情報はユニコードのプロパティから得る。
【0039】
以上のようにして、文字種とその平均単語長及び空白の扱い方から字句解析規則を言語別に記述し、言語別字句解析規則データベース2に格納しておき、字句解析部2で入力によって指定された解析する言語について言語別字句解析規則データベース2から当該字句解析規則を参照することによって、字句解析部3は言語毎に適切な単語候補を生成でき、言語の違いを吸収することができる。
【0040】
解析エンジン5では、字句解析部3で生成された単語候補に対し、辞書引きを行い、辞書に含まれる単語群に対応する単語候補を形態素候補とする。辞書にない単語の場合は未知語として形態素候補とし、これらの形態素候補に対して統計的言語モデルに基づく解析処理を実行する。統計的言語モデルは、言語別に言語別統計的言語モデルデータベース4に格納されており、解析エンジン5は解析処理の際、指定された言語の統計的言語モデルを参照する。尚、ここでいう辞書引きで使用する辞書とは、統計的言語モデルに含まれる単語unigramモデルのことを指す。これは、単語とその出現頻度が記録されたテーブルであり、この単語のエントリから、表記をキーにして単語を検索すれば辞書引きが可能となる。
【0041】
統計的言語モデルは、目的の処理に応じて様々であるが、いくつか例を挙げると、形態素解析処理では、単語bigramモデル、品詞trigramモデル等、固有表現抽出処理では、隠れマルコフモデル等がある。これらのモデルは、いずれも単語区切り・原型・品詞・読み・固有情報等の連接頻度から学習できるものであり、予め人手で単語区切り・原型・品詞・読み・固有情報等が付与されている学習コーパスを、言語別に用意しておけば、そのデータからモデルに必要な連接頻度を学習することができる。即ち、この解析エンジン5で使用する統計的言語モデルは、言語に依存しない共通のアルゴリズムで実現できる。
【0042】
解析エンジン5では、言語別統計的言語モデルに含まれる単語群と単語の区切り・原型・品詞・読み等の対応情報から、辞書引きにより決定した形態素候補に対応する単語の区切り・原型・品詞・読み等を抽出し形態素候補に付与する。さらに言語別統計的言語モデルに含まれる単語群と固有情報の対応情報から、辞書引きにより決定した形態素候補に対応する固有情報を抽出し形態素候補に付与する。
【0043】
文字コード変換部6は、解析結果をユニコードからX語のローカルコードに変換し、最終的には入力テキストをローカルコードで書かれた解析済テキストとして出力する。
【0044】
図8に、形態素解析(中国語、韓国語)、固有表現抽出(英語、日本語)の入出力結果の一例を示す。形態素解析では単語に分割され、中国語の場合は読みと品詞情報が、韓国語の場合は原型と品詞情報が付加されている。固有表現抽出では、形態素解析情報(英語では原型と品詞情報、日本語では読みと品詞情報)の他に、更に固有表現情報(人名<PSN>、地名<LOC>、組織名<ORG>等、固有表現を示す情報)が付加されている。この例では、プロパティのユーザ定義をさらに増やし、「1984年」「1月」「2,300万」等の数字を含む表現をより自然に候補として選択できるようにしてある。
【0045】
図9を参照し、本発明のテキスト解析装置10の処理手順について説明する。本発明のテキスト解析装置10は、アジア系言語、ヨーロッパ系言語にかかわらず、任意の言語を扱うことができるので、処置対象となる言語をX語とする。文字コード変換部1は、X語プレーンテキストが入力されるとともに、入力言語の種類(X語)が入力され、文字コードを認識すると、そのX語のローカルコードがユニコードに変換される。入力言語の種類は字句解析部3及び解析エンジン5に記憶される(S1)。続いて、字句解析部3が、言語別の各文字種と単語の平均単語長との対応及び文中の空白の扱い方により決定され、言語別字句解析規則データベース2においてハードディスク等に書き込まれている言語別字句解析規則であって、入力されたX語に対応するものを抽出し(S2)、それに基づいて入力文を字句解析し、単語候補を切り出す(S3)。続いて解析エンジン5が、言語別統計的言語モデルデータベース4のハードディスク等に格納された言語別の単語区切り・原型・品詞・読み・固有情報等を含む、入力されたX言語の言語別統計的言語モデルを抽出し(S4)、それに含まれる単語unigramモデルの単語群と単語候補の対応を調べ形態素候補とし、その形態素候補に対して、単語区切り・原型・品詞・読み・固有情報等含む言語別統計的言語モデルに基づいて、各形態素候補の単語区切り・原型・品詞・読み・固有情報等を付与する解析処理を行う(S5)。最後に、文字コード変換部6が、ユニコードからX語のローカルコードへ文字コード変換し(S6)、X語解析済テキストを出力する(S7)。
【0046】
ここで、処理ステップS1乃至S7をコンピュータのCPU等の制御手段で実行することにより、本願発明のテキスト解析方法を実現することが可能である。言語別統計的言語モデル、単語unigramモデルはいずれもコンピュータのハードディスク等の記憶手段に記憶されているものを用いる。
【0047】
尚、本発明のテキスト解析方法は、コンピュータのCPU等の制御手段にCD等の記憶媒体や通信回線から本願発明のテキスト解析プログラムをダウンロードする等により実現することができる。
【0048】
【発明の効果】
以上説明したように、本発明によれば、言語別字句解析規則データベースに格納された言語別字句解析規則と、その規則に基づいて動作する字句解析部と、言語別統計的言語モデルデータベースに格納された言語別統計的言語モデルと、そのモデルに基づいて統計的言語処理を行う解析エンジンの動作により、テキスト解析装置内の動作を全て全言語共通のコードに統一することにより、単語または文節間の空白の扱いや、字種等の言語の違いに影響を受ける単語候補の作成を適切に処理し、言語別の規則及び言語モデルを切り替えながら、同一の装置で複数の言語、とりわけアジア系言語とヨーロッパ系言語であっても、同一の装置において言語処理が可能となる。
【図面の簡単な説明】
【図1】本発明におけるテキスト解析装置の一実施形態の機能ブロック図
【図2】字句解析規則の日本語の場合の例を示す図
【図3】字句解析規則の韓国語の場合の例を示す図
【図4】字句解析規則の中国語の場合の例を示す図
【図5】字句解析規則の英語の場合の例を示す図
【図6】字句解析で生成する単語候補の日本語の場合の例を示す図
【図7】字句解析で生成する単語候補の英語の場合の例を示す図
【図8】形態素解析及び固有表現抽出の例を示す図
【図9】本願発明の動作を示すフローチャート
【符号の説明】1、6…文字コード変換部、2…言語別字句解析規則データベース、3…字句解析部、4…言語別統計的言語モデルデータベース、5…解析エンジン、6…文字コード変換部、10…テキスト解析装置。

Claims (3)

  1. 複数の言語を対象に、文字コードとして入力されたテキストに対して形態素解析及び固有表現抽出を行い、出力するテキスト解析装置であって、
    任意の言語のテキストを文字コードとして入力するとともに、入力言語の種類を入力する文字コード入力手段と、
    前記文字コード入力手段により入力された文字コードを、全言語共通の文字コードに変換する第1の文字コード変換手段と、
    言語別の各文字種と単語の平均単語長との対応及び文中の空白の扱い方により決定される、文字コードから単語候補を切り出すための字句解析規則を言語別に記憶する言語別字句解析規則記憶手段と、
    前記言語別字句解析規則記憶手段から当該言語の字句解析規則を抽出する言語別字句解析規則抽出手段と、
    前記言語別字句解析規則抽出手段によって抽出された言語別解析規則に従い、前記第1の文字コード変換手段により変換された文字コードから単語候補を切り出す文字コード解析手段と、
    単語群及び単語群と単語区切り・原型・品詞・読み・固有情報との対応情報を含む統計的言語モデルを言語別に記憶する言語別統計的言語モデル記憶手段と、
    前記言語別統計的言語モデル記憶手段から当該言語の統計的言語モデルを抽出する言語別統計的言語モデル抽出手段と、
    前記言語別統計的言語モデル抽出手段によって抽出された言語別統計的言語モデルに含まれる単語群と単語候補の対応を調べ形態素候補とし、該形態素候補に対応する前記言語別統計的言語モデルの単語区切り・原型・品詞・読み・固有情報を付与する解析処理を行う単語候補解析手段と、
    前記単語候補解析手段により解析された単語の文字コードを当該言語の文字コードに変換し、解析済みテキストを生成する第2の文字コード変換手段と、
    前記解析済みテキストを出力する解析済テキスト出力手段とを有する
    ことを特徴とするテキスト解析装置。
  2. 複数の言語を対象に、文字コードとして入力されたテキストに対して形態素解析及び固有表現抽出を行い、出力するテキスト解析方法であって、
    任意の言語のテキストが文字コードとして入力されるとともに、入力言語の種類が入力されると、該文字コードを全言語共通の文字コードに変換する工程と、
    言語別の各文字種と単語の平均単語長との対応及び文中の空白の扱い方により決定される、文字コードから単語候補を切り出すための字句解析規則を言語別に記憶する言語別字句解析規則記憶手段から、当該言語の字句解析規則を抽出する工程と、
    抽出された言語別解析規則に従い、変換された文字コードから単語候補を切り出す工程と、
    単語群及び単語群と単語区切り・原型・品詞・読み・固有情報との対応情報を含む統計的言語モデルを言語別に記憶する言語別統計的言語モデル記憶手段から当該言語の統計的言語モデルを抽出する工程と、
    抽出された言語別統計的言語モデルに含まれる単語群と単語候補の対応を調べ形態素候補とし、該形態素候補に対応する前記言語別統計的言語モデルの単語区切り・原型・品詞・読み・固有情報を付与する解析処理を行う工程と、
    解析された単語候補の文字コードを当該言語の文字コードに変換し、解析済みテキストを生成する工程と、
    前記解析済みテキストを出力する工程とを有する
    ことを特徴とするテキスト解析方法。
  3. 複数の言語を対象に、文字コードとして入力されたテキストに対して形態素解析及び固有表現抽出を行い、出力するテキスト解析プログラムであって、
    任意の言語のテキストが文字コードとして入力されるとともに、入力言語の種類が入力されると、該文字コードを全言語共通の文字コードに変換する工程と、
    言語別の各文字種と単語の平均単語長との対応及び文中の空白の扱い方により決定される、文字コードから単語候補を切り出すための字句解析規則を言語別に記憶する言語別字句解析規則記憶手段から、当該言語の字句解析規則を抽出する工程と、
    抽出された言語別解析規則に従い、変換された文字コードから単語候補を切り出す工程と、
    単語群及び単語群と単語区切り・原型・品詞・読み・固有情報との対応をよりなる統計的言語モデルを言語別に記憶する言語別統計的言語モデル記憶手段から当該言語の統計的言語モデルを抽出する工程と、
    抽出された言語別統計的言語モデルに含まれる単語群と単語候補の対応を調べ形態素候補とし、該形態素候補に対応する前記言語別統計的言語モデルの単語区切り・原型・品詞・読み・固有情報を付与する解析処理を行う工程と、
    解析された単語候補の文字コードを当該言語の文字コードに変換し、解析済みテキストを生成する工程と、
    前記解析済みテキストを出力する工程とをコンピュータに実行させる
    ことを特徴とするテキスト解析プログラム。
JP2003046049A 2003-02-24 2003-02-24 テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体 Expired - Lifetime JP4088171B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003046049A JP4088171B2 (ja) 2003-02-24 2003-02-24 テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003046049A JP4088171B2 (ja) 2003-02-24 2003-02-24 テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2004258759A true JP2004258759A (ja) 2004-09-16
JP4088171B2 JP4088171B2 (ja) 2008-05-21

Family

ID=33112707

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003046049A Expired - Lifetime JP4088171B2 (ja) 2003-02-24 2003-02-24 テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP4088171B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2489512A (en) * 2011-03-31 2012-10-03 Clearswift Ltd Classifying data using fingerprint of character encoding
JP2019522847A (ja) * 2016-06-07 2019-08-15 アリババ グループ ホウルディング リミテッド データを抽出するための方法、デバイス及び端末デバイス
JP2019191900A (ja) * 2018-04-24 2019-10-31 日本電信電話株式会社 言語特徴の抽出装置、固有表現の抽出装置、抽出方法、及びプログラム
US20220405472A1 (en) * 2021-06-17 2022-12-22 International Business Machines Corporation Intent classification using non-correlated features

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103389973A (zh) * 2013-07-23 2013-11-13 安阳师范学院 一种利用中文人名判定性别的方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2489512A (en) * 2011-03-31 2012-10-03 Clearswift Ltd Classifying data using fingerprint of character encoding
JP2019522847A (ja) * 2016-06-07 2019-08-15 アリババ グループ ホウルディング リミテッド データを抽出するための方法、デバイス及び端末デバイス
US11175820B2 (en) 2016-06-07 2021-11-16 Advanced New Technologies Co., Ltd. Method, device, and terminal device for extracting data
JP2019191900A (ja) * 2018-04-24 2019-10-31 日本電信電話株式会社 言語特徴の抽出装置、固有表現の抽出装置、抽出方法、及びプログラム
WO2019208507A1 (ja) * 2018-04-24 2019-10-31 日本電信電話株式会社 言語特徴の抽出装置、固有表現の抽出装置、抽出方法、及びプログラム
US11809820B2 (en) 2018-04-24 2023-11-07 Nippon Telegraph And Telephone Corporation Language characteristic extraction device, named entity extraction device, extraction method, and program
US20220405472A1 (en) * 2021-06-17 2022-12-22 International Business Machines Corporation Intent classification using non-correlated features
US11966699B2 (en) * 2021-06-17 2024-04-23 International Business Machines Corporation Intent classification using non-correlated features

Also Published As

Publication number Publication date
JP4088171B2 (ja) 2008-05-21

Similar Documents

Publication Publication Date Title
CN1954315B (zh) 用于将汉语拼音翻译成汉字的系统和方法
US20060047500A1 (en) Named entity recognition using compiler methods
KR101266361B1 (ko) 구조화된 번역 메모리 기반의 자동 번역 시스템 및 자동 번역 방법
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
CA2523992C (en) Automatic segmentation of texts comprising chunks without separators
Constant et al. Combining compound recognition and PCFG-LA parsing with word lattices and conditional random fields
KR101023209B1 (ko) 문서 번역 장치 및 그 방법
Sarabi et al. ParsiPardaz: Persian language processing toolkit
Naz et al. Urdu part of speech tagging using transformation based error driven learning
Onyenwe et al. Toward an effective igbo part-of-speech tagger
JP4088171B2 (ja) テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体
Soumya et al. Development of a POS tagger for Malayalam-an experience
Yeshambel et al. Evaluation of corpora, resources and tools for Amharic information retrieval
Saito et al. Multi-language named-entity recognition system based on HMM
Asghari et al. A probabilistic approach to persian ezafe recognition
Govilkar et al. Part of speech tagger for Marathi language
JP4478042B2 (ja) 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置
Seresangtakul et al. Thai-Isarn dialect parallel corpus construction for machine translation
Baishya et al. Present state and future scope of Assamese text processing
CN113330430A (zh) 语句结构向量化装置、语句结构向量化方法及语句结构向量化程序
Galicia-Haro Using electronic texts for an annotated corpus building
JP2014170296A (ja) 語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラム
KR20040051351A (ko) 단어레벨의 통계적 방법을 이용한 번역문 생성 방법 및 그장치
Samir et al. Training and evaluation of TreeTagger on Amazigh corpus
JP2002351870A (ja) 形態素の解析方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070515

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070717

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071025

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20071112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080222

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110228

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4088171

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110228

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120229

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130228

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term