JPH0821032B2

JPH0821032B2 - 言語解析装置

Info

Publication number: JPH0821032B2
Application number: JP61240215A
Authority: JP
Inventors: 壽彦横川
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1986-10-11
Filing date: 1986-10-11
Publication date: 1996-03-04
Anticipated expiration: 2011-03-04
Also published as: JPS6395569A

Description

【発明の詳細な説明】技術分野本発明は言語解析装置、とくに、たとえば自動翻訳装
置に有用な自然言語を解析する言語解析装置に関する。

従来技術たとえば英語などの外国語の文からそれに対応する日
本語の文を作成する場合、入力された英文の形態素を解
析し、その構文を解析し、その文構造を変換し、そのの
ち日本語の訳文を生成する。

文の形態素を解析する際、ある言語における数の表現
が他の言語における数の表現と必ずしも１対１で対応し
ないことがある。たとえば、英語などのヨーロッパ語で
は、日本語と数を数える際の基本的発想、すなわち位取
りが相違する。そこで、数を表わす語を英語と日本語で
１対１に対応させると、適切な翻訳が行なわれないこと
がある。たとえば、英語の“ten"は日本語の「十」であ
り、英語の“thousand"は日本語の「千」である。この
ような単純な対応方式をとると、たとえば“ten thousa
nd"は単に「十千」と翻訳されてしまう。つまり位取り
のずれが生ずる。この「十千」を「万」なる位取りを示
す語に変換するために、従来の方式では、両者の対応を
示すテーブルを備え、逐一これを参照していた。このよ
うな位取り変換データをすべての位取りについて対応テ
ーブルとして備えていたのでは、システムのもつデータ
量が総体的に多くなりすぎてしまう。

たとえば英語の数値表現“a hundred and two thousa
nd tow hundred and four"を、その構成要素に単純に分
解して日本語のそれぞれ対応する数表現に置換するだけ
の単純なシステムでは、これは単に「百と２千２百と
４」として解析されるにすぎない。本来これは、最終的
に日本語でも「102,204」すなわち「10万２千２百４」
と解すべきである。

また、たとえば英語の場合、“＄1.5 million"といっ
た表現も多く用いられるが、このような通貨記号を含む
単位記号の付された数値からなる連語を適切に翻訳する
には、この連語を数値“1.5 million"に単位記号“＄”
が付加されたものとして正しく解析することが要求され
る。しかし、スペースすなわち空白文字を単語の切れ目
とするような単純な解析を行なう従来のシステムでは、
これを“1.5 dollars"と“million"の２組の要素からな
っていると誤って解析してしまう。

目的本発明はこのような要求に鑑み、数値を含む表現につ
いて適切な形態素解析を行なうことのできる言語解析装
置を提供することを目的とする。

構成本発明は上記の目的を達成させるため、辞書引き単位
ごとに辞書データが格納された辞書手段と、入力された
文を辞書引き単位に分け、辞書引き単位について辞書手
段を参照して形態素解析を行なう解析手段とを有する言
語解析装置において、辞書手段は、数を表わす辞書引き
単位について辞書引き単位が数を表わすことを示す識別
表示を辞書データとして含み、解析手段は、入力された
文に含まれるそれぞれの辞書引き単位について辞書手段
を参照し、索出された辞書データに識別表示が含まれる
ときは、この識別表示が索出された辞書引き単位をその
辞書引き単位の付近にあって他の識別表示が索出された
辞書引き単位と組み合わせ、両辞書引き単位の意味する
数値を互いに演算して単一の数値とし、両辞書引き単位
を単一の解析単位とすることを特徴としたものである。
以下、本発明の一実施例に基づいて具体的に説明する。

第２図を参照すると、本発明による言語解析装置を英
日自動翻訳装置に適用した実施例の全体構成が示されて
いる。なお本発明は、英語を日本語に翻訳する英日自動
翻訳装置のみならず、ある言語を他の言語に翻訳する際
おもに、入力される言語の文を解析する如何なる言語の
解析装置にも効果的に適用されることは、言うまでもな
い。

同実施例は入力部10を有し、日本語に翻訳すべき英文
テキスト12がこれにより入力される。入力部10はたとえ
ば、英数字キーなどの文字キーや機能キーなどを有する
キーボード、紙に記録された英文テキストを読み取る光
学的文字読取装置（OCR），および（または）磁気ディ
スクなどの記憶媒体に記録された英文テキストを読み込
むファイル記憶装置などを含んでよい。

入力部10により入力された英文テキストは、前編集部
14に読み込まれ、翻訳の前処理が行なわれる。ここで
は、主として文の認定と未知語の処理を行なう。これは
形態素解析の一部として機能する。

前編集された英文データは、前編集で得られた情報と
ともに形態素解析部16に転送される。形態素解析部16で
は、単語辞書18を索引して文に分割し、英文の形態素を
解析し、未知語の処理、固有名詞、時の表現、数の表現
などの各種のまとめあげを行ない、付加疑問、同格の認
定などの文全体の処理を行なう。その形態素解析ルール
は解析ルールファイル36に格納されている。

形態素解析された英文データは、形態素解析で得られ
た辞書情報とともに構文解析Ｉ部20に転送される。構文
解析Ｉ部20は、文法ルールを英文データに適用して文に
ついて表層構造の解析を行ない、すべての構文的可能性
を見つけ出す機能部である。

構文解析Ｉ部20で構文解析された英文データは、その
解析情報とともに構文解析II部22に送られる。ここで
は、構文解析Ｉによる表層的な構文解析結果から、構造
記述を適用して解を選択する。これによって英語文の確
からしい解析木を作成し、その構造を作る。これらの構
文解析ルールはやはり、解析ルールファイル36に格納さ
れている。

構文解析された英文データは、解析木のデータとして
構造変換部24に転送される。構造変換部24では、英語文
の中間的構造である構文木から対応する日本語文の構文
木を作成し、日本語文を訳出しやすい日本語基底構造に
変換する。

こうして構造変換された日本語の基底構造を示す構文
木データは訳文生成部26に送出され、後者にて訳文の生
成が行なわれる。これは、日本語の構文木の木構造から
日本語の文を生成する機能部である。

訳文生成された日本語文データ、すなわち訳文データ
は、後編集部30に送られる。後編集部30では、翻訳処理
に利用した情報を使用し、辞書18を牽引して訳文データ
を修正し、より自然な日本語文を完成する。この日本語
文データは出力部32に転送され、翻訳された日本語文34
として出力部32から出力される。出力部32は、たとえば
プリンタ、ディスプレイ、および（または）磁気ディス
クなどのファイル記憶装置を含む。

これらの一連の翻訳処理の流れは、本装置全体の制御
を統括する制御部38によって制御される。

単語辞書18には、本実施例では英語および日本語の単
語についての辞書データが格納され、語彙だけでなく、
係り関係すなわち共起関係や、意味、単複、品詞などの
様々な情報が記述されている。また解析ルールファイル
36には、形態素解析および構文解析のルールデータが格
納されている。

制御部38には、操作表示部40が接続されている。操作
表示部40は、操作者から本装置に様々な指示を与える、
たとえば翻訳指示キー、カーソルキーなどの操作キー
や、入力英語文テキスト、翻訳結果の日本語文、辞書情
報などの中間データ、操作者に対する様々な指示などを
可視表示するディスプレイやインジケータを有する。な
お、それらの操作表示機能の多くは、入力部10にキーボ
ードを備えている場合はそのキーボードに、また出力部
32にディスプレイを備えている場合はそのディスプレイ
に含まれるように構成してよい。

第１図を参照すると、形態素解析部16の数の処理に関
する詳細な構成が例示されている。形態素解析部16は、
当然他の解析機能部も有するが、ここでは本発明の理解
に直接関連のある部分について示してある。形態素解析
は、入力文字列の先頭から順に検索キーの文字列に従っ
て辞書検索を指示し、これに従って辞書検索部104から
得た辞書情報を後述の数字フラグに従った処理などを実
行することによって行なわれる。

形態素解析部16は、前処理部14から入力される入力文
字列データを受けて入力処理するための入力処理部100
を有する。入力処理部100には、たとえばASCIIなどのコ
ードデータの形で英文文字列データが入力され、その文
字列データを一時蓄積する入力文字列バッファが備えら
れている。

入力処理部100に一時蓄積された入力文字列データを
単語などの辞書引き単位に切り出す単位切出し部102に
送られる。単位切出し部102は、後に辞書検索部104にて
辞書18を検索する際、その検索キー文字列を構成する辞
書引き単位を識別する機能部である。辞書引き単位の切
出し処理で使用される辞書引きデリミタは、英文字、数
字、アポストロフィ、ハイフンおよびピリオド以外の文
字、ならびに空白文字に続くアポストロフィの位置に置
かれる。これは、デリミットテーブル108に格納され、
単位切出し部102で辞書引き単位の切出しの際参照され
る。

単語辞書18は、とくに切出し単位を検索するための情
報が格納されている。たとえば第８図にそのエントリ情
報の例を示すように、各辞書引き単位、たとえば単語の
エントリについて品詞などの文法情報の他に、数を表わ
す語については、それが数を表わすことを示す識別表示
すなわち数字フラグと、その数値を示す数値情報が格納
されている。

同図に例示するように、単語辞書18における各エント
リは、単数形と複数形の両方が併記され、それぞれ１つ
のエントリを構成している。数字フラグは、「１」が立
っているとその語が数を意味する語であることを表示す
るフラグである。その他の情報としては、たとえば名詞
の可算、不可算の別、自動詞、他動詞の別、訳語などが
登録されている。たとえば“thousand"は、数を示す名
詞であるのでその数字フラグが「１」であり、数値は
「1000」である。また“thread"は、名詞であるが数を
示す名詞すなわち数詞ではないので、数字フラグは
「０」として登録されている。

数の認定は、たとえば“one"“thousand"などのよう
に辞書18に登録されている語の場合、その数字フラグで
行なわれる。未登録語でも、たとえば「123」などの数
字連、「10.2」などの小数のように２組の数字連の間に
ピリオドをはさむもの、および「1,000,000」などのよ
うに数字連の間にコンマを含むものも数と認定される。
なお、本明細書において用語「数字」は通常、単に算用
数字のみならず、“thirteen"などとスペルアウトした
数表現も含むものとする。

なお、第12図に示すように辞書18には、様々な通貨記
号を登録した通貨記号テーブル18a,位取り記号“,"“."
“（スペース）”などを登録した位取り記号テーブル18
b,および小数点“."“,"などを登録した小数点テーブル
18cを備えている。このように位取り記号や小数点につ
いてテーブルを備えているのは、周知のように、日本語
や英語では、位取り記号に“,"を、また小数点に“."を
使用するが、フランス語やドイツ語などの他のヨーロッ
パ語では主として位取り記号にスペースまたは“."を、
小数点に“,"を使用するなど、対象とする言語によっ
て、記号の用法が相違するためである。

辞書検索部104は、単位切出し部102から入力される検
索キー文字列に基づき、単語辞書18を検索して辞書情報
を取り出し、これを処理部110,112,114および116に転送
する機能部である。

数字連のまとめあげは、次の２つの処理にて行なう。
まず、前述のようにして数と認定された場合、次の辞書
引き単位を見てそれも数と認定されると、これらをまと
めて１つの数を合成する。数が続くかぎりこの操作を繰
り返す。たとえば“30 thousand"は「30000」、“1.5 m
illion"は「1500000」となる。次に、“and"をはさんで
さらに数表現が続くときは、それらの数表現の意味上
で、“and"の右側でポインタが指示している数値の各桁
に対応した“and"の左側の桁がすべて“0"であるとき、
１つの数に合成する。たとえば“one hundred and thir
ty"は「130」に、また“30 thousand and two hundred"
は「30200」になる。

このような数の認定ののち、さらに必要な局所解析を
行なう。これは、局所解析ルールに基づいて各解析単位
の形態素起動情報から起動される連続した解析単位を１
つの解析単位にまとめあげる。たとえば、通貨記号と数
字“￥1,000"は「1000円」に、また数字と単位“1.5km"
は「1.5キロメートル」にまとめあげる。

これらのまとめあげ処理は処理部110〜122にて行なわ
れる。処理部110は、数詞を通貨記号または単位とまと
めあげる処理を行なう機能部である。処理部112は、数
詞を数値化する処理を行なう機能部である。また処理部
114は、ハイフンで連結された数詞の処理を行なう機能
部である。さらに処理部116は、連続した数字を処理す
る機能部である。

通貨記号または単位とのまとめあげ処理を行なった数
詞は、通貨記号とのまとめあげ場合は処理部118にて通
貨記号と数値がまとめあげられ、単一の名詞とされる。
また単位とのまとめあげ場合は、処理部120にて数値と
単位をまとめて単一の名詞とされる。また、数詞の数値
化処理、ハイフン付数詞の処理、および数詞連続の処理
を行なったものは、それらの直前の数値とまとめあげる
処理が処理部122にて行なわれる。これらの処理を完了
した入力文字列の辞書情報は、検索済み辞書情報バッフ
ァすなわち辞書情報保存テーブル124に格納される。

形態素解析された結果は、辞書情報保存テーブル124
から構文解析Ｉ部20へ転送される。

数字フラグによる処理は、第3A図および第3B図に示す
ようなシーケンスにて行なう。入力処理部100に入力文
字列データを受けて入力処理を行なう（200）。そこで
単位切出し部102は、辞書18を索引するために入力文字
列を辞書引き単位に切り出す（201）。辞書検索部104
は、これに従って辞書18を検索し（203），辞書エント
リがあれば（204），その数字フラグを調べる（205）。
数字フラグが立っていないと、これは数詞以外であるの
でその辞書情報を辞書情報保存テーブル124に蓄積す
る。数字フラグに「１」が立っていると、処理部112に
て数詞を数値化し（206），処理部122にて直前の数値と
のまとめあげ処理207を行なう。これれらの処理を入力
文字列データの示す文の最終位置まで行なうと（20
2），処理部118および120にて通貨記号または単位との
まとめあげ処理209を行ない、それらの形態素解析結果
を構文解析Ｉ部20へ出力する（210）。

辞書引きの結果、ステップ204にてエントリが存在し
ないと、その要素がハイフン付きであれば（212）処理
部114にてハイフン付数詞の処理213を行なう。ハイフン
付きでなく最初が通貨記号であれば（214），通貨記号
のみで辞書情報保存テーブル124に保存し（216），辞書
引き単位から通貨記号を削除する（217）。最初が通貨
記号でないと（214），数字連続の処理215を処理部116
にて行なう。これを最終位置まで実行する（202）。

通貨記号および単位とのまとめあげ処理209は、第４
図に示すような処理フローで処理部110にて行なわれ
る。まず初期処理220では、処理の先頭ポインタを最初
はバッファの先頭にセットする。ポインタの指示してい
る要素が数値でなければ（221），ポインタを歩進させ
る（226）。数値であっても、その直前が通貨記号な
く、かつその直後が単位でないときは、やはりポインタ
を歩進させる（222,224）。辞書引き単位の最終位置ま
でこれを行なう（227）。

数値であれば（222），その通貨記号と数値をまとめ
て１個の名詞とする（223）。たとえば、通貨記号と数
字“￥1,000"は１個の名詞とする。また、直前が通貨記
号でなく直後が単位であるときは、その数値と単位をま
とめて１個の名詞とする（225）。たとえば、数字と単
位“1.5km"は１個の名詞とする。これを辞書引き単位の
最終位置まで行なう（227）。

ハイフン付数詞の処理213は、第5A図および第5B図に
示すような処理フローで処理部114にて行なわれる。ま
ず初期処理230にてハイフン付きの辞書引き単位をバッ
ファに保存する。また、数値「０」を保存し、元の辞書
引き単位のハイフンはスペースに変えておく。

そこで辞書引き単位を切り出し（231），辞書検索235
を行なう。辞書検索の結果、エントリがないと、すなわ
ち辞書に登録されていない語であると（236），そのハ
イフン付きの辞書引き単位全体を辞書未登録語として辞
書情報保存テーブル124に保存する（237）。

辞書引きの結果、エントリが得られると（236），そ
の数字フラグが「１」であるか否かをみる。数字フラグ
が「１」でないと、これは数字でないことを意味し、そ
のハイフン付きの辞書引き単位全体を辞書未登録語とし
て辞書情報保存テーブル124に保存する（237）。

辞書エントリの数字フラグに「１」が立っていると、
処理部12はその数詞をエントリデータに基づいて数値化
する（239）。次に、この数値化した数値を現在保存さ
れている数値に加算し（240），加算結果を保存する（2
41）。これによって、たとえば“twenty−two"の“two"
は、その直前の“twenty"の「20」と加算され、「22」
となる。これを辞書引き単位の最終位置まで行なう（23
2）。

最終位置まで歩進すると、ステップ232にて処理233に
移行し、保存した数値をハイフン付きの辞書引き単位全
体の数値とする。次に、この数値をその直前の数値とま
とめあげる処理207を行なう。

第6A図および第6B図を参照して、処理部116にて実行
される数字連続処理215を説明する。なおこれらのフロ
ー図において、記号「＜＝」は代入を示す。まず、保存
数値val−saveを「０」にし、パラメータ「ｉ」を
「１」にし、ポインタｐを辞書引き単位の文字列の先頭
にセットする初期化250を行なう。

次に、ポインタｐの指示している文字^＊ｐが数字であ
るか（251），位取り文字であるか（252），小数点であ
るか（253）をチェックし、それらのいずれでもなけれ
ば、文字列全体を辞書未登録語として辞書情報保存テー
ブル124に格納する（255）。小数点であれば（253），
パラメータ「ｉ」を10倍して（254），ステップ258を実
行する。ステップ258では、保存数値val−saveに文字^＊
ｐの数値num（^＊ｐ）を加算して新たな保存数値とす
る。数値num（^＊ｐ）は、文字（^＊ｐ）を数値とみたと
きの値である。

ステップ251または252において数字であったり、位取
り文字であったりすると、ステップ257を実行する。ス
テップ257では、保存数値val−saveを10倍してこれに文
字^＊ｐの数値num（^＊ｐ）を加算し、新たな保存数値と
する。

これらの処理ののち、ポインタを歩進させ（259），
辞書引き単位の最終位置までこの処理を繰り返す（26
0）。文字列の最終位置であると、文字列全体の数値を
保存数値として（261），処理部122において直前の数値
とのまとめあげ処理207を実行する。これによって、た
とえば連続数字“1,000.5"は数値「1000.5」に解析され
る。

直前の数値とのまとめあげ処理207は次のようにして
処理部122で行なわれる。まず、辞書テーブルのポイン
タをその辞書引き単位の直前の位置にセットする（27
0）。この位置に何もなければ、保存テーブルの最初の
位置がその数値であることを意味し、現辞書引き単位の
数値を辞書保存テーブル124に記録する（284）。その記
録位置は、現ポインタｐの指示する位置の次の位置であ
る。

ステップ271にて、直前に語が存在するときは、ポイ
ンタｐの指示するエントリが“and"でなく（272），か
つポインタｐが数値を指していなければ（273），辞書
保存テーブル124の現ポインタｐの指示する位置の次の
位置に現辞書引き単位の数値を記録する（284）。たと
えば“To him two...."の例では、“two"を数値「２」
として新たに記録する。

ステップ273において、ポインタｐが数値を指示して
いると、ポインタｐの指示しているエントリの数値ｐ→
ｖに現辞書引き単位の数値ｖ−nowを乗じて新たなポイ
ンタｐの指示しているエントリの数値ｐ→ｖとする（27
4）。たとえば“two thousand"の例では、「2x1000＝20
00」を実行し、“two thousand"全体を１つとする。そ
ののち、現辞書引き単位の終了位置をポインタｐのエン
トリの終了位置、すなわちｐ→終了位置とする（28
2）。

ステップ272にて、ポインタｐの指示するエントリが
“and"であれば、ポインタｐをその前の辞書引き単位に
移す（275）。それが最終位置（ここでの最終位置と
は、テーブルの先頭の意味である。）でなく（276），
しかも数値であれば（277），現辞書引き単位の数値ｖ
−nowを最上位桁で繰り上げてまるめ、これを値v1とす
る。現辞書引き単位の数値ｖ−nowがたとえば「８」
「8.1」「98」「11」であれば、値v1はそれぞれ、「1
0」「10」「100」「100」となる。

そこで、ポインタｐの指示しているエントリの数値ｐ
→ｖをv1で除した余り、すなわちmod（ｐ→v,v1）が
「０」であるか否かを調べる。「０」でなければ、ポイ
ンタｐをインクリメントし（283），辞書保存テーブル1
24の現ポインタｐの指示する位置の次の位置に現辞書引
き単位の数値を記録する（284）。たとえば、“I and t
wo"の例では、“two"を「２」を数値「２」として新た
に記録する。

ステップ279で余りが「０」であると、ポインタｐの
指示しているエントリの数値ｐ→ｖに現辞書引き単位の
数値ｖ−nowを加算して新たなポインタｐの指示してい
るエントリの数値ｐ→ｖとする（280）。たとえば、“t
wo thousand and two"の例において、この段階では、す
でに“two thousand"がひとまとまりに「2000」として
まとめられている。そこで、加算200によってこれが“t
wo"の「２」と加算され、「2002」とし、全体を１つと
する。そののち、情報保存テーブル124からポインタｐ
＋１の指示する“and"の情報を削除し（281），ステッ
プ282に移行する。

例をあげて説明する。たとえば第９図に示すように、
入力文字列“To him two thousand and twenty−tw
o...."について辞書引きを行なうと、第10A図に示すよ
うな辞書エントリ情報が辞書情報保存テーブル124に書
き込まれる。たとえば、“him"については、その開始位
置が「４」であり、終了位置が「６」であり、品詞は代
名詞である。数の処理では、まず“two"について数字フ
ラグが「１」であり（205），その数値が「２」である
ことが識別される。この文字列では“two"の直前が数値
でないので、これはそのまま同テーブル124に格納され
る（206,207,284）。

次にポインタをインクリメントし、“thousand"の処
理に移行する。その数字フラグは「１」、数値は「100
0」である（205,206）。しかも、その直前は数値「２」
であるから（207,273）、乗算2x1000を実行し（274），
テーブル124に格納する（第10B図）。次の“and"につい
ては、一応そのまま辞書情報をテーブル124に蓄積する
（第10C図）。

さらにポインタを進め、“twenty−two"を処理する。
このままでは、辞書エントリにないハイフン語であり
（212），ハイフン語付数詞の処理213によって「20＋２
＝22」を実行する（237,239〜241）。その直前は“and"
であり（272），その前の数値「2000」であるので（27
7），数値「22」の最上位桁をまるめて「100」とし（27
8），割算279を実行すると、その余りが「０」となるの
で、「2000」と「22」の加算280を行なう。保存テーブ
ル124から“and"の情報を削除し（282），加算結果「20
22」を数値としてテーブル124に保存する。これによっ
て、“two thousand and twenty−two"を「2022」と認
識する、直前の数値とのまとめあげ処理207が行なわれ
た。

他の例を示す。第11図に示すように、入力文字列“Yo
u said ＄1,000.5 thousand was..."について解析を進
める。“＄1,000.5"は辞書18に登録されていない。最初
は通貨記号“＄”であり、辞書エントリから通貨記号で
あることが認識される。これは保存テーブル124に独立
して記録する（214,216、第13A図）。

次に“1,000.5"は、数字連続処理215により数値「100
0.5」とする。その直前は、記号“＄”であり数値でな
いので、この数値をそのまま記録する（270〜273,284、
第13B図）。

その次の単語“thousand"は数詞であり、その数値は
「1000」である。直前は数値であるから（272,273）、
「1000.5x1000＝1000500」なる演算274を実行する（第1
3C図）。

こうして辞書引きが終了したのち、辞書情報保存テー
ブル174の保存内容を順次調べる。数値「1000500」の直
前に通貨記号“＄”が存在するので、両者をまとめて
「＄1000500」を単一の名詞エントリとする（209,221〜
223,第13D図）。

効果本発明によれば、形態素解析の際、数については、数
表現を数値に置換し、ハイフン付数詞や数字の連続があ
ったり、直前に数値があると、それと合成して加算また
は乗算を行ない、単一の数値と解析単位にまとめあげ
る。また、数にともなう通貨記号や単位なども数値とと
もにひとまとまりの解析単位として解析する。これによ
って、数値を含む表現について適切な位取りや単位で形
態素解析を行なうことができる。

【図面の簡単な説明】

第１図は、第２図に示す実施例の形態素解析部の詳細な
構成例を示す機能ブロック図、第２図は本発明による言語解析装置を英日自動翻訳装置
に適用した実施例の全体構成を示す機能ブロック図、第3A図および第3B図は、第１図に示す実施例における形
態素解析処理の例を示すフロー図、第４図は形態素解析処理における通貨記号および単位の
まとめあげ処理の例を示すフロー図、第5A図および第5B図は、形態素解析処理におけるハイフ
ン付数詞の処理の例を示すフロー図、第6A図および第6B図は、形態素解析処理における数字連
続の処理の例を示すフロー図、第7A図および第7B図は、形態素解析処理における直前の
数値とのまとめあげ処理の例を示すフロー図、第８図は同実施例における数字フラグ付き辞書ファイル
の構成例を示す説明図、第９図は同実施例における入力文字列の例を示す説明
図、第10A図ないし第10D図は、第９図に例示した入力文字列
について辞書引きした辞書情報保存テーブルの内容を処
理の段階に応じて示す説明図、第11図は同実施例における入力文字列の他の例を示す説
明図、第12図は同実施例における辞書の通貨記号テーブル、位
取り記号テーブル、小数点テーブルの内容の例を示す説
明図、第13A図ないし第13D図は、第11図に例示した入力文字列
について辞書引きした辞書情報保存テーブルの例を処理
の段階に応じて示す説明図である。主要部分の符号の説明 16……形態素解析部 18……辞書 104……辞書検索部 110……通貨記号・単位とのまとめあげ処理部 112……数詞の数値化処理部 114……ハイフン付数詞の処理部 116……数字連続の処理部 118……通貨記号と数詞をまとめて１個の名詞とする処
理部 120……数値と単位をまとめて１個の名詞とする処理部 122……直前の数値とのまとめあげ処理部 124……辞書情報保存テーブル

Claims

【特許請求の範囲】

【請求項１】辞書引き単位ごとに辞書データが格納され
た辞書手段と、入力された文を辞書引き単位に分け、該辞書引き単位に
ついて該辞書手段を参照して形態素解析を行なう解析手
段とを有する言語解析装置において、前記辞書手段は、数を表わす辞書引き単位について該辞
書引き単位が数を表わすことを示す識別表示を前記辞書
データとして含み、前記解析手段は、入力された文に含まれるそれぞれの辞
書引き単位について前記辞書手段を参照し、索出された
辞書データに前記識別表示が含まれるときは、該識別表
示が索出された辞書引き単位の付近にさらに他の識別表
示があるかを調べ、他の識別表示があるときには、前記
識別表示が索出された辞書引き単位を他の識別表示が索
出された辞書引き単位と組み合わせ、両辞書引き単位の
意味する数値を互いに演算して単一の数値とし、かつ、
両辞書引き単位をまとめて単一の解析単位にし、さら
に、前記解析単位に通貨記号または単位を表わす辞書引
き単位が伴うときには、これを前記数値とともにまとめ
て単一の解析単位とすることを特徴とする言語解析装
置。