JP2001125898A - 言語解析処理の方法、システム - Google Patents

言語解析処理の方法、システム

Info

Publication number
JP2001125898A
JP2001125898A JP31054999A JP31054999A JP2001125898A JP 2001125898 A JP2001125898 A JP 2001125898A JP 31054999 A JP31054999 A JP 31054999A JP 31054999 A JP31054999 A JP 31054999A JP 2001125898 A JP2001125898 A JP 2001125898A
Authority
JP
Japan
Prior art keywords
word
verb
noun
compound
syntax element
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP31054999A
Other languages
English (en)
Inventor
Tadamitsu Ryu
忠光 龍
Hiroshi Sasaki
博 佐々木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cai Kk
Original Assignee
Cai Kk
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cai Kk filed Critical Cai Kk
Priority to JP31054999A priority Critical patent/JP2001125898A/ja
Publication of JP2001125898A publication Critical patent/JP2001125898A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】コンピュータを用いた自然語解析装置におい
て、解析が難しかった複合語、重文、複文を効率的に解
析できる構文解析方法を提供する。 【構成】。本実施形態におけるシステムは、入力手段1
01、分割手段102、構文要素辞書103、形態素分
析手段104、複合語生成手段105、複合語化規則1
06、構文表現生成出力手段107から構成される

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明はコンピュータを使用した
自然言語の文章を解析する方法、システム、および、そ
の方法で作成されたデータ群を記録した記憶媒体、特に
形態素解析された結果の単語列を解析し入力文の構造を
把握する構文解析技術に関する。
【0002】
【従来の技術】従来、コンピュータによる自然語の解析
は、形態素解析された結果の品詞情報を伴った単語列を
生成し、さらに単語列中に存在する格助詞に注目し、予
め用意した構文分類表を参照して合致した構文パターン
に単語列中に存在する指示表明語(名詞、動詞など)を
当てはめて解析しようというものであった。
【0003】ユーザーが自由に入力した自然言語をコン
ピュータが取り扱える形式に情報化して、処理を進める
方法、あるいはシステムが望まれていた。
【0004】
【発明が解決しようとする課題】しかしながら、形態素
分析の結果から、入力文の構造を把握しようとしてもい
くつかの単語がセットで一つの単語として機能する複合
語の存在、一つの文の中に別の文が存在する重文の存在
および複数の文が接続詞を介して接続されている複文の
存在のためにうまくいかなかった。本発明が解決しよう
とする課題は、以上の複合語、重文および複文の問題を
解決し、入力された自然言語をコンピュータの解析、認
識、処理の対象とすることができる方法、あるいはシス
テムを提供することである。
【0005】
【課題を解決するための手段】上記目的を達成するため
請求項1記載の発明は、コンピュータを使用した言語解
析処理において、 1)入力文を分析して構文要素を判別し、該構文要素を
分岐点として入力文を分割するステップ、 2)前記分割結果に対して形態素分析を行い品詞情報を
持った単語列を生成するステップ、 3)ステップ1)による分割結果に対して、予め用意し
た複合語化規則を適応し、前記品詞情報を持った単語列
を結合し複合語データを生成するステップ、 4)予め用意した構文規則と前記構文要素とを参照し
て、前記複合語および複合化規則適用後も単一で残った
単語の格情報を獲得し、格情報を持った単語および格情
報を持った複合語からなるリスト(以下、構文表現とい
う)を生成するステップ、 以上のステップからなることを特徴とする言語解析方法
を採用した。
【0006】また、請求項2記載の発明においては、コ
ンピュータを使用した言語解析処理において、 1)複数の単語がセットとなって構文要素として機能す
る慣用句および構文要素をその格情報とともに格納した
構文要素辞書、 2)入力文を前記構文要素辞書を参照して分析し、構文
要素を分岐点として該入力文を分割する分割手段、 3)前記分割の結果の区間ごとにを形態素分析する形態
素分析手段、 4)前記分割結果に対して、予め用意した複合語化規則
を適応し、前記品詞情報を付与した単語列を結合し複合
語データを生成する複合語生成手段、 5)予め用意した構文事例と前記構文要素辞書とを参照
して、前記複合語および複合化規則適用後も単一で残っ
た単語の格情報を獲得し、格情報を持った単語および格
情報を持った複合語からなるリスト(以下、構文表現と
いう)を生成する構文表現生成手段、 以上の手段を構成要素として含むことを特徴とする言語
解析システムを採用した。
【0007】請求項1に記載した発明の複合語を生成す
るステップおよび請求項2記載の発明における複合語生
成手段において適用される複合化規則は、 1)括弧で閉じられた単語列を一つの普通名詞とするこ
と、 2)数字が検出された場合、連続する数字を「数字」と
いう名詞を修飾する形容詞とし、「数字というキャラク
ター+数字」を数字語と再定義して処理を進めて行くこ
と、 3)前記数字語の後に「年」、「月」、「日」、
「時」、「分」、「秒」から選ばれる少なくとも1つの
単語が続く場合、数字語と該単語を時制語と再定義する
こと、 4)時間を表す言葉(時制語という)の後に読点「、」
が続く場合、前記読点を助詞「に」に置き換えて処理を
進めること、 5)複合語を構成単語の品詞の組合せによる品詞判定規
則を参照し、該複合語の品詞を獲得すること、 6)名詞の直後に「など」、「だけ」から選ばれる少な
くとも1つの単語が続く場合、この組合せを1つの名詞
とすること、 7)品詞情報が動詞+接続助詞+動詞である単語列の組
合せを1つの動詞とすること、 8)予め用意した辞書を参照して、andやorの論理
演算子という属性を持つ単語が検出された場合、単語の
前後に位置する単語を含めて一個の単語として処理を進
めること、 9)形容詞、副詞、感嘆詞から選ばれる少なくとも1つ
の単語が検出された場合、該単語は該単語の後に最初に
出現する指示表明語(動詞、名詞などのように事象を示
す単語のことをいう)を修飾する単語として処理を進め
ること、 から選ばれる少なくとも1つであることが望ましい。こ
のようにして複合語の問題を処理することができる。
【0008】前述の複合語化規則の適用において(品詞
が動詞の単語)+(品詞が名詞の単語)という組み合わ
せが検出された場合、 1)該動詞を含む領域に従属節が存在すると判定し、後
に続く従属節が検出されない領域(主節という)に存在
する動詞を検索するステップ、 2)予め用意した単語辞書を参照して主節の動詞の格リ
ストを呼び出し、この格リストにある格に対応する単語
を抽出し主節に配属し、さらに従属節の動詞の格リスト
を参照し対応する単語を抽出し従属節に配属し、残りの
単語列を従属節の領域が連続になるように分配するステ
ップ、 3)この従属節が係る前記品詞が名詞の単語(従属節に
属する動詞の直後の名詞)については、前記品詞が動詞
の単語(従属節に属する動詞)の自動詞/他動詞を判定
して、自動詞の場合「主格」と、他動詞の場合「対象
格」とすること、 4)該従属節とこの節が掛かる名詞をセットにして1つ
の名詞とすること、 以上の手順を行うことが望ましい。このような手順を踏
むことで主節と従属節から構成される重文を処理するこ
とができる。
【0009】前述の構文表現を生成するステップおよび
構文表現生成手段において、指示表明語もしくは前記複
合語とペアになっていない構文要素が検出された場合、
該構文要素を接続詞と判定し、この接続詞を分岐点とし
て入力文を主文と従属文に分割し、従属文を主文の属性
として処理を進める。このようにして複文を分割して処
理することができる。
【0010】前述の構文要素辞書は、該構文要素を構成
する文字列から一意に構文要素と決まる構文要素と該文
字列から構文要素となる可能性を持つ構文要素とから構
成されることが望ましい。こうすると構文要素を分岐点
として該入力文を分割するとき、一意に決まる構文要素
をまず確定することでその後の分割が効率的に行われ
る。
【0011】
【発明の実施の形態】以下、図面を参照して本出願の実
施形態について説明する。図1は本発明の実施形態のブ
ロック図である。本実施形態におけるシステムは、入力
手段101、分割手段102、構文要素辞書103、形
態素分析手段104、複合語生成手段105、複合語化
規則106、構文表現生成出力手段107から構成され
る。
【0012】入力手段101は、ユーザーもしくはシス
テムからの自然語の入力文を入力し分割手段102に送
る。具体的には、キーボード、音声認識装置、OCR装
置などであり、例えばユーザーがマイクに向かって発し
た音声を認識し、認識データを分割手段に送る。
【0013】分割手段102は、入力手段101から送
られてきた入力文を構文要素辞書103を参照して分割
する。図2は構文要素辞書103の構成の一部である。
ここで「ひどい雨にもかかわらず賑やかな都会から転校
してきた山下くんは誰もいない学校へ出かけた。」を例
に説明する。構文要素辞書を参照すると、一意に決まる
構文要素(にもかかわらず)、構文要素(から)、構文
要素(は)、構文要素(も)、構文要素(へ)が検出さ
れる。その結果「ひどい雨」「賑やかな都会」「転校し
てきた山下くん」「誰」「いない」「学校」「出かけ
た」という具合に入力文が分割される。
【0014】形態素分析手段104は、分割結果の各区
間ごとに形態素分析を行う。これは従来技術の形態素分
析技術であり図示しない単語辞書を参照して行われる。
上記の例文では、「ひどい雨」は形容詞(ひどい)+名
詞(雨)、「賑やかな都会」は形容動詞(賑やかな)+
名詞(都会)、「転校してきた山下くん」は動詞(転校
し)+語尾(てきた)+名詞(山下)+敬称(くん)と
いう具合に区間ごとに形態素分析が行われるので誤認識
を大幅に減らす効果がある。
【0015】複合語生成手段105は、複合語化規則デ
ータベース106を参照して各区間を複合語にまとめ
る。図3は複合語化規則を示したフローチャートであ
る。
【0016】複合語化規則は、括弧処理301、数字処
理302,時制語処理a303、時制語処理b304、
自由設定複合語処理305、名詞+など処理306、助
詞を挟んで連続する動詞の処理307、And語・or語処
理308、修飾語処理309、節処理310からなる。
【0017】括弧処理301では、図4に示す括弧が検
出された場合、括弧に区切られた区間を普通名詞とす
る。
【0018】数字処理302では、形態素分析104で
バラバラの数字列として処理されていた数字を数字列を
一つの単語として認識する。例えば「1998」は形態
素分析では1、9,9,8と4つの単語として出力され
るが、これを1998という1つの数字語として処理す
る。
【0019】時制語処理a303では、図5に示す時間
の単位を示す対象文字と数字の組合せを一つの時制語と
して処理する。また時制語処理b304では、時制語+
「、」を検出し、「、」を助詞(に)に置き換える。
【0020】自由設定複合語処理305では図6に示し
た品詞判定規則を参照し、特定の品詞と品詞の組合せが
検出されると組み合わせて一つの複合語とし該品詞判定
規則に従って、品詞情報を付与した複合語を生成する。
例えば、固有名詞(シーエーアイ)+普通名詞(株式会
社)は、固有名詞+普通名詞なので固有名詞(シーエー
アイ株式会社)という複合語を生成する。
【0021】名詞+など処理306では、「など」「だ
け」という文字を検出し、対象文字の直前が名詞の場
合、「名詞」+「など」、「名詞」+「だけ」を一つの
名詞として処理する。
【0022】動詞+接続助詞+動詞処理307では、図
7に示した接続助詞と本動詞、補助動詞から選ばれる動
詞を判別し、動詞+補助動詞+動詞の組合せが検出され
た場合、一つの動詞として処理する。
【0023】And語・or語処理308では、図8に
示す論理演算子And・orを表す言葉が検出された場
合、名詞+(And・orを表す言葉)+名詞 を一つ
の名詞として処理する。
【0024】修飾語処理309では、形容詞、副詞、感
嘆詞を検出し、直後に出現する指示表明語の修飾語とし
て処理する。
【0025】節処理310では、動詞+名詞という組合
せが検出されたとき、従属節の存在を判別し、主節と従
属節の区間を確定し、この従属節と該従属節が係る名詞
を一つの名詞として処理する。
【0026】図9は節処理の詳細を示した詳細図であ
る。節発見処理901では、動詞+名詞 を検出し、従
属節が検出されると入力文のデータは動詞の検出処理9
02に送られる。動詞の検出処理では、単語辞書903
を参照して主節の動詞を検索し、さらに格リスト呼び出
し処理904では、主節および従属節の動詞の格リスト
を呼び出し、分配処理905にデータを送る。
【0027】分配処理905では、まず主節の動詞の格
リストにマッチする単語を主節に分配し、残りの単語に
おいて従属節の動詞の格リストにマッチする単語を従属
節に分配する。ここまで処理を進めてまだ分配されず残
る単語は主節に分配する。ここで主節に属する単語と従
属節に属する単語が入れ子状態になる場合、従属節が連
続区間になるように従属節に存在する単語を主節に再分
配する。
【0028】節の名詞化処理906では、節が掛かる名
詞の格情報を従属節の動詞の自動詞/他動詞を判別して
取得する。自動詞なら「主格」、他動詞なら「対象格」
である。このようにして従属節は構文表現化され、それ
が掛かる名詞にリンクさせ一つの名詞として処理する。
【0029】構文表現生成出力手段107は、複合語生
成手段105で生成された複合語と直後に存在する構文
要素を参照して、格情報を付与した複合語列(構文表
現)を生成する。この時、複合語と対にすることが出来
ず孤立して存在する構文要素が残る場合、この構文要素
を接続詞として処理し、構文要素辞書を参照して接続詞
の場合のロールを取得し、この接続詞を分岐点として主
文と従属文に分割し従属文を主文の属性として処理す
る。
【発明の効果】上述した説明から明らかなように、この
出願の発明によって、従来の構文解析では解析が難しか
った複合語、重文、複文を含む入力文を分析し、コンピ
ュータによって処理できる形式のデータに変換できる。
【図面の簡単な説明】
【図1】実施例のブロック図。
【図2】構文要素辞書の構成例。
【図3】複合語化規則のフローチャート。
【図4】対象括弧表。
【図5】時間の単位。
【図6】品詞判定規則。
【図7】接続助詞の表。
【図8】And・orを表す言葉の表。
【図9】節処理の詳細。

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】コンピュータを使用した言語解析処理にお
    いて、 1)入力文を分析して構文要素を判別し、該構文要素を
    分岐点として入力文を分割するステップ、 2)前記分割結果に対して形態素分析を行い品詞情報を
    持った単語列を生成するステップ、 3)ステップ1)による分割結果に対して、予め用意し
    た複合語化規則を適応し、前記品詞情報を持った単語列
    を結合し複合語データを生成するステップ、 4)予め用意した構文規則と前記構文要素とを参照し
    て、前記複合語および複合化規則適用後も単一で残った
    単語の格情報を獲得し、格情報を持った単語および格情
    報を持った複合語からなるリスト(以下、構文表現とい
    う)を生成するステップ、以上のステップからなること
    を特徴とする言語解析方法。
  2. 【請求項2】コンピュータを使用した言語解析処理にお
    いて、 1)複数の単語がセットとなって構文要素として機能す
    る慣用句および構文要素をその格情報とともに格納した
    構文要素辞書、 2)入力文を前記構文要素辞書を参照して分析し、構文
    要素を分岐点として該入力文を分割する分割手段、 3)前記分割の結果の区間ごとにを形態素分析する形態
    素分析手段、 4)前記分割結果に対して、予め用意した複合語化規則
    を適応し、前記品詞情報を付与した単語列を結合し複合
    語データを生成する複合語生成手段、 5)予め用意した構文事例と前記構文要素辞書とを参照
    して、前記複合語および複合化規則適用後も単一で残っ
    た単語の格情報を獲得し、格情報を持った単語および格
    情報を持った複合語からなるリスト(以下、構文表現と
    いう)を生成する構文表現生成手段、以上の手段を構成
    要素として含むことを特徴とする言語解析システム。
  3. 【請求項3】前記複合語を生成するステップおよび前記
    複合語生成手段において適用される複合化規則は、 1)括弧で閉じられた単語列を一つの普通名詞とするこ
    と、 2)数字が検出された場合、連続する数字を「数字」と
    いう名詞を修飾する形容詞とし、「数字というキャラク
    ター+数字」を数字語と再定義して処理を進めて行くこ
    と、 3)前記数字語の後に「年」、「月」、「日」、
    「時」、「分」、「秒」から選ばれる少なくとも1つの
    単語が続く場合、数字語と該単語を時制語と再定義する
    こと、 4)時間を表す言葉(時制語という)の後に読点「、」
    が続く場合、前記読点を助詞「に」に置き換えて処理を
    進めること、 5)複合語を構成単語の品詞の組合せによる品詞判定規
    則を参照し、該複合語の品詞を獲得すること、 6)名詞の直後に「など」、「だけ」から選ばれる少な
    くとも1つの単語が続く場合、この組合せを1つの名詞
    とすること、 7)品詞情報が動詞+接続助詞+動詞である単語列の組
    合せを1つの動詞とすること、 8)予め用意した辞書を参照して、andやorの論理
    演算子という属性を持つ単語が検出された場合、単語の
    前後に位置する単語を含めて一個の単語として処理を進
    めること、 9)形容詞、副詞、感嘆詞から選ばれる少なくとも1つ
    の単語が検出された場合、該単語は該単語の後に最初に
    出現する指示表明語(動詞、名詞などのように事象を示
    す単語のことをいう)を修飾する単語として処理を進め
    ること、から選ばれる少なくとも1つであることを特徴
    とした特許請求範囲第1項および第2項に記載された方
    法、システム。
  4. 【請求項4】前記複合語化規則の適用において(品詞が
    動詞の単語)+(品詞が名詞の単語)という組み合わせ
    が検出された場合、 1)該動詞を含む領域に従属節が存在すると判定し、後
    に続く従属節が検出されない領域(主節という)に存在
    する動詞を検索するステップ、 2)予め用意した単語辞書を参照して主節の動詞の格リ
    ストを呼び出し、この格リストにある格に対応する単語
    を抽出し主節に配属し、さらに従属節の動詞の格リスト
    を参照し対応する単語を抽出し従属節に配属し、残りの
    単語列を従属節の領域が連続になるように分配するステ
    ップ、 3)この従属節が係る前記品詞が名詞の単語(従属節に
    属する動詞の直後の名詞)については、前記品詞が動詞
    の単語(従属節に属する動詞)の自動詞/他動詞を判定
    して、自動詞の場合「主格」と、他動詞の場合「対象
    格」とすること、 4)該従属節とこの節が掛かる名詞をセットにして1つ
    の名詞とすること、以上の手順を含むことを特徴とする
    特許請求範囲第1項および第2項に記載された方法、シ
    ステム。
  5. 【請求項5】前記構文表現を生成するステップおよび前
    記構文表現生成手段において、指示表明語もしくは前記
    複合語とペアになっていない構文要素が検出された場
    合、該構文要素を接続詞と判定し、この接続詞を分岐点
    として入力文を主文と従属文に分割し、従属文を主文の
    属性として処理を進めることを特徴とする特許請求範囲
    第1項および第2項に記載された方法、システム。
  6. 【請求項6】前記構文要素辞書は、該構文要素を構成す
    る文字列から一意に構文要素と決まる構文要素と該文字
    列から構文要素となる可能性を持つ構文要素とから構成
    されることを特徴とする特許請求範囲第2項に記載され
    た方法、システム。
JP31054999A 1999-11-01 1999-11-01 言語解析処理の方法、システム Pending JP2001125898A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP31054999A JP2001125898A (ja) 1999-11-01 1999-11-01 言語解析処理の方法、システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP31054999A JP2001125898A (ja) 1999-11-01 1999-11-01 言語解析処理の方法、システム

Publications (1)

Publication Number Publication Date
JP2001125898A true JP2001125898A (ja) 2001-05-11

Family

ID=18006584

Family Applications (1)

Application Number Title Priority Date Filing Date
JP31054999A Pending JP2001125898A (ja) 1999-11-01 1999-11-01 言語解析処理の方法、システム

Country Status (1)

Country Link
JP (1) JP2001125898A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100617317B1 (ko) 2004-12-15 2006-08-30 한국전자통신연구원 복합 명사 전문용어 사전 엔트리의 재분석 방법 및 그 장치
JP5379318B1 (ja) * 2013-02-28 2013-12-25 公昭 首藤 構文解析装置、構文解析方法、およびそのプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100617317B1 (ko) 2004-12-15 2006-08-30 한국전자통신연구원 복합 명사 전문용어 사전 엔트리의 재분석 방법 및 그 장치
JP5379318B1 (ja) * 2013-02-28 2013-12-25 公昭 首藤 構文解析装置、構文解析方法、およびそのプログラム

Similar Documents

Publication Publication Date Title
US7319949B2 (en) Unilingual translator
EP1351158A1 (en) Machine translation
JP2005165958A (ja) 情報検索システム、情報検索支援システム及びその方法並びにプログラム
JP2003196274A (ja) 構文解析方法及び装置
JPH02165378A (ja) 機械翻訳システム
US20100094615A1 (en) Document translation apparatus and method
JPH11272710A (ja) 情報検索システム、情報検索方法および記録媒体
Lenci et al. Multilingual Summarization by Integrating Linguistic Resources in the MLIS-MUSI Project.
JP2008077512A (ja) 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム
JP2001125898A (ja) 言語解析処理の方法、システム
JP4033093B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP5245291B2 (ja) 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
Bond et al. Reference in Japanese–English machine translation
Gavhal et al. Sentence Compression Using Natural Language Processing
Osenova et al. Bulgarian-english question answering: Adaptation of language resources
JP3972697B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Josan et al. Direct Approach for Machine Translation from Punjabi to Hindi
JP4033088B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
WO2020255234A1 (ja) 言語処理装置、言語処理方法及び言語処理プログラム
JP3313810B2 (ja) アスペクト処理装置
JP2003281137A (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP3584026B2 (ja) 原言語・目的言語表現パターン対作成装置
JP2901977B2 (ja) 翻訳装置
JP4023384B2 (ja) 自然言語翻訳方法及び装置及び自然言語翻訳プログラム

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050223

A072 Dismissal of procedure

Free format text: JAPANESE INTERMEDIATE CODE: A073

Effective date: 20050420

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050422