JPH03138756A

JPH03138756A - 自然言語処理装置

Info

Publication number: JPH03138756A
Application number: JP1278052A
Authority: JP
Inventors: Yoshiyuki Nobukuni; 佳之信國; Yoshihiro Kojima; 義弘小島; Masao Masuko; 増子　将夫
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1989-10-25
Filing date: 1989-10-25
Publication date: 1991-06-13
Anticipated expiration: 2013-01-19
Also published as: JP2697926B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

〔概要〕計算機により１日本語文などで記述された特定のキーワ
ードを有する定式化された長文を扱う自然言語処理シス
テムにおける長文の分割再配置処理方式に関し。自然言語の長文を、ａ械にとっても人間にとってもわか
りやすい表現に、自動的に変換する手段を提供すること
を目的とし。入力した原文について、あらかじめ準備されたキーワー
ドを検索する文字列検索部と、キーワードの検索結果に
より、原文を複数に分割するとともに、その分割結果か
ら、さらに用言の連用中止形または名詞の並立を表す助
詞を検索して、記述されている事項を分割する分割処理
部と１分割された各々の文に形態素解析を施す形態素解
析処理部と、形態素解析の結果により１文末表現を終止
形に修正する文末調整処理部と、これらの分割結果を再
配置するとともに１文脈に必要な文字や文の補足を行う
再配置処理部とを備え、長文を短く。読みやすい形式に変換するように構成する。時に、長文は１人間にとっても読みに＜＜、シかも理解
を妨げる原因になっていた。そのため、従来９自然言語で記述された長文を。計算機により、短文に変換する処理が考えられているが
、単に特定の言葉を探して、その言葉の部分で分割する
に過ぎなかった。〔産業上の利用分野〕本発明は、計算機により２日本語文などで記述された特
定のキーワードを有する定式化された長文を扱う自然言
語処理システムにおける長文の分割再配置処理方式に関
する。例えば、特許出願の明細書における特許請求の範囲の記
載にように、長文になることが多い文章は、所定の位置
で短（分割し、再配置すれば、読みやす＜、シかも理解
しやすくなることがある。〔従来の技術〕機械翻訳をはじめとする自然言語処理システムでは、一
般に長文を扱うことは困難であった。同〔発明が解決し
ようとする課題〕自然言語の長文を、理解しやすい表現に変換するために
は、長文を短文に分割するのが有効であるが、さまざま
な条件が複雑に絡んでいるような長文は、単純に前方か
ら順次分割すると、意味の通らない文になってしまうこ
とがある。特に、長い修飾句が続いたり、同種の用語の
繰り返しが続くような長文は、処理が難しく３分割した
だけでは、意味の把握が困難であるという問題があった
。例えば、特許出願の明細書において、最も重要な意味を
持つ「特許請求の範囲」の記載では、１文が１０００文
字以上にも及ぶことがあり、しかも表現上の条件が複雑
に絡んでいるため、自然言語処理での扱いが極めて困難
であった。本発明は上記問題点の解決を図り、自然言語の長文を１
機械にとっても人間にとってもわかりやすい表現に、自
動的に変換する手段を提供することを目的としている。〔課題を解決するための手段〕第１図は本発明の構成例を示す。第１図において、１０は原文を入力するための外部記憶
装置やデイスプレィ・キーボードなどの入力装置、１１
はＣＰＵおよびメモリなどからなる処理装置、１２は処
理対象の原文を入力する原文人力部、１３は自然言語の
文をわかりやすい文に変換する変換処理部、１４は文字
列検索部、１５は分割処理部、１６は形態素解析処理部
、１７は文末調整処理部、１８は再配置処理部、１９は
処理結果を出力する結果出力部、２０はあらかじめ決め
られているキーワードを記憶するキーワード記憶部、２
１は日本語の単語に関する文法情報等を記憶する日本語
辞書、２２はデイスプレィ。外部記憶装置またはプリンタなどの出力装置を表す。本発明では、特定のキーワードを使用して、定式的に書
かれた長文を、以下の各処理部により。短文に分割し、かつ読みやすい形式に自動的に変換する
。文字列検索部１４は、原文人力部１２によって入力した
原文について、あらかじめキーワード記憶部２０に準備
されたキーワードを検索する処理部である。分割処理部１５は、キーワードの検索結果により、キー
ワードに応じて定められた箇所で、原文を複数に分割す
るとともに、その分割結果から。さらに用言の連用中止形または名詞の並立を表す助詞を
検索して、記述されている事項を分割する処理部である
。形態素解析処理部１６は３分割処理部１５によって分割
された各々の文に９日本語辞書２１に従って形態素解析
を施す処理部である。文末調整処理部１７は、形態素解析処理部１６による形
態素解析の結果により５文末表現を終止形に修正する処
理部である。再配置処理部１８は、これらの分割結果を、キーワード
に関連してあらかじめ定められた位置に再配置するとと
もに２文脈に必要な文字や文の補足を行う処理部である
。結果出力部１９は、変換処理部１３による処理結果を、
所定の出力装置２２に出力する。〔作用〕長文の中でも、特定のパターンを有する定式化された文
であれば、キーワードや用言の連用形。名詞の繰り返しなどを判定して分割し、それを任意に再
配置し、さらに文脈に必要な文字や文を補うことによっ
て、処理しやすい文に変換することができる。本発明は、この点に着目し、特定のキーワードを有する
定式化された長文を２機械にとっても人間にとってもわ
かりやすい表現にするために、キーワードによって文を
複数に分割し、用言や名詞の繰り返しによってさらに分
割し、その後、形態素解析を施して文末表現を調整して
、全体を並べ換える。〔実施例〕第２図は本発明による一実施例処理フロー、第３図は本
発明の処理対象となる文の例、第４図は本発明による処
理結果の例を示す。本発明による処理の流れは１例えば第２図に示す処理■
〜■のようになる。 ■　特定のキーワードを有する定式化された日本語文な
どの原文を入力する。 ■　入力した原文について、あらかじめ＄備されたキー
ワードにより検索する。検索されたキーワードにより、
原文を複数の文に分割する。 ■　分割された文の各々について、用言の連用形や名詞
の繰り返しなどを調べ、さらに文を分割する。 ■　分割された各々の文に２日本語辞書などを参照し、
形態素解析を施す。すなわち、各文がどのような単語で
構成されるかなどを調べる。 ■　形態素解析の結果に基づき９例えば「〜し」という
形を「〜する」という形に直すなどの分割した部分の文
末の調整を行う。 ■　分割した文の文末を調整したものを、再配置する。 ■　あらかじめ定められている文脈に必要な文字や文を
補足して、完成させる。 ■　結果を指定された出力装置に出力する。以下、特許出願の明細書における「特許請求の範囲」に
普通に記載される文を例にして２本発明の具体的な実施
例を特徴する特許請求の範囲の記載では３通常、１文が非常に長いに
もかかわらず、特定のパターンを１寺つことが多い。第
３図は、そのパターンの例を示している。この例では１分割の基準となる特定のキーワードが「に
おいて、」と「ことを特徴とする」である。「において
、」および「ことを特徴とする」によって、前提部１条
件部９允明名称部の３部分に分割することができる。前提部には、以下の特徴がある。末尾に名詞がくる。修飾部は連用中止形の並列。条件部には、以下の特徴がある。中止形の並列、この中止形は、「連用形」。「連用形＋で」、「終止形＋とともに」など。中止形の並列の中に「備え」または「設け」がくること
がある。「備え」、「設け」の節は、中止形の並列の先頭にくる
。「備え」、「設け」の前部は１名詞の並列。発明の名称部には、以下の特徴がある。名詞または名詞の連続（複合語）。例えば１次のような特許請求の範囲の記載を。処理対象とした例を説明する。ｒ△Δし、ロロし、・・・ＯＯする（名詞）において。 ◎と、・・・９とを備え、☆☆し、・・・◇◇したこと
を特徴とする

【発明名称部】、１（ｉ）キーワードによる処理まず、キーワード（「において、」、「ことを特徴とす
る」）を探して、前提部９条件部１允明名称部に分ける
。（１１）前提部の処理連用中止形と、末尾の名詞を分割する。文末は形態素解
析の結果をもとに調整する。すなわち、ｒΔ△し、ロロし、・・・○○する（名詞）
１を人力し、ｒΔ△する。１　ｒ日日する。Ｊ・・・ｒ
○○する。１　「（名詞）」を出力する。（ｕｌ）条件部の処理（］）「備え」、「設け」、「具備し」などをサーチし
、あれば、その前までの名詞の並列を分解する。（２）　　それ以降の中止形で分割する。文末は、形態
素解析の結果をもとに調整する。ここでの入力は、「◎と、・・・９とを備え、☆☆し、
・・・◇◇したｊであり、出力は１次のようなものにな
る。ｒ以下のものを備えている。１　「−◎。」・・・ｒ−
ｇ。ｊ　ｒ☆☆する。ｊ・・・ｒ◇◇する。」（ｉｖ　
）発明名称部の処理発明名称部は１名詞の連続であるので、何もする必要は
ない。（ｖ）再配置の処理以上の結果を並び換える。また、必要であれば定型的な
文字や文を補う。この結果は、第４図に示す例のように
なる。第４図に示すように２発明名称部を、定型的な文の中に
嵌め込んで、先頭に配置する。次に前提部を配置する。さらに１条件部の条件を１図示のように列挙する。次に、具体例を挙げる。

【入力原文】

ｒ　プログラムに記述された未生成ラベルを検出する未
生成ラベル検出方法において。ラベル名、生成フラグおよび参照フラグを組として登録
するラベル登録テーブルとプログラムに記述された生成ラベルを検出したことに対
応して、上記ラベル登録テーブルに当該ラベル名が登録
されていない場合に登録すると共に生成フラグをオンに
し、一方、登録されていた場合に生成フラグをオンにす
る生成ラベル登録部と。プログラムに記述された参照ラベルを検出したことに対
応して、上記ラベル登録テーブルに当該ラベル名が登録
されていない場合に登録すると共に参照フラグをオンに
し、一方、登録されていた場合に参照フラグがオンでな
いときにオンにする参照ラベル登録部と。上記ラベル登録テーブルの各ラベル名の参照フラグがオ
ンで生成フラグがオフのものを未生成ラベルとして検出
するラベル照合部とを備え。このラベル照合部によって未生成ラベルを検出するよう
に構成したことを特徴とする未生成ラベル検出方法。１

【前提部・条件部・発明名称部に分割】［前提部］ｒプログラムに記述された未生成ラベルを検出する未生
成ラベル検出方法ｊ。［条件部１ｒラベル名、生成フラグおよび参照フラグを組として登
録するラベル登録テーブルと。プログラムに記述された生成ラベルを検出したことに対
応して、上記ラベル登録テーブルに当該ラベル名が登録
されていない場合に登録すると共に生成フラグをオンに
し、一方、登録されていた場合に生成フラグをオンにす
る生成ラベル登録部と。プログラムに記述された参照ラベルを検出したことに対
応して、上記ラベル登録テーブルに当該ラベル名が登録
されていない場合に登録すると共に参照フラグをオンに
し、一方、登録されていた場合に参照フラグがオンでな
いときにオンにする参照ラベル登録部と。上記ラベル登録テーブルの各ラベル名の参照フラグがオ
ンで生成フラグがオフのものを未生成ラベルとして検出
するラベル照合部とを備え。このラベル照合部によって未生成ラベルを検出するよう
に構成した」。Ｕ発明名称部コｒ未生成ラベル検出方法１゜

【再配置】

ｒ　特許請求の範囲は、以下の条件を特徴とする未生成
ラベル検出方法である。以下の条件を満たす未生成ラベル検出方法である。・プログラムに記述された未生成ラベルを検出する。以下のものを備えている。・ラベル名、生成フラグおよび参照フラグを組として登
録するラベル登録テーブル。・プログラムに記述された生成ラベルを検出したことに
対応して、上記ラベル登録テーブルに当該ラベル名が登
録されていない場合に登録すると共に生成フラグをオン
にし、一方。登録されていた場合に生成フラグをオンにする生成ラベ
ル登録部。・プログラムに記述された参照ラベルを検出したことに
対応して、上記ラベル登録テーブルに当該ラベル名が登
録されていない場合に登録すると共に参照フラグをオン
にし、一方。登録されていた場合に参照フラグがオンでないときにオ
ンにする参照ラベル登録部。・上記ラベル登録テーブルの各ラベル名の参照フラグが
オンで生成フラグがオフのものを未生成ラベルとして検
出するラベル照合部。このラベル照合部によって未生成ラベルを検出するよう
に構成する。１〔他の実施例〕本発明は、検索するキーワードや、再配置の順序を変更
することにより、さまざまな分野の長文に適用すること
ができる。以下は、出張レポートへの適用例である。ここでは、「日」　１課」　「のために」　「に出張し
」などをキーワードとして用意しておき、それに基づい
て文を分割して、配置をし直す。次のような出張レポー
ト■は、■のように変換することができる。

【出張レポート■】

８月１日、０００課の東京太部は、☆☆☆の販売拡張の
ために、×××株式会社に出張し、今回のエンハンスの
説明を行った。

【出張レポート■】

日時　＝８月１日出張者：０００課　東京太部出張先：×××株式会社目的　：☆☆☆の販売拡張のため内容　：今回のエンハンスの説明を行った。以上のようなキーワードや再配置の順序および補足する
文字や文は、適用する文が用いられる分野によって、異
なる。したがって、その適用分野に応じて、それらを処
理するプログラムを個別に用意するほうが、きめ細かな
変換が可能である。ただし２次のようにして、汎用化を図ることも可能であ
る。あらかじめキーワードとその各キーワードに応じて起動
されるプログラムの名前または処理種別などを登録でき
るようにする。さらに３分割結果についての再配置の順
序および補足文字列を、あらかじめ様式化して、登録で
きるようにする。これに従って、キーワードによる分割および不要文字列
の削除を、−律の処理手順で行い、さらに、様式化され
た形式に１分割および文末調整を施した結果を埋め込む
ようにして、変換結果を完成させる。もちろん、入力した原文によっては、変換した結果が常
に正しいとは限らない。そこで、出力結果を見て、対話
的に修正できるようなマンマシンインタフェースを設け
てもよい。この処理については２通常のワードプロセッ
サで用いられているような編集機能により、容易に実現
できる。〔発明の効果〕以上説明したように１本発明によれば３機械翻訳をはじ
めとする日本語文などを扱う自然言語処理システムにお
いて、特定のパターンを有する長文を扱う場合、自動的
にその長文を分割して並び換え、理解しやすい表現に直
すことができる。これによって１機械が長文を容易に理
解できるようになり、計算機による自然言語処理の適用
分野。応用分野の拡張も可能になる。また、これらの各種処理
において１人間の手による前編集が削減されるので２人
間の心理的な圧迫などもなくすことが可能になる。

【図面の簡単な説明】

第１図は本発明の構成例。第２図は本発明による一実施例処理フロー第３図は本発
明の処理対象となる文の例。第４図は本発明による処理結果の例を示す。図中、１０は人力装置、１１は処理装置、１２は原文人
力部、１３は変換処理部、１４は文字列検索部、１５は
分割処理部、１６は形態素解析処理部、１７は文末調整
処理部、１８は再配置処理部、１９は結果出力部、２０
はキーワード記憶部。２１は日本語辞書、２２は出力装置を表す。一実施例処理フ第図発明の横第１図

Claims

【特許請求の範囲】自然言語で記述された文を計算機で処理する自然言語処
理システムにおいて、入力した原文について、あらかじめ準備されたキーワー
ドを検索する文字列検索部（１４）と、キーワードの検
索結果により、該文を複数に分割するとともに、その分
割結果から、さらに用言の連用中止形または名詞の並立
を表す助詞を検索して、記述されている事項を分割する
分割処理部（１５）と、分割された各々の文に形態素解析を施す形態素解析処理
部（１６）と、形態素解析の結果により、文末表現を終止形に修正する
文末調整処理部（１７）と、これらの分割結果を再配置するとともに、文脈に必要な
文字や文の補足を行う再配置処理部（１８）とを備え、長文を短く、読みやすい形式に変換するようにしたこと
を特徴とする長文の分割再配置処理方式。