JPH03138756A - 自然言語処理装置 - Google Patents

自然言語処理装置

Info

Publication number
JPH03138756A
JPH03138756A JP1278052A JP27805289A JPH03138756A JP H03138756 A JPH03138756 A JP H03138756A JP 1278052 A JP1278052 A JP 1278052A JP 27805289 A JP27805289 A JP 27805289A JP H03138756 A JPH03138756 A JP H03138756A
Authority
JP
Japan
Prior art keywords
sentence
division
processing unit
sentences
long
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1278052A
Other languages
English (en)
Other versions
JP2697926B2 (ja
Inventor
Yoshiyuki Nobukuni
佳之 信國
Yoshihiro Kojima
義弘 小島
Masao Masuko
増子 将夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP1278052A priority Critical patent/JP2697926B2/ja
Publication of JPH03138756A publication Critical patent/JPH03138756A/ja
Application granted granted Critical
Publication of JP2697926B2 publication Critical patent/JP2697926B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
〔概要〕 計算機により1日本語文などで記述された特定のキーワ
ードを有する定式化された長文を扱う自然言語処理シス
テムにおける長文の分割再配置処理方式に関し。 自然言語の長文を、a械にとっても人間にとってもわか
りやすい表現に、自動的に変換する手段を提供すること
を目的とし。 入力した原文について、あらかじめ準備されたキーワー
ドを検索する文字列検索部と、キーワードの検索結果に
より、原文を複数に分割するとともに、その分割結果か
ら、さらに用言の連用中止形または名詞の並立を表す助
詞を検索して、記述されている事項を分割する分割処理
部と1分割された各々の文に形態素解析を施す形態素解
析処理部と、形態素解析の結果により1文末表現を終止
形に修正する文末調整処理部と、これらの分割結果を再
配置するとともに1文脈に必要な文字や文の補足を行う
再配置処理部とを備え、長文を短く。 読みやすい形式に変換するように構成する。 時に、長文は1人間にとっても読みに<<、シかも理解
を妨げる原因になっていた。 そのため、従来9自然言語で記述された長文を。 計算機により、短文に変換する処理が考えられているが
、単に特定の言葉を探して、その言葉の部分で分割する
に過ぎなかった。 〔産業上の利用分野〕 本発明は、計算機により2日本語文などで記述された特
定のキーワードを有する定式化された長文を扱う自然言
語処理システムにおける長文の分割再配置処理方式に関
する。 例えば、特許出願の明細書における特許請求の範囲の記
載にように、長文になることが多い文章は、所定の位置
で短(分割し、再配置すれば、読みやす<、シかも理解
しやすくなることがある。 〔従来の技術〕 機械翻訳をはじめとする自然言語処理システムでは、一
般に長文を扱うことは困難であった。同〔発明が解決し
ようとする課題〕 自然言語の長文を、理解しやすい表現に変換するために
は、長文を短文に分割するのが有効であるが、さまざま
な条件が複雑に絡んでいるような長文は、単純に前方か
ら順次分割すると、意味の通らない文になってしまうこ
とがある。特に、長い修飾句が続いたり、同種の用語の
繰り返しが続くような長文は、処理が難しく3分割した
だけでは、意味の把握が困難であるという問題があった
。 例えば、特許出願の明細書において、最も重要な意味を
持つ「特許請求の範囲」の記載では、1文が1000文
字以上にも及ぶことがあり、しかも表現上の条件が複雑
に絡んでいるため、自然言語処理での扱いが極めて困難
であった。 本発明は上記問題点の解決を図り、自然言語の長文を1
機械にとっても人間にとってもわかりやすい表現に、自
動的に変換する手段を提供することを目的としている。 〔課題を解決するための手段〕 第1図は本発明の構成例を示す。 第1図において、10は原文を入力するための外部記憶
装置やデイスプレィ・キーボードなどの入力装置、11
はCPUおよびメモリなどからなる処理装置、12は処
理対象の原文を入力する原文人力部、13は自然言語の
文をわかりやすい文に変換する変換処理部、14は文字
列検索部、15は分割処理部、16は形態素解析処理部
、17は文末調整処理部、18は再配置処理部、19は
処理結果を出力する結果出力部、20はあらかじめ決め
られているキーワードを記憶するキーワード記憶部、2
1は日本語の単語に関する文法情報等を記憶する日本語
辞書、22はデイスプレィ。 外部記憶装置またはプリンタなどの出力装置を表す。 本発明では、特定のキーワードを使用して、定式的に書
かれた長文を、以下の各処理部により。 短文に分割し、かつ読みやすい形式に自動的に変換する
。 文字列検索部14は、原文人力部12によって入力した
原文について、あらかじめキーワード記憶部20に準備
されたキーワードを検索する処理部である。 分割処理部15は、キーワードの検索結果により、キー
ワードに応じて定められた箇所で、原文を複数に分割す
るとともに、その分割結果から。 さらに用言の連用中止形または名詞の並立を表す助詞を
検索して、記述されている事項を分割する処理部である
。 形態素解析処理部16は3分割処理部15によって分割
された各々の文に9日本語辞書21に従って形態素解析
を施す処理部である。 文末調整処理部17は、形態素解析処理部16による形
態素解析の結果により5文末表現を終止形に修正する処
理部である。 再配置処理部18は、これらの分割結果を、キーワード
に関連してあらかじめ定められた位置に再配置するとと
もに2文脈に必要な文字や文の補足を行う処理部である
。 結果出力部19は、変換処理部13による処理結果を、
所定の出力装置22に出力する。 〔作用〕 長文の中でも、特定のパターンを有する定式化された文
であれば、キーワードや用言の連用形。 名詞の繰り返しなどを判定して分割し、それを任意に再
配置し、さらに文脈に必要な文字や文を補うことによっ
て、処理しやすい文に変換することができる。 本発明は、この点に着目し、特定のキーワードを有する
定式化された長文を2機械にとっても人間にとってもわ
かりやすい表現にするために、キーワードによって文を
複数に分割し、用言や名詞の繰り返しによってさらに分
割し、その後、形態素解析を施して文末表現を調整して
、全体を並べ換える。 〔実施例〕 第2図は本発明による一実施例処理フロー、第3図は本
発明の処理対象となる文の例、第4図は本発明による処
理結果の例を示す。 本発明による処理の流れは1例えば第2図に示す処理■
〜■のようになる。 ■ 特定のキーワードを有する定式化された日本語文な
どの原文を入力する。 ■ 入力した原文について、あらかじめ$備されたキー
ワードにより検索する。検索されたキーワードにより、
原文を複数の文に分割する。 ■ 分割された文の各々について、用言の連用形や名詞
の繰り返しなどを調べ、さらに文を分割する。 ■ 分割された各々の文に2日本語辞書などを参照し、
形態素解析を施す。すなわち、各文がどのような単語で
構成されるかなどを調べる。 ■ 形態素解析の結果に基づき9例えば「〜し」という
形を「〜する」という形に直すなどの分割した部分の文
末の調整を行う。 ■ 分割した文の文末を調整したものを、再配置する。 ■ あらかじめ定められている文脈に必要な文字や文を
補足して、完成させる。 ■ 結果を指定された出力装置に出力する。 以下、特許出願の明細書における「特許請求の範囲」に
普通に記載される文を例にして2本発明の具体的な実施
例を特徴する 特許請求の範囲の記載では3通常、1文が非常に長いに
もかかわらず、特定のパターンを1寺つことが多い。第
3図は、そのパターンの例を示している。 この例では1分割の基準となる特定のキーワードが「に
おいて、」と「ことを特徴とする」である。「において
、」および「ことを特徴とする」によって、前提部1条
件部9允明名称部の3部分に分割することができる。 前提部には、以下の特徴がある。 末尾に名詞がくる。 修飾部は連用中止形の並列。 条件部には、以下の特徴がある。 中止形の並列、この中止形は、「連用形」。 「連用形+で」、「終止形+とともに」など。 中止形の並列の中に「備え」または「設け」がくること
がある。 「備え」、「設け」の節は、中止形の並列の先頭にくる
。 「備え」、「設け」の前部は1名詞の並列。 発明の名称部には、以下の特徴がある。 名詞または名詞の連続(複合語)。 例えば1次のような特許請求の範囲の記載を。 処理対象とした例を説明する。 r△Δし、ロロし、・・・OOする(名詞)において。 ◎と、・・・9とを備え、☆☆し、・・・◇◇したこと
を特徴とする
【発明名称部】、1 (i)キーワードによる処理 まず、キーワード(「において、」、「ことを特徴とす
る」)を探して、前提部9条件部1允明名称部に分ける
。 (11)前提部の処理 連用中止形と、末尾の名詞を分割する。文末は形態素解
析の結果をもとに調整する。 すなわち、rΔ△し、ロロし、・・・○○する(名詞)
1を人力し、rΔ△する。1 r日日する。J・・・r
○○する。1 「(名詞)」を出力する。 (ul)条件部の処理 (])「備え」、「設け」、「具備し」などをサーチし
、あれば、その前までの名詞の並列を分解する。 (2)  それ以降の中止形で分割する。文末は、形態
素解析の結果をもとに調整する。 ここでの入力は、「◎と、・・・9とを備え、☆☆し、
・・・◇◇したjであり、出力は1次のようなものにな
る。 r以下のものを備えている。1 「−◎。」・・・r−
g。j r☆☆する。j・・・r◇◇する。」(iv 
)発明名称部の処理 発明名称部は1名詞の連続であるので、何もする必要は
ない。 (v)再配置の処理 以上の結果を並び換える。また、必要であれば定型的な
文字や文を補う。この結果は、第4図に示す例のように
なる。 第4図に示すように2発明名称部を、定型的な文の中に
嵌め込んで、先頭に配置する。次に前提部を配置する。 さらに1条件部の条件を1図示のように列挙する。 次に、具体例を挙げる。
【入力原文】
r プログラムに記述された未生成ラベルを検出する未
生成ラベル検出方法において。 ラベル名、生成フラグおよび参照フラグを組として登録
するラベル登録テーブルと プログラムに記述された生成ラベルを検出したことに対
応して、上記ラベル登録テーブルに当該ラベル名が登録
されていない場合に登録すると共に生成フラグをオンに
し、一方、登録されていた場合に生成フラグをオンにす
る生成ラベル登録部と。 プログラムに記述された参照ラベルを検出したことに対
応して、上記ラベル登録テーブルに当該ラベル名が登録
されていない場合に登録すると共に参照フラグをオンに
し、一方、登録されていた場合に参照フラグがオンでな
いときにオンにする参照ラベル登録部と。 上記ラベル登録テーブルの各ラベル名の参照フラグがオ
ンで生成フラグがオフのものを未生成ラベルとして検出
するラベル照合部とを備え。 このラベル照合部によって未生成ラベルを検出するよう
に構成したことを特徴とする未生成ラベル検出方法。1
【前提部・条件部・発明名称部に分割】[前提部] rプログラムに記述された未生成ラベルを検出する未生
成ラベル検出方法j。 [条件部1 rラベル名、生成フラグおよび参照フラグを組として登
録するラベル登録テーブルと。 プログラムに記述された生成ラベルを検出したことに対
応して、上記ラベル登録テーブルに当該ラベル名が登録
されていない場合に登録すると共に生成フラグをオンに
し、一方、登録されていた場合に生成フラグをオンにす
る生成ラベル登録部と。 プログラムに記述された参照ラベルを検出したことに対
応して、上記ラベル登録テーブルに当該ラベル名が登録
されていない場合に登録すると共に参照フラグをオンに
し、一方、登録されていた場合に参照フラグがオンでな
いときにオンにする参照ラベル登録部と。 上記ラベル登録テーブルの各ラベル名の参照フラグがオ
ンで生成フラグがオフのものを未生成ラベルとして検出
するラベル照合部とを備え。 このラベル照合部によって未生成ラベルを検出するよう
に構成した」。 U発明名称部コ r未生成ラベル検出方法1゜
【再配置】
r 特許請求の範囲は、以下の条件を特徴とする未生成
ラベル検出方法である。 以下の条件を満たす未生成ラベル検出方法である。 ・プログラムに記述された未生成ラベルを検出する。 以下のものを備えている。 ・ラベル名、生成フラグおよび参照フラグを組として登
録するラベル登録テーブル。 ・プログラムに記述された生成ラベルを検出したことに
対応して、上記ラベル登録テーブルに当該ラベル名が登
録されていない場合に登録すると共に生成フラグをオン
にし、一方。 登録されていた場合に生成フラグをオンにする生成ラベ
ル登録部。 ・プログラムに記述された参照ラベルを検出したことに
対応して、上記ラベル登録テーブルに当該ラベル名が登
録されていない場合に登録すると共に参照フラグをオン
にし、一方。 登録されていた場合に参照フラグがオンでないときにオ
ンにする参照ラベル登録部。 ・上記ラベル登録テーブルの各ラベル名の参照フラグが
オンで生成フラグがオフのものを未生成ラベルとして検
出するラベル照合部。 このラベル照合部によって未生成ラベルを検出するよう
に構成する。1 〔他の実施例〕 本発明は、検索するキーワードや、再配置の順序を変更
することにより、さまざまな分野の長文に適用すること
ができる。 以下は、出張レポートへの適用例である。 ここでは、「日」 1課」 「のために」 「に出張し
」などをキーワードとして用意しておき、それに基づい
て文を分割して、配置をし直す。次のような出張レポー
ト■は、■のように変換することができる。
【出張レポート■】
8月1日、000課の東京太部は、☆☆☆の販売拡張の
ために、×××株式会社に出張し、今回のエンハンスの
説明を行った。
【出張レポート■】
日時 =8月1日 出張者:000課 東京太部 出張先:×××株式会社 目的 :☆☆☆の販売拡張のため 内容 :今回のエンハンスの説明を行った。 以上のようなキーワードや再配置の順序および補足する
文字や文は、適用する文が用いられる分野によって、異
なる。したがって、その適用分野に応じて、それらを処
理するプログラムを個別に用意するほうが、きめ細かな
変換が可能である。 ただし2次のようにして、汎用化を図ることも可能であ
る。 あらかじめキーワードとその各キーワードに応じて起動
されるプログラムの名前または処理種別などを登録でき
るようにする。さらに3分割結果についての再配置の順
序および補足文字列を、あらかじめ様式化して、登録で
きるようにする。 これに従って、キーワードによる分割および不要文字列
の削除を、−律の処理手順で行い、さらに、様式化され
た形式に1分割および文末調整を施した結果を埋め込む
ようにして、変換結果を完成させる。 もちろん、入力した原文によっては、変換した結果が常
に正しいとは限らない。そこで、出力結果を見て、対話
的に修正できるようなマンマシンインタフェースを設け
てもよい。この処理については2通常のワードプロセッ
サで用いられているような編集機能により、容易に実現
できる。 〔発明の効果〕 以上説明したように1本発明によれば3機械翻訳をはじ
めとする日本語文などを扱う自然言語処理システムにお
いて、特定のパターンを有する長文を扱う場合、自動的
にその長文を分割して並び換え、理解しやすい表現に直
すことができる。これによって1機械が長文を容易に理
解できるようになり、計算機による自然言語処理の適用
分野。 応用分野の拡張も可能になる。また、これらの各種処理
において1人間の手による前編集が削減されるので2人
間の心理的な圧迫などもなくすことが可能になる。
【図面の簡単な説明】
第1図は本発明の構成例。 第2図は本発明による一実施例処理フロー第3図は本発
明の処理対象となる文の例。 第4図は本発明による処理結果の例を示す。 図中、10は人力装置、11は処理装置、12は原文人
力部、13は変換処理部、14は文字列検索部、15は
分割処理部、16は形態素解析処理部、17は文末調整
処理部、18は再配置処理部、19は結果出力部、20
はキーワード記憶部。 21は日本語辞書、22は出力装置を表す。 一実施例処理フ 第 図 発明の横 第1図

Claims (1)

  1. 【特許請求の範囲】 自然言語で記述された文を計算機で処理する自然言語処
    理システムにおいて、 入力した原文について、あらかじめ準備されたキーワー
    ドを検索する文字列検索部(14)と、キーワードの検
    索結果により、該文を複数に分割するとともに、その分
    割結果から、さらに用言の連用中止形または名詞の並立
    を表す助詞を検索して、記述されている事項を分割する
    分割処理部(15)と、 分割された各々の文に形態素解析を施す形態素解析処理
    部(16)と、 形態素解析の結果により、文末表現を終止形に修正する
    文末調整処理部(17)と、 これらの分割結果を再配置するとともに、文脈に必要な
    文字や文の補足を行う再配置処理部(18)とを備え、 長文を短く、読みやすい形式に変換するようにしたこと
    を特徴とする長文の分割再配置処理方式。
JP1278052A 1989-10-25 1989-10-25 自然言語処理装置 Expired - Lifetime JP2697926B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1278052A JP2697926B2 (ja) 1989-10-25 1989-10-25 自然言語処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1278052A JP2697926B2 (ja) 1989-10-25 1989-10-25 自然言語処理装置

Publications (2)

Publication Number Publication Date
JPH03138756A true JPH03138756A (ja) 1991-06-13
JP2697926B2 JP2697926B2 (ja) 1998-01-19

Family

ID=17591984

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1278052A Expired - Lifetime JP2697926B2 (ja) 1989-10-25 1989-10-25 自然言語処理装置

Country Status (1)

Country Link
JP (1) JP2697926B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009015398A (ja) * 2007-06-29 2009-01-22 Fujitsu Ltd 文章分割プログラム、文章分割装置および文章分割方法
JP2013077101A (ja) * 2011-09-30 2013-04-25 Nippon Hoso Kyokai <Nhk> 文変換装置およびそのプログラム
CN110634172A (zh) * 2018-06-25 2019-12-31 微软技术许可有限责任公司 生成用于演示的幻灯片
CN110782888A (zh) * 2018-07-27 2020-02-11 国际商业机器公司 用于改变感知认知状态的语音语气控制系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60245076A (ja) * 1984-05-19 1985-12-04 Ricoh Co Ltd デ−タ作成装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60245076A (ja) * 1984-05-19 1985-12-04 Ricoh Co Ltd デ−タ作成装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009015398A (ja) * 2007-06-29 2009-01-22 Fujitsu Ltd 文章分割プログラム、文章分割装置および文章分割方法
JP2013077101A (ja) * 2011-09-30 2013-04-25 Nippon Hoso Kyokai <Nhk> 文変換装置およびそのプログラム
CN110634172A (zh) * 2018-06-25 2019-12-31 微软技术许可有限责任公司 生成用于演示的幻灯片
CN110782888A (zh) * 2018-07-27 2020-02-11 国际商业机器公司 用于改变感知认知状态的语音语气控制系统

Also Published As

Publication number Publication date
JP2697926B2 (ja) 1998-01-19

Similar Documents

Publication Publication Date Title
US7562009B1 (en) Linguistic processing platform, architecture and methods
JPH0242572A (ja) 共起関係辞書生成保守方法
JPS62163173A (ja) 機械翻訳方法
Chungku et al. Building NLP resources for Dzongkha: a tagset and a tagged corpus
Batanovic et al. SETimes. SR–a reference training corpus of Serbian
JPH03138756A (ja) 自然言語処理装置
Chan Concordancers and concordances: Tools for Chinese language teaching and research
Scrivner et al. Le Roman de Flamenca: An annotated corpus of old occitan
JP2958044B2 (ja) かな漢字変換方法及び装置
JP2546515B2 (ja) 情報抽出装置
Lancioni et al. Arabic Meaning Extraction through Lexical Resources: A General-Purpose Data Mining Model for Arabic Texts
Matsumoto et al. Chaki: An annotated corpora management and search system
JP3972697B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP3197110B2 (ja) 自然言語解析装置および機械翻訳装置
MĂRĂNDUC et al. A Resource for the Written Romanian: the UAIC Dependency Treebank
Kano-Bower A Tool for Easier Part of Speech Tagging of Corpora
JP2719453B2 (ja) 機械翻訳装置
JP3253311B2 (ja) 言語処理装置および言語処理方法
JP2752025B2 (ja) 機械翻訳装置
JP2819766B2 (ja) 外国語電子辞書検索方式
Bird et al. Web‐based Dictionaries for Languages of the South‐west USA
Hettige et al. Using human-assisted machine translation to overcome language barrier in sri lanka,”
JP2003141110A (ja) 複数言語入力での言語処理方法及び言語処理装置
Casbeer et al. A link grammar parser for Arabic
Mohanty et al. Lexical Resources for Semantics Extraction.

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080919

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080919

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090919

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090919

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100919

Year of fee payment: 13

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100919

Year of fee payment: 13