JPH03138756A - 自然言語処理装置 - Google Patents
自然言語処理装置Info
- Publication number
- JPH03138756A JPH03138756A JP1278052A JP27805289A JPH03138756A JP H03138756 A JPH03138756 A JP H03138756A JP 1278052 A JP1278052 A JP 1278052A JP 27805289 A JP27805289 A JP 27805289A JP H03138756 A JPH03138756 A JP H03138756A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- division
- processing unit
- sentences
- long
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 claims abstract description 21
- 230000014509 gene expression Effects 0.000 claims abstract description 13
- 230000008707 rearrangement Effects 0.000 claims abstract description 12
- 239000013589 supplement Substances 0.000 claims abstract description 5
- 230000000877 morphologic effect Effects 0.000 claims description 18
- 238000000034 method Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 12
- 238000003058 natural language processing Methods 0.000 claims description 7
- 239000002245 particle Substances 0.000 claims description 3
- 230000036651 mood Effects 0.000 abstract 2
- 238000001514 detection method Methods 0.000 description 7
- 230000004044 response Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 241000282412 Homo Species 0.000 description 3
- 238000003672 processing method Methods 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
め要約のデータは記録されません。
Description
ードを有する定式化された長文を扱う自然言語処理シス
テムにおける長文の分割再配置処理方式に関し。 自然言語の長文を、a械にとっても人間にとってもわか
りやすい表現に、自動的に変換する手段を提供すること
を目的とし。 入力した原文について、あらかじめ準備されたキーワー
ドを検索する文字列検索部と、キーワードの検索結果に
より、原文を複数に分割するとともに、その分割結果か
ら、さらに用言の連用中止形または名詞の並立を表す助
詞を検索して、記述されている事項を分割する分割処理
部と1分割された各々の文に形態素解析を施す形態素解
析処理部と、形態素解析の結果により1文末表現を終止
形に修正する文末調整処理部と、これらの分割結果を再
配置するとともに1文脈に必要な文字や文の補足を行う
再配置処理部とを備え、長文を短く。 読みやすい形式に変換するように構成する。 時に、長文は1人間にとっても読みに<<、シかも理解
を妨げる原因になっていた。 そのため、従来9自然言語で記述された長文を。 計算機により、短文に変換する処理が考えられているが
、単に特定の言葉を探して、その言葉の部分で分割する
に過ぎなかった。 〔産業上の利用分野〕 本発明は、計算機により2日本語文などで記述された特
定のキーワードを有する定式化された長文を扱う自然言
語処理システムにおける長文の分割再配置処理方式に関
する。 例えば、特許出願の明細書における特許請求の範囲の記
載にように、長文になることが多い文章は、所定の位置
で短(分割し、再配置すれば、読みやす<、シかも理解
しやすくなることがある。 〔従来の技術〕 機械翻訳をはじめとする自然言語処理システムでは、一
般に長文を扱うことは困難であった。同〔発明が解決し
ようとする課題〕 自然言語の長文を、理解しやすい表現に変換するために
は、長文を短文に分割するのが有効であるが、さまざま
な条件が複雑に絡んでいるような長文は、単純に前方か
ら順次分割すると、意味の通らない文になってしまうこ
とがある。特に、長い修飾句が続いたり、同種の用語の
繰り返しが続くような長文は、処理が難しく3分割した
だけでは、意味の把握が困難であるという問題があった
。 例えば、特許出願の明細書において、最も重要な意味を
持つ「特許請求の範囲」の記載では、1文が1000文
字以上にも及ぶことがあり、しかも表現上の条件が複雑
に絡んでいるため、自然言語処理での扱いが極めて困難
であった。 本発明は上記問題点の解決を図り、自然言語の長文を1
機械にとっても人間にとってもわかりやすい表現に、自
動的に変換する手段を提供することを目的としている。 〔課題を解決するための手段〕 第1図は本発明の構成例を示す。 第1図において、10は原文を入力するための外部記憶
装置やデイスプレィ・キーボードなどの入力装置、11
はCPUおよびメモリなどからなる処理装置、12は処
理対象の原文を入力する原文人力部、13は自然言語の
文をわかりやすい文に変換する変換処理部、14は文字
列検索部、15は分割処理部、16は形態素解析処理部
、17は文末調整処理部、18は再配置処理部、19は
処理結果を出力する結果出力部、20はあらかじめ決め
られているキーワードを記憶するキーワード記憶部、2
1は日本語の単語に関する文法情報等を記憶する日本語
辞書、22はデイスプレィ。 外部記憶装置またはプリンタなどの出力装置を表す。 本発明では、特定のキーワードを使用して、定式的に書
かれた長文を、以下の各処理部により。 短文に分割し、かつ読みやすい形式に自動的に変換する
。 文字列検索部14は、原文人力部12によって入力した
原文について、あらかじめキーワード記憶部20に準備
されたキーワードを検索する処理部である。 分割処理部15は、キーワードの検索結果により、キー
ワードに応じて定められた箇所で、原文を複数に分割す
るとともに、その分割結果から。 さらに用言の連用中止形または名詞の並立を表す助詞を
検索して、記述されている事項を分割する処理部である
。 形態素解析処理部16は3分割処理部15によって分割
された各々の文に9日本語辞書21に従って形態素解析
を施す処理部である。 文末調整処理部17は、形態素解析処理部16による形
態素解析の結果により5文末表現を終止形に修正する処
理部である。 再配置処理部18は、これらの分割結果を、キーワード
に関連してあらかじめ定められた位置に再配置するとと
もに2文脈に必要な文字や文の補足を行う処理部である
。 結果出力部19は、変換処理部13による処理結果を、
所定の出力装置22に出力する。 〔作用〕 長文の中でも、特定のパターンを有する定式化された文
であれば、キーワードや用言の連用形。 名詞の繰り返しなどを判定して分割し、それを任意に再
配置し、さらに文脈に必要な文字や文を補うことによっ
て、処理しやすい文に変換することができる。 本発明は、この点に着目し、特定のキーワードを有する
定式化された長文を2機械にとっても人間にとってもわ
かりやすい表現にするために、キーワードによって文を
複数に分割し、用言や名詞の繰り返しによってさらに分
割し、その後、形態素解析を施して文末表現を調整して
、全体を並べ換える。 〔実施例〕 第2図は本発明による一実施例処理フロー、第3図は本
発明の処理対象となる文の例、第4図は本発明による処
理結果の例を示す。 本発明による処理の流れは1例えば第2図に示す処理■
〜■のようになる。 ■ 特定のキーワードを有する定式化された日本語文な
どの原文を入力する。 ■ 入力した原文について、あらかじめ$備されたキー
ワードにより検索する。検索されたキーワードにより、
原文を複数の文に分割する。 ■ 分割された文の各々について、用言の連用形や名詞
の繰り返しなどを調べ、さらに文を分割する。 ■ 分割された各々の文に2日本語辞書などを参照し、
形態素解析を施す。すなわち、各文がどのような単語で
構成されるかなどを調べる。 ■ 形態素解析の結果に基づき9例えば「〜し」という
形を「〜する」という形に直すなどの分割した部分の文
末の調整を行う。 ■ 分割した文の文末を調整したものを、再配置する。 ■ あらかじめ定められている文脈に必要な文字や文を
補足して、完成させる。 ■ 結果を指定された出力装置に出力する。 以下、特許出願の明細書における「特許請求の範囲」に
普通に記載される文を例にして2本発明の具体的な実施
例を特徴する 特許請求の範囲の記載では3通常、1文が非常に長いに
もかかわらず、特定のパターンを1寺つことが多い。第
3図は、そのパターンの例を示している。 この例では1分割の基準となる特定のキーワードが「に
おいて、」と「ことを特徴とする」である。「において
、」および「ことを特徴とする」によって、前提部1条
件部9允明名称部の3部分に分割することができる。 前提部には、以下の特徴がある。 末尾に名詞がくる。 修飾部は連用中止形の並列。 条件部には、以下の特徴がある。 中止形の並列、この中止形は、「連用形」。 「連用形+で」、「終止形+とともに」など。 中止形の並列の中に「備え」または「設け」がくること
がある。 「備え」、「設け」の節は、中止形の並列の先頭にくる
。 「備え」、「設け」の前部は1名詞の並列。 発明の名称部には、以下の特徴がある。 名詞または名詞の連続(複合語)。 例えば1次のような特許請求の範囲の記載を。 処理対象とした例を説明する。 r△Δし、ロロし、・・・OOする(名詞)において。 ◎と、・・・9とを備え、☆☆し、・・・◇◇したこと
を特徴とする
る」)を探して、前提部9条件部1允明名称部に分ける
。 (11)前提部の処理 連用中止形と、末尾の名詞を分割する。文末は形態素解
析の結果をもとに調整する。 すなわち、rΔ△し、ロロし、・・・○○する(名詞)
1を人力し、rΔ△する。1 r日日する。J・・・r
○○する。1 「(名詞)」を出力する。 (ul)条件部の処理 (])「備え」、「設け」、「具備し」などをサーチし
、あれば、その前までの名詞の並列を分解する。 (2) それ以降の中止形で分割する。文末は、形態
素解析の結果をもとに調整する。 ここでの入力は、「◎と、・・・9とを備え、☆☆し、
・・・◇◇したjであり、出力は1次のようなものにな
る。 r以下のものを備えている。1 「−◎。」・・・r−
g。j r☆☆する。j・・・r◇◇する。」(iv
)発明名称部の処理 発明名称部は1名詞の連続であるので、何もする必要は
ない。 (v)再配置の処理 以上の結果を並び換える。また、必要であれば定型的な
文字や文を補う。この結果は、第4図に示す例のように
なる。 第4図に示すように2発明名称部を、定型的な文の中に
嵌め込んで、先頭に配置する。次に前提部を配置する。 さらに1条件部の条件を1図示のように列挙する。 次に、具体例を挙げる。
生成ラベル検出方法において。 ラベル名、生成フラグおよび参照フラグを組として登録
するラベル登録テーブルと プログラムに記述された生成ラベルを検出したことに対
応して、上記ラベル登録テーブルに当該ラベル名が登録
されていない場合に登録すると共に生成フラグをオンに
し、一方、登録されていた場合に生成フラグをオンにす
る生成ラベル登録部と。 プログラムに記述された参照ラベルを検出したことに対
応して、上記ラベル登録テーブルに当該ラベル名が登録
されていない場合に登録すると共に参照フラグをオンに
し、一方、登録されていた場合に参照フラグがオンでな
いときにオンにする参照ラベル登録部と。 上記ラベル登録テーブルの各ラベル名の参照フラグがオ
ンで生成フラグがオフのものを未生成ラベルとして検出
するラベル照合部とを備え。 このラベル照合部によって未生成ラベルを検出するよう
に構成したことを特徴とする未生成ラベル検出方法。1
成ラベル検出方法j。 [条件部1 rラベル名、生成フラグおよび参照フラグを組として登
録するラベル登録テーブルと。 プログラムに記述された生成ラベルを検出したことに対
応して、上記ラベル登録テーブルに当該ラベル名が登録
されていない場合に登録すると共に生成フラグをオンに
し、一方、登録されていた場合に生成フラグをオンにす
る生成ラベル登録部と。 プログラムに記述された参照ラベルを検出したことに対
応して、上記ラベル登録テーブルに当該ラベル名が登録
されていない場合に登録すると共に参照フラグをオンに
し、一方、登録されていた場合に参照フラグがオンでな
いときにオンにする参照ラベル登録部と。 上記ラベル登録テーブルの各ラベル名の参照フラグがオ
ンで生成フラグがオフのものを未生成ラベルとして検出
するラベル照合部とを備え。 このラベル照合部によって未生成ラベルを検出するよう
に構成した」。 U発明名称部コ r未生成ラベル検出方法1゜
ラベル検出方法である。 以下の条件を満たす未生成ラベル検出方法である。 ・プログラムに記述された未生成ラベルを検出する。 以下のものを備えている。 ・ラベル名、生成フラグおよび参照フラグを組として登
録するラベル登録テーブル。 ・プログラムに記述された生成ラベルを検出したことに
対応して、上記ラベル登録テーブルに当該ラベル名が登
録されていない場合に登録すると共に生成フラグをオン
にし、一方。 登録されていた場合に生成フラグをオンにする生成ラベ
ル登録部。 ・プログラムに記述された参照ラベルを検出したことに
対応して、上記ラベル登録テーブルに当該ラベル名が登
録されていない場合に登録すると共に参照フラグをオン
にし、一方。 登録されていた場合に参照フラグがオンでないときにオ
ンにする参照ラベル登録部。 ・上記ラベル登録テーブルの各ラベル名の参照フラグが
オンで生成フラグがオフのものを未生成ラベルとして検
出するラベル照合部。 このラベル照合部によって未生成ラベルを検出するよう
に構成する。1 〔他の実施例〕 本発明は、検索するキーワードや、再配置の順序を変更
することにより、さまざまな分野の長文に適用すること
ができる。 以下は、出張レポートへの適用例である。 ここでは、「日」 1課」 「のために」 「に出張し
」などをキーワードとして用意しておき、それに基づい
て文を分割して、配置をし直す。次のような出張レポー
ト■は、■のように変換することができる。
ために、×××株式会社に出張し、今回のエンハンスの
説明を行った。
文字や文は、適用する文が用いられる分野によって、異
なる。したがって、その適用分野に応じて、それらを処
理するプログラムを個別に用意するほうが、きめ細かな
変換が可能である。 ただし2次のようにして、汎用化を図ることも可能であ
る。 あらかじめキーワードとその各キーワードに応じて起動
されるプログラムの名前または処理種別などを登録でき
るようにする。さらに3分割結果についての再配置の順
序および補足文字列を、あらかじめ様式化して、登録で
きるようにする。 これに従って、キーワードによる分割および不要文字列
の削除を、−律の処理手順で行い、さらに、様式化され
た形式に1分割および文末調整を施した結果を埋め込む
ようにして、変換結果を完成させる。 もちろん、入力した原文によっては、変換した結果が常
に正しいとは限らない。そこで、出力結果を見て、対話
的に修正できるようなマンマシンインタフェースを設け
てもよい。この処理については2通常のワードプロセッ
サで用いられているような編集機能により、容易に実現
できる。 〔発明の効果〕 以上説明したように1本発明によれば3機械翻訳をはじ
めとする日本語文などを扱う自然言語処理システムにお
いて、特定のパターンを有する長文を扱う場合、自動的
にその長文を分割して並び換え、理解しやすい表現に直
すことができる。これによって1機械が長文を容易に理
解できるようになり、計算機による自然言語処理の適用
分野。 応用分野の拡張も可能になる。また、これらの各種処理
において1人間の手による前編集が削減されるので2人
間の心理的な圧迫などもなくすことが可能になる。
明の処理対象となる文の例。 第4図は本発明による処理結果の例を示す。 図中、10は人力装置、11は処理装置、12は原文人
力部、13は変換処理部、14は文字列検索部、15は
分割処理部、16は形態素解析処理部、17は文末調整
処理部、18は再配置処理部、19は結果出力部、20
はキーワード記憶部。 21は日本語辞書、22は出力装置を表す。 一実施例処理フ 第 図 発明の横 第1図
Claims (1)
- 【特許請求の範囲】 自然言語で記述された文を計算機で処理する自然言語処
理システムにおいて、 入力した原文について、あらかじめ準備されたキーワー
ドを検索する文字列検索部(14)と、キーワードの検
索結果により、該文を複数に分割するとともに、その分
割結果から、さらに用言の連用中止形または名詞の並立
を表す助詞を検索して、記述されている事項を分割する
分割処理部(15)と、 分割された各々の文に形態素解析を施す形態素解析処理
部(16)と、 形態素解析の結果により、文末表現を終止形に修正する
文末調整処理部(17)と、 これらの分割結果を再配置するとともに、文脈に必要な
文字や文の補足を行う再配置処理部(18)とを備え、 長文を短く、読みやすい形式に変換するようにしたこと
を特徴とする長文の分割再配置処理方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1278052A JP2697926B2 (ja) | 1989-10-25 | 1989-10-25 | 自然言語処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1278052A JP2697926B2 (ja) | 1989-10-25 | 1989-10-25 | 自然言語処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH03138756A true JPH03138756A (ja) | 1991-06-13 |
JP2697926B2 JP2697926B2 (ja) | 1998-01-19 |
Family
ID=17591984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1278052A Expired - Lifetime JP2697926B2 (ja) | 1989-10-25 | 1989-10-25 | 自然言語処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2697926B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009015398A (ja) * | 2007-06-29 | 2009-01-22 | Fujitsu Ltd | 文章分割プログラム、文章分割装置および文章分割方法 |
JP2013077101A (ja) * | 2011-09-30 | 2013-04-25 | Nippon Hoso Kyokai <Nhk> | 文変換装置およびそのプログラム |
CN110634172A (zh) * | 2018-06-25 | 2019-12-31 | 微软技术许可有限责任公司 | 生成用于演示的幻灯片 |
CN110782888A (zh) * | 2018-07-27 | 2020-02-11 | 国际商业机器公司 | 用于改变感知认知状态的语音语气控制系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60245076A (ja) * | 1984-05-19 | 1985-12-04 | Ricoh Co Ltd | デ−タ作成装置 |
-
1989
- 1989-10-25 JP JP1278052A patent/JP2697926B2/ja not_active Expired - Lifetime
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60245076A (ja) * | 1984-05-19 | 1985-12-04 | Ricoh Co Ltd | デ−タ作成装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009015398A (ja) * | 2007-06-29 | 2009-01-22 | Fujitsu Ltd | 文章分割プログラム、文章分割装置および文章分割方法 |
JP2013077101A (ja) * | 2011-09-30 | 2013-04-25 | Nippon Hoso Kyokai <Nhk> | 文変換装置およびそのプログラム |
CN110634172A (zh) * | 2018-06-25 | 2019-12-31 | 微软技术许可有限责任公司 | 生成用于演示的幻灯片 |
CN110782888A (zh) * | 2018-07-27 | 2020-02-11 | 国际商业机器公司 | 用于改变感知认知状态的语音语气控制系统 |
Also Published As
Publication number | Publication date |
---|---|
JP2697926B2 (ja) | 1998-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7562009B1 (en) | Linguistic processing platform, architecture and methods | |
JPH0242572A (ja) | 共起関係辞書生成保守方法 | |
JPS62163173A (ja) | 機械翻訳方法 | |
Chungku et al. | Building NLP resources for Dzongkha: a tagset and a tagged corpus | |
Batanovic et al. | SETimes. SR–a reference training corpus of Serbian | |
JPH03138756A (ja) | 自然言語処理装置 | |
Chan | Concordancers and concordances: Tools for Chinese language teaching and research | |
Scrivner et al. | Le Roman de Flamenca: An annotated corpus of old occitan | |
JP2958044B2 (ja) | かな漢字変換方法及び装置 | |
JP2546515B2 (ja) | 情報抽出装置 | |
Lancioni et al. | Arabic Meaning Extraction through Lexical Resources: A General-Purpose Data Mining Model for Arabic Texts | |
Matsumoto et al. | Chaki: An annotated corpora management and search system | |
JP3972697B2 (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
JP3197110B2 (ja) | 自然言語解析装置および機械翻訳装置 | |
MĂRĂNDUC et al. | A Resource for the Written Romanian: the UAIC Dependency Treebank | |
Kano-Bower | A Tool for Easier Part of Speech Tagging of Corpora | |
JP2719453B2 (ja) | 機械翻訳装置 | |
JP3253311B2 (ja) | 言語処理装置および言語処理方法 | |
JP2752025B2 (ja) | 機械翻訳装置 | |
JP2819766B2 (ja) | 外国語電子辞書検索方式 | |
Bird et al. | Web‐based Dictionaries for Languages of the South‐west USA | |
Hettige et al. | Using human-assisted machine translation to overcome language barrier in sri lanka,” | |
JP2003141110A (ja) | 複数言語入力での言語処理方法及び言語処理装置 | |
Casbeer et al. | A link grammar parser for Arabic | |
Mohanty et al. | Lexical Resources for Semantics Extraction. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080919 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080919 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090919 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090919 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100919 Year of fee payment: 13 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100919 Year of fee payment: 13 |