JPH0765009A - 自然言語処理装置 - Google Patents
自然言語処理装置Info
- Publication number
- JPH0765009A JPH0765009A JP5208106A JP20810693A JPH0765009A JP H0765009 A JPH0765009 A JP H0765009A JP 5208106 A JP5208106 A JP 5208106A JP 20810693 A JP20810693 A JP 20810693A JP H0765009 A JPH0765009 A JP H0765009A
- Authority
- JP
- Japan
- Prior art keywords
- notation
- wobble
- document
- pending
- identification information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
(57)【要約】
【目的】 自然言語処理技術において単位や数値など表
記のゆれが大きい単語の取り扱いを改善し、電子化辞書
の大容量化あるいは意味解析の複雑化を回避しつつ、表
記のゆれへの十分な対応を可能とする。 【構成】 システムは、形態素解析の際、品詞判定結果
に基づいて数値識別子を生成しておく。文書校正処理に
あたって、まず形態素解析による解析結果データを参照
する(S1)。数値識別子に基づいて数値出現箇所をピ
ックアップし表示する(S2)。ノイズを高精度に排除
した数値出現箇所のピックアップが可能となる。この
後、指示入力の取り込み処理を行う(S3)。指示入力
に従って校正処理を行う(S4,5)。オペレータは、
ピックアップされた数値出現箇所を目視で確認したうえ
で、表記の統一等、必要な校正を行うことができる。
記のゆれが大きい単語の取り扱いを改善し、電子化辞書
の大容量化あるいは意味解析の複雑化を回避しつつ、表
記のゆれへの十分な対応を可能とする。 【構成】 システムは、形態素解析の際、品詞判定結果
に基づいて数値識別子を生成しておく。文書校正処理に
あたって、まず形態素解析による解析結果データを参照
する(S1)。数値識別子に基づいて数値出現箇所をピ
ックアップし表示する(S2)。ノイズを高精度に排除
した数値出現箇所のピックアップが可能となる。この
後、指示入力の取り込み処理を行う(S3)。指示入力
に従って校正処理を行う(S4,5)。オペレータは、
ピックアップされた数値出現箇所を目視で確認したうえ
で、表記の統一等、必要な校正を行うことができる。
Description
【0001】
【産業上の利用分野】この発明は、自然言語をコンピュ
ータシステムで処理する自然言語処理技術に関する。
ータシステムで処理する自然言語処理技術に関する。
【0002】
【従来の技術】機械翻訳、質問応答、談話理解、音声処
理システムなどの自然言語処理では、自然言語データベ
ース等を使った意味理解や内容理解を行う。自然言語デ
ータベースの基になる電子化辞書(機械処理用辞書)
は、各単語の表記を見出し語とし、当該単語の単語名や
意味、説明文、用例文を対応づけた構造をとり、見出し
語から検索がなされる。
理システムなどの自然言語処理では、自然言語データベ
ース等を使った意味理解や内容理解を行う。自然言語デ
ータベースの基になる電子化辞書(機械処理用辞書)
は、各単語の表記を見出し語とし、当該単語の単語名や
意味、説明文、用例文を対応づけた構造をとり、見出し
語から検索がなされる。
【0003】ここで、日本語には「表記のゆれ」という
現象が存在する。単位について例を挙げると、たとえば
「キロメートル」の場合、「キロメートル」の他に、
「Km」といった表記あるいはJIS(日本工業規格)
コード2D52の1文字による表記等がある。また数値
について例を挙げると、たとえば「25000」の場
合、「25000」の他に、「25,000」や「二五
〇〇〇」、「二万五千」、「2万5千」、「2万500
0」、「二万五〇〇〇」等、種々の表記がある。このよ
うな表記のゆれに関し従来は、機械処理用辞書におい
て、表記のゆれのある語に係る種々の表記を用意してお
くことで対処している。
現象が存在する。単位について例を挙げると、たとえば
「キロメートル」の場合、「キロメートル」の他に、
「Km」といった表記あるいはJIS(日本工業規格)
コード2D52の1文字による表記等がある。また数値
について例を挙げると、たとえば「25000」の場
合、「25000」の他に、「25,000」や「二五
〇〇〇」、「二万五千」、「2万5千」、「2万500
0」、「二万五〇〇〇」等、種々の表記がある。このよ
うな表記のゆれに関し従来は、機械処理用辞書におい
て、表記のゆれのある語に係る種々の表記を用意してお
くことで対処している。
【0004】ここで、現在、実用・試用に供されている
自然言語処理技術では、より高い信頼性を得るため、機
械処理結果に対し対話形式による文書校正を施すことが
一般的にである。機械処理用辞書に登録されていない表
記が出現した場合、当該表記は未登録語として扱われ
る。上述の文書校正において未登録語に対処することに
より、機械処理で未対応あるいは対応できない表記のゆ
れに対処していた。
自然言語処理技術では、より高い信頼性を得るため、機
械処理結果に対し対話形式による文書校正を施すことが
一般的にである。機械処理用辞書に登録されていない表
記が出現した場合、当該表記は未登録語として扱われ
る。上述の文書校正において未登録語に対処することに
より、機械処理で未対応あるいは対応できない表記のゆ
れに対処していた。
【0005】
【発明が解決しようとする課題】自然言語処理では、対
話形式による文書校正を自動処理結果に施す態様が一般
的であるが、表記のゆれの問題がこの文書校正の煩雑化
を招いていた。この要因として、次の2つが挙げられ
る。
話形式による文書校正を自動処理結果に施す態様が一般
的であるが、表記のゆれの問題がこの文書校正の煩雑化
を招いていた。この要因として、次の2つが挙げられ
る。
【0006】第1の要因は、未登録語の処理にある。す
なわち、上述のように、未登録語への対処が文書校正に
おける作業の1つとなるため、機械処理用辞書に用意さ
れている表記が不十分である、あるいは上述の数値の例
のように機械処理用辞書に多様な表記をすべて用意する
ことが困難である語が存在することにより、未登録語の
出現頻度が増大し、これに伴って文書校正における作業
量が増大していた。
なわち、上述のように、未登録語への対処が文書校正に
おける作業の1つとなるため、機械処理用辞書に用意さ
れている表記が不十分である、あるいは上述の数値の例
のように機械処理用辞書に多様な表記をすべて用意する
ことが困難である語が存在することにより、未登録語の
出現頻度が増大し、これに伴って文書校正における作業
量が増大していた。
【0007】第2の要因は、表記のゆれの統一処理にあ
る。すなわち、たとえば「キロメートル」や「Km」等
が同一の文章に混在する場合、これらをいずれかに統一
したいという要請がある。さらに、「キロメートル」や
「Km」等をたとえば「Km」に統一した場合におい
て、他に「キログラム」と「Kg」が存在していた場合
は、これらを「Km」に合わせて「Kg」に統一するこ
とが好ましい。このため、文書校正においてオペレータ
は、「キロメートル」を「Km」に統一した後、「キロ
グラム」を「Kg」に統一する等、同様の作業の繰り返
しを強いられることになる。これらの問題が文章校正に
おけるオペレータの負担を増大させ、しかも見逃し等の
過誤による精度低下を招いていた。
る。すなわち、たとえば「キロメートル」や「Km」等
が同一の文章に混在する場合、これらをいずれかに統一
したいという要請がある。さらに、「キロメートル」や
「Km」等をたとえば「Km」に統一した場合におい
て、他に「キログラム」と「Kg」が存在していた場合
は、これらを「Km」に合わせて「Kg」に統一するこ
とが好ましい。このため、文書校正においてオペレータ
は、「キロメートル」を「Km」に統一した後、「キロ
グラム」を「Kg」に統一する等、同様の作業の繰り返
しを強いられることになる。これらの問題が文章校正に
おけるオペレータの負担を増大させ、しかも見逃し等の
過誤による精度低下を招いていた。
【0008】この発明は、かかる問題点に鑑み、自然言
語処理技術において単位や数値など表記のゆれが大きい
単語の取り扱いを改善し、電子化辞書の大容量化あるい
は意味解析の複雑化を回避しつつ、表記のゆれへの十分
な対応を可能とすることを目的とする。
語処理技術において単位や数値など表記のゆれが大きい
単語の取り扱いを改善し、電子化辞書の大容量化あるい
は意味解析の複雑化を回避しつつ、表記のゆれへの十分
な対応を可能とすることを目的とする。
【0009】
【課題を解決するための手段】図1ないし図3はこの発
明の構成を示す。請求項1記載の発明は、図1に示すよ
うに、入力される文書情報に対し形態素解析処理を行う
形態素解析手段101と、形態素解析後の文書情報10
2に対し対話形式による文書校正処理を行う文書校正手
段103とを備えた自然言語処理装置にあって、次の措
置を講じたものである。
明の構成を示す。請求項1記載の発明は、図1に示すよ
うに、入力される文書情報に対し形態素解析処理を行う
形態素解析手段101と、形態素解析後の文書情報10
2に対し対話形式による文書校正処理を行う文書校正手
段103とを備えた自然言語処理装置にあって、次の措
置を講じたものである。
【0010】(1)形態素解析時あるいは形態素解析後
に動作し、文書中における特定種類の単語に係る表記箇
所を弁別して、この表記箇所を示す特定表記識別情報1
04を生成する特定表記識別情報生成手段105を備え
ること。
に動作し、文書中における特定種類の単語に係る表記箇
所を弁別して、この表記箇所を示す特定表記識別情報1
04を生成する特定表記識別情報生成手段105を備え
ること。
【0011】(2)文書校正手段103は、次の要素を
有するものとする。
有するものとする。
【0012】a.前記の表記箇所のうちから懸案表記箇
所を特定する懸案表記箇所特定手段106。
所を特定する懸案表記箇所特定手段106。
【0013】b.懸案表記箇所に対する修正指示入力1
07を取り込む入力手段108。
07を取り込む入力手段108。
【0014】c.修正指示入力107に従って懸案表記
箇所を修正する修正手段109。
箇所を修正する修正手段109。
【0015】請求項2記載の自然言語処理装置は、請求
項1記載の装置において、特定表記識別手段105が特
定種類の単語として数値を示す単語を対象とするものと
している。
項1記載の装置において、特定表記識別手段105が特
定種類の単語として数値を示す単語を対象とするものと
している。
【0016】請求項3記載の発明は、図2に示すよう
に、入力される文書情報201に対し対話形式による文
書校正処理を行う文書校正手段202を備えた自然言語
解析装置にあって、次の措置を講じたものである。
に、入力される文書情報201に対し対話形式による文
書校正処理を行う文書校正手段202を備えた自然言語
解析装置にあって、次の措置を講じたものである。
【0017】(1)次の手段を備えるものとする。
【0018】a.特定種類の単語に係る種々の表記20
3を単語ごとにゆれ表記群204に区分して格納するゆ
れ表記辞書205。
3を単語ごとにゆれ表記群204に区分して格納するゆ
れ表記辞書205。
【0019】b.ゆれ表記辞書205を参照して文書中
のゆれ表記箇所を検索し、このゆれ表記箇所を示すゆれ
表記識別情報206を生成するゆれ表記識別情報生成手
段207。
のゆれ表記箇所を検索し、このゆれ表記箇所を示すゆれ
表記識別情報206を生成するゆれ表記識別情報生成手
段207。
【0020】(2)文書校正手段202は、次の要素を
有するものとする。
有するものとする。
【0021】a.ゆれ表記識別情報206に基づいて文
書中のゆれ表記箇所を識別するゆれ表記箇所識別手段2
08。
書中のゆれ表記箇所を識別するゆれ表記箇所識別手段2
08。
【0022】b.ゆれ表記箇所のうちから懸案ゆれ表記
箇所を特定する懸案ゆれ表記箇所特定手段209。
箇所を特定する懸案ゆれ表記箇所特定手段209。
【0023】c.懸案ゆれ表記箇所および懸案ゆれ表記
箇所に係るゆれ表記群を表示する表示手段210。
箇所に係るゆれ表記群を表示する表示手段210。
【0024】d.懸案ゆれ表記群のうちのいずれかの表
記を指定する表記指定入力211を取り込む入力手段2
12。
記を指定する表記指定入力211を取り込む入力手段2
12。
【0025】e.この表記指定入力211に従って指定
表記を選択する指定表記選択手段213。
表記を選択する指定表記選択手段213。
【0026】f.ゆれ表記箇所のうちから懸案ゆれ表記
群に係る箇所を検索し、各箇所を指定表記に置換する懸
案ゆれ表記置換手段214。
群に係る箇所を検索し、各箇所を指定表記に置換する懸
案ゆれ表記置換手段214。
【0027】請求項4記載の発明は、図3に示すよう
に、入力される文書情報301に対し対話形式による文
書校正処理を行う文書校正手段302を備えた自然言語
解析装置にあって、次の措置を講じたものである。
に、入力される文書情報301に対し対話形式による文
書校正処理を行う文書校正手段302を備えた自然言語
解析装置にあって、次の措置を講じたものである。
【0028】(1)次の手段を備えるものとする。
【0029】a.特定種類の単語に係る種々の表記30
3をゆれ表記群304として格納すると共に各表記の種
別を示す表記種別識別情報305を付加したゆれ表記辞
書306。
3をゆれ表記群304として格納すると共に各表記の種
別を示す表記種別識別情報305を付加したゆれ表記辞
書306。
【0030】b.ゆれ表記辞書306を参照して文書中
のゆれ表記箇所を検索し、このゆれ表記箇所を示すゆれ
表記識別情報307を生成するゆれ表記識別情報生成手
段308。
のゆれ表記箇所を検索し、このゆれ表記箇所を示すゆれ
表記識別情報307を生成するゆれ表記識別情報生成手
段308。
【0031】(2)文書校正手段302は次の要素を有
するものとする。
するものとする。
【0032】a.表記種別指定309を格納する表記種
別指定格納手段310。
別指定格納手段310。
【0033】b.表記種別指定309に従ってゆれ表記
箇所を一括して所定の表記に置換するゆれ表記一括置換
手段311。
箇所を一括して所定の表記に置換するゆれ表記一括置換
手段311。
【0034】(3)ゆれ表記一括置換手段311は、次
の要素を有するものとする。
の要素を有するものとする。
【0035】a.ゆれ表記識別情報307に基づいて文
書中のゆれ表記箇所を識別するゆれ表記箇所識別手段3
12。
書中のゆれ表記箇所を識別するゆれ表記箇所識別手段3
12。
【0036】b.ゆれ表記箇所のうちから懸案ゆれ表記
箇所を逐次選択する懸案ゆれ表記箇所選択手段313。
箇所を逐次選択する懸案ゆれ表記箇所選択手段313。
【0037】c.懸案ゆれ表記箇所に係るゆれ表記群3
04の中から表記種別指定309に対応する表記303
を選択する表記選択手段314。
04の中から表記種別指定309に対応する表記303
を選択する表記選択手段314。
【0038】d.懸案ゆれ表記箇所を選択表記に置換す
る表記置換手段315。
る表記置換手段315。
【0039】また、請求項5記載の発明は、請求項3ま
たは4記載の装置において、ゆれ表記辞書205あるい
は306が特定種類の単語として単位を示す単語を対象
とするものとしている。
たは4記載の装置において、ゆれ表記辞書205あるい
は306が特定種類の単語として単位を示す単語を対象
とするものとしている。
【0040】また、請求項6記載の発明は、請求項5記
載の装置において、表記種別識別情報305に英数表記
および片仮名表記を示す情報を含むものとしている。
載の装置において、表記種別識別情報305に英数表記
および片仮名表記を示す情報を含むものとしている。
【0041】
【作用】請求項1に係る装置は、多様な表記がありしか
も単なる文字列照合では弁別が困難な単語(たとえば請
求項2記載のように数値を示す単語)の取り扱いに適す
る。すなわち、形態素解析の際に特定種類の単語に係る
表記箇所を弁別して特定表記識別情報を生成しておく。
形態素解析結果を用いることにより、上記の単語であっ
ても精度よく弁別を行える。そして文書校正において
は、特定表記識別情報を参照して直ちに特定種類の単語
に係る表記箇所を識別・表示できるので、効率的な文書
校正が可能となる。
も単なる文字列照合では弁別が困難な単語(たとえば請
求項2記載のように数値を示す単語)の取り扱いに適す
る。すなわち、形態素解析の際に特定種類の単語に係る
表記箇所を弁別して特定表記識別情報を生成しておく。
形態素解析結果を用いることにより、上記の単語であっ
ても精度よく弁別を行える。そして文書校正において
は、特定表記識別情報を参照して直ちに特定種類の単語
に係る表記箇所を識別・表示できるので、効率的な文書
校正が可能となる。
【0042】また、請求項3に係る装置は、単位を示す
単語等、特定種類の単語に係る種々の表記を格納したゆ
れ表記辞書を用意している。このゆれ表記辞書は、各表
記を単語ごとにゆれ表記群として区分したうえで格納し
ている。このうえでまず、形態素解析の際に、ゆれ表記
辞書を参照してゆれ表記箇所を検索し、ゆれ表記識別情
報を生成する。そして文書校正においては、前述と同様
に、ゆれ表記情報を参照してゆれ表記箇所を認識・表示
し、対話形式による処理を行って行く。このとき、懸案
ゆれ表記箇所に係るゆれ表記群をゆれ表記辞書から取得
して表示する。オペレータは、表示されたゆれ表記群の
うちからいずれかを指定する操作を行うのみで済む。
単語等、特定種類の単語に係る種々の表記を格納したゆ
れ表記辞書を用意している。このゆれ表記辞書は、各表
記を単語ごとにゆれ表記群として区分したうえで格納し
ている。このうえでまず、形態素解析の際に、ゆれ表記
辞書を参照してゆれ表記箇所を検索し、ゆれ表記識別情
報を生成する。そして文書校正においては、前述と同様
に、ゆれ表記情報を参照してゆれ表記箇所を認識・表示
し、対話形式による処理を行って行く。このとき、懸案
ゆれ表記箇所に係るゆれ表記群をゆれ表記辞書から取得
して表示する。オペレータは、表示されたゆれ表記群の
うちからいずれかを指定する操作を行うのみで済む。
【0043】また、請求項4に係る装置は、上記のゆれ
表記辞書において、表記の種別を示す表記種別情報を各
表記に付加している。請求項5記載のように、たとえば
単位を示す単語類を対象とする辞書の場合、当該単語類
の表記には英数表記や片仮名表記等の種別を示す表記種
別情報等を付加する。そして、文書校正においては、表
記種別指定に基づいて選択表記を決定し、この選択表記
に従って表記一括置換処理を行い、該当表記箇所を選択
表記に一括的に置換・統一する。オペレータは、たとえ
ば表記一括置換処理の際あるいは同処理に先立って、懸
案単語類に対する表記種別指定を入力する操作を行うの
みで済む。また、まず請求項3に係る装置と同様に逐次
的な表記置換処理を行い、このとき取り込んだ表記指定
入力の表記種別指定を求めて表記種別指定格納手段に書
き込んでおき、以降の表記一括置換処理で使用する態様
等をとることができる。
表記辞書において、表記の種別を示す表記種別情報を各
表記に付加している。請求項5記載のように、たとえば
単位を示す単語類を対象とする辞書の場合、当該単語類
の表記には英数表記や片仮名表記等の種別を示す表記種
別情報等を付加する。そして、文書校正においては、表
記種別指定に基づいて選択表記を決定し、この選択表記
に従って表記一括置換処理を行い、該当表記箇所を選択
表記に一括的に置換・統一する。オペレータは、たとえ
ば表記一括置換処理の際あるいは同処理に先立って、懸
案単語類に対する表記種別指定を入力する操作を行うの
みで済む。また、まず請求項3に係る装置と同様に逐次
的な表記置換処理を行い、このとき取り込んだ表記指定
入力の表記種別指定を求めて表記種別指定格納手段に書
き込んでおき、以降の表記一括置換処理で使用する態様
等をとることができる。
【0044】
【実施例】以下、図面を用いてこの発明の実施例を説明
する。
する。
【0045】一般に自然言語処理では、まず形態素解析
処理を行い、この後、構文解析処理等を行う。この実施
例では、文書校正のための前処理を形態素解析処理の際
に行って所定の参考情報を文書情報に付加し、この後、
この文書情報を用いて文書校正処理を行うこととする。
この文書校正処理では、数値校正支援処理および単位校
正支援処理が付加されている。
処理を行い、この後、構文解析処理等を行う。この実施
例では、文書校正のための前処理を形態素解析処理の際
に行って所定の参考情報を文書情報に付加し、この後、
この文書情報を用いて文書校正処理を行うこととする。
この文書校正処理では、数値校正支援処理および単位校
正支援処理が付加されている。
【0046】ここで、数値校正支援処理について説明す
るが、その説明に先立って形態素解析時の前処理におけ
る数値の取り扱いに言及する。一般に、形態素解析は、
入力テキストを単語(形態素)ごとに区切って品詞デー
タや意味データを与えるものである。図4に示すように
この処理では、たとえば、入力テキストを所定単位で外
部記憶装置より読み出して解析を繰り返し(S1〜
3)、この後、解析結果データを生成して外部記憶装置
に書き込む(S4)といった手順をとる。形態素解析プ
ロセス(S2)では、品詞の判定その他の解析が行われ
る。すなわち、数値に係る形態素も、所定の数値判定ア
ルゴリズムにより判別される。そこで、この実施例で
は、前処理として、解析データ生成プロセス(S4)に
おいて、数値に係る形態素にその旨を示す数値識別子を
付加しておくこととする。
るが、その説明に先立って形態素解析時の前処理におけ
る数値の取り扱いに言及する。一般に、形態素解析は、
入力テキストを単語(形態素)ごとに区切って品詞デー
タや意味データを与えるものである。図4に示すように
この処理では、たとえば、入力テキストを所定単位で外
部記憶装置より読み出して解析を繰り返し(S1〜
3)、この後、解析結果データを生成して外部記憶装置
に書き込む(S4)といった手順をとる。形態素解析プ
ロセス(S2)では、品詞の判定その他の解析が行われ
る。すなわち、数値に係る形態素も、所定の数値判定ア
ルゴリズムにより判別される。そこで、この実施例で
は、前処理として、解析データ生成プロセス(S4)に
おいて、数値に係る形態素にその旨を示す数値識別子を
付加しておくこととする。
【0047】この後、形態素解析による解析結果データ
を用いて文書校正処理が行われる。この文書校正処理で
は、図5に示すように、入力テキストの表示処理(S
2)や各種の指示入力の取り込み処理(S3)、指示入
力に従ったテキスト校正処理(S4)等を基本処理と
し、これらの処理の組み合わせにより次の数値校正支援
処理が実現される。
を用いて文書校正処理が行われる。この文書校正処理で
は、図5に示すように、入力テキストの表示処理(S
2)や各種の指示入力の取り込み処理(S3)、指示入
力に従ったテキスト校正処理(S4)等を基本処理と
し、これらの処理の組み合わせにより次の数値校正支援
処理が実現される。
【0048】この実施例に係る数値校正支援処理の概略
を図6に示す。数値校正支援処理の選択指示入力を取り
込むと、システムは、まず形態素解析による解析結果デ
ータを参照し(S1)、数値識別子に基づいて数値出現
箇所をピックアップし表示する(S2)。この数値識別
子は、前述のように、形態素解析における品詞判定結果
に基づいて生成されているものであるから、たとえば地
名「五反田」の「五」など、単なる数字出現箇所には付
加されていない。したがって数値識別子を基準とするこ
とにより、ノイズを高精度に排除した数値出現箇所のピ
ックアップが可能となる。この後、中央処理装置は、指
示入力の取り込み処理を行い(S3)、カーソル座標デ
ータ等で定まるテキストの懸案箇所に対し指示入力に従
って校正処理を行う(S4,5)。そしてモード終了指
示入力を取り込んだ場合等は(S4:他の指示)、所定
の終了処理を行う。したがってオペレータは、ピックア
ップされた数値出現箇所を目視で確認したうえで、表記
の統一等、必要な校正を行うことが可能となる。しか
も、前述のように、ピックアップされた数値出現箇所は
極めてノイズが少ないため、校正作業の精度・効率の向
上が期待できる。
を図6に示す。数値校正支援処理の選択指示入力を取り
込むと、システムは、まず形態素解析による解析結果デ
ータを参照し(S1)、数値識別子に基づいて数値出現
箇所をピックアップし表示する(S2)。この数値識別
子は、前述のように、形態素解析における品詞判定結果
に基づいて生成されているものであるから、たとえば地
名「五反田」の「五」など、単なる数字出現箇所には付
加されていない。したがって数値識別子を基準とするこ
とにより、ノイズを高精度に排除した数値出現箇所のピ
ックアップが可能となる。この後、中央処理装置は、指
示入力の取り込み処理を行い(S3)、カーソル座標デ
ータ等で定まるテキストの懸案箇所に対し指示入力に従
って校正処理を行う(S4,5)。そしてモード終了指
示入力を取り込んだ場合等は(S4:他の指示)、所定
の終了処理を行う。したがってオペレータは、ピックア
ップされた数値出現箇所を目視で確認したうえで、表記
の統一等、必要な校正を行うことが可能となる。しか
も、前述のように、ピックアップされた数値出現箇所は
極めてノイズが少ないため、校正作業の精度・効率の向
上が期待できる。
【0049】次に、この実施例における単位の取り扱い
について説明する。この実施例に係るシステムは、機械
処理用の電子化辞書の一種として単位ゆれ表記テーブル
を備えている。この単位ゆれ表記テーブルは、単位を表
す単語に係る各種の表記を格納している。このテーブル
の一例を表1に示す。表に示すように、たとえば単位
「キロメートル」について、英数表記や片仮名表記、特
殊コード表記、他の表記といった項目が設定されてお
り、各項目に対応して「Km」や「キロメートル」、特
殊コード等による表記が格納されている。
について説明する。この実施例に係るシステムは、機械
処理用の電子化辞書の一種として単位ゆれ表記テーブル
を備えている。この単位ゆれ表記テーブルは、単位を表
す単語に係る各種の表記を格納している。このテーブル
の一例を表1に示す。表に示すように、たとえば単位
「キロメートル」について、英数表記や片仮名表記、特
殊コード表記、他の表記といった項目が設定されてお
り、各項目に対応して「Km」や「キロメートル」、特
殊コード等による表記が格納されている。
【0050】形態素解析処理の際、システムは、この単
位ゆれ表記テーブルを参照して単位に係る形態素を判別
する。そして数値に係る形態素の場合と同様に、解析デ
ータ生成プロセスにおいて、単位に係る形態素にその旨
を示す単位識別子を付加しておく。
位ゆれ表記テーブルを参照して単位に係る形態素を判別
する。そして数値に係る形態素の場合と同様に、解析デ
ータ生成プロセスにおいて、単位に係る形態素にその旨
を示す単位識別子を付加しておく。
【0051】さらに、文書校正処理における単位校正支
援処理において中央処理装置は、上記の単位識別子を参
照して単位出現箇所をピックアップし表示する。このう
えで、オペレータが入力する各種指示に従って校正処理
を実行する。ここで、校正処理には、単位別校正モード
と単位一括校正モードが用意されており、モード選択指
示入力に従って所定のモードを選択し実行する。
援処理において中央処理装置は、上記の単位識別子を参
照して単位出現箇所をピックアップし表示する。このう
えで、オペレータが入力する各種指示に従って校正処理
を実行する。ここで、校正処理には、単位別校正モード
と単位一括校正モードが用意されており、モード選択指
示入力に従って所定のモードを選択し実行する。
【0052】単位別校正モードの処理例を図7に示す。
カーソル座標データ等で定まる懸案箇所の単語がたとえ
ば「キロメートル」であるとすると、図に示すように、
まず単位ゆれ表記テーブルを参照して「キロメートル」
に係る種々の表記を取得して表示する(S1)。次に、
表示した種々の表記中からいずれかを指定する表記指定
入力を取り込み(S2)、この表記指定入力から指定表
記をたとえば「Km」に定める(S3)。この後、個別
置換あるいは一括置換の指示入力を取り込み(S4)、
この指示入力に従って置換モードを選択する(S5)。
個別置換が選択された場合、懸案箇所のみを対象して
「キロメートル」から「Km」への置換を行う(S
6)。また、一括置換が選択された場合、上記の単位出
現箇所のうちから「キロメートル」に係る種々の表記が
出現する箇所を絞り込み(S7)、逐次「Km」に置換
していく(S8,9)。
カーソル座標データ等で定まる懸案箇所の単語がたとえ
ば「キロメートル」であるとすると、図に示すように、
まず単位ゆれ表記テーブルを参照して「キロメートル」
に係る種々の表記を取得して表示する(S1)。次に、
表示した種々の表記中からいずれかを指定する表記指定
入力を取り込み(S2)、この表記指定入力から指定表
記をたとえば「Km」に定める(S3)。この後、個別
置換あるいは一括置換の指示入力を取り込み(S4)、
この指示入力に従って置換モードを選択する(S5)。
個別置換が選択された場合、懸案箇所のみを対象して
「キロメートル」から「Km」への置換を行う(S
6)。また、一括置換が選択された場合、上記の単位出
現箇所のうちから「キロメートル」に係る種々の表記が
出現する箇所を絞り込み(S7)、逐次「Km」に置換
していく(S8,9)。
【0053】また、単位一括校正モードの処理例を図8
に示す。図に示すように、まず英数表記あるいは片仮名
表記といった表記種別指定を取得する(S1)。この表
記種別指定は、置換先表記の表記種別を指定するもので
ある。この取得処理は、所定のファイルから既存の表記
種別指定を読み出すことで行う態様をとることができ
る。この場合、入力取り込み指示があれば、オペレータ
からの表記種別指定入力を取り込んで表記種別指定の更
新を行う。
に示す。図に示すように、まず英数表記あるいは片仮名
表記といった表記種別指定を取得する(S1)。この表
記種別指定は、置換先表記の表記種別を指定するもので
ある。この取得処理は、所定のファイルから既存の表記
種別指定を読み出すことで行う態様をとることができ
る。この場合、入力取り込み指示があれば、オペレータ
からの表記種別指定入力を取り込んで表記種別指定の更
新を行う。
【0054】次に、単位識別子を参照して単位出現箇所
をピックアップしていく(S2)。そして、上記の表記
種別指定に基づいて懸案箇所に係る置換先表記を決定す
る(S3)。たとえば表記種別指定が「英数表記」、懸
案箇所に係る単語が「キロメートル」である場合、単位
ゆれ表記テーブルを参照して「キロメートル」の英数表
記「Km」を取得し、置換表記に決定する。この後、懸
案箇所に置換処理を行って「キロメートル」を「Km」
に置換する(S4)。かかる処理を各単位出現箇所につ
いて繰り返し行うことにより(S5)、「キロメート
ル」に限らず「キログラム」等、少なくとも類似した単
語について一括して英数表記に統一することができる。
したがって単語ごとに置換先の表記を一々指定する煩瑣
な作業を省略可能となり、単位に係る表記統一を目的と
した校正作業の効率・精度の向上が期待できる。また、
上記のように、前回の表記種別指定をデフォルトとして
使用する態様をとれば、表記種別指定の入力操作も省略
可能となり、しかも異なるオペレータが校正作業を行う
使用環境であっても、同種の表記に統一できる利点もあ
る。
をピックアップしていく(S2)。そして、上記の表記
種別指定に基づいて懸案箇所に係る置換先表記を決定す
る(S3)。たとえば表記種別指定が「英数表記」、懸
案箇所に係る単語が「キロメートル」である場合、単位
ゆれ表記テーブルを参照して「キロメートル」の英数表
記「Km」を取得し、置換表記に決定する。この後、懸
案箇所に置換処理を行って「キロメートル」を「Km」
に置換する(S4)。かかる処理を各単位出現箇所につ
いて繰り返し行うことにより(S5)、「キロメート
ル」に限らず「キログラム」等、少なくとも類似した単
語について一括して英数表記に統一することができる。
したがって単語ごとに置換先の表記を一々指定する煩瑣
な作業を省略可能となり、単位に係る表記統一を目的と
した校正作業の効率・精度の向上が期待できる。また、
上記のように、前回の表記種別指定をデフォルトとして
使用する態様をとれば、表記種別指定の入力操作も省略
可能となり、しかも異なるオペレータが校正作業を行う
使用環境であっても、同種の表記に統一できる利点もあ
る。
【0055】
【発明の効果】以上説明したように、請求項1記載の発
明によれば、形態素解析結果を用いて目的とする単語を
弁別し識別情報を生成しておくことにより、文書校正処
理の際、文字列照合では弁別が困難な単語であっても、
簡素な手順で高精度の弁別が可能となる。弁別した単語
を表示することで、対話形式による文書校正作業の効率
・精度を向上させることができる。したがって請求項2
記載のように、数値等の校正処理に適用すれば極めて有
効である。
明によれば、形態素解析結果を用いて目的とする単語を
弁別し識別情報を生成しておくことにより、文書校正処
理の際、文字列照合では弁別が困難な単語であっても、
簡素な手順で高精度の弁別が可能となる。弁別した単語
を表示することで、対話形式による文書校正作業の効率
・精度を向上させることができる。したがって請求項2
記載のように、数値等の校正処理に適用すれば極めて有
効である。
【0056】また、請求項3記載の発明によれば、特定
種類の単語に係る種々の表記を格納したゆれ表記辞書を
用意し、このゆれ表記辞書を参照して形態素解析結果か
ら特定のゆれ表記の出現箇所を認識する手法をとってい
る。したがって、機械処理用の電子化辞書において特定
種類の単語に係るゆれ表記の格納が不要となり、同辞書
の小容量化が可能となると共に、意味解析処理等で上記
の単語と表記との対応関係に混乱を招くおそれを解消で
きる。さらに、対話形式による文書校正処理において、
ゆれ表記辞書を参照すれば懸案ゆれ表記に係る他の表記
を修正先表記の候補として取得できるので、修正先表記
候補の選択指示入力の取込処理をもって懸案ゆれ表記に
対する修正指示入力の取込処理とすることが可能とな
る。したがって、入力操作が簡略化されてこの種の校正
作業の効率が向上する。
種類の単語に係る種々の表記を格納したゆれ表記辞書を
用意し、このゆれ表記辞書を参照して形態素解析結果か
ら特定のゆれ表記の出現箇所を認識する手法をとってい
る。したがって、機械処理用の電子化辞書において特定
種類の単語に係るゆれ表記の格納が不要となり、同辞書
の小容量化が可能となると共に、意味解析処理等で上記
の単語と表記との対応関係に混乱を招くおそれを解消で
きる。さらに、対話形式による文書校正処理において、
ゆれ表記辞書を参照すれば懸案ゆれ表記に係る他の表記
を修正先表記の候補として取得できるので、修正先表記
候補の選択指示入力の取込処理をもって懸案ゆれ表記に
対する修正指示入力の取込処理とすることが可能とな
る。したがって、入力操作が簡略化されてこの種の校正
作業の効率が向上する。
【0057】また、請求項4記載の発明によれば、上記
のゆれ表記辞書において、表記の種別を示す表記種別情
報を各表記に付加することとし、この表記種別情報を用
いて入力操作の一層の簡略化を可能としている。すなわ
ち、あらかじめ表記種別指定を取り込んでおけば、特定
の単語に係る表記が出現した際、表記種別指定に従って
修正先の表記を定めることができるので、表記の選択指
示入力の取込処理を不要にし、対象とする単語について
一括して表記を統一することが可能となる。また、この
とき、類似した単語群、たとえば請求項5記載のように
単位を示す単語類をすべて対象として処理を行い、当該
単語群について一括して表記を統一する態様をとれば、
さらに入力操作の簡略化を図ることが可能となる。
のゆれ表記辞書において、表記の種別を示す表記種別情
報を各表記に付加することとし、この表記種別情報を用
いて入力操作の一層の簡略化を可能としている。すなわ
ち、あらかじめ表記種別指定を取り込んでおけば、特定
の単語に係る表記が出現した際、表記種別指定に従って
修正先の表記を定めることができるので、表記の選択指
示入力の取込処理を不要にし、対象とする単語について
一括して表記を統一することが可能となる。また、この
とき、類似した単語群、たとえば請求項5記載のように
単位を示す単語類をすべて対象として処理を行い、当該
単語群について一括して表記を統一する態様をとれば、
さらに入力操作の簡略化を図ることが可能となる。
【図1】請求項1記載の発明の構成を示すブロック図。
【図2】請求項3記載の発明の構成を示すブロック図。
【図3】請求項4記載の発明の構成を示すブロック図。
【図4】形態素解析の概略を示すフローチャート。
【図5】文書構成処理の概略を示すフローチャート。
【図6】実施例に係る数値校正支援処理の概略を示すフ
ローチャート。
ローチャート。
【図7】実施例に係る単位別校正処理の概略を示すフロ
ーチャート。
ーチャート。
【図8】実施例に係る単位一括校正処理の概略を示すフ
ローチャート。
ローチャート。
101…形態素解析手段 102…文書情報 103…文書構成手段 104…特定表記識別情報 105…特定表記識別情報生成手段 106…懸案表記箇所特定手段 107…修正指示入力 108…入力手段 109…修正手段
Claims (6)
- 【請求項1】 入力される文書情報に対し形態素解析処
理を行う形態素解析手段と、形態素解析後の文書情報に
対し対話形式による文書校正処理を行う文書校正手段と
を備えた自然言語処理装置であって、 形態素解析時あるいは形態素解析後に動作し、文書中に
おける特定種類の単語に係る表記箇所を弁別して該表記
箇所を示す特定表記識別情報を生成する特定表記識別情
報生成手段を備える一方、 前記文書校正手段は、前記表記箇所のうちから懸案表記
箇所を選択する懸案表記箇所選択手段と、懸案表記箇所
を表示する表示手段と、懸案表記箇所に対する修正指示
入力を取り込む入力手段と、該修正指示入力に従って懸
案表記箇所を修正する修正手段とを有するものとするこ
とを特徴とする自然言語処理装置。 - 【請求項2】 請求項1記載の自然言語処理装置におい
て、前記特定表記識別手段は、特定種類の単語として数
値を示す単語を対象とするものであることを特徴とする
自然言語処理装置。 - 【請求項3】 入力される文書情報に対し対話形式によ
る文書校正処理を行う文書校正手段を備えた自然言語解
析装置であって、 特定種類の単語に係る種々の表記を前記単語ごとにゆれ
表記群に区分して格納するゆれ表記辞書と、ゆれ表記辞
書を参照して文書中のゆれ表記箇所を検索し該ゆれ表記
箇所を示すゆれ表記識別情報を生成するゆれ表記識別情
報生成手段とを備える一方、 前記文書校正手段は、ゆれ表記識別情報に基づいて文書
中のゆれ表記箇所を識別するゆれ表記箇所識別手段と、
該ゆれ表記箇所のうちから懸案ゆれ表記箇所を特定する
懸案ゆれ表記箇所特定手段と、懸案ゆれ表記箇所および
懸案ゆれ表記箇所に係るゆれ表記群を表示する表示手段
と、懸案ゆれ表記群のうちのいずれかの表記を指定する
表記指定入力を取り込む入力手段と、該表記指定入力に
従って指定表記を選択する指定表記選択手段と、前記ゆ
れ表記箇所のうちから懸案ゆれ表記群に係る箇所を検索
し各箇所を前記指定表記に置換する懸案ゆれ表記置換手
段とを有するものであることを特徴とする自然言語処理
装置。 - 【請求項4】 入力される文書情報に対し対話形式によ
る文書校正処理を行う文書校正手段を備えた自然言語解
析装置であって、 特定種類の単語に係る種々の表記をゆれ表記群として格
納すると共に各表記の種別を示す表記種別識別情報を付
加したゆれ表記辞書と、ゆれ表記辞書を参照して文書中
のゆれ表記箇所を検索し該ゆれ表記箇所を示すゆれ表記
識別情報を生成するゆれ表記識別情報生成手段とを備え
る一方、 前記文書校正手段は、表記種別指定を格納する表記種別
指定格納手段と、該表記種別指定に従って前記ゆれ表記
箇所を一括して所定の表記に置換するゆれ表記一括置換
手段とを有するものであり、 該ゆれ表記一括置換手段は、ゆれ表記識別情報に基づい
て文書中のゆれ表記箇所を識別するゆれ表記箇所識別手
段と、該ゆれ表記箇所のうちから懸案ゆれ表記箇所を逐
次選択する懸案ゆれ表記箇所選択手段と、懸案ゆれ表記
箇所に係るゆれ表記群の中から表記種別指定に対応する
表記を選択する表記選択手段と、懸案ゆれ表記箇所を選
択表記に置換する表記置換手段とを有するものであるこ
とを特徴とする自然言語処理装置。 - 【請求項5】 請求項3または4記載の自然言語処理装
置において、前記ゆれ表記辞書は、特定種類の単語とし
て単位を示す単語を対象とするものであることを特徴と
する自然言語処理装置。 - 【請求項6】 請求項5記載の自然言語処理装置におい
て、前記ゆれ表記辞書は、表記種別識別情報に英数表記
および片仮名表記を示す情報を含むものであることを特
徴とする自然言語処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5208106A JPH0765009A (ja) | 1993-08-24 | 1993-08-24 | 自然言語処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5208106A JPH0765009A (ja) | 1993-08-24 | 1993-08-24 | 自然言語処理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0765009A true JPH0765009A (ja) | 1995-03-10 |
Family
ID=16550739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP5208106A Pending JPH0765009A (ja) | 1993-08-24 | 1993-08-24 | 自然言語処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0765009A (ja) |
-
1993
- 1993-08-24 JP JP5208106A patent/JPH0765009A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US4775956A (en) | Method and system for information storing and retrieval using word stems and derivative pattern codes representing familes of affixes | |
WO1996032686A1 (en) | System and method for portable document indexing using n-gram word decomposition | |
JP2010092490A (ja) | データ整理のための方法及びシステム | |
US20080077397A1 (en) | Dictionary creation support system, method and program | |
JPS5985530A (ja) | カード・イメージ処理機能を有するデータ処理装置 | |
CN115577694B (zh) | 标准编写的智能推荐方法 | |
KR100459832B1 (ko) | N-그램워드(n-gramword)분해원리를이용하여이식가능한문서를인덱싱하는시스템및방법 | |
JP6549173B2 (ja) | 計算機システム及び文章データの検索方法 | |
JPH0765009A (ja) | 自然言語処理装置 | |
JPH05250416A (ja) | データベースの登録・検索装置 | |
JPS60176169A (ja) | 文章処理装置 | |
JP3780556B2 (ja) | 自然言語事例検索装置及び自然言語事例検索方法 | |
JPH08115330A (ja) | 類似文書検索方法および装置 | |
JP4054353B2 (ja) | 機械翻訳装置及び機械翻訳プログラム | |
JPH0736686A (ja) | 影響検索装置 | |
JPH0944521A (ja) | インデックス作成装置および文書検索装置 | |
JP4382343B2 (ja) | 電子辞書及び電子辞書として機能させるためのプログラムを記録したコンピュータ読み取り可能な記憶媒体 | |
JP2002183134A (ja) | 翻訳装置 | |
JPH0785040A (ja) | 表記不統一検出方法およびかな漢字変換方法 | |
JP2001051992A (ja) | 日本語統計データ作成装置および方法、並びにディクテーションシステム | |
JPH02143369A (ja) | 文字処理装置 | |
JP2000200288A (ja) | 検索結果解析方式 | |
JPH04369763A (ja) | かな漢字変換装置及び方法 | |
GB2235557A (en) | Word searching/replacing device | |
JPH08185401A (ja) | 文書検索装置 |