JPH077413B2 - 文章用語検定装置 - Google Patents
文章用語検定装置Info
- Publication number
- JPH077413B2 JPH077413B2 JP61228268A JP22826886A JPH077413B2 JP H077413 B2 JPH077413 B2 JP H077413B2 JP 61228268 A JP61228268 A JP 61228268A JP 22826886 A JP22826886 A JP 22826886A JP H077413 B2 JPH077413 B2 JP H077413B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- processing unit
- term
- dictionary
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、大量の自然言語の文章を処理して、その中か
ら専門用語や誤用語(使い方を誤った用語、例えば誤
字)等の特定の種類の単語を抽出することにより検定を
行う文章用語検定装置に関するものである。
ら専門用語や誤用語(使い方を誤った用語、例えば誤
字)等の特定の種類の単語を抽出することにより検定を
行う文章用語検定装置に関するものである。
計算機による自然言語のデータベース化の発達に伴い、
一旦計算機へ蓄積した大量の自然言語の文章を計算機で
処理してある種類の用語をチエックアウトすることが様
々な目的で要求されている。
一旦計算機へ蓄積した大量の自然言語の文章を計算機で
処理してある種類の用語をチエックアウトすることが様
々な目的で要求されている。
例えば、それら大量の文書について索引を作る目的で特
定の専門用語を抽出したいという場合もあるし、或いは
誤字(「実績」と書くべき所を「実績」と書いてしまう
など、間違い易い用語は色々とある)をチエックのため
抽出したいという場合もある。
定の専門用語を抽出したいという場合もあるし、或いは
誤字(「実績」と書くべき所を「実績」と書いてしまう
など、間違い易い用語は色々とある)をチエックのため
抽出したいという場合もある。
このような要求のため、自然言語の文章中にある特定の
用語を計算機で処理してチエックアウトするには、大規
模な単語辞書を持ち、必要な単語には単語毎に重要語,
特許専門用語,誤用語等のチエックアウトしたい属性情
報を付与しておき(例えば「実績」を「実績」の誤用語
として記憶し、誤用語表示を付しておくなど)、文章を
分かち書き等の処理で単語単位の形態素に分解した後、
単語単位のマッチングによって抽出する方法が一般的で
ある。
用語を計算機で処理してチエックアウトするには、大規
模な単語辞書を持ち、必要な単語には単語毎に重要語,
特許専門用語,誤用語等のチエックアウトしたい属性情
報を付与しておき(例えば「実績」を「実績」の誤用語
として記憶し、誤用語表示を付しておくなど)、文章を
分かち書き等の処理で単語単位の形態素に分解した後、
単語単位のマッチングによって抽出する方法が一般的で
ある。
第2図は従来のかかる文章用語検定装置の一例を示す説
明図である。
明図である。
同図において、1は入力文、2は言語処理部、3は分か
ち書き等による形態素分割処理、4,6はそれぞれ各種属
性チエック指定判定処理、5は辞書引きによるチエック
フラグ設定処理、7は辞書、8は出力制御部、である。
ち書き等による形態素分割処理、4,6はそれぞれ各種属
性チエック指定判定処理、5は辞書引きによるチエック
フラグ設定処理、7は辞書、8は出力制御部、である。
第2図を参照する。先ずチエック種別(ここでは誤用語
の検出)を指定された入力文1が言語処理部2に渡され
ると()、言語処理部2では、処理3において辞書情
報を用いて()分かち書き等により単語単位に分割し
た後、処理4において指定されたチエックの種別を調べ
て、処理5に進み、そのチエック種別毎に辞書の単語の
チエックアウト属性(誤用語,専門語等)を調べて
()、該当する単語には認定フラグを付与する。
の検出)を指定された入力文1が言語処理部2に渡され
ると()、言語処理部2では、処理3において辞書情
報を用いて()分かち書き等により単語単位に分割し
た後、処理4において指定されたチエックの種別を調べ
て、処理5に進み、そのチエック種別毎に辞書の単語の
チエックアウト属性(誤用語,専門語等)を調べて
()、該当する単語には認定フラグを付与する。
言語処理部2の出力結果は出力制御部8に渡され
()、出力制御部8では例えばチエックアウトした単
語を赤字としてディスプレイに表示する等の制御を行
う。
()、出力制御部8では例えばチエックアウトした単
語を赤字としてディスプレイに表示する等の制御を行
う。
上記の例では、入力文「実績がある。」の中に「実績」
を「実績」と書いた誤用語が含まれており、辞書7に
も、予めその意味で誤用語表示を施した「実績」が記憶
されているので、処理5においては、入力文における
「実績」を誤用語と判定して誤用語の認定フラグ*を付
し、単に単語長「02」も付して出力制御部8に渡すこと
ができる。
を「実績」と書いた誤用語が含まれており、辞書7に
も、予めその意味で誤用語表示を施した「実績」が記憶
されているので、処理5においては、入力文における
「実績」を誤用語と判定して誤用語の認定フラグ*を付
し、単に単語長「02」も付して出力制御部8に渡すこと
ができる。
出力制御部8では、「実績がある。」という全文を例え
ばディスプレイ表示し、そのうち「実績」の2文字を誤
用語として特に赤色などで表示してチエックアウトす
る。
ばディスプレイ表示し、そのうち「実績」の2文字を誤
用語として特に赤色などで表示してチエックアウトす
る。
ところで、同一の文章を処理する場合でも利用者によっ
て抽出したい単語の属性種別が違ったり、目的に応じて
抽出したい単語が異なることが多く、言語処理部設計
時、予想される全ての抽出種別を考慮すると設計が複雑
となり、設計時に予想できなかったものについては、言
語処理部の改造が必要になるという問題があった。
て抽出したい単語の属性種別が違ったり、目的に応じて
抽出したい単語が異なることが多く、言語処理部設計
時、予想される全ての抽出種別を考慮すると設計が複雑
となり、設計時に予想できなかったものについては、言
語処理部の改造が必要になるという問題があった。
〔発明が解決しようとする問題点〕 そこで本発明では、文章中の種々の属性を持つ単語をチ
エックアウトする文章用語検定装置において、利用者が
チエックアウトしたい属性に応じて言語処理部を改造す
ることなく、柔軟にチエックアウトを可能ならしめるこ
と、を解決すべき問題点としている。
エックアウトする文章用語検定装置において、利用者が
チエックアウトしたい属性に応じて言語処理部を改造す
ることなく、柔軟にチエックアウトを可能ならしめるこ
と、を解決すべき問題点としている。
本発明は、単語単位に必要な属性制御コードを付与して
記憶する辞書を持ち、言語処理部では単語単位に付与さ
れた属性制御コードの意味を何も考慮することなく、た
だ機械的に分割した単語に辞書からもってきた属性制御
コードを付与し、言語処理部の出力結果に対し、変換テ
ーブルを用いて利用者が必要とする属性制御コードのみ
有効として付与するフィルター制御部と、さらに利用者
がその変換テーブルを端末等から自由に変更できる変換
テーブル作成制御部を持つことによってチエックアウト
する属性を自由に制御可能にした。
記憶する辞書を持ち、言語処理部では単語単位に付与さ
れた属性制御コードの意味を何も考慮することなく、た
だ機械的に分割した単語に辞書からもってきた属性制御
コードを付与し、言語処理部の出力結果に対し、変換テ
ーブルを用いて利用者が必要とする属性制御コードのみ
有効として付与するフィルター制御部と、さらに利用者
がその変換テーブルを端末等から自由に変更できる変換
テーブル作成制御部を持つことによってチエックアウト
する属性を自由に制御可能にした。
その結果、新たな属性に対するチエックアウト要求に対
して言語処理部等のプログラムの変更が不要になり、変
換テーブルの変更が端末等からダイナミックに指定でき
るため、利用者の要求に応じて柔軟にチエックアウトが
指定できる。
して言語処理部等のプログラムの変更が不要になり、変
換テーブルの変更が端末等からダイナミックに指定でき
るため、利用者の要求に応じて柔軟にチエックアウトが
指定できる。
次に図を参照して本発明の実施例を説明する。
第1図は本発明の一実施例を示す説明図である。同図に
おいて、(1−1)は入力文、(2−1)は言語処理部
で、3は分かち書き等により単語単位の形態素に分解す
る処理、(5−1)は辞書引きにより単語の属性制御コ
ードを該当単語に付与する処理、(7−1)は単語の見
出し対応に品詞や属性制御コード等を持つ辞書、9は変
換テーブル10により、単語毎の属性を変換するフィルタ
ー処理部、10は属性制御コード毎に有効/無効や変換し
たい制御コードを定義した変換テーブル、11は端末から
変換テーブルの定義を自由に変更できる変換テーブル作
成制御部、8はフィルター処理部からの出力結果を出力
装置に応じてチエックアウトした単語を注意語として出
力する等の制御を行う出力制御部である。
おいて、(1−1)は入力文、(2−1)は言語処理部
で、3は分かち書き等により単語単位の形態素に分解す
る処理、(5−1)は辞書引きにより単語の属性制御コ
ードを該当単語に付与する処理、(7−1)は単語の見
出し対応に品詞や属性制御コード等を持つ辞書、9は変
換テーブル10により、単語毎の属性を変換するフィルタ
ー処理部、10は属性制御コード毎に有効/無効や変換し
たい制御コードを定義した変換テーブル、11は端末から
変換テーブルの定義を自由に変更できる変換テーブル作
成制御部、8はフィルター処理部からの出力結果を出力
装置に応じてチエックアウトした単語を注意語として出
力する等の制御を行う出力制御部である。
次に動作を説明する。
まず利用者は変換テーブル作成制御部11に対し、端末か
らチエックアウトしたい単語属性制御コードを指定して
()、出力制御部8に注意出力の要/否やそのレベル
(例えば絶対駄目という意味での赤字出力はレベル01、
要注意程度の意味を表す黄色出力はレベル02等)を指示
するコードを定義する変換テーブルを作成する。
らチエックアウトしたい単語属性制御コードを指定して
()、出力制御部8に注意出力の要/否やそのレベル
(例えば絶対駄目という意味での赤字出力はレベル01、
要注意程度の意味を表す黄色出力はレベル02等)を指示
するコードを定義する変換テーブルを作成する。
第1図の例では、誤用語についてのみレベル01の表示を
行い、その他の属性については何も指定をしない(無効
とする)ようにしている()。
行い、その他の属性については何も指定をしない(無効
とする)ようにしている()。
入力文「実績がある。」(1−1)が言語処理部(2−
1)に入力されると()、辞書引きをしながら
()、分かち書き等による形態素分割により「実績/
が/ある/。」と分割され、さらに分割された単語毎に
辞書(7−1)から属性制御コードを持って来て
()、その単語の単語長と共に単語に付与し、「FA02
実績AK01がある。」の出力文を出力する。
1)に入力されると()、辞書引きをしながら
()、分かち書き等による形態素分割により「実績/
が/ある/。」と分割され、さらに分割された単語毎に
辞書(7−1)から属性制御コードを持って来て
()、その単語の単語長と共に単語に付与し、「FA02
実績AK01がある。」の出力文を出力する。
ここでFA,AKはそれぞれ誤用語,格助詞を示す属性制御
コードであり、「ある」には辞書上属性制御コードが付
与されていないため何も付与しない(もし文章中の動詞
をすべてチエックアウトしたい場合等は、動詞を示す適
当な属性制御コードを定義して辞書中の動詞の全単語に
付与しておけば良い)。
コードであり、「ある」には辞書上属性制御コードが付
与されていないため何も付与しない(もし文章中の動詞
をすべてチエックアウトしたい場合等は、動詞を示す適
当な属性制御コードを定義して辞書中の動詞の全単語に
付与しておけば良い)。
言語処理部(2−1)の出力文はフィルター処理部9に
渡され()、フィルター処理部9では変換テーブル10
に従って渡された文中の属性制御コードを出力制御部8
への出力指示コードに変換したり、削除したりすること
により、利用者が望むチエックだけを有効とし、且つ出
力されるチエックアウト結果の表示(例えば赤字表示
等)を制御する。この場合、誤用語のチエックのみ有効
であるから、「AK01」を削除すると共に、「FA」を注意
出力要レベル01の「01」に変換した文「0102実績があ
る。」を出力制御部8へ渡す()。
渡され()、フィルター処理部9では変換テーブル10
に従って渡された文中の属性制御コードを出力制御部8
への出力指示コードに変換したり、削除したりすること
により、利用者が望むチエックだけを有効とし、且つ出
力されるチエックアウト結果の表示(例えば赤字表示
等)を制御する。この場合、誤用語のチエックのみ有効
であるから、「AK01」を削除すると共に、「FA」を注意
出力要レベル01の「01」に変換した文「0102実績があ
る。」を出力制御部8へ渡す()。
このような構造になっていることにより、各処理部は単
に属性制御情報をコード情報として扱うだけで、その意
味については意識しないため、新しい属性の単語をチエ
ックアウトする必要が生じた場合は、辞書の該当する単
語へ新しく決定した制御コードを登録すると共に変換テ
ーブル作成制御部11を使って変換テーブル10へ登録する
だけでプログラムの変換なしでチエックアウト可能とな
る。
に属性制御情報をコード情報として扱うだけで、その意
味については意識しないため、新しい属性の単語をチエ
ックアウトする必要が生じた場合は、辞書の該当する単
語へ新しく決定した制御コードを登録すると共に変換テ
ーブル作成制御部11を使って変換テーブル10へ登録する
だけでプログラムの変換なしでチエックアウト可能とな
る。
この結果から明らかなように、従来技術に比べて利用者
の要求の変更に対する文章処理の柔軟性が飛躍的に向上
する。
の要求の変更に対する文章処理の柔軟性が飛躍的に向上
する。
以上説明したように、本発明によれば、装置の各処理部
が、利用者がチエックアウトしたい単語の属性に無関係
に処理を行うため、様々に変化する利用者の要求に改造
なしに柔軟に応えられるという利点がある。又、出力制
御部を制御するコードも変換テーブルで自由に設定でき
るため、言語処理部は、出力処理や出力制御部の変更に
対しても全く影響されることはない。さらに各利用者の
利用目的が異なるときは、それぞれの利用者対応に変換
テーブルを設定すれば、複数の利用者が同時に本装置を
使用できるという利点もある。
が、利用者がチエックアウトしたい単語の属性に無関係
に処理を行うため、様々に変化する利用者の要求に改造
なしに柔軟に応えられるという利点がある。又、出力制
御部を制御するコードも変換テーブルで自由に設定でき
るため、言語処理部は、出力処理や出力制御部の変更に
対しても全く影響されることはない。さらに各利用者の
利用目的が異なるときは、それぞれの利用者対応に変換
テーブルを設定すれば、複数の利用者が同時に本装置を
使用できるという利点もある。
第1図は本発明の一実施例を示す説明図、第2図は従来
の文章用語検定装置の一例を示す説明図、である。 符号の説明 1……入力文(チエック種別指定付)、2……言語処理
部、3……分かち書き等による形態素分割処理、4,6…
…各種属性チエック指定判定処理、5……辞書引きによ
るチエックフラグ設定処理、7……辞書(従来)、8…
…出力制御部、(1−1)……入力文、(2−1)……
属性チエック種別を意識しない言語処理部、(5−1)
……単語属性付与処理、(7−1)……属性制御コード
を持った辞書、9……フィルター処理部、10……変換テ
ーブル、11……変換テーブル作成制御部
の文章用語検定装置の一例を示す説明図、である。 符号の説明 1……入力文(チエック種別指定付)、2……言語処理
部、3……分かち書き等による形態素分割処理、4,6…
…各種属性チエック指定判定処理、5……辞書引きによ
るチエックフラグ設定処理、7……辞書(従来)、8…
…出力制御部、(1−1)……入力文、(2−1)……
属性チエック種別を意識しない言語処理部、(5−1)
……単語属性付与処理、(7−1)……属性制御コード
を持った辞書、9……フィルター処理部、10……変換テ
ーブル、11……変換テーブル作成制御部
Claims (1)
- 【請求項1】計算機による自然言語の処理として、文章
用語の中から誤用語の如き特定の用語をチエックアウト
することにより文章用語の検定を行う文章用語検定装置
において、 単語単位に必要な属性制御コードを付与して記憶する辞
書と、入力された文章の用語の単語単位の形態素に分割
し、前記辞書を参照することにより、単語単位で前記辞
書において付与されている属性制御コードを取り出して
きて前記文章用語としての単語に付与して出力する言語
処理部と、単語の属性制御コード毎の有効/無効の対応
付け、或いは他の属性制御コードへの変換を可能にする
対応付けを設定する変換テーブルと、前記変換テーブル
に従って前記言語処理部からの出力結果に関してその属
性制御コードを変更するフィルター処理部と、前記変換
テーブルを端末からの操作等により自由に変更して再設
定する変換テーブル作成制御部と、を具備し、前記フィ
ルター処理部の出力を検定結果として得るようにしたこ
とを特徴とする文章用語検定装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61228268A JPH077413B2 (ja) | 1986-09-29 | 1986-09-29 | 文章用語検定装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61228268A JPH077413B2 (ja) | 1986-09-29 | 1986-09-29 | 文章用語検定装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS6383860A JPS6383860A (ja) | 1988-04-14 |
JPH077413B2 true JPH077413B2 (ja) | 1995-01-30 |
Family
ID=16873808
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP61228268A Expired - Fee Related JPH077413B2 (ja) | 1986-09-29 | 1986-09-29 | 文章用語検定装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH077413B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63103374A (ja) * | 1986-10-21 | 1988-05-09 | Canon Inc | 文書処理装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58123125A (ja) * | 1982-01-14 | 1983-07-22 | Toshiba Corp | 文書作成装置 |
-
1986
- 1986-09-29 JP JP61228268A patent/JPH077413B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58123125A (ja) * | 1982-01-14 | 1983-07-22 | Toshiba Corp | 文書作成装置 |
Also Published As
Publication number | Publication date |
---|---|
JPS6383860A (ja) | 1988-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20020143537A1 (en) | Process of automatically generating translation- example dictionary, program product, computer-readable recording medium and apparatus for performing thereof | |
JPH0361220B2 (ja) | ||
JP3372532B2 (ja) | 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体 | |
Ross et al. | EYEBALL: a computer program for description of style | |
JPH077413B2 (ja) | 文章用語検定装置 | |
JP2979430B2 (ja) | 通信文自動分割蓄積装置 | |
Mustafa | Phonology of Acehnese Reduplication: Applying Optimality Theory | |
Aissing | Cyrillic transliteration and its users | |
JPH0477857A (ja) | 不適切表現検出装置 | |
Sinclair | 4.2 Corpus processing | |
JPH01205263A (ja) | 文書処理装置 | |
JP2928246B2 (ja) | 翻訳支援装置 | |
JP2905209B2 (ja) | 文書整形装置及び方法 | |
JPH0916593A (ja) | 専門用語抽出装置及び文書理解支援システム | |
JPH0612453A (ja) | 未知語抽出登録装置 | |
JPH07234872A (ja) | 言語データベースの形態素列変換装置 | |
JPH0785040A (ja) | 表記不統一検出方法およびかな漢字変換方法 | |
JP2804297B2 (ja) | 自然言語処理装置 | |
JPH06187370A (ja) | 文書読解支援装置 | |
JPH1139347A (ja) | テキスト検索システム,インデックス作成装置,テキスト検索装置及びコンピュータ読み取り可能な記録媒体 | |
JP2588522B2 (ja) | 機械翻訳辞書アクセス方法 | |
JPH08241319A (ja) | 機械翻訳装置 | |
JP2003256415A (ja) | 辞書構築支援方法、装置及びプログラム | |
JPH0486948A (ja) | 分野別辞書を利用したカナ振りデータベースの作成方法 | |
JP2007079652A (ja) | 用語抽出装置、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |