JPH0424765A - 西暦自動認識方式 - Google Patents
西暦自動認識方式Info
- Publication number
- JPH0424765A JPH0424765A JP2125225A JP12522590A JPH0424765A JP H0424765 A JPH0424765 A JP H0424765A JP 2125225 A JP2125225 A JP 2125225A JP 12522590 A JP12522590 A JP 12522590A JP H0424765 A JPH0424765 A JP H0424765A
- Authority
- JP
- Japan
- Prior art keywords
- year
- western calendar
- candidate
- common
- calendar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000877 morphologic effect Effects 0.000 claims description 18
- 238000000034 method Methods 0.000 claims description 5
- 230000002093 peripheral effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔概要〕
文中の西暦を自動認識する西暦自動認識方式に関し、
形態素解析結果リスト中の数字に西暦候補属性を設定し
、前後の情報から西暦と決定、更にこれをもとに機械翻
訳などし、数字のうちから西暦を見つけて正しいi械翻
訳などを行うことを目的とし、 文を形態素解析した形態素解析結果リスト中の数字が4
桁あるいは2桁であって西暦候補に成り得る数字、かつ
前後に西暦属性(例えば年、月など)を持つ単語が存在
するときに当該数字に西暦属性を付与するように構成す
る。また、上記数字に付与した西暦情報に従って機械翻
訳するように構成する。
、前後の情報から西暦と決定、更にこれをもとに機械翻
訳などし、数字のうちから西暦を見つけて正しいi械翻
訳などを行うことを目的とし、 文を形態素解析した形態素解析結果リスト中の数字が4
桁あるいは2桁であって西暦候補に成り得る数字、かつ
前後に西暦属性(例えば年、月など)を持つ単語が存在
するときに当該数字に西暦属性を付与するように構成す
る。また、上記数字に付与した西暦情報に従って機械翻
訳するように構成する。
本発明は、文中の西暦を自動認識する西暦自動認識方式
に関するものである。
に関するものである。
〔従来の技術と発明が解決しようとする課題〕従来、機
械翻訳などの自然言語システムは、数字は数であるとい
う認識のみであった。このため、例えば (111989年に5回東京へ行く (2)1年に5回東京へ行く という文について、(1)の西暦“1989”を区別で
きず、(li I go to Tokyo 5 ti
mes every 1989 years、と、正し
くない機械翻訳を行っていた。
械翻訳などの自然言語システムは、数字は数であるとい
う認識のみであった。このため、例えば (111989年に5回東京へ行く (2)1年に5回東京へ行く という文について、(1)の西暦“1989”を区別で
きず、(li I go to Tokyo 5 ti
mes every 1989 years、と、正し
くない機械翻訳を行っていた。
本発明は、形態素解析結果リスト中の数字に西暦候補属
性を設定し、前後の情報から西暦と決定、更にこれをも
とに機械翻訳などし、数字のうちから西暦を見つけて正
しい機械翻訳などを行うことを目的としている。
性を設定し、前後の情報から西暦と決定、更にこれをも
とに機械翻訳などし、数字のうちから西暦を見つけて正
しい機械翻訳などを行うことを目的としている。
第1図を参照して課題を解決する手段を説明する。
第1図において、形態素解析結果リスト2−1は、文を
形態素解析した結果のリストである。
形態素解析した結果のリストである。
西暦候補認識部3は、形態素解析結果リスト21中の数
字が4桁あるいは2桁であって西暦候補に成り得る数字
(例えば先頭が1.2など)のときに西暦候補属性を設
定するものである。
字が4桁あるいは2桁であって西暦候補に成り得る数字
(例えば先頭が1.2など)のときに西暦候補属性を設
定するものである。
構文解析部4は、西暦候補属性の設定された数字につい
て、前後に西暦属性(例えば年、月など)を持つ単語が
存在するときに当該数字に西暦属性を付与するものであ
る。
て、前後に西暦属性(例えば年、月など)を持つ単語が
存在するときに当該数字に西暦属性を付与するものであ
る。
つ作用〕
本発明は、第1図に示すように、西暦候補認識部3が形
態素解析結果リスト2−1中の数字が4桁あるいは2桁
であって西暦候補に成り得る数字(例えば先頭が1.2
など)のときに西暦候補属性を設定し、構文解析部4が
西暦候補属性の設定された数字について、前後に西暦属
性(例えば年、月など)を持つ単語が存在するときに当
該数字に西暦属性を付与するようにしている。また、数
字に付与した西暦情報に従って機械翻訳するようにして
いる。
態素解析結果リスト2−1中の数字が4桁あるいは2桁
であって西暦候補に成り得る数字(例えば先頭が1.2
など)のときに西暦候補属性を設定し、構文解析部4が
西暦候補属性の設定された数字について、前後に西暦属
性(例えば年、月など)を持つ単語が存在するときに当
該数字に西暦属性を付与するようにしている。また、数
字に付与した西暦情報に従って機械翻訳するようにして
いる。
従って、形態素解析結果リスト2−1中の数字に西暦候
補属性を設定し、前後の情報から西暦を決定、更にこれ
をもとに機械翻訳などすることにより、数字のうちから
西暦を見つけて正しい機械翻訳などを行うことが可能と
なる。
補属性を設定し、前後の情報から西暦を決定、更にこれ
をもとに機械翻訳などすることにより、数字のうちから
西暦を見つけて正しい機械翻訳などを行うことが可能と
なる。
次に、第1回および第2回を用いて本発明の1実施例の
構成および動作を順次詳細に説明する。
構成および動作を順次詳細に説明する。
第1図において、文人刃部1は、文を人力するものであ
る。ここでは、日本語を英語に機械翻訳するための日本
語をキーボードなどから図示ように人力する。
る。ここでは、日本語を英語に機械翻訳するための日本
語をキーボードなどから図示ように人力する。
形態素解析部2は、文人刃部1によって入力された文に
ついて、形態素解析を行い、形態素解析結果リスト2−
1を生成するものである。ここでは、/に示すように単
語に分割すると共にその属性を解析して付与する。
ついて、形態素解析を行い、形態素解析結果リスト2−
1を生成するものである。ここでは、/に示すように単
語に分割すると共にその属性を解析して付与する。
西暦候補認識部3は、形態素解析結果リスト21中の数
字が4桁あるいは2桁であって西暦候補に成り得る数字
(例えば先頭が1.2など)のときに西暦候補属性を設
定するものである。ここでは、4桁かつ先頭が1 (西
暦の先頭の1)あるいは2 (西暦の先頭が2)に該当
するものとして、1989があるので、この数字に西暦
候補属性を設定する。また、2桁かつ先頭が8 (西暦
の表現“89の先頭の8)あるいは9 (西暦の表現“
95の先頭の9)に該当するときも西暦候補属性を設定
する。
字が4桁あるいは2桁であって西暦候補に成り得る数字
(例えば先頭が1.2など)のときに西暦候補属性を設
定するものである。ここでは、4桁かつ先頭が1 (西
暦の先頭の1)あるいは2 (西暦の先頭が2)に該当
するものとして、1989があるので、この数字に西暦
候補属性を設定する。また、2桁かつ先頭が8 (西暦
の表現“89の先頭の8)あるいは9 (西暦の表現“
95の先頭の9)に該当するときも西暦候補属性を設定
する。
構文解析部4は、隣接する語(前後の語)を考慮し、西
暦か否かを判断する。これは、西暦候補属性の設定され
た数字について、前後に西暦属性(例えば年、月など)
を持つ単語が存在するときに当該数字に西暦属性を付与
する。また、数字の前後に西暦属性を持つ単語が存在し
ても、西暦属性でない単語が存在する場合は、西暦属性
を付与しない。例えば後述する“約1000年”は、数
字“1000“の後ろの西暦属性を持つ単語“年′が存
在するが、前に西暦属性でない単語1約”が存在するの
で、西暦属性でないと決定する。
暦か否かを判断する。これは、西暦候補属性の設定され
た数字について、前後に西暦属性(例えば年、月など)
を持つ単語が存在するときに当該数字に西暦属性を付与
する。また、数字の前後に西暦属性を持つ単語が存在し
ても、西暦属性でない単語が存在する場合は、西暦属性
を付与しない。例えば後述する“約1000年”は、数
字“1000“の後ろの西暦属性を持つ単語“年′が存
在するが、前に西暦属性でない単語1約”が存在するの
で、西暦属性でないと決定する。
次に、第2図フローチャートを用いて第1図構成の処理
の流れを詳細に説明する。
の流れを詳細に説明する。
第2図において、■は、形態素解析結果リスト2−1を
1つ右にずらす。これは、例えば第1図形態素解析結果
リスト2−1の左から初めて1つ右にポインタをずらす
。ここでは、最初であるので、先頭の1989にポイン
トが設定される。
1つ右にずらす。これは、例えば第1図形態素解析結果
リスト2−1の左から初めて1つ右にポインタをずらす
。ここでは、最初であるので、先頭の1989にポイン
トが設定される。
@は、文末か否かを判別する。YESの場合には、■以
降を行う。NOの場合には、0を行う。
降を行う。NOの場合には、0を行う。
0は、数字か否かを判別する。YESの場合には、■で
桁数を設定し、■を行う。Noの場合には、■を繰り返
し行う。
桁数を設定し、■を行う。Noの場合には、■を繰り返
し行う。
■は、先頭が1あるいは2か否かを判別する。
これは、例えば第1図形態素解析結果リスト21の先頭
の“1989”について、■NO1@YES、■で4桁
と設定、■で先頭が1と判定し、■で西暦候補属性に設
定し、■移行を繰り返し行う。
の“1989”について、■NO1@YES、■で4桁
と設定、■で先頭が1と判定し、■で西暦候補属性に設
定し、■移行を繰り返し行う。
方、先頭が1(西暦の1989などの先頭の1)あるい
は2(西暦の2000などの先頭の2)でない場合には
、■を繰り返し行う。
は2(西暦の2000などの先頭の2)でない場合には
、■を繰り返し行う。
■は、西暦候補の前後に年が有りか否かを判別する。こ
れは、例えば第1図形態素解析結果リスト2−1の19
89の西暦候補について、ここでは後ろに“年”がある
ので、@で西暦と決定する。
れは、例えば第1図形態素解析結果リスト2−1の19
89の西暦候補について、ここでは後ろに“年”がある
ので、@で西暦と決定する。
方、西暦候補の前後に年がない場合には、[相]を行う
。
。
@は、西暦候補の前後に月が有りか否かを判別する。こ
れは、例えば Sep、 1989 の場合に、前にSep (月)がをったので、198つ
を西暦と決定する。
れは、例えば Sep、 1989 の場合に、前にSep (月)がをったので、198つ
を西暦と決定する。
また、上記処理が適用されても、西暦候補の前後に西暦
でないとする旨の語があるときは、西暦と判定しない。
でないとする旨の語があるときは、西暦と判定しない。
例えば“約1000年″は、杓があるので、“1000
”を西暦と決定しない。
”を西暦と決定しない。
以上の処理を適用することにより、以下のような文につ
いて西暦を正しく判定することが可能となる。
いて西暦を正しく判定することが可能となる。
o) 1989年に5回東京へ行く:西暦“1989
″(2)1年に5回東京へ行く:西暦なしf31 S
ep、l:西暦なし く41 Sep、1989:西暦”1989”(51
Sep、’89:西暦“89“ (6)約1000年に5回東京へ行く:西暦なし従って
、(11について英語に機械翻訳した場合、従来: l
go to TOKYO5times every
1989 yeaS と間違って機械翻訳していたものが、 本発明:I go to TOKYO5times i
n 1989と正しく機械翻訳することができた。
″(2)1年に5回東京へ行く:西暦なしf31 S
ep、l:西暦なし く41 Sep、1989:西暦”1989”(51
Sep、’89:西暦“89“ (6)約1000年に5回東京へ行く:西暦なし従って
、(11について英語に機械翻訳した場合、従来: l
go to TOKYO5times every
1989 yeaS と間違って機械翻訳していたものが、 本発明:I go to TOKYO5times i
n 1989と正しく機械翻訳することができた。
以上説明したように、本発明によれば、形態素解析結果
リスト2−1中の数字に西暦候補属性を設定し、前後の
情報から西暦を判断、更にこれをもとに機械翻訳などす
る構成を採用しているため、数字のうちから西暦を見つ
けて正しい機械翻訳などを行うことができる。
リスト2−1中の数字に西暦候補属性を設定し、前後の
情報から西暦を判断、更にこれをもとに機械翻訳などす
る構成を採用しているため、数字のうちから西暦を見つ
けて正しい機械翻訳などを行うことができる。
第1図は本発明の1実施例構成図、第2図は本発明の動
作説明フローチャートを示す。 図中、1は文人刃部、2は形態素解析部、21は形態素
解析結果リスト、3は西暦候補認識部、4は構文解析部
を表す。
作説明フローチャートを示す。 図中、1は文人刃部、2は形態素解析部、21は形態素
解析結果リスト、3は西暦候補認識部、4は構文解析部
を表す。
Claims (2)
- (1)文中の西暦を自動認識する西暦自動認識方式にお
いて、 文を形態素解析した形態素解析結果リスト(2−1)中
の数字が4桁あるいは2桁であって西暦候補に成り得る
数字、かつ前後に西暦属性(例えば年、月など)を持つ
単語が存在するときに当該数字に西暦属性を付与するよ
うに構成したことを特徴とする西暦自動認識方式。 - (2)上記数字に付与した西暦情報に従って機械翻訳す
るように構成したことを特徴とする請求項第(1)項記
載の西暦自動認識方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2125225A JPH0424765A (ja) | 1990-05-15 | 1990-05-15 | 西暦自動認識方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2125225A JPH0424765A (ja) | 1990-05-15 | 1990-05-15 | 西暦自動認識方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0424765A true JPH0424765A (ja) | 1992-01-28 |
Family
ID=14904934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2125225A Pending JPH0424765A (ja) | 1990-05-15 | 1990-05-15 | 西暦自動認識方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0424765A (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63106867A (ja) * | 1986-10-24 | 1988-05-11 | Ricoh Co Ltd | 言語解析装置 |
-
1990
- 1990-05-15 JP JP2125225A patent/JPH0424765A/ja active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63106867A (ja) * | 1986-10-24 | 1988-05-11 | Ricoh Co Ltd | 言語解析装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1969490A2 (en) | A text editing apparatus and method | |
JPS63305463A (ja) | 自然言語処理方式 | |
CN103678288A (zh) | 一种专名自动翻译的方法 | |
CN111611779B (zh) | 辅助文本标注方法、装置、设备及其存储介质 | |
JPH0424765A (ja) | 西暦自動認識方式 | |
KR20060052463A (ko) | 소팅된 언어 데이터에 대한 콜레이션 지원을 자동으로설정하는 시스템 및 방법 | |
Dandapat et al. | Training deployable general domain mt for a low resource language pair: English–bangla | |
JP3398729B2 (ja) | キーワード自動抽出装置およびキーワード自動抽出方法 | |
JP3311567B2 (ja) | 対訳文対応付け装置 | |
JP2778025B2 (ja) | 共起関係辞書の学習方法 | |
JPS6118074A (ja) | プレ・エデイツト方式 | |
JP2570681B2 (ja) | ワード・プロセッサ | |
JP2806352B2 (ja) | 機械翻訳用辞書メンテナンス装置 | |
JP2757731B2 (ja) | 文書解析装置 | |
JPH0765008A (ja) | 用語登録制御方法及び同装置 | |
RU2607989C1 (ru) | Способ автоматизированного определения языка или языковой группы текста | |
JP2928246B2 (ja) | 翻訳支援装置 | |
JP3390567B2 (ja) | 誤字訂正装置 | |
JP2912479B2 (ja) | 構文解析制御方式 | |
JP2975030B2 (ja) | かな漢字変換装置および方法 | |
JPH04257064A (ja) | 要約情報抽出装置 | |
JPS6366663A (ja) | 文書構造管理方式 | |
JPH04158469A (ja) | 文書作成装置 | |
JPS6364162A (ja) | 文書処理装置 | |
JPH08171613A (ja) | 文字認識装置 |