JP2003132059A - 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体 - Google Patents

言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体

Info

Publication number
JP2003132059A
JP2003132059A JP2001322288A JP2001322288A JP2003132059A JP 2003132059 A JP2003132059 A JP 2003132059A JP 2001322288 A JP2001322288 A JP 2001322288A JP 2001322288 A JP2001322288 A JP 2001322288A JP 2003132059 A JP2003132059 A JP 2003132059A
Authority
JP
Japan
Prior art keywords
sentence
syntax
natural language
information
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001322288A
Other languages
English (en)
Inventor
Katsuhito Suzuki
勝仁 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2001322288A priority Critical patent/JP2003132059A/ja
Publication of JP2003132059A publication Critical patent/JP2003132059A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 自然言語により作成された文において、見か
けない表現を検出する。 【解決手段】 日本語により作成された文を入力する
と、その文に含まれる表現パターンを切り出すことでこ
れを抽出し(PE)、その頻度情報を表現パターン辞書
DPDから取得する。この頻度情報から見て、その表現
パターンが低頻度(出現頻度が低い)と判断された場合
には、警告をディスプレイ150に表示して警告する。
あわせて、代替案を提示する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、自然言語を用いて
作られる文について、出現頻度の低い構文の検証を行な
う技術に関する。
【0002】
【従来の技術】従来から、ワードプロセッサやインプッ
トメソッド(日本語入力における仮名漢字変換プログラ
ムなど)などにおいて、使用者が入力した自然言語文
(例えば日本語文)について、校正を行なうものが提案
されている。こうした校正装置としては、様々な機能が
提案されており、例えば、 ・「安全保証」といった同音異義語の誤りを検出して代
替案(この例では、「安全保障」)を示すもの(特開2
000−259625号)、 ・「彼がは学校へ行く」といった文のように形態素解析
により破綻もしくは接続検定が「偽」となるものについ
て、正しいと考えられる文を提案さするもの(例えば特
開昭62−209659号)、 ・更には、「決して〜ない」というような予め定まった
呼応関係の誤りを検出して指摘するもの、などが知られ
ている。
【0003】こうした校正を行なう装置は、特に仮名漢
字変換といった処理を必要とする日本語などの自然言語
では、様々な誤りが発生しやすいので、有用であった。
また、アルファベットを用いる英語などの自然言語で
も、スペルチェックだけでは修正し得ない文法上のミス
を低減するためには、こうした校正装置が有効であっ
た。後者の例としては、例えば「The the」 といった同
一単語の繰り返しを検出するものや、括弧やコーテーシ
ョン記号の呼応をチェックするもの、あるいは時制の不
一致などを検出するものが知られている。
【0004】
【発明が解決しようとする課題】しかしながら、こうし
た校正装置では、必ずしも自然言語においては間違いで
あるとは言い難い表現などについては何ら検証できなか
った。例えば、「これら提案にして意見集約を行ないま
す。」という文が作られたとき、校正機能を働かせて
も、単語としての誤りは発見できないし、形態素解析し
ても品詞同士の接続の誤りを検出することはできない。
また、特定の呼応関係の誤りでもないため、この例文に
みられるような自然言語文としての違和感は、検証する
ことかできなかった。
【0005】こうした問題は、言語の規則が人工的に作
成されるプログラム言語などでは生じることがなく、自
然言語独自の問題である。これは、自然言語の場合、規
則が先にあるのではなく、言語を用いる集団が許容する
表現の集合が先にあり、これを少ない数の規則により説
明する規則を文法として見い出し、整理しているに過ぎ
ないからである。この場合、見い出された文法には多数
の例外が存在するのが通例であり、特にある表現が許さ
れることは文法から説明できるが、ある表現がその集団
では用いられないことは文法からは説明できないことが
多い。このため、特定の集団では許されないか文法的な
間違いとして認識されている表現が、他の集団では許容
されているといったことも珍しくない(例えば、日本語
における「見れる」などのら抜き表現)。こうした例
は、日本語に限らず、どのような自然言語文でも見ら
れ、例えば英語において「記入する」を意味する「fill
out」はアメリカ英語では許容されているが、イギリス
英語では許容されていない(イギリス英語では「fill i
n」)。
【0006】また、こうした問題は、言語を用いる集団
の違いによらず、同一手段内でも、ビジネス文書である
とか、公文書であるといった対象の違いによっても生じ
る場合があった。例えば、敬弔文などでは許容される構
文の範囲はきわめて狭い。従来は、せいぜい忌み言葉な
どを検出して、警告するといった処理ができるに過ぎな
かった。
【0007】本発明の装置は、こうした問題を解決し、
自然言語文において出現頻度の低い表現を適切に扱うこ
とを目的とする。
【0008】
【課題を解決するための手段およびその作用・効果】上
記課題の少なくとも一部を解決する本発明の装置は、自
然言語で作られた文を検証する自然言語文検証装置であ
って、前記自然言語により作られ文に存在し得る構文を
出現頻度の情報と共に予め記憶する構文情報記憶手段
と、自然言語で作られた文が与えられたとき、該文を形
態素解析して文節を取得する文節取得手段と、該取得さ
れた文節を用いて、構文を抽出する構文抽出手段と、該
抽出した構文を、前記構文情報記憶手段に記憶した構文
と照合し、その出現頻度の情報を取得する頻度情報取得
手段と、該構文が出現頻度が低い文である場合には、警
告を出力する報知手段を備えたことを要旨としている。
【0009】また、この装置に対応した方法の発明は、
自然言語で作られた文を検証する方法であって、前記自
然言語により作られ文に存在し得る構文を出現頻度の情
報と共に予め記憶し、自然言語で作られた文が与えられ
たとき、該文を形態素解析して文節を取得し、該取得さ
れた文節を用いて、構文を抽出し、該抽出した構文を、
前記記憶した構文と照合し、その出現頻度の情報を取得
し、該構文が出現頻度が低い文である場合には、警告を
出力することを要旨としている。
【0010】かかる装置および方法によれば、自然言語
により作られ文に存在し得る構文を出現頻度の情報と共
に予め記憶しておき、自然言語文が与えられたとき、次
のようにしてこれを検証する。即ち、自然言語文を形態
素解析して文節を取得し、この文節を用いて、構文を抽
出する。抽出した構文を、予め記憶しておいた構文と照
合し、その出現頻度の情報を取得し、抽出した構文が出
現頻度の低い文である場合には、警告を出力する。この
結果、この自然言語文検証装置および検証方法によれ
ば、出現頻度が低い構文について、警告を出力すること
ができ、文法的な解析によることなく、出現頻度の低い
構文、即ちその自然言語において通常は許容されない構
文を検証することができる。なお、予め記憶する構文と
出現頻度の情報を、異なる言語集団毎ある異なる言語対
象毎に作成し記憶しておけば、こうした文法によっては
解析できない構文の許容、非許容についての判断を、言
語集団毎あるいは言語対象毎(慶弔文か、ビジネス文書
かなど)に行なうことができる。
【0011】こうした自然言語文検証装置では、予め構
文とその出現頻度の情報とを記憶しているが、こうした
情報は、次のようにして作成することができる。即ち、
自然言語により作られた複数の例文を入力し、これらの
文を形態素解析して文節を切り出し、その文節を用い
て、構文を抽出する。その上で、抽出した構文を分類
し、同一の構文毎に頻度情報を加えて記憶するのであ
る。こうすれば、通常用いられている文の集合(コーバ
ス)を与えるだけで、構文とその出現頻度の情報とを収
集して、これを記憶しておくことができる。
【0012】もとより、与えられる自然出現頻度の情報
は、必ずしも例文から取り出した頻度が正しいわけでは
ないので、同一の構文毎に加える頻度情報を、個別に設
定するものとしても良い。例えば、例文からはある程度
の出現頻度があると判断される場合でも、その表現が誤
用であると考える立場に立てば、これを許容しないよう
に、出現頻度の情報を変更することがあり得る。また、
例文がある言語対象についてのものである場合、他の言
語対象では使われないとして、対象毎に頻度情報を設定
することも現実的である。
【0013】なお、こうした自然言語文を検証しようと
して、与えられた文から構文を取り出す際、複文などを
どのように扱うかが問題となる。従って、複文や重文な
どが与えられることが分かっている場合には、取得され
た文節とその文法情報に基づいて、自然言語文から、少
なくとも一つの述部を含む部分文を抽出し、この部分文
毎に構文の抽出を行なうものとすればよい。この場合に
は、構文の出現頻度に関する判断は、複文を構成する文
毎に行えるから、構文についての判断を誤ることがな
い。
【0014】予め記憶している構文毎の出現頻度の情報
は、何段階かに分けた情報(例えば、出現頻度・高い、
中ぐらい、低い、まれ、など)としても良いし、出現回
数のカウント値として記憶することも可能である。カウ
ント値として記憶している場合には、与えられた自然言
語文から抽出した構文について、記憶されている出現回
数を取得し、この取得した出現回数が、所定値以下の場
合に、出現頻度の低い文であるとして警告を出力するも
のとすればよい。出現頻度の情報を直接的な情報である
出願回数の値として扱えば、出現頻度が低い構文の検出
を柔軟に行なうことができる。例えば、ビジネス文書で
は閾値を低くし、弔問文では閾値を高くして、判断する
といった対応をとることが可能となる。
【0015】なお、検証している文にその構文が現れた
と言うことを単に誤用と決めつけるのではなく、これも
一つの例文であるとみなして、抽出した構文と一致する
構文について、その出現回数をカウントアップする構成
を採用することも考えられる。この場合には、当面、出
現頻度の低い文であるとして警告を出力するが、出現回
数が増えれば、やがて出現頻度が低い文とはみなされな
くなる。即ち、自然言語により作られる文の場合、多数
の者が使用すればそれはもはや誤用とは言えなくなるか
らである。上記構成を採用すれば、こうした学習を行な
って、出現頻度の低い文の検証を柔軟に行なうことがで
きる。こうした自然言語文検証装置において、出現頻度
の低い文について、単に警告を出力するものとしても良
いが、併せてその文を修正可能とすることも望ましい。
この場合、修正が行なわれた場合には、誤用と判断した
とみなして、記憶している出現回数をカウントアップせ
ず、修正が行なわれなかったときに、この構文と一致す
る構文についての出現回数をカウントアップするものと
してもよい。こうしておけば、上述した学習を、より使
用者の意図に沿って行なうことができ、好適である。
【0016】更に、本願の自然言語文検証装置およびそ
の方法において、少なくとも出現頻度が低い構文につい
ては、この構文より出現頻度の高い代替案を予め記憶し
ておき、出現頻度が低いと判断された文については、警
告の出力にあわせて、この代替案の一つを表示するもの
とすることもできる。文の作成者は、その文が用いられ
るものと考えて使用している場合もあり得るので、他に
どのような表現か可能かがすぐには分からない場合も存
在する。そこで、警告の出力にあわせて、代替案を出力
すれば、使用者は直ちに他のしかも出現頻度のより高い
表現を知って修正することができるので、有用である。
【0017】以上説明した自然言語検証装置は、単独で
使用しても良いが、他の機器、例えば文を作成および編
集するワードプロセッサに組み込んだ形態で実現しても
良い。この場合、文節の取得、構文の抽出、頻度情報の
取得および警告の報知などは、文字が入力されて、文の
区切りを示す文字が入力されたとき、または「校正開
始」のキーなどが操作された場合など所定の手続が取ら
れたときに起動するようにすることができる。前者の場
合には、文を作成する度に、その文が、構文の出現頻度
が低いものか否かを知ることができる。従って、直ちに
作成した文の修正作業などができ好適である。後者の場
合には、まとめて校正の作業を行なうことができ、検証
の作業のために、ワードプロセッサによる文の作成処理
を中断されることがない。
【0018】また、本発明は、コンピュータに読み込ま
れて実行され、自然言語で作られた文を検証するプログ
ラムとして実施することも可能である。このプログラム
は、自然言語で作られた文が与えられたとき、該文を形
態素解析して文節を取得する機能と、該取得された文節
を用いて、構文を抽出する機能と、該構文を抽出したと
き、自然言語により作られ文に存在し得る構文を出現頻
度の情報と共に予め記憶したデータを照合し、その構文
の出現頻度の情報を取得する機能と、該構文が出現頻度
が低い文である場合には、警告を出力する機能とをコン
ピュータにより実現する。
【0019】なお、こうしたプログラムは、単独で用い
ることも形態を採ることも可能だが、文字の入力と編集
を行なうワードプロセッサに付加して利用するものとし
ても良い。あるいは、特定の手続の下で、他のアプリケ
ーションプログラムから呼び出されて、当該他のアプリ
ケーションプログラムにおいて入力された文についての
検証を行なうようにプログラムすることもできる。こう
すれば、様々なアプリケーションプログラムにおいて、
自然言語文の出現頻度の情報を検証することができ、好
適である。
【0020】
【発明の他の態様】また、こうした検証装置の発明は、
その実現形態として、サーバ上で実現したり、サーバコ
ンピュータとクライアントコンピュータとが協動するシ
ステムとして実現することもできる。また、コンピュー
タに上で動作するプログラムにより上記の検証方法を実
現することができるので、本発明をプログラムとして、
あるいはそのプログラムが記録された記録媒体(例えば
フレキシブルディスク、CD−ROM、DVD−RO
M、磁気テープなど)として把握することもできる。プ
ログラムは、記録媒体に記録して扱うこともできるが、
ネットワーク上のサーバなどにおき、これをネットワー
クを介してダウンロードして、クライアント側のコンピ
ュータで実行するという扱いにすることもできる。
【0021】
【発明の実施の形態】以下、本発明の実施の形態につい
て説明する。図1は、本発明の実施の形態の一つとして
の文の検証システム100を示すブロック図である。図
示する各ブロックは、実際には、コンピュータ内のプロ
グラムにより実現される。コンピュータの具体的なハー
ドウェア構成の詳細などは後述する実施例に譲り、ここ
ではブロックレベルで構成とその作用を説明する。
【0022】図1に示すように、この検証システム10
0は、自然言語の一つである日本語により作成された文
を受け付ける文入力部110、この文を解析して表現パ
ターンを抽出するパターン抽出部PE、表現パターン辞
書DPDを記憶したデータベース130、抽出された表
現パターンをこの表現パターン辞書DPDを参照するこ
とでその頻度情報を取得する頻度情報取得部120、取
得した頻度情報に基づいて警告を出力する警告報知部1
40、警告を表示するディスプレイ150、等から構成
されている。パターン抽出部PEは、更に、入力した文
を形態素解析して文節の構成を取得する文節取得部11
2、この文節の情報に基づいて部分文を作成する部分文
作成部114、部分文における構文を認識して表現パタ
ーンとして切り出すパターン切出部116から構成され
ている。
【0023】文入力部110は、利用者がキーボードな
どを用いて入力した日本語を受け付ける。もとより、予
め作成された日本語文を記憶したファイルから文を入力
するものとしても差し支えない。文入力部110を介し
て、例えば、「電源を入れられれば壊れたが、煙は出て
いない。」などの自然な言語文が入力される。こうした
文の入力が行なわれると、パターン抽出部PEが、これ
を解析する。解析の内容については、後述する実施例で
詳しく説明するが、通常は、まず文を形態素解析し、日
本語として自然な文を構成する文節に切り分ける処理
を、文節取得部112が行なう。例えば、入力した文
が、上記の「電源を入れられれば壊れたが、・・・」で
あれば、これを形態素解析して、「電源を」(名詞+助
詞)、「入れられれば」(動詞連用形+可能の助動詞+
接続助詞)、「壊れたが」(動詞終止形+過去を示す助
動詞+接続助詞)、といった文節に分けるのである。な
お、文の入力が、IME(日本語入力メソッド)などを
用いて行なわれた場合には、文の形態素を調べるまでも
なく、IMEがこれを記憶しているので、IMEから、
日本語文と共に、文節の情報を受け取るものとしても良
い。特定のIMEを用いたワードプロセッサなどでは、
こうしたIMEとの緊密な協働関係を実現することは容
易である。
【0024】こうして文節の抽出が完了した後、次に、
部分文を作成する処理を部分文作成部114により行な
う。この処理についても詳しい内容は後述するが、接続
詞やその他の情報を用いて、例えば「電源を入られれば
壊れたが、煙は出ていない。」という日本語文を、「電
源を入れられれば壊れたが」と「煙は出ていない」とい
う二つの日本語文に分割する処理と、分割により得られ
た日本語文を修正して、例えば「壊れたが」を現在時制
の終止形の「壊れる」に修正したり、分割により失われ
た主語を補ったりして、その後のパターン抽出が容易に
となるように、部分文を作成するのである。作成された
部分文から、更にその部分文のパターンを取り出す処理
を、パターン切出部116により行なう。この処理は、
「電源を入られれば壊れる」という部分文を、体言を符
号M、用言を符号D1,D2・・・と表すものとして、
「MをD1られればD2」といったパターンに変換する
処理である。なお、こうしたパターンへの変換は、パタ
ーン辞書を参照して行なっても良いし、単純な規則に従
って生成するものとしても良い。図1の構成では、規則
に従って作成している。
【0025】頻度情報取得部120は、こうして取得し
た表現パターンについて、データベース130を参照す
ることにより、そのパターンの頻度情報を取得する。デ
ータベース130には、表現パターンの頻度情報が表現
パターン辞書DPDの形態で記憶されている。なお、こ
の表現パターン辞書DPDは、上述したパターン抽出部
PEと同じ構成を利用して作成している。即ち、パター
ン抽出部PEに、予め用意した日本語文の集積であるコ
ーパスを与えて、この日本語文に含まれる表現パターン
を抽出し、同じ表現パターンが複数回現れれば、それを
頻度1としてカウントアップして、表現パターンと出現
回数の情報とを組みにして記憶するのである。コーパス
は、例えば日本語によるビジネス文とか、手紙文、慶弔
文といった分野ごとに用意しておき、分野ごとに、表現
パターンとその出現回数のデータを蓄積し、複数の表現
パターン辞書DPDとして用意しても良い。
【0026】頻度情報取得部120は、パターン抽出部
PEにより検出されたパターンについて、表現パターン
辞書DPDを参照し、辞書に記憶された出現頻度のデー
タを、頻度情報として取得するのである。次に、この頻
度情報を用いて、警告報知部140が、警告をディスプ
レイ150に表示すべきか否かを判断し、抽出した表現
パターンが、表現パターン辞書DPDに存在しなかった
り、存在しても出現回数がきわめて低いパターンである
と判断された場合には、「見かけない表現です」といっ
た警告をディスプレイ150上に表示する。使用者は、
このメッセージを見て、自分が入力した日本語文が、通
常使用されない表現であることを知り、これを修正する
ことができる。なお、表現パターン辞書DPDに、出現
回数の低い表現については、代替案を記憶しておき、警
告文の表示にあわせて、「次の表現が自然です」といっ
た案内と共に、代替案を表示することも望ましい。な
お、この代替案を表示する際には、「MをD1とD2」
のような符号によって表示することも可能ではあるが、
文節の解析を行なっているので、その情報を利用し、
「電源を入れると壊れる」と表示することも望ましい。
更には、原文の時制などの情報も用いて、「電源を入れ
ると壊れたが」のように、入力した文の形態に合わせて
代替案を表示しても良い。
【0027】かかる実施の形態によれば、利用者が入力
した日本語文が、通常使われることの少ない文(低出現
文)である場合、これを検出して、警告を行なうことが
できる。従って、利用者は、通常使われることの少ない
文に容易に気づくことができ、作成する文の質を向上さ
せることができる。代替案を示す構成とすれば、文章の
作成に要する時間を更に短縮することができる。こうし
た文の検証システム100を、前段に置くことにより、
例えば自動翻訳システムにおける翻訳精度を高めたり、
自然文を用いた検索システムにおける検索精度を高める
といった効果を得ることもできる。なお、こうした文の
検証は、通常は一つの言語を特定して行なわれるが、同
一言語内の異なる言語集団に属する言葉(いわゆる方
言)については、別々の表現パターン辞書を用意して、
出現頻度を検証することができる。方言を含んだ総ての
構文パターンについて表現パターン辞書を作成すると、
方言に固有の構文の出現頻度は相対的に小さなものにな
ってしまうので、方言が多用される文については、個別
の辞書を用いて検証することも実際的である。
【0028】また、上記の実施の形態では、文検証シス
テムは、単独のコンピュータ上で動作するものとした
が、サーバコンピュータとクライアントコンピュータと
から構成し、クライアントコンピュータで文の入力を行
ない、翻訳や検索といった他の処理を行なうエンジンが
置かれたサーバ側で文の検証を行なう構成とすることも
できる。もとより、検証は、クライアントコンピュータ
側で行なうものとしても良い。更に、文を入力するたび
にどうするのではなく、前もって入力された文の集合
(文章)に対して、検証を行なう構成とすることもでき
る。
【0029】上述した検証の機能をコンピュータ上で実
現するプログラムをCD−ROMなどの記録媒体上に記
録した形態で、本発明を実施することも可能である。こ
の場合、上述したように、サーバ側のプログラムとクラ
イアント側のプログラムに分けて、それぞれ記録媒体上
に記録して実施しても良いし、一つのプログラムあるい
はプログラム群として記録しても良い。更には、サーバ
側に必要なプログラムに置き、このサーバ側のプログラ
ムと協働して動作するプログラムを、サーバ側にダウン
ロード可能に用意し、検証を行なおうとするクライアン
ト側から読み出して、実行する形態で実施することも可
能である。
【0030】
【実施例】以上説明した実施の形態を更に具体的に説明
するために、その実施例について説明する。 (1)実施例の構成:はじめに、実施例のハードウェア
構成について、図2の概略構成図を用いて説明する。図
2に示した実施例では、検証を行なうシステムは、イン
ターネットのようなネットワーク10に接続されたクラ
イアントコンピュータ30(以下、単にコンピュータ3
0という)に構築されている。この例では、クライアン
トコンピュータ30から入力された日本語文は、クライ
アントコンピュータ30で検証され、修正を受けた後、
インターネットを介して、翻訳エンジンを搭載したサー
バコンピュータ20に出力される(これを翻訳用サーバ
と呼ぶ)。翻訳用サーバ20とコンピュータ30とはほ
ぼ同じハードウェア構成を有するので、以下、そのハー
ドウェアについては、コンピュータ30を例として説明
を行なう。
【0031】コンピュータ30の内部構成を図2に基づ
いて説明する。コンピュータ30は、モデムやルータ1
8を介してネットワーク10とのデータのやり取りを制
御するネットワークインタフェース(NT−I/F)2
1、処理を行なうCPU22、処理プログラムや固定的
なデータを記憶するROM23、ワークエリアとしての
RAM24、時間を管理するタイマ25、モニタ29へ
の表示を司る表示回路26、テキストデータをデータベ
ースとして蓄積しているハードディスク(HD)27、
キーボード11,マウス12,マイク13とのインタフ
ェースを司る入力インタフェース(I/F)28等を備
える。なお、ハードディスク27は、固定式のものとし
て記載したが、着脱式のものでも良いし、着脱式の記憶
装置(例えばCD−ROM、CD−R、CD−RW、D
VD−ROM、DVD−RAM、フレキシブルディスク
など)を併用することも可能である。また、この実施例
では、翻訳用サーバ20の処理プログラムは、ROM2
3内に記憶されているものとしたが、ハードディスク2
7に記憶しておき、起動時にRAM24上に展開して実
行するものとしても良い。あるいは、上述した着脱式の
記録媒体から読み込むものとしても良い。更には、ネッ
トワーク10を介して、他のサーバから読み込んで実行
するものとしても良い。同様に、以下に説明するよう
に、ハードディスク27に必要なデータの総てが記憶さ
れている必要はなく、ネットワーク10により接続され
る他のサーバに膨大なデータを分散して記憶、更新、管
理する構成としても良い。
【0032】ハードディスク27には、形態素解析辞書
IDC、部分文検定パターン辞書PPD、および表現パ
ターン辞書DPDが記憶されている。この形態素解析辞
書IDCは、いわゆる仮名漢字変換辞書とほぼ同一の内
容を記憶した辞書であり、仮名漢字変換辞書とは、見出
しと読みが逆になっている。このため、キーボード11
やネットワーク10を介して入力されたかな文字列を解
析して、仮名漢字文字列に変換する仮名漢字変換辞書を
そのまま用い、読みと見出しの関係だけインデックスの
形でもった形態とすることもできる。形態素解析辞書I
DCの一例を、図3に示した。この例では、見出し(漢
字)、読み、文法情報および意味コードのみを示してい
るが、実際の形態素解析辞書IDCには、これらの情報
の他に、同一意味の口語、同意語、類義語、省略語、更
には係り受けの情報などを関連付けて記憶しておくこと
もできる。この解析辞書IDCは、コンピュータ30で
は、入力した日本語の文を形態素解析する際に用いられ
る。この解析辞書IDCを用いることで、コンピュータ
30は、受け取った文を精度良く解析することができ
る。例えば、解析するかな文字列が口語体の自然言語で
あっても、その口語体を、正確に解析することが可能で
ある。また、意味コードは、ここでは、直接は使用して
いないが、表現パターン辞書DPDに記憶されたパター
ンに、この意味コードの情報が与えてあれば、これを利
用してより精度の高いパターンマッチングを行なうこと
ができる。意味コードの利用方法については、後述す
る。
【0033】表現パターン辞書DPDは、図4に例示し
たように、表現パターンとその頻度を記憶した辞書であ
る。ここで、Mは体言、D1,D2・・・は、用言を示
す。頻度は、予めコーパスを与えてカウントした出現回
数を適当な単位で丸めて記憶した数字である。なお、こ
の頻度は、コーパスを利用して出現回数を求めた上で、
システムの設計者により適当な値に調整しておくことも
できる。言語における表現は、ある程度規範としての意
味を持つから、例えば「全くD1する」という表現がコ
ーパスに一定の頻度で現れたとしても、これを正規の日
本語表現として認めない立場からは、その出現回数を低
い値に修正して、同様の文が与えられたとき、警告する
ものとしても良い。
【0034】図4に示した辞書では、体言Mは、区別し
ないものとしたが、意味コードに代えて、体言Mを、生
物を示す体言M1、無生物を示す体言M2、代名詞M
3、形式名詞M4、抽象名詞M5・・・といったように
分類して、表現パターンを記憶しておくことも可能であ
る。この場合には、「彼は家にいる」と「荷物は家にあ
る」は表現パターンとして異なったものとなる。また、
図5に示すように、表現パターン辞書DPDに登録され
たパターンのうち、出現頻度の低いものについては、代
替案を予め記憶するものとしても良い。この場合には、
与えられた文に表現が見かけないものである場合、より
望ましい表現を、警告に併せて表示することができ、好
適である。
【0035】コンピュータ30に組み込まれた検証シス
テムの動作について説明する。この実施例では、翻訳し
ようとする日本語文をコンピュータ30のキーボード1
1から入力すると、これを検証した上で、ネットワーク
10を介して、翻訳用サーバ20に送信している。な
お、日本語文の入力は、文単位としても良いが、以下の
説明ではひとまとまりの文、即ち文章を入力して動作す
るものとしている。
【0036】(2)検証システムの動作−部分文の取出
処理:そこで、コンピュータ30側の動作について、図
6のフローチャートを用いて説明する。コンピュータ3
0は、文の検証が指示されると、図6に示した処理を開
始する。コンピュータ30が実行する処理は大きくは部
分文の取出処理(ステップS110ないしS145)と
表現パターンについての検証処理(ステップS150な
いしS180)である。部分文の取出処理は、文書から
の文の切出処理(ステップS110)、形態素解析処理
(ステップS120)、文の分割処理(ステップS13
0)、部分文の抽出処理(ステップS140)および制
御に必要な判断処理(ステップS115,S145)か
ら構成されている。他方、検証処理は、パターン抽出処
理(ステップS150)、誤り判定処理(ステップS1
60)、警告の表示処理(ステップS180)および制
御に必要な判断処理(ステップS170)から構成され
ている。
【0037】図6に示した処理は、コンピュータ30が
検証すべき日本語文章をファイルなどの形態で受け取っ
たときに開始され、受け取った文章から文を切り出す処
理を行なう(ステップS110)。文の切出は、原則と
して句点「。」または「.」を基準として行なう。もと
より、句点を伴わない文の区切り、例えば「?」や
「!」なども文の区切りとして認めて文を切り出せば良
い。文章から文の切出を試みた後で、文があるか否かの
判断を行ない(ステップS115)、文が切り出せなけ
れば、本ルーチンを終了する。文が切り出せた場合に
は、形態素解析処理を行なう(ステップS120)。形
態素解析処理は、上述したように、形態素解析辞書ID
Cを参照して行なわれる処理であり、切り出した文から
単語と文節を取り出す処理である。形態素解析処理(ス
テップS120)の詳細を図7のフローチャートに示し
た。
【0038】形態素解析処理が開始されると、切り出し
た文が解析の対象として特定され、この文の先頭からX
文字目(X=1,2,・・・・)からL文字分(L=
1,2,・・・)を取り出して解析辞書IDCを引く処
理を行なう(ステップS102)。Mは、着目している
文字列の先頭位置を、Lは、取り出す文字数を、それぞ
れ示していることになる。解析辞書の参照の手法は、ま
ずX=1、即ち先頭位置から、L=1、即ち1文字分の
文字を取り出し、辞書を参照して該当語を取り出す処理
から開始する。Lを順次インクリメントしながら辞書I
DCを参照し、該当する見出し語がなくなれば、着目す
る文字列の先頭位置Xをインクリメントし、再度文字数
Lを1に戻して、辞書の検索を行なう。こうして着目す
る文字の位置か、解析しようとする文の文字数を超えた
ところで、辞書の参照をうち切る。
【0039】例えば、コンピュータ30から「これら提
案にして意見集約を行ないます」という文が入力された
場合を想定すると、解析辞書IDCを参照すると、「こ
れら」「提案」「提」「案」「にして」「にし」「て」
「に」「して」「し」「意見集約を」「意見」「集約」
「を」「行ないます」「行ないま」「す」「行ない」
「ます」「ま」「行な」「います」「いま」「す」とい
った語を切り出すことができる。ここで、「に」などの
仮名一音も、語として切り出しているのは、助詞「に」
などが、文中に現れる可能性があるからである。
【0040】解析辞書IDCには、これらの語がその文
法情報と共に記憶されている。そこで、切り出した語を
次に文法情報に従って並べて、破綻しない配列を見い出
す処理を行なう。かかる解析は、例えば複数文節最長一
致法や最小コスト法といった手法が知られており、所定
の語の組合わせのうちどれが最も日本語としてもっとも
らしいかを検定するのである。本実施例では、最小コス
ト法を採用しているので、こうして得られた多数の文字
列を対象として、次にコスト計算を行なう(ステップS
104)。コスト計算とは、文字列の配列に対して、日
本語らしい配列ほど点数が低くなるように予め用意され
た文字列のコストを計算する処理である。その規則は大
まかに言えば、自立語はコスト2、これに付属語が付属
する場合はコスト0、といったものである。例えば、
「提案に」を例にとると、「提案」+「に」ではあれ
ば、自立語+付属語(助詞)の結びつきとなって、コス
ト2、「提」+「案」+「に」であれば、自立語+自立
語+付属語(助詞)となってコストは4となるのであ
る。最小コスト法のルールは、現実の日本語にあわせて
チューニングされており、「まったく」+「ない」など
の共起関係にある単語が文中に生じる場合は、コスト
「−1」など、様々な規則が用意されている。
【0041】こうして、逆引き辞書の参照により得られ
た全ての単語について、上記のコストを計算し、そのう
ちで最小のコストになる文を特定する処理を行なう(ス
テップS106)。上記の例では、「提」(自立語・名
詞)+「案」(自立語・名詞)+「に」(付属語・助
詞)よりも、「提案」(自立語・名詞)+「に」(付属
語・助詞)の方が、日本語として確からしいと判断する
のである。もとより、この計算は、少なくとも文を単位
として行なわれ、文全体で、コストが最小になるような
単語の配列を選択する。従って、例えば共起関係による
コストの低減などがあれば、異なる組合わせが選択され
る場合も存在する。
【0042】こうして最小コスト法により最小コスト文
が特定されると、結局検索文を構成する文節の組合わせ
が、その文法情報と共に得られたことになるので、次
に、得られた文節を、図8に示す配列T[t]に格納す
る処理を行なう(ステップS108)。図8は、検索文
を解析する際に用いられる配列T[t]の一例を示す説
明図である。切り出された文は、全体としては、単語情
報(図8)、文節情報(図9)、部分文情報(図10)
という形態で解析され、記憶される。このうち、図8
は、単語情報の内容(配列)を示しており、この配列
は、単語、単語の読み、品詞から構成されている。以
下、単語の配列は、T[t](t=0,1,・・・)と
して参照するものとする。
【0043】こうして形態素解析の一部として、係り受
け解析(ステップS109)を行なう(図7参照)。係
り受け解析とは、文を構成する各文節の関係を特定する
処理である。係り受け解析は、文節情報を特定するため
の処理である。係り受け解析を行なうことにより、文節
間の関係を知ることができる。即ち、ある文節がどの文
節に係っているかをしることができる。例えば、名詞+
「を」(助詞)は後方の最も近い述部にかかる、という
ルールから、「これら」→「提案に」という関係が特定
される。こうした係り受け解析により得られた文節情報
は、配列Bに格納される。この配列B[b](b=0,
1,・・・)の一例を図9に示した。この文節情報は、
単語を示すインデックスである配列B[b]、この配列
B[b]に所属している単語の番号t、係り先文節の番
号b、係りもと文節の番号bから構成されている。図9
の表中、「−」は該当する文節が存在しないことを示し
ている。配列に所属している単語の番号tが与えられれ
ば、図8に示した配列T[t]を参照して、実際の単語
を取得することができる。
【0044】係り受け解析(ステップS109)が完了
すると、次に文の分割処理を行なう(ステップS13
0)。この処理は、係り受け解析により解析した文節同
士の関係を利用して、1以上の文節からなる部分文同士
の関係を特定しつつ、文の分割点を決定するものであ
る。この文の分割処理を、図11ないし図12に示し
た。ここで部分文とは、少なくとも一つの述部を含み構
文上の最小単位である節とほぼ等しい概念であるが、体
言のみからなる見出し文なども含まれる(例えば「Mに
してMのM」など)。図11に示した文の分割処理が開
始されると、まず、配列B[b]を用いて、部分文の配
列Sp[s]を作成する処理を行なう(ステップS20
0)。部分文同士の関係は、図10に示したように、配
列Sp[s](p=0,1,・・・、s=0,1,・・
・・)として与えられ、配列Sp[s]には、所属する
文節の番号b、結論部からの距離、条件部の意味が対応
づけられる。これら、単語の配列T[t]、文節情報の
配列B[b]、部分文の配列Sp[s]の関係は、上位
−下位の構成となっており、一つの部分文から、これに
含まれる文節、単語などを自由に参照することができ
る。
【0045】部分文の配列Sp[s]は、次のように作
成される。即ち、文全体の述部をまず特定し、この述部
(通常は文末の用言が属する文節)から文の前方方向に
各文節を、配列S0[s]に順次格納する。例として、
「これら提案にして意見集約を行ないますので、みなさ
んの協力をお願いします」という文を取り上げる。この
例では、文全体の述部「お願いします」を配列S0
[0]に格納し、その前の文節「みなさんの」+「協力
を」を配列S0[1]に、それぞれ格納する。その前の
文節を参照すると「行ないますので」という用言を含ん
だ句が見つかるので、ここが文の分割点となっている可
能性があるとして、配列の添え字pを更新すると共に図
10に示した分割点候補フラグFCに値1をセットし、
その文節を新たな配列S1[0]に格納する。更に、そ
の前の文節「意見集約を」を配列S1[1]に、その前
の文節の集合「これら」+「提案にして」を配列S1
[2]に、それぞれ格納する。以上で、部分文の配列S
p[s]を作成する処理(ステップS200)は完了す
る。
【0046】そこで、次に、非分割検定処理(ステップ
S300)を行なう。この処理とこれに引き続く分割検
定処理(ステップS400)は、ほぼ同一の処理であ
り、図12を用いてその詳細を説明する。これらの処理
S300,S400は、文の各文節を配列Sp[s]に
格納した際、文分割の候補として見い出された点が、本
当に分割点に想到するかを検定する処理である。非分割
検定処理(ステップS300)は、その分割候補点(F
C=1)が、分割すべきでない点として予め集約された
パターンに一致しているかを検定し、一致していれば、
分割点でないとして、図10に示した分割点フラグFD
を値0に設定する処理であり、分割検定処理(ステップ
S400)は、その分割候補点(FC=1)が、分割す
べき点として予め集約されたパターンに一致しているか
を検定し、一致していれば、分割点であるとして、図1
0に示した分割点フラグFDを値1に設定する処理であ
る。このように2回の検定を行なうのは、分割点の特定
を慎重に行なうためである。なお、こうした文分割の手
法は、情報処理学会論文誌Vol.35、No.6、
「日英機械翻訳のための日本語長文自動短文分割と主語
の補完」(金淵培、江原暉将、1994年6月)に詳し
い。
【0047】非分割検定処理(ステップS300)およ
び分割検定処理(ステップS400)の詳細について、
図12を用いて説明する。説明は、非分割検定処理(ス
テップS300)を中心に行ない、分割検定処理(ステ
ップS400)の処理については、(丸括弧)内に入れ
て示した。この処理が開始されると、まず変数を初期化
し(ステップS310)、変数nに非分割(分割)パタ
ーンとして用意されたパターンのうち最大長のパターン
を示す値nmax を、変数pに値ゼロを、それぞれ設定す
る。次に、図10に示した配列Sp[s]の情報を参照
して分割点候補フラグFCが値1、つまり分割点の候補
となっている文節を取得する(ステップS320)。次
に、予め用意した非分割(分割)パターンのうち長さn
のものを取り出し(ステップS330)、これらパター
ンと分割点候補フラグFCが値1であった文節を含むパ
ターンとが一致しているかを判断する(ステップS34
0)。
【0048】この結果、両者が一致していなければ、変
数nを値1だけデクリメントして(ステップS35
0)、非分割(分割)パターンnの取得(ステップS3
30)から、上記の処理を繰り返す。仮に非分割(分
割)パターンと一致しているものがあれば、この分割点
候補を非分割(分割)点であると認定して、分割点フラ
グFDに、値0(値1)を入れ(ステップS360)、
総ての分割点候補について、処理を完了したか否かの判
断を行ない(ステップS370)。まだ判断すべき分割
点候補(FC=1)が残っていれば、変数pを値1だけ
インクリメントし(ステップS380)、更に変数nを
初期化して(ステップS390)、上述した分割点候補
の文節の取得から処理を繰り返す。総ての分割点候補
(FC=1)がなくなれば、処理を終了する。
【0049】こうして非分割検定処理(ステップS30
0)および分割検定処理(ステップS400)を完了す
ると、図10に示した配列Sp[s]の分割点フラグF
Dには、文の分割点を示す箇所に値1が設定される。そ
こで、図6の処理に戻って、次にこのフラグFDの値を
参照して、部分文を取り出す処理を行なう(ステップS
140)。この処理を繰り返していると、部分文がすべ
て取り出されてしまうことがあり得るから、部分文が取
り出されたか否かの判断を行ない(ステップS14
5)、部分文が取り出せなかった場合には、その文につ
いての総ての部分文の処理は既に完了したとして、文章
から文を取り出す処理(ステップS110)に戻って、
上記の処理を繰り返す。
【0050】(3)表現パターンについての検証処理:
他方、部分文が取り出せた場合には、次にこの部分文か
ら表現パターンを取り出す処理を行なう(ステップS1
50)。表現パターンは、取り出した部分文が、例え
ば、「これら提案にして意見集約を行ないますので」で
あれば、その末尾を用言の原形に戻し(「行ないま
す」)、体言をM、用言をD1,D2・・・として、取
り出した部分文のパターンを抽出する。なお、体言が専
属する場合には、一つの体言Mとして扱う。この文例で
は、「MにしてD1をD2ます」というパターンが抽出
される。
【0051】(4)誤り判定処理:次に、誤り判定の処
理を行なう(ステップS160)。この誤り判定は、抽
出した表現パターンが、出現頻度のきわめて低いもので
ある場合に、これを誤りと判断する処理であり、その処
理詳細を図13に示した。即ち、この誤り判定処理は、
まず抽出した表現パターンについて、表現パターン辞書
DPDを検索し(ステップS162)、辞書に同じパタ
ーンが存在するか否かを判断し(ステップS163)、
同じパターンが存在する場合には、その頻度を辞書DP
Dから取得する(ステップS164)。頻度を取得した
後、スコアSKを計算する処理を行なう(ステップS1
65)。この実施例では、辞書DPDから取得した頻度
を直接スコアSKとして用いている。次に、このスコア
SKが所定の閾値K0より大きいか否かの判断を行なう
(ステップS166)。スコアSKが所定の閾値K0よ
り大きければ、誤りフラグMSに値0を設定し(ステッ
プS167)、スコアSKが所定の閾値K0以下である
か、あるいはそもそもそのパターンが辞書DPDに見い
出されたなかった場合(ステップS163)には、誤り
フラグMSに値1を設定する。誤りフラグMSが値1で
あるとは、その表現パターンが誤っていると判断したこ
とを示している。
【0052】以上の処理の後、フラグMSが値1である
か否かを判断し(ステップS170)、MS=1、即
ち、抽出した表現パターンが誤っていると判断した場合
には、「この表現は通常用いられません。」といった警
告文をモニタ29上に表示する処理を行なう(ステップ
S180)。この時、図4に示したように、表現パター
ン辞書DPDに、代替案が存在する場合には、この代替
案を併せて表示しても良い。代替案を表示する際には、
「Mに対してD1をD2ます」という代替案のパターン
を表示しても良いが、抽出した文の各文節を当てはめ
て、「これら提案に対して意見集約を行ないます」、あ
るいは「これら提案に対して意見集約を行ないますの
で」という形で、代替案を表示しても良い。なお、代替
案は、一度に複数表示しても良いし、「次候補」などが
指定されたときに、順次表示するものとしても良い。も
とより、単一の代替案を表示するにとどめても良い。誤
りと判定されなかった場合、あるいは誤りについての警
告を行なった後、処理は、文から部分文を取り出す処理
(ステップS140)に戻り、上記の処理を繰り返す。
【0053】以上説明した本実施例の検証システムによ
れば、入力された日本語文から部分文を考慮して文を構
成する表現パターンを取り出し、このパターンが通常見
かけないパターンか否かの判断を行なって、見かけない
パターン(出現頻度の低いパターン)については警告を
表示して、使用者に報知することができる。従って、使
用者は、誤って、通常見かけない表現を用いた場合に、
これを容易に修正して、日本語として広く用いられる表
現に改めることができる。このため、例えば、その文を
翻訳用サーバ20などに出力して自動翻訳させると、正
しい翻訳結果を得られやすくなるという利点が得られ
る。もとより、その文が手紙などである場合、相手に対
して礼を失したり、意味が正しく伝達されなかたったり
するリスクを低減することもできる。
【0054】(5)表現パターン辞書の構築方法:次
に、本実施例において用いた表現パターン辞書DPDの
構築方法について説明する。図14は、この表現パター
ン辞書DPDを構築する処理を示すフローチャートであ
る。このフローチャートは、図6に示したフローチャー
トと、ステップS110ないしS150は同一である。
即ち、表現パターン辞書DPDを構築するには、そのた
めに用意された大量の文章を順次入力し、ここから文を
切り出し、更に部分文を抽出し、この部分文の表現パタ
ーンを抽出する(ステップS110ないしS150)。
その上で、取り出された表現パターンを辞書に登録する
のである(ステップS190)。辞書は、この図14に
示した処理が開始された時点では空であり(図15参
照)、新しいパターンが抽出される度に、新しいパター
ンが付け加えられ、その頻度NNに値1が設定されてい
く。既にあるパターンが再度抽出された場合には、その
出現回数NNを、値1だけインクリメントする(図16
参照)。
【0055】かかる処理を行なうことで、簡単に、表現
パターンとその頻度を記憶した表現パターン辞書DPD
を作成することができる。なお、この例では、作成され
る辞書DPDは、一つとしたが、表現パターンの抽出を
行なうための文書を、分野別に用意し、表現パターン辞
書DPDも、分野別に構築しても良い。この場合には、
図6に示した検証処理においても、分野別に辞書を指定
し、分野に応じた検証を行なうことができる。分野とし
ては、ビジネス文書、慶弔文、手紙文など文章の形式
(用いられる分野)の違いに着目しても良いし、文書を
作成するAさん、Bさん、C団体といった違いに着目し
ても良い。あるいは、その文章を作成する使用者や読み
手が属している集団に着目しても良い。「見れる」など
のら抜き言葉の表現パターンなどは、こうした集団の違
いにより、表現パターンとして許される場合と相でない
場合とが存在するからである。
【0056】(6)他の実施例:次に、本発明の第2の
実施例について説明する。第2実施例の検証システム
は、そのハードウェアなどは、第1実施例と同一であ
り、図13に示した誤り判定の処理のみが異なる。第2
実施例の誤り処理では、スコア計算(ステップS16
5)を次のように行なっている。即ち、表現パターン辞
書DPDに記憶したパターン、例えば「MをMいたしま
す」といったパターンにおいて、体言Mについて、その
意味コードを併せて記憶しておき、抽出したパターンに
ついて頻度を取り出した後、この意味コードが一致して
いるか否かを判断して、スコアを計算するのである。意
味コードが一致している場合には、第1実施例同様、頻
度をそのままスコアとし、意味コードか一致していない
場合には、頻度を1/2にしてスコアを計算する。こう
すれば、単純な頻度情報で判断するのではなく、表現パ
ターンについて詳しい判断を加えて、その表現が通常見
かけない表現か否かの判断を行なうことができる。例え
ば、「荷物は家にある」という文から「M1はM2にあ
る」というパターンを抽出したとき、M1の意味コード
に「無生物」といった分類が付与されている場合、「彼
は家にある」という表現は、意味コードが一致しないこ
とから、見かけない表現と判断しやすくなる。
【0057】本発明の他の実施例として、文の検証を行
なって、あるパターンが表現パターン辞書DPDに存在
するか否かを判断したとき、辞書DPDを更新する構成
を採用することも可能である。即ち、図13において、
辞書DPDから頻度のデータを読み出すとき(ステップ
S164)、併せて辞書DPDの頻度の欄を値1だけイ
ンクリメントするものとしても良い。こうすれば、使用
されている表現はその頻度が徐々に高くなっていき、や
がて「見かけない表現」と判断されなくなる場合があり
得る。即ち、その表現が社会に広く受け入れられて用い
られるようになると、もはや誤用とは判断できなくなる
のである。あるいは、表現パターン辞書DPDを作成し
た際に用いたコーパスが特定の集団により作成された文
の集合であった場合などには、表現パターンに特定の偏
りが生じ場合もありえる。こうした場合には、検証を行
なううちに、徐々に偏りが是正され、その判断がより一
般的なものになるという効果が得られる。なお、辞書D
PDの頻度の書き換えは、使用者がその表現を修正しな
かった場合にのみ行ない、使用者が表現を書き直した場
合には、誤りとみなして頻度を修正しない、という対応
も可能である。
【0058】以上、本発明の実施の形態について説明し
たが、本発明はこうした実施の形態に何等限定されるも
のではなく、本発明の要旨を逸脱しない範囲内におい
て、種々なる形態で実施し得ることは勿論である。例え
ば、本実施例の検証システムは、単一のコンピュータ3
0上で実現したが、クライアント−サーバシステムとし
て実現してもよい。また、検証を行なう対象である入力
文は、マイク13を用いて入力するものとしてもよい。
検証結果を音声により報知する構成も可能である。表現
パターン辞書は、同一言語内の異なる言語集団に属する
言葉(いわゆる方言)について、別々に用意して、出現
頻度を検証する構成も可能である。また、文字の入力や
文の編集を行なうワードプロセッサの一機能として組み
込んでも良いし、ワードプロセッサに後からアドインの
形態で組み込んで動作するようにすることも可能であ
る。こうしたワードプロセッサやその他のアプリケーシ
ョンプログラムに組み込んだ場合、文節の取得、構文の
抽出、頻度情報の取得および警告の報知などは、文字が
入力されて、文の区切りを示す文字が入力されたとき、
または「校正開始」のキーやメニューが操作された場合
など所定の手続が取られたときに起動するようにするこ
とができる。文の検証プログラムは、警告や代替案の表
示を、専用のウィンドウを用いて行なっても良いが、図
17に示すように、入力した文をモニタ29に表示し、
この文にマウスカーソルを近づけると、文の検証を行な
い、通常見かけない文の場合には、警告や代替案をポッ
プアップウィンドウPUWなどにより、その場に表示す
るようにすることも、使い勝手を改善する上で有用であ
る。
【図面の簡単な説明】
【図1】本発明の実施の形態としての検証システム10
0の概略構成を示すブロック図である。
【図2】本発明の一実施例としての検証システムが動作
するコンピュータ30の構成を示す概略構成図である。
【図3】形態素解析辞書IDCの一部を例示する説明図
である。
【図4】表現パターン辞書DPDの一部を例示する説明
図である。
【図5】表現パターン辞書DPDの他の例を示す説明図
である。
【図6】低出現度文の検証処理を示すフローチャートで
ある。
【図7】形態素解析処理ルーチンを示すフローチャート
である。
【図8】形態素解析により得られる単語の配列T[t]
の一例を示す説明図である。
【図9】係り受け解析により得られる文節の配列B
[b]の一例を示す説明図である。
【図10】部分文の解析により得られる部分文の配列S
[s]の一例を示す説明図である。
【図11】文の分割処理ルーチンを示すフローチャート
である。
【図12】文の分割点を見い出すための非分割検定処理
(分割検定処理)を示すフローチャートである。
【図13】誤り判定処理を示すフローチャートである。
【図14】表現パターン辞書DPDの構築方法を示すフ
ローチャートである。
【図15】表現パターン辞書の構築について説明する説
明図である。
【図16】表現パターン辞書の構築について説明する説
明図である。
【図17】表現の代替案の表示例を示す説明図である。
【符号の説明】
10…ネットワーク 11…キーボード 12…マウス 13…マイク 18…ルータ 20…翻訳用サーバ20 22…CPU 23…ROM 24…RAM 25…タイマ 26…表示回路 27…ハードディスク 29…モニタ 30…コンピュータ 100…検証システム 110…文入力部 112…文節取得部 112…文節抽出部 114…部分文作成部 116…パターン切出部 120…頻度情報取得部 130…データベース 130…データペース 140…警告報知部 150…ディスプレイ

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 自然言語で作られた文を検証する自然言
    語文検証装置であって、 前記自然言語により作られ文に存在し得る構文を出現頻
    度の情報と共に予め記憶する構文情報記憶手段と、 自然言語で作られた文が与えられたとき、該文を形態素
    解析して文節を取得する文節取得手段と、 該取得された文節を用いて、構文を抽出する構文抽出手
    段と、 該抽出した構文を、前記構文情報記憶手段に記憶した構
    文と照合し、その出現頻度の情報を取得する頻度情報取
    得手段と、 該構文が出現頻度が低い文である場合には、警告を出力
    する報知手段とを備えた自然言語文検証装置。
  2. 【請求項2】 請求項1記載の自然言語文検証装置であ
    って、 前記構文情報記憶手段は、 自然言語により作られた複数の文を入力する入力手段
    と、 該入力した文を形態素解析して文節を切り出す文節切出
    手段と、 該切り出された文節を用いて、構文を抽出する構文抽出
    手段と、 該抽出した構文を分類し、同一の構文毎に頻度情報を加
    えて記憶する記憶手段とを備えた自然言語文検証装置。
  3. 【請求項3】 前記記憶手段は、同一の構文毎に加える
    頻度情報を、個別に設定する手段を有する請求項2記載
    の自然言語文検証装置。
  4. 【請求項4】 請求項1記載の自然言語文検証装置であ
    って、 前記構文抽出手段は、前記取得された文節とその文法情
    報に基づいて、該自然言語文から、少なくとも一つの述
    部を含む部分文を抽出し、該部分文毎に前記構文の抽出
    を行なう手段である自然言語文検証装置。
  5. 【請求項5】 請求項1記載の自然言語文検証装置であ
    って、 前記構文情報記憶手段は、構文毎の出現頻度の情報を出
    現回数のカウント値として記憶しており、 前記頻度情報取得手段は、前記抽出した構文について、
    前記構文情報記憶手段に記憶された該構文の出現回数を
    取得する手段であり、 前記報知手段は、前記取得した出現回数が、所定値以下
    の場合に、前記出現頻度の低い文であるとして警告を出
    力する手段である自然言語文検証装置。
  6. 【請求項6】 請求項5記載の自然言語文検証装置であ
    って、 前記頻度情報取得手段は、前記抽出した構文と一致する
    構文について、その出現回数をカウントアップする手段
    を備えた自然言語文検証装置。
  7. 【請求項7】 請求項5記載の自然言語文検証装置であ
    って、 前記報知手段は、前記出現頻度の低い文について、前記
    警告を、当該文を修正可能に出力する手段であり、 前記頻度情報取得手段は、前記出現頻度が低い構文につ
    いては、前記修正が行なわれなかったときに、当該構文
    と一致する構文について、その出現回数をカウントアッ
    プする手段を備えた自然言語文検証装置。
  8. 【請求項8】 請求項1記載の自然言語文検証装置であ
    って、 前記構文情報記憶手段は、少なくとも出現頻度が低い構
    文については、該構文より出現頻度の高い代替案を予め
    記憶している手段であり、 前記報知手段は、前記警告の出力にあわせて、前記代替
    案の一つを表示する代替案表示手段を備えた自然言語文
    検証装置。
  9. 【請求項9】 請求項1記載の自然言語文検証装置であ
    って、 前記構文情報記憶手段は、同一自然言語内の異なる言語
    集団毎あるいは言語対象毎に、構文とその出現頻度の情
    報を記憶しており、 更に、検証を行なう対象である自然言語について、前記
    言語集団あるいは言語対象を特定する対象特定手段を備
    え、 前記構文についての検証を、当該指定された対象毎に行
    なう自然言語文検証装置。
  10. 【請求項10】 自然言語による文を作成および編集す
    るワードプロセッサであって、 文字を入力し編集する入力編集手段と、 前記自然言語により作られ文に存在し得る構文を出現頻
    度の情報と共に予め記憶する構文情報記憶手段と、 前記入力編集手段を介して自然言語で作られた文が入力
    されたとき、該文を形態素解析して文節を取得する文節
    取得手段と、 該取得された文節を用いて、構文を抽出する構文抽出手
    段と、 該抽出した構文を、前記構文情報記憶手段に記憶した構
    文と照合し、その出現頻度の情報を取得する頻度情報取
    得手段と、 該構文が出現頻度が低い文である場合には、警告を出力
    する報知手段を備えたワードプロセッサ。
  11. 【請求項11】 請求項10記載のワードプロセッサで
    あって、 前記文節取得手段、構文抽出手段、頻度情報取得手段お
    よび報知手段は、 前記入力手段により文字が入力されて、文の区切りを示
    す文字が入力されたとき、または所定の手続が取られた
    とき、 起動するワードプロセッサ。
  12. 【請求項12】 自然言語で作られた文を検証する方法
    であって、 前記自然言語により作られ文に存在し得る構文を出現頻
    度の情報と共に予め記憶し、 自然言語で作られた文が与えられたとき、該文を形態素
    解析して文節を取得し、 該取得された文節を用いて、構文を抽出し、 該抽出した構文を、前記記憶した構文と照合し、その出
    現頻度の情報を取得し、 該構文が出現頻度が低い文である場合には、警告を出力
    する自然言語文検証方法。
  13. 【請求項13】 コンピュータに読み込まれて実行さ
    れ、自然言語で作られた文を検証するプログラムであっ
    て、 自然言語で作られた文が与えられたとき、該文を形態素
    解析して文節を取得する機能と、 該取得された文節を用いて、構文を抽出する機能と、 該構文を抽出したとき、自然言語により作られ文に存在
    し得る構文を出現頻度の情報と共に予め記憶したデータ
    を照合し、その構文の出現頻度の情報を取得する機能
    と、 該構文が出現頻度が低い文である場合には、警告を出力
    する機能とをコンピュータにより実現するプログラム。
  14. 【請求項14】 請求項13記載のプログラムであっ
    て、 当該プログラムは、文字の入力と編集を行なうワードプ
    ロセッサに付加される機能を有するプログラム。
  15. 【請求項15】 請求項13記載のプログラムであっ
    て、 他のアプリケーションプログラムから呼び出されて、当
    該他のアプリケーションプログラムにおいて入力された
    文についての前記検証を行なうプログラム。
  16. 【請求項16】 請求項13ないし請求項15のいずれ
    か記載のプログラムを記録した記録媒体。
JP2001322288A 2001-10-19 2001-10-19 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体 Pending JP2003132059A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001322288A JP2003132059A (ja) 2001-10-19 2001-10-19 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001322288A JP2003132059A (ja) 2001-10-19 2001-10-19 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体

Publications (1)

Publication Number Publication Date
JP2003132059A true JP2003132059A (ja) 2003-05-09

Family

ID=19139360

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001322288A Pending JP2003132059A (ja) 2001-10-19 2001-10-19 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体

Country Status (1)

Country Link
JP (1) JP2003132059A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009123260A1 (ja) * 2008-04-01 2009-10-08 日本電気株式会社 共起辞書作成システムおよびスコアリングシステム
JP2020077269A (ja) * 2018-11-09 2020-05-21 リーガルAi株式会社 校正支援装置、および校正支援プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009123260A1 (ja) * 2008-04-01 2009-10-08 日本電気株式会社 共起辞書作成システムおよびスコアリングシステム
JP5321583B2 (ja) * 2008-04-01 2013-10-23 日本電気株式会社 共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム
JP2020077269A (ja) * 2018-11-09 2020-05-21 リーガルAi株式会社 校正支援装置、および校正支援プログラム

Similar Documents

Publication Publication Date Title
US6910004B2 (en) Method and computer system for part-of-speech tagging of incomplete sentences
Amjad et al. “Bend the truth”: Benchmark dataset for fake news detection in Urdu language and its evaluation
US10535042B2 (en) Methods of offering guidance on common language usage utilizing a hashing function consisting of a hash triplet
US8429141B2 (en) Linguistically enhanced email detector
JPH07325828A (ja) 文法チェックシステム
US20100332217A1 (en) Method for text improvement via linguistic abstractions
JPH07325824A (ja) 文法チェックシステム
WO2006115598A2 (en) Method and system for generating spelling suggestions
US8006181B2 (en) System for handling novel words in a spellchecking module
JP2020190970A (ja) 文書処理装置およびその方法、プログラム
Glass et al. A naive salience-based method for speaker identification in fiction books
JP6541239B2 (ja) 主語動詞の一致誤り検出装置及び一致誤り検出用プログラム
JP5097802B2 (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
JP4760043B2 (ja) 言語解析方法およびプログラム
JP6623840B2 (ja) 同義語検出装置、同義語検出方法及び同義語検出用コンピュータプログラム
JP2003132059A (ja) 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体
Demilie et al. Automated all in one misspelling detection and correction system for Ethiopian languages
Laki Investigating the Possibilities of Using SMT for Text Annotation
JPH0748217B2 (ja) 文書要約装置
JPH0322083A (ja) 自然言語処理装置
JP2002366556A (ja) 情報検索方法
JP3956730B2 (ja) 言語処理装置
KR101834436B1 (ko) 텍스트 생성 방법 및 장치
JPH07325825A (ja) 英文法チェックシステム装置
JPH09223143A (ja) 文書情報処理装置