JP2003132059A

JP2003132059A - 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体

Info

Publication number: JP2003132059A
Application number: JP2001322288A
Authority: JP
Inventors: Katsuhito Suzuki; 勝仁鈴木
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2001-10-19
Filing date: 2001-10-19
Publication date: 2003-05-09

Abstract

(57)【要約】【課題】自然言語により作成された文において、見か
けない表現を検出する。【解決手段】日本語により作成された文を入力する
と、その文に含まれる表現パターンを切り出すことでこ
れを抽出し（ＰＥ）、その頻度情報を表現パターン辞書
ＤＰＤから取得する。この頻度情報から見て、その表現
パターンが低頻度（出現頻度が低い）と判断された場合
には、警告をディスプレイ１５０に表示して警告する。
あわせて、代替案を提示する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、自然言語を用いて
作られる文について、出現頻度の低い構文の検証を行な
う技術に関する。

【０００２】

【従来の技術】従来から、ワードプロセッサやインプッ
トメソッド（日本語入力における仮名漢字変換プログラ
ムなど）などにおいて、使用者が入力した自然言語文
（例えば日本語文）について、校正を行なうものが提案
されている。こうした校正装置としては、様々な機能が
提案されており、例えば、・「安全保証」といった同音異義語の誤りを検出して代
替案（この例では、「安全保障」）を示すもの（特開２
０００−２５９６２５号）、・「彼がは学校へ行く」といった文のように形態素解析
により破綻もしくは接続検定が「偽」となるものについ
て、正しいと考えられる文を提案さするもの（例えば特
開昭６２−２０９６５９号）、・更には、「決して〜ない」というような予め定まった
呼応関係の誤りを検出して指摘するもの、などが知られ
ている。

【０００３】こうした校正を行なう装置は、特に仮名漢
字変換といった処理を必要とする日本語などの自然言語
では、様々な誤りが発生しやすいので、有用であった。
また、アルファベットを用いる英語などの自然言語で
も、スペルチェックだけでは修正し得ない文法上のミス
を低減するためには、こうした校正装置が有効であっ
た。後者の例としては、例えば「The the」といった同
一単語の繰り返しを検出するものや、括弧やコーテーシ
ョン記号の呼応をチェックするもの、あるいは時制の不
一致などを検出するものが知られている。

【０００４】

【発明が解決しようとする課題】しかしながら、こうし
た校正装置では、必ずしも自然言語においては間違いで
あるとは言い難い表現などについては何ら検証できなか
った。例えば、「これら提案にして意見集約を行ないま
す。」という文が作られたとき、校正機能を働かせて
も、単語としての誤りは発見できないし、形態素解析し
ても品詞同士の接続の誤りを検出することはできない。
また、特定の呼応関係の誤りでもないため、この例文に
みられるような自然言語文としての違和感は、検証する
ことかできなかった。

【０００５】こうした問題は、言語の規則が人工的に作
成されるプログラム言語などでは生じることがなく、自
然言語独自の問題である。これは、自然言語の場合、規
則が先にあるのではなく、言語を用いる集団が許容する
表現の集合が先にあり、これを少ない数の規則により説
明する規則を文法として見い出し、整理しているに過ぎ
ないからである。この場合、見い出された文法には多数
の例外が存在するのが通例であり、特にある表現が許さ
れることは文法から説明できるが、ある表現がその集団
では用いられないことは文法からは説明できないことが
多い。このため、特定の集団では許されないか文法的な
間違いとして認識されている表現が、他の集団では許容
されているといったことも珍しくない（例えば、日本語
における「見れる」などのら抜き表現）。こうした例
は、日本語に限らず、どのような自然言語文でも見ら
れ、例えば英語において「記入する」を意味する「fill
out」はアメリカ英語では許容されているが、イギリス
英語では許容されていない（イギリス英語では「fill i
n」）。

【０００６】また、こうした問題は、言語を用いる集団
の違いによらず、同一手段内でも、ビジネス文書である
とか、公文書であるといった対象の違いによっても生じ
る場合があった。例えば、敬弔文などでは許容される構
文の範囲はきわめて狭い。従来は、せいぜい忌み言葉な
どを検出して、警告するといった処理ができるに過ぎな
かった。

【０００７】本発明の装置は、こうした問題を解決し、
自然言語文において出現頻度の低い表現を適切に扱うこ
とを目的とする。

【０００８】

【課題を解決するための手段およびその作用・効果】上
記課題の少なくとも一部を解決する本発明の装置は、自
然言語で作られた文を検証する自然言語文検証装置であ
って、前記自然言語により作られ文に存在し得る構文を
出現頻度の情報と共に予め記憶する構文情報記憶手段
と、自然言語で作られた文が与えられたとき、該文を形
態素解析して文節を取得する文節取得手段と、該取得さ
れた文節を用いて、構文を抽出する構文抽出手段と、該
抽出した構文を、前記構文情報記憶手段に記憶した構文
と照合し、その出現頻度の情報を取得する頻度情報取得
手段と、該構文が出現頻度が低い文である場合には、警
告を出力する報知手段を備えたことを要旨としている。

【０００９】また、この装置に対応した方法の発明は、
自然言語で作られた文を検証する方法であって、前記自
然言語により作られ文に存在し得る構文を出現頻度の情
報と共に予め記憶し、自然言語で作られた文が与えられ
たとき、該文を形態素解析して文節を取得し、該取得さ
れた文節を用いて、構文を抽出し、該抽出した構文を、
前記記憶した構文と照合し、その出現頻度の情報を取得
し、該構文が出現頻度が低い文である場合には、警告を
出力することを要旨としている。

【００１０】かかる装置および方法によれば、自然言語
により作られ文に存在し得る構文を出現頻度の情報と共
に予め記憶しておき、自然言語文が与えられたとき、次
のようにしてこれを検証する。即ち、自然言語文を形態
素解析して文節を取得し、この文節を用いて、構文を抽
出する。抽出した構文を、予め記憶しておいた構文と照
合し、その出現頻度の情報を取得し、抽出した構文が出
現頻度の低い文である場合には、警告を出力する。この
結果、この自然言語文検証装置および検証方法によれ
ば、出現頻度が低い構文について、警告を出力すること
ができ、文法的な解析によることなく、出現頻度の低い
構文、即ちその自然言語において通常は許容されない構
文を検証することができる。なお、予め記憶する構文と
出現頻度の情報を、異なる言語集団毎ある異なる言語対
象毎に作成し記憶しておけば、こうした文法によっては
解析できない構文の許容、非許容についての判断を、言
語集団毎あるいは言語対象毎（慶弔文か、ビジネス文書
かなど）に行なうことができる。

【００１１】こうした自然言語文検証装置では、予め構
文とその出現頻度の情報とを記憶しているが、こうした
情報は、次のようにして作成することができる。即ち、
自然言語により作られた複数の例文を入力し、これらの
文を形態素解析して文節を切り出し、その文節を用い
て、構文を抽出する。その上で、抽出した構文を分類
し、同一の構文毎に頻度情報を加えて記憶するのであ
る。こうすれば、通常用いられている文の集合（コーバ
ス）を与えるだけで、構文とその出現頻度の情報とを収
集して、これを記憶しておくことができる。

【００１２】もとより、与えられる自然出現頻度の情報
は、必ずしも例文から取り出した頻度が正しいわけでは
ないので、同一の構文毎に加える頻度情報を、個別に設
定するものとしても良い。例えば、例文からはある程度
の出現頻度があると判断される場合でも、その表現が誤
用であると考える立場に立てば、これを許容しないよう
に、出現頻度の情報を変更することがあり得る。また、
例文がある言語対象についてのものである場合、他の言
語対象では使われないとして、対象毎に頻度情報を設定
することも現実的である。

【００１３】なお、こうした自然言語文を検証しようと
して、与えられた文から構文を取り出す際、複文などを
どのように扱うかが問題となる。従って、複文や重文な
どが与えられることが分かっている場合には、取得され
た文節とその文法情報に基づいて、自然言語文から、少
なくとも一つの述部を含む部分文を抽出し、この部分文
毎に構文の抽出を行なうものとすればよい。この場合に
は、構文の出現頻度に関する判断は、複文を構成する文
毎に行えるから、構文についての判断を誤ることがな
い。

【００１４】予め記憶している構文毎の出現頻度の情報
は、何段階かに分けた情報（例えば、出現頻度・高い、
中ぐらい、低い、まれ、など）としても良いし、出現回
数のカウント値として記憶することも可能である。カウ
ント値として記憶している場合には、与えられた自然言
語文から抽出した構文について、記憶されている出現回
数を取得し、この取得した出現回数が、所定値以下の場
合に、出現頻度の低い文であるとして警告を出力するも
のとすればよい。出現頻度の情報を直接的な情報である
出願回数の値として扱えば、出現頻度が低い構文の検出
を柔軟に行なうことができる。例えば、ビジネス文書で
は閾値を低くし、弔問文では閾値を高くして、判断する
といった対応をとることが可能となる。

【００１５】なお、検証している文にその構文が現れた
と言うことを単に誤用と決めつけるのではなく、これも
一つの例文であるとみなして、抽出した構文と一致する
構文について、その出現回数をカウントアップする構成
を採用することも考えられる。この場合には、当面、出
現頻度の低い文であるとして警告を出力するが、出現回
数が増えれば、やがて出現頻度が低い文とはみなされな
くなる。即ち、自然言語により作られる文の場合、多数
の者が使用すればそれはもはや誤用とは言えなくなるか
らである。上記構成を採用すれば、こうした学習を行な
って、出現頻度の低い文の検証を柔軟に行なうことがで
きる。こうした自然言語文検証装置において、出現頻度
の低い文について、単に警告を出力するものとしても良
いが、併せてその文を修正可能とすることも望ましい。
この場合、修正が行なわれた場合には、誤用と判断した
とみなして、記憶している出現回数をカウントアップせ
ず、修正が行なわれなかったときに、この構文と一致す
る構文についての出現回数をカウントアップするものと
してもよい。こうしておけば、上述した学習を、より使
用者の意図に沿って行なうことができ、好適である。

【００１６】更に、本願の自然言語文検証装置およびそ
の方法において、少なくとも出現頻度が低い構文につい
ては、この構文より出現頻度の高い代替案を予め記憶し
ておき、出現頻度が低いと判断された文については、警
告の出力にあわせて、この代替案の一つを表示するもの
とすることもできる。文の作成者は、その文が用いられ
るものと考えて使用している場合もあり得るので、他に
どのような表現か可能かがすぐには分からない場合も存
在する。そこで、警告の出力にあわせて、代替案を出力
すれば、使用者は直ちに他のしかも出現頻度のより高い
表現を知って修正することができるので、有用である。

【００１７】以上説明した自然言語検証装置は、単独で
使用しても良いが、他の機器、例えば文を作成および編
集するワードプロセッサに組み込んだ形態で実現しても
良い。この場合、文節の取得、構文の抽出、頻度情報の
取得および警告の報知などは、文字が入力されて、文の
区切りを示す文字が入力されたとき、または「校正開
始」のキーなどが操作された場合など所定の手続が取ら
れたときに起動するようにすることができる。前者の場
合には、文を作成する度に、その文が、構文の出現頻度
が低いものか否かを知ることができる。従って、直ちに
作成した文の修正作業などができ好適である。後者の場
合には、まとめて校正の作業を行なうことができ、検証
の作業のために、ワードプロセッサによる文の作成処理
を中断されることがない。

【００１８】また、本発明は、コンピュータに読み込ま
れて実行され、自然言語で作られた文を検証するプログ
ラムとして実施することも可能である。このプログラム
は、自然言語で作られた文が与えられたとき、該文を形
態素解析して文節を取得する機能と、該取得された文節
を用いて、構文を抽出する機能と、該構文を抽出したと
き、自然言語により作られ文に存在し得る構文を出現頻
度の情報と共に予め記憶したデータを照合し、その構文
の出現頻度の情報を取得する機能と、該構文が出現頻度
が低い文である場合には、警告を出力する機能とをコン
ピュータにより実現する。

【００１９】なお、こうしたプログラムは、単独で用い
ることも形態を採ることも可能だが、文字の入力と編集
を行なうワードプロセッサに付加して利用するものとし
ても良い。あるいは、特定の手続の下で、他のアプリケ
ーションプログラムから呼び出されて、当該他のアプリ
ケーションプログラムにおいて入力された文についての
検証を行なうようにプログラムすることもできる。こう
すれば、様々なアプリケーションプログラムにおいて、
自然言語文の出現頻度の情報を検証することができ、好
適である。

【００２０】

【発明の他の態様】また、こうした検証装置の発明は、
その実現形態として、サーバ上で実現したり、サーバコ
ンピュータとクライアントコンピュータとが協動するシ
ステムとして実現することもできる。また、コンピュー
タに上で動作するプログラムにより上記の検証方法を実
現することができるので、本発明をプログラムとして、
あるいはそのプログラムが記録された記録媒体（例えば
フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯ
Ｍ、磁気テープなど）として把握することもできる。プ
ログラムは、記録媒体に記録して扱うこともできるが、
ネットワーク上のサーバなどにおき、これをネットワー
クを介してダウンロードして、クライアント側のコンピ
ュータで実行するという扱いにすることもできる。

【００２１】

【発明の実施の形態】以下、本発明の実施の形態につい
て説明する。図１は、本発明の実施の形態の一つとして
の文の検証システム１００を示すブロック図である。図
示する各ブロックは、実際には、コンピュータ内のプロ
グラムにより実現される。コンピュータの具体的なハー
ドウェア構成の詳細などは後述する実施例に譲り、ここ
ではブロックレベルで構成とその作用を説明する。

【００２２】図１に示すように、この検証システム１０
０は、自然言語の一つである日本語により作成された文
を受け付ける文入力部１１０、この文を解析して表現パ
ターンを抽出するパターン抽出部ＰＥ、表現パターン辞
書ＤＰＤを記憶したデータベース１３０、抽出された表
現パターンをこの表現パターン辞書ＤＰＤを参照するこ
とでその頻度情報を取得する頻度情報取得部１２０、取
得した頻度情報に基づいて警告を出力する警告報知部１
４０、警告を表示するディスプレイ１５０、等から構成
されている。パターン抽出部ＰＥは、更に、入力した文
を形態素解析して文節の構成を取得する文節取得部１１
２、この文節の情報に基づいて部分文を作成する部分文
作成部１１４、部分文における構文を認識して表現パタ
ーンとして切り出すパターン切出部１１６から構成され
ている。

【００２３】文入力部１１０は、利用者がキーボードな
どを用いて入力した日本語を受け付ける。もとより、予
め作成された日本語文を記憶したファイルから文を入力
するものとしても差し支えない。文入力部１１０を介し
て、例えば、「電源を入れられれば壊れたが、煙は出て
いない。」などの自然な言語文が入力される。こうした
文の入力が行なわれると、パターン抽出部ＰＥが、これ
を解析する。解析の内容については、後述する実施例で
詳しく説明するが、通常は、まず文を形態素解析し、日
本語として自然な文を構成する文節に切り分ける処理
を、文節取得部１１２が行なう。例えば、入力した文
が、上記の「電源を入れられれば壊れたが、・・・」で
あれば、これを形態素解析して、「電源を」（名詞＋助
詞）、「入れられれば」（動詞連用形＋可能の助動詞＋
接続助詞）、「壊れたが」（動詞終止形＋過去を示す助
動詞＋接続助詞）、といった文節に分けるのである。な
お、文の入力が、ＩＭＥ（日本語入力メソッド）などを
用いて行なわれた場合には、文の形態素を調べるまでも
なく、ＩＭＥがこれを記憶しているので、ＩＭＥから、
日本語文と共に、文節の情報を受け取るものとしても良
い。特定のＩＭＥを用いたワードプロセッサなどでは、
こうしたＩＭＥとの緊密な協働関係を実現することは容
易である。

【００２４】こうして文節の抽出が完了した後、次に、
部分文を作成する処理を部分文作成部１１４により行な
う。この処理についても詳しい内容は後述するが、接続
詞やその他の情報を用いて、例えば「電源を入られれば
壊れたが、煙は出ていない。」という日本語文を、「電
源を入れられれば壊れたが」と「煙は出ていない」とい
う二つの日本語文に分割する処理と、分割により得られ
た日本語文を修正して、例えば「壊れたが」を現在時制
の終止形の「壊れる」に修正したり、分割により失われ
た主語を補ったりして、その後のパターン抽出が容易に
となるように、部分文を作成するのである。作成された
部分文から、更にその部分文のパターンを取り出す処理
を、パターン切出部１１６により行なう。この処理は、
「電源を入られれば壊れる」という部分文を、体言を符
号Ｍ、用言を符号Ｄ１，Ｄ２・・・と表すものとして、
「ＭをＤ１られればＤ２」といったパターンに変換する
処理である。なお、こうしたパターンへの変換は、パタ
ーン辞書を参照して行なっても良いし、単純な規則に従
って生成するものとしても良い。図１の構成では、規則
に従って作成している。

【００２５】頻度情報取得部１２０は、こうして取得し
た表現パターンについて、データベース１３０を参照す
ることにより、そのパターンの頻度情報を取得する。デ
ータベース１３０には、表現パターンの頻度情報が表現
パターン辞書ＤＰＤの形態で記憶されている。なお、こ
の表現パターン辞書ＤＰＤは、上述したパターン抽出部
ＰＥと同じ構成を利用して作成している。即ち、パター
ン抽出部ＰＥに、予め用意した日本語文の集積であるコ
ーパスを与えて、この日本語文に含まれる表現パターン
を抽出し、同じ表現パターンが複数回現れれば、それを
頻度１としてカウントアップして、表現パターンと出現
回数の情報とを組みにして記憶するのである。コーパス
は、例えば日本語によるビジネス文とか、手紙文、慶弔
文といった分野ごとに用意しておき、分野ごとに、表現
パターンとその出現回数のデータを蓄積し、複数の表現
パターン辞書ＤＰＤとして用意しても良い。

【００２６】頻度情報取得部１２０は、パターン抽出部
ＰＥにより検出されたパターンについて、表現パターン
辞書ＤＰＤを参照し、辞書に記憶された出現頻度のデー
タを、頻度情報として取得するのである。次に、この頻
度情報を用いて、警告報知部１４０が、警告をディスプ
レイ１５０に表示すべきか否かを判断し、抽出した表現
パターンが、表現パターン辞書ＤＰＤに存在しなかった
り、存在しても出現回数がきわめて低いパターンである
と判断された場合には、「見かけない表現です」といっ
た警告をディスプレイ１５０上に表示する。使用者は、
このメッセージを見て、自分が入力した日本語文が、通
常使用されない表現であることを知り、これを修正する
ことができる。なお、表現パターン辞書ＤＰＤに、出現
回数の低い表現については、代替案を記憶しておき、警
告文の表示にあわせて、「次の表現が自然です」といっ
た案内と共に、代替案を表示することも望ましい。な
お、この代替案を表示する際には、「ＭをＤ１とＤ２」
のような符号によって表示することも可能ではあるが、
文節の解析を行なっているので、その情報を利用し、
「電源を入れると壊れる」と表示することも望ましい。
更には、原文の時制などの情報も用いて、「電源を入れ
ると壊れたが」のように、入力した文の形態に合わせて
代替案を表示しても良い。

【００２７】かかる実施の形態によれば、利用者が入力
した日本語文が、通常使われることの少ない文（低出現
文）である場合、これを検出して、警告を行なうことが
できる。従って、利用者は、通常使われることの少ない
文に容易に気づくことができ、作成する文の質を向上さ
せることができる。代替案を示す構成とすれば、文章の
作成に要する時間を更に短縮することができる。こうし
た文の検証システム１００を、前段に置くことにより、
例えば自動翻訳システムにおける翻訳精度を高めたり、
自然文を用いた検索システムにおける検索精度を高める
といった効果を得ることもできる。なお、こうした文の
検証は、通常は一つの言語を特定して行なわれるが、同
一言語内の異なる言語集団に属する言葉（いわゆる方
言）については、別々の表現パターン辞書を用意して、
出現頻度を検証することができる。方言を含んだ総ての
構文パターンについて表現パターン辞書を作成すると、
方言に固有の構文の出現頻度は相対的に小さなものにな
ってしまうので、方言が多用される文については、個別
の辞書を用いて検証することも実際的である。

【００２８】また、上記の実施の形態では、文検証シス
テムは、単独のコンピュータ上で動作するものとした
が、サーバコンピュータとクライアントコンピュータと
から構成し、クライアントコンピュータで文の入力を行
ない、翻訳や検索といった他の処理を行なうエンジンが
置かれたサーバ側で文の検証を行なう構成とすることも
できる。もとより、検証は、クライアントコンピュータ
側で行なうものとしても良い。更に、文を入力するたび
にどうするのではなく、前もって入力された文の集合
（文章）に対して、検証を行なう構成とすることもでき
る。

【００２９】上述した検証の機能をコンピュータ上で実
現するプログラムをＣＤ−ＲＯＭなどの記録媒体上に記
録した形態で、本発明を実施することも可能である。こ
の場合、上述したように、サーバ側のプログラムとクラ
イアント側のプログラムに分けて、それぞれ記録媒体上
に記録して実施しても良いし、一つのプログラムあるい
はプログラム群として記録しても良い。更には、サーバ
側に必要なプログラムに置き、このサーバ側のプログラ
ムと協働して動作するプログラムを、サーバ側にダウン
ロード可能に用意し、検証を行なおうとするクライアン
ト側から読み出して、実行する形態で実施することも可
能である。

【００３０】

【実施例】以上説明した実施の形態を更に具体的に説明
するために、その実施例について説明する。（１）実施例の構成：はじめに、実施例のハードウェア
構成について、図２の概略構成図を用いて説明する。図
２に示した実施例では、検証を行なうシステムは、イン
ターネットのようなネットワーク１０に接続されたクラ
イアントコンピュータ３０（以下、単にコンピュータ３
０という）に構築されている。この例では、クライアン
トコンピュータ３０から入力された日本語文は、クライ
アントコンピュータ３０で検証され、修正を受けた後、
インターネットを介して、翻訳エンジンを搭載したサー
バコンピュータ２０に出力される（これを翻訳用サーバ
と呼ぶ）。翻訳用サーバ２０とコンピュータ３０とはほ
ぼ同じハードウェア構成を有するので、以下、そのハー
ドウェアについては、コンピュータ３０を例として説明
を行なう。

【００３１】コンピュータ３０の内部構成を図２に基づ
いて説明する。コンピュータ３０は、モデムやルータ１
８を介してネットワーク１０とのデータのやり取りを制
御するネットワークインタフェース（ＮＴ−Ｉ／Ｆ）２
１、処理を行なうＣＰＵ２２、処理プログラムや固定的
なデータを記憶するＲＯＭ２３、ワークエリアとしての
ＲＡＭ２４、時間を管理するタイマ２５、モニタ２９へ
の表示を司る表示回路２６、テキストデータをデータベ
ースとして蓄積しているハードディスク（ＨＤ）２７、
キーボード１１，マウス１２，マイク１３とのインタフ
ェースを司る入力インタフェース（Ｉ／Ｆ）２８等を備
える。なお、ハードディスク２７は、固定式のものとし
て記載したが、着脱式のものでも良いし、着脱式の記憶
装置（例えばＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、Ｄ
ＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、フレキシブルディスク
など）を併用することも可能である。また、この実施例
では、翻訳用サーバ２０の処理プログラムは、ＲＯＭ２
３内に記憶されているものとしたが、ハードディスク２
７に記憶しておき、起動時にＲＡＭ２４上に展開して実
行するものとしても良い。あるいは、上述した着脱式の
記録媒体から読み込むものとしても良い。更には、ネッ
トワーク１０を介して、他のサーバから読み込んで実行
するものとしても良い。同様に、以下に説明するよう
に、ハードディスク２７に必要なデータの総てが記憶さ
れている必要はなく、ネットワーク１０により接続され
る他のサーバに膨大なデータを分散して記憶、更新、管
理する構成としても良い。

【００３２】ハードディスク２７には、形態素解析辞書
ＩＤＣ、部分文検定パターン辞書ＰＰＤ、および表現パ
ターン辞書ＤＰＤが記憶されている。この形態素解析辞
書ＩＤＣは、いわゆる仮名漢字変換辞書とほぼ同一の内
容を記憶した辞書であり、仮名漢字変換辞書とは、見出
しと読みが逆になっている。このため、キーボード１１
やネットワーク１０を介して入力されたかな文字列を解
析して、仮名漢字文字列に変換する仮名漢字変換辞書を
そのまま用い、読みと見出しの関係だけインデックスの
形でもった形態とすることもできる。形態素解析辞書Ｉ
ＤＣの一例を、図３に示した。この例では、見出し（漢
字）、読み、文法情報および意味コードのみを示してい
るが、実際の形態素解析辞書ＩＤＣには、これらの情報
の他に、同一意味の口語、同意語、類義語、省略語、更
には係り受けの情報などを関連付けて記憶しておくこと
もできる。この解析辞書ＩＤＣは、コンピュータ３０で
は、入力した日本語の文を形態素解析する際に用いられ
る。この解析辞書ＩＤＣを用いることで、コンピュータ
３０は、受け取った文を精度良く解析することができ
る。例えば、解析するかな文字列が口語体の自然言語で
あっても、その口語体を、正確に解析することが可能で
ある。また、意味コードは、ここでは、直接は使用して
いないが、表現パターン辞書ＤＰＤに記憶されたパター
ンに、この意味コードの情報が与えてあれば、これを利
用してより精度の高いパターンマッチングを行なうこと
ができる。意味コードの利用方法については、後述す
る。

【００３３】表現パターン辞書ＤＰＤは、図４に例示し
たように、表現パターンとその頻度を記憶した辞書であ
る。ここで、Ｍは体言、Ｄ１，Ｄ２・・・は、用言を示
す。頻度は、予めコーパスを与えてカウントした出現回
数を適当な単位で丸めて記憶した数字である。なお、こ
の頻度は、コーパスを利用して出現回数を求めた上で、
システムの設計者により適当な値に調整しておくことも
できる。言語における表現は、ある程度規範としての意
味を持つから、例えば「全くＤ１する」という表現がコ
ーパスに一定の頻度で現れたとしても、これを正規の日
本語表現として認めない立場からは、その出現回数を低
い値に修正して、同様の文が与えられたとき、警告する
ものとしても良い。

【００３４】図４に示した辞書では、体言Ｍは、区別し
ないものとしたが、意味コードに代えて、体言Ｍを、生
物を示す体言Ｍ１、無生物を示す体言Ｍ２、代名詞Ｍ
３、形式名詞Ｍ４、抽象名詞Ｍ５・・・といったように
分類して、表現パターンを記憶しておくことも可能であ
る。この場合には、「彼は家にいる」と「荷物は家にあ
る」は表現パターンとして異なったものとなる。また、
図５に示すように、表現パターン辞書ＤＰＤに登録され
たパターンのうち、出現頻度の低いものについては、代
替案を予め記憶するものとしても良い。この場合には、
与えられた文に表現が見かけないものである場合、より
望ましい表現を、警告に併せて表示することができ、好
適である。

【００３５】コンピュータ３０に組み込まれた検証シス
テムの動作について説明する。この実施例では、翻訳し
ようとする日本語文をコンピュータ３０のキーボード１
１から入力すると、これを検証した上で、ネットワーク
１０を介して、翻訳用サーバ２０に送信している。な
お、日本語文の入力は、文単位としても良いが、以下の
説明ではひとまとまりの文、即ち文章を入力して動作す
るものとしている。

【００３６】（２）検証システムの動作−部分文の取出
処理：そこで、コンピュータ３０側の動作について、図
６のフローチャートを用いて説明する。コンピュータ３
０は、文の検証が指示されると、図６に示した処理を開
始する。コンピュータ３０が実行する処理は大きくは部
分文の取出処理（ステップＳ１１０ないしＳ１４５）と
表現パターンについての検証処理（ステップＳ１５０な
いしＳ１８０）である。部分文の取出処理は、文書から
の文の切出処理（ステップＳ１１０）、形態素解析処理
（ステップＳ１２０）、文の分割処理（ステップＳ１３
０）、部分文の抽出処理（ステップＳ１４０）および制
御に必要な判断処理（ステップＳ１１５，Ｓ１４５）か
ら構成されている。他方、検証処理は、パターン抽出処
理（ステップＳ１５０）、誤り判定処理（ステップＳ１
６０）、警告の表示処理（ステップＳ１８０）および制
御に必要な判断処理（ステップＳ１７０）から構成され
ている。

【００３７】図６に示した処理は、コンピュータ３０が
検証すべき日本語文章をファイルなどの形態で受け取っ
たときに開始され、受け取った文章から文を切り出す処
理を行なう（ステップＳ１１０）。文の切出は、原則と
して句点「。」または「．」を基準として行なう。もと
より、句点を伴わない文の区切り、例えば「？」や
「！」なども文の区切りとして認めて文を切り出せば良
い。文章から文の切出を試みた後で、文があるか否かの
判断を行ない（ステップＳ１１５）、文が切り出せなけ
れば、本ルーチンを終了する。文が切り出せた場合に
は、形態素解析処理を行なう（ステップＳ１２０）。形
態素解析処理は、上述したように、形態素解析辞書ＩＤ
Ｃを参照して行なわれる処理であり、切り出した文から
単語と文節を取り出す処理である。形態素解析処理（ス
テップＳ１２０）の詳細を図７のフローチャートに示し
た。

【００３８】形態素解析処理が開始されると、切り出し
た文が解析の対象として特定され、この文の先頭からＸ
文字目（Ｘ＝１，２，・・・・）からＬ文字分（Ｌ＝
１，２，・・・）を取り出して解析辞書ＩＤＣを引く処
理を行なう（ステップＳ１０２）。Ｍは、着目している
文字列の先頭位置を、Ｌは、取り出す文字数を、それぞ
れ示していることになる。解析辞書の参照の手法は、ま
ずＸ＝１、即ち先頭位置から、Ｌ＝１、即ち１文字分の
文字を取り出し、辞書を参照して該当語を取り出す処理
から開始する。Ｌを順次インクリメントしながら辞書Ｉ
ＤＣを参照し、該当する見出し語がなくなれば、着目す
る文字列の先頭位置Ｘをインクリメントし、再度文字数
Ｌを１に戻して、辞書の検索を行なう。こうして着目す
る文字の位置か、解析しようとする文の文字数を超えた
ところで、辞書の参照をうち切る。

【００３９】例えば、コンピュータ３０から「これら提
案にして意見集約を行ないます」という文が入力された
場合を想定すると、解析辞書ＩＤＣを参照すると、「こ
れら」「提案」「提」「案」「にして」「にし」「て」
「に」「して」「し」「意見集約を」「意見」「集約」
「を」「行ないます」「行ないま」「す」「行ない」
「ます」「ま」「行な」「います」「いま」「す」とい
った語を切り出すことができる。ここで、「に」などの
仮名一音も、語として切り出しているのは、助詞「に」
などが、文中に現れる可能性があるからである。

【００４０】解析辞書ＩＤＣには、これらの語がその文
法情報と共に記憶されている。そこで、切り出した語を
次に文法情報に従って並べて、破綻しない配列を見い出
す処理を行なう。かかる解析は、例えば複数文節最長一
致法や最小コスト法といった手法が知られており、所定
の語の組合わせのうちどれが最も日本語としてもっとも
らしいかを検定するのである。本実施例では、最小コス
ト法を採用しているので、こうして得られた多数の文字
列を対象として、次にコスト計算を行なう（ステップＳ
１０４）。コスト計算とは、文字列の配列に対して、日
本語らしい配列ほど点数が低くなるように予め用意され
た文字列のコストを計算する処理である。その規則は大
まかに言えば、自立語はコスト２、これに付属語が付属
する場合はコスト０、といったものである。例えば、
「提案に」を例にとると、「提案」＋「に」ではあれ
ば、自立語＋付属語（助詞）の結びつきとなって、コス
ト２、「提」＋「案」＋「に」であれば、自立語＋自立
語＋付属語（助詞）となってコストは４となるのであ
る。最小コスト法のルールは、現実の日本語にあわせて
チューニングされており、「まったく」＋「ない」など
の共起関係にある単語が文中に生じる場合は、コスト
「−１」など、様々な規則が用意されている。

【００４１】こうして、逆引き辞書の参照により得られ
た全ての単語について、上記のコストを計算し、そのう
ちで最小のコストになる文を特定する処理を行なう（ス
テップＳ１０６）。上記の例では、「提」（自立語・名
詞）＋「案」（自立語・名詞）＋「に」（付属語・助
詞）よりも、「提案」（自立語・名詞）＋「に」（付属
語・助詞）の方が、日本語として確からしいと判断する
のである。もとより、この計算は、少なくとも文を単位
として行なわれ、文全体で、コストが最小になるような
単語の配列を選択する。従って、例えば共起関係による
コストの低減などがあれば、異なる組合わせが選択され
る場合も存在する。

【００４２】こうして最小コスト法により最小コスト文
が特定されると、結局検索文を構成する文節の組合わせ
が、その文法情報と共に得られたことになるので、次
に、得られた文節を、図８に示す配列Ｔ［ｔ］に格納す
る処理を行なう（ステップＳ１０８）。図８は、検索文
を解析する際に用いられる配列Ｔ［ｔ］の一例を示す説
明図である。切り出された文は、全体としては、単語情
報（図８）、文節情報（図９）、部分文情報（図１０）
という形態で解析され、記憶される。このうち、図８
は、単語情報の内容（配列）を示しており、この配列
は、単語、単語の読み、品詞から構成されている。以
下、単語の配列は、Ｔ［ｔ］（ｔ＝０，１，・・・）と
して参照するものとする。

【００４３】こうして形態素解析の一部として、係り受
け解析（ステップＳ１０９）を行なう（図７参照）。係
り受け解析とは、文を構成する各文節の関係を特定する
処理である。係り受け解析は、文節情報を特定するため
の処理である。係り受け解析を行なうことにより、文節
間の関係を知ることができる。即ち、ある文節がどの文
節に係っているかをしることができる。例えば、名詞＋
「を」（助詞）は後方の最も近い述部にかかる、という
ルールから、「これら」→「提案に」という関係が特定
される。こうした係り受け解析により得られた文節情報
は、配列Ｂに格納される。この配列Ｂ［ｂ］（ｂ＝０，
１，・・・）の一例を図９に示した。この文節情報は、
単語を示すインデックスである配列Ｂ［ｂ］、この配列
Ｂ［ｂ］に所属している単語の番号ｔ、係り先文節の番
号ｂ、係りもと文節の番号ｂから構成されている。図９
の表中、「−」は該当する文節が存在しないことを示し
ている。配列に所属している単語の番号ｔが与えられれ
ば、図８に示した配列Ｔ［ｔ］を参照して、実際の単語
を取得することができる。

【００４４】係り受け解析（ステップＳ１０９）が完了
すると、次に文の分割処理を行なう（ステップＳ１３
０）。この処理は、係り受け解析により解析した文節同
士の関係を利用して、１以上の文節からなる部分文同士
の関係を特定しつつ、文の分割点を決定するものであ
る。この文の分割処理を、図１１ないし図１２に示し
た。ここで部分文とは、少なくとも一つの述部を含み構
文上の最小単位である節とほぼ等しい概念であるが、体
言のみからなる見出し文なども含まれる（例えば「Ｍに
してＭのＭ」など）。図１１に示した文の分割処理が開
始されると、まず、配列Ｂ［ｂ］を用いて、部分文の配
列Ｓｐ［ｓ］を作成する処理を行なう（ステップＳ２０
０）。部分文同士の関係は、図１０に示したように、配
列Ｓｐ［ｓ］（ｐ＝０，１，・・・、ｓ＝０，１，・・
・・）として与えられ、配列Ｓｐ［ｓ］には、所属する
文節の番号ｂ、結論部からの距離、条件部の意味が対応
づけられる。これら、単語の配列Ｔ［ｔ］、文節情報の
配列Ｂ［ｂ］、部分文の配列Ｓｐ［ｓ］の関係は、上位
−下位の構成となっており、一つの部分文から、これに
含まれる文節、単語などを自由に参照することができ
る。

【００４５】部分文の配列Ｓｐ［ｓ］は、次のように作
成される。即ち、文全体の述部をまず特定し、この述部
（通常は文末の用言が属する文節）から文の前方方向に
各文節を、配列Ｓ０［ｓ］に順次格納する。例として、
「これら提案にして意見集約を行ないますので、みなさ
んの協力をお願いします」という文を取り上げる。この
例では、文全体の述部「お願いします」を配列Ｓ０
［０］に格納し、その前の文節「みなさんの」＋「協力
を」を配列Ｓ０［１］に、それぞれ格納する。その前の
文節を参照すると「行ないますので」という用言を含ん
だ句が見つかるので、ここが文の分割点となっている可
能性があるとして、配列の添え字ｐを更新すると共に図
１０に示した分割点候補フラグＦＣに値１をセットし、
その文節を新たな配列Ｓ１［０］に格納する。更に、そ
の前の文節「意見集約を」を配列Ｓ１［１］に、その前
の文節の集合「これら」＋「提案にして」を配列Ｓ１
［２］に、それぞれ格納する。以上で、部分文の配列Ｓ
ｐ［ｓ］を作成する処理（ステップＳ２００）は完了す
る。

【００４６】そこで、次に、非分割検定処理（ステップ
Ｓ３００）を行なう。この処理とこれに引き続く分割検
定処理（ステップＳ４００）は、ほぼ同一の処理であ
り、図１２を用いてその詳細を説明する。これらの処理
Ｓ３００，Ｓ４００は、文の各文節を配列Ｓｐ［ｓ］に
格納した際、文分割の候補として見い出された点が、本
当に分割点に想到するかを検定する処理である。非分割
検定処理（ステップＳ３００）は、その分割候補点（Ｆ
Ｃ＝１）が、分割すべきでない点として予め集約された
パターンに一致しているかを検定し、一致していれば、
分割点でないとして、図１０に示した分割点フラグＦＤ
を値０に設定する処理であり、分割検定処理（ステップ
Ｓ４００）は、その分割候補点（ＦＣ＝１）が、分割す
べき点として予め集約されたパターンに一致しているか
を検定し、一致していれば、分割点であるとして、図１
０に示した分割点フラグＦＤを値１に設定する処理であ
る。このように２回の検定を行なうのは、分割点の特定
を慎重に行なうためである。なお、こうした文分割の手
法は、情報処理学会論文誌Ｖｏｌ．３５、Ｎｏ．６、
「日英機械翻訳のための日本語長文自動短文分割と主語
の補完」（金淵培、江原暉将、１９９４年６月）に詳し
い。

【００４７】非分割検定処理（ステップＳ３００）およ
び分割検定処理（ステップＳ４００）の詳細について、
図１２を用いて説明する。説明は、非分割検定処理（ス
テップＳ３００）を中心に行ない、分割検定処理（ステ
ップＳ４００）の処理については、（丸括弧）内に入れ
て示した。この処理が開始されると、まず変数を初期化
し（ステップＳ３１０）、変数ｎに非分割（分割）パタ
ーンとして用意されたパターンのうち最大長のパターン
を示す値ｎmax を、変数ｐに値ゼロを、それぞれ設定す
る。次に、図１０に示した配列Ｓｐ［ｓ］の情報を参照
して分割点候補フラグＦＣが値１、つまり分割点の候補
となっている文節を取得する（ステップＳ３２０）。次
に、予め用意した非分割（分割）パターンのうち長さｎ
のものを取り出し（ステップＳ３３０）、これらパター
ンと分割点候補フラグＦＣが値１であった文節を含むパ
ターンとが一致しているかを判断する（ステップＳ３４
０）。

【００４８】この結果、両者が一致していなければ、変
数ｎを値１だけデクリメントして（ステップＳ３５
０）、非分割（分割）パターンｎの取得（ステップＳ３
３０）から、上記の処理を繰り返す。仮に非分割（分
割）パターンと一致しているものがあれば、この分割点
候補を非分割（分割）点であると認定して、分割点フラ
グＦＤに、値０（値１）を入れ（ステップＳ３６０）、
総ての分割点候補について、処理を完了したか否かの判
断を行ない（ステップＳ３７０）。まだ判断すべき分割
点候補（ＦＣ＝１）が残っていれば、変数ｐを値１だけ
インクリメントし（ステップＳ３８０）、更に変数ｎを
初期化して（ステップＳ３９０）、上述した分割点候補
の文節の取得から処理を繰り返す。総ての分割点候補
（ＦＣ＝１）がなくなれば、処理を終了する。

【００４９】こうして非分割検定処理（ステップＳ３０
０）および分割検定処理（ステップＳ４００）を完了す
ると、図１０に示した配列Ｓｐ［ｓ］の分割点フラグＦ
Ｄには、文の分割点を示す箇所に値１が設定される。そ
こで、図６の処理に戻って、次にこのフラグＦＤの値を
参照して、部分文を取り出す処理を行なう（ステップＳ
１４０）。この処理を繰り返していると、部分文がすべ
て取り出されてしまうことがあり得るから、部分文が取
り出されたか否かの判断を行ない（ステップＳ１４
５）、部分文が取り出せなかった場合には、その文につ
いての総ての部分文の処理は既に完了したとして、文章
から文を取り出す処理（ステップＳ１１０）に戻って、
上記の処理を繰り返す。

【００５０】（３）表現パターンについての検証処理：
他方、部分文が取り出せた場合には、次にこの部分文か
ら表現パターンを取り出す処理を行なう（ステップＳ１
５０）。表現パターンは、取り出した部分文が、例え
ば、「これら提案にして意見集約を行ないますので」で
あれば、その末尾を用言の原形に戻し（「行ないま
す」）、体言をＭ、用言をＤ１，Ｄ２・・・として、取
り出した部分文のパターンを抽出する。なお、体言が専
属する場合には、一つの体言Ｍとして扱う。この文例で
は、「ＭにしてＤ１をＤ２ます」というパターンが抽出
される。

【００５１】（４）誤り判定処理：次に、誤り判定の処
理を行なう（ステップＳ１６０）。この誤り判定は、抽
出した表現パターンが、出現頻度のきわめて低いもので
ある場合に、これを誤りと判断する処理であり、その処
理詳細を図１３に示した。即ち、この誤り判定処理は、
まず抽出した表現パターンについて、表現パターン辞書
ＤＰＤを検索し（ステップＳ１６２）、辞書に同じパタ
ーンが存在するか否かを判断し（ステップＳ１６３）、
同じパターンが存在する場合には、その頻度を辞書ＤＰ
Ｄから取得する（ステップＳ１６４）。頻度を取得した
後、スコアＳＫを計算する処理を行なう（ステップＳ１
６５）。この実施例では、辞書ＤＰＤから取得した頻度
を直接スコアＳＫとして用いている。次に、このスコア
ＳＫが所定の閾値Ｋ０より大きいか否かの判断を行なう
（ステップＳ１６６）。スコアＳＫが所定の閾値Ｋ０よ
り大きければ、誤りフラグＭＳに値０を設定し（ステッ
プＳ１６７）、スコアＳＫが所定の閾値Ｋ０以下である
か、あるいはそもそもそのパターンが辞書ＤＰＤに見い
出されたなかった場合（ステップＳ１６３）には、誤り
フラグＭＳに値１を設定する。誤りフラグＭＳが値１で
あるとは、その表現パターンが誤っていると判断したこ
とを示している。

【００５２】以上の処理の後、フラグＭＳが値１である
か否かを判断し（ステップＳ１７０）、ＭＳ＝１、即
ち、抽出した表現パターンが誤っていると判断した場合
には、「この表現は通常用いられません。」といった警
告文をモニタ２９上に表示する処理を行なう（ステップ
Ｓ１８０）。この時、図４に示したように、表現パター
ン辞書ＤＰＤに、代替案が存在する場合には、この代替
案を併せて表示しても良い。代替案を表示する際には、
「Ｍに対してＤ１をＤ２ます」という代替案のパターン
を表示しても良いが、抽出した文の各文節を当てはめ
て、「これら提案に対して意見集約を行ないます」、あ
るいは「これら提案に対して意見集約を行ないますの
で」という形で、代替案を表示しても良い。なお、代替
案は、一度に複数表示しても良いし、「次候補」などが
指定されたときに、順次表示するものとしても良い。も
とより、単一の代替案を表示するにとどめても良い。誤
りと判定されなかった場合、あるいは誤りについての警
告を行なった後、処理は、文から部分文を取り出す処理
（ステップＳ１４０）に戻り、上記の処理を繰り返す。

【００５３】以上説明した本実施例の検証システムによ
れば、入力された日本語文から部分文を考慮して文を構
成する表現パターンを取り出し、このパターンが通常見
かけないパターンか否かの判断を行なって、見かけない
パターン（出現頻度の低いパターン）については警告を
表示して、使用者に報知することができる。従って、使
用者は、誤って、通常見かけない表現を用いた場合に、
これを容易に修正して、日本語として広く用いられる表
現に改めることができる。このため、例えば、その文を
翻訳用サーバ２０などに出力して自動翻訳させると、正
しい翻訳結果を得られやすくなるという利点が得られ
る。もとより、その文が手紙などである場合、相手に対
して礼を失したり、意味が正しく伝達されなかたったり
するリスクを低減することもできる。

【００５４】（５）表現パターン辞書の構築方法：次
に、本実施例において用いた表現パターン辞書ＤＰＤの
構築方法について説明する。図１４は、この表現パター
ン辞書ＤＰＤを構築する処理を示すフローチャートであ
る。このフローチャートは、図６に示したフローチャー
トと、ステップＳ１１０ないしＳ１５０は同一である。
即ち、表現パターン辞書ＤＰＤを構築するには、そのた
めに用意された大量の文章を順次入力し、ここから文を
切り出し、更に部分文を抽出し、この部分文の表現パタ
ーンを抽出する（ステップＳ１１０ないしＳ１５０）。
その上で、取り出された表現パターンを辞書に登録する
のである（ステップＳ１９０）。辞書は、この図１４に
示した処理が開始された時点では空であり（図１５参
照）、新しいパターンが抽出される度に、新しいパター
ンが付け加えられ、その頻度ＮＮに値１が設定されてい
く。既にあるパターンが再度抽出された場合には、その
出現回数ＮＮを、値１だけインクリメントする（図１６
参照）。

【００５５】かかる処理を行なうことで、簡単に、表現
パターンとその頻度を記憶した表現パターン辞書ＤＰＤ
を作成することができる。なお、この例では、作成され
る辞書ＤＰＤは、一つとしたが、表現パターンの抽出を
行なうための文書を、分野別に用意し、表現パターン辞
書ＤＰＤも、分野別に構築しても良い。この場合には、
図６に示した検証処理においても、分野別に辞書を指定
し、分野に応じた検証を行なうことができる。分野とし
ては、ビジネス文書、慶弔文、手紙文など文章の形式
（用いられる分野）の違いに着目しても良いし、文書を
作成するＡさん、Ｂさん、Ｃ団体といった違いに着目し
ても良い。あるいは、その文章を作成する使用者や読み
手が属している集団に着目しても良い。「見れる」など
のら抜き言葉の表現パターンなどは、こうした集団の違
いにより、表現パターンとして許される場合と相でない
場合とが存在するからである。

【００５６】（６）他の実施例：次に、本発明の第２の
実施例について説明する。第２実施例の検証システム
は、そのハードウェアなどは、第１実施例と同一であ
り、図１３に示した誤り判定の処理のみが異なる。第２
実施例の誤り処理では、スコア計算（ステップＳ１６
５）を次のように行なっている。即ち、表現パターン辞
書ＤＰＤに記憶したパターン、例えば「ＭをＭいたしま
す」といったパターンにおいて、体言Ｍについて、その
意味コードを併せて記憶しておき、抽出したパターンに
ついて頻度を取り出した後、この意味コードが一致して
いるか否かを判断して、スコアを計算するのである。意
味コードが一致している場合には、第１実施例同様、頻
度をそのままスコアとし、意味コードか一致していない
場合には、頻度を１／２にしてスコアを計算する。こう
すれば、単純な頻度情報で判断するのではなく、表現パ
ターンについて詳しい判断を加えて、その表現が通常見
かけない表現か否かの判断を行なうことができる。例え
ば、「荷物は家にある」という文から「Ｍ１はＭ２にあ
る」というパターンを抽出したとき、Ｍ１の意味コード
に「無生物」といった分類が付与されている場合、「彼
は家にある」という表現は、意味コードが一致しないこ
とから、見かけない表現と判断しやすくなる。

【００５７】本発明の他の実施例として、文の検証を行
なって、あるパターンが表現パターン辞書ＤＰＤに存在
するか否かを判断したとき、辞書ＤＰＤを更新する構成
を採用することも可能である。即ち、図１３において、
辞書ＤＰＤから頻度のデータを読み出すとき（ステップ
Ｓ１６４）、併せて辞書ＤＰＤの頻度の欄を値１だけイ
ンクリメントするものとしても良い。こうすれば、使用
されている表現はその頻度が徐々に高くなっていき、や
がて「見かけない表現」と判断されなくなる場合があり
得る。即ち、その表現が社会に広く受け入れられて用い
られるようになると、もはや誤用とは判断できなくなる
のである。あるいは、表現パターン辞書ＤＰＤを作成し
た際に用いたコーパスが特定の集団により作成された文
の集合であった場合などには、表現パターンに特定の偏
りが生じ場合もありえる。こうした場合には、検証を行
なううちに、徐々に偏りが是正され、その判断がより一
般的なものになるという効果が得られる。なお、辞書Ｄ
ＰＤの頻度の書き換えは、使用者がその表現を修正しな
かった場合にのみ行ない、使用者が表現を書き直した場
合には、誤りとみなして頻度を修正しない、という対応
も可能である。

【００５８】以上、本発明の実施の形態について説明し
たが、本発明はこうした実施の形態に何等限定されるも
のではなく、本発明の要旨を逸脱しない範囲内におい
て、種々なる形態で実施し得ることは勿論である。例え
ば、本実施例の検証システムは、単一のコンピュータ３
０上で実現したが、クライアント−サーバシステムとし
て実現してもよい。また、検証を行なう対象である入力
文は、マイク１３を用いて入力するものとしてもよい。
検証結果を音声により報知する構成も可能である。表現
パターン辞書は、同一言語内の異なる言語集団に属する
言葉（いわゆる方言）について、別々に用意して、出現
頻度を検証する構成も可能である。また、文字の入力や
文の編集を行なうワードプロセッサの一機能として組み
込んでも良いし、ワードプロセッサに後からアドインの
形態で組み込んで動作するようにすることも可能であ
る。こうしたワードプロセッサやその他のアプリケーシ
ョンプログラムに組み込んだ場合、文節の取得、構文の
抽出、頻度情報の取得および警告の報知などは、文字が
入力されて、文の区切りを示す文字が入力されたとき、
または「校正開始」のキーやメニューが操作された場合
など所定の手続が取られたときに起動するようにするこ
とができる。文の検証プログラムは、警告や代替案の表
示を、専用のウィンドウを用いて行なっても良いが、図
１７に示すように、入力した文をモニタ２９に表示し、
この文にマウスカーソルを近づけると、文の検証を行な
い、通常見かけない文の場合には、警告や代替案をポッ
プアップウィンドウＰＵＷなどにより、その場に表示す
るようにすることも、使い勝手を改善する上で有用であ
る。

【図面の簡単な説明】

【図１】本発明の実施の形態としての検証システム１０
０の概略構成を示すブロック図である。

【図２】本発明の一実施例としての検証システムが動作
するコンピュータ３０の構成を示す概略構成図である。

【図３】形態素解析辞書ＩＤＣの一部を例示する説明図
である。

【図４】表現パターン辞書ＤＰＤの一部を例示する説明
図である。

【図５】表現パターン辞書ＤＰＤの他の例を示す説明図
である。

【図６】低出現度文の検証処理を示すフローチャートで
ある。

【図７】形態素解析処理ルーチンを示すフローチャート
である。

【図８】形態素解析により得られる単語の配列Ｔ［ｔ］
の一例を示す説明図である。

【図９】係り受け解析により得られる文節の配列Ｂ
［ｂ］の一例を示す説明図である。

【図１０】部分文の解析により得られる部分文の配列Ｓ
［ｓ］の一例を示す説明図である。

【図１１】文の分割処理ルーチンを示すフローチャート
である。

【図１２】文の分割点を見い出すための非分割検定処理
（分割検定処理）を示すフローチャートである。

【図１３】誤り判定処理を示すフローチャートである。

【図１４】表現パターン辞書ＤＰＤの構築方法を示すフ
ローチャートである。

【図１５】表現パターン辞書の構築について説明する説
明図である。

【図１６】表現パターン辞書の構築について説明する説
明図である。

【図１７】表現の代替案の表示例を示す説明図である。

【符号の説明】

１０…ネットワーク１１…キーボード１２…マウス１３…マイク１８…ルータ２０…翻訳用サーバ２０２２…ＣＰＵ２３…ＲＯＭ２４…ＲＡＭ２５…タイマ２６…表示回路２７…ハードディスク２９…モニタ３０…コンピュータ１００…検証システム１１０…文入力部１１２…文節取得部１１２…文節抽出部１１４…部分文作成部１１６…パターン切出部１２０…頻度情報取得部１３０…データベース１３０…データペース１４０…警告報知部１５０…ディスプレイ

Claims

【特許請求の範囲】

【請求項１】自然言語で作られた文を検証する自然言
語文検証装置であって、前記自然言語により作られ文に存在し得る構文を出現頻
度の情報と共に予め記憶する構文情報記憶手段と、自然言語で作られた文が与えられたとき、該文を形態素
解析して文節を取得する文節取得手段と、該取得された文節を用いて、構文を抽出する構文抽出手
段と、該抽出した構文を、前記構文情報記憶手段に記憶した構
文と照合し、その出現頻度の情報を取得する頻度情報取
得手段と、該構文が出現頻度が低い文である場合には、警告を出力
する報知手段とを備えた自然言語文検証装置。
【請求項２】請求項１記載の自然言語文検証装置であ
って、前記構文情報記憶手段は、自然言語により作られた複数の文を入力する入力手段
と、該入力した文を形態素解析して文節を切り出す文節切出
手段と、該切り出された文節を用いて、構文を抽出する構文抽出
手段と、該抽出した構文を分類し、同一の構文毎に頻度情報を加
えて記憶する記憶手段とを備えた自然言語文検証装置。
【請求項３】前記記憶手段は、同一の構文毎に加える
頻度情報を、個別に設定する手段を有する請求項２記載
の自然言語文検証装置。
【請求項４】請求項１記載の自然言語文検証装置であ
って、前記構文抽出手段は、前記取得された文節とその文法情
報に基づいて、該自然言語文から、少なくとも一つの述
部を含む部分文を抽出し、該部分文毎に前記構文の抽出
を行なう手段である自然言語文検証装置。
【請求項５】請求項１記載の自然言語文検証装置であ
って、前記構文情報記憶手段は、構文毎の出現頻度の情報を出
現回数のカウント値として記憶しており、前記頻度情報取得手段は、前記抽出した構文について、
前記構文情報記憶手段に記憶された該構文の出現回数を
取得する手段であり、前記報知手段は、前記取得した出現回数が、所定値以下
の場合に、前記出現頻度の低い文であるとして警告を出
力する手段である自然言語文検証装置。
【請求項６】請求項５記載の自然言語文検証装置であ
って、前記頻度情報取得手段は、前記抽出した構文と一致する
構文について、その出現回数をカウントアップする手段
を備えた自然言語文検証装置。
【請求項７】請求項５記載の自然言語文検証装置であ
って、前記報知手段は、前記出現頻度の低い文について、前記
警告を、当該文を修正可能に出力する手段であり、前記頻度情報取得手段は、前記出現頻度が低い構文につ
いては、前記修正が行なわれなかったときに、当該構文
と一致する構文について、その出現回数をカウントアッ
プする手段を備えた自然言語文検証装置。
【請求項８】請求項１記載の自然言語文検証装置であ
って、前記構文情報記憶手段は、少なくとも出現頻度が低い構
文については、該構文より出現頻度の高い代替案を予め
記憶している手段であり、前記報知手段は、前記警告の出力にあわせて、前記代替
案の一つを表示する代替案表示手段を備えた自然言語文
検証装置。
【請求項９】請求項１記載の自然言語文検証装置であ
って、前記構文情報記憶手段は、同一自然言語内の異なる言語
集団毎あるいは言語対象毎に、構文とその出現頻度の情
報を記憶しており、更に、検証を行なう対象である自然言語について、前記
言語集団あるいは言語対象を特定する対象特定手段を備
え、前記構文についての検証を、当該指定された対象毎に行
なう自然言語文検証装置。
【請求項１０】自然言語による文を作成および編集す
るワードプロセッサであって、文字を入力し編集する入力編集手段と、前記自然言語により作られ文に存在し得る構文を出現頻
度の情報と共に予め記憶する構文情報記憶手段と、前記入力編集手段を介して自然言語で作られた文が入力
されたとき、該文を形態素解析して文節を取得する文節
取得手段と、該取得された文節を用いて、構文を抽出する構文抽出手
段と、該抽出した構文を、前記構文情報記憶手段に記憶した構
文と照合し、その出現頻度の情報を取得する頻度情報取
得手段と、該構文が出現頻度が低い文である場合には、警告を出力
する報知手段を備えたワードプロセッサ。
【請求項１１】請求項１０記載のワードプロセッサで
あって、前記文節取得手段、構文抽出手段、頻度情報取得手段お
よび報知手段は、前記入力手段により文字が入力されて、文の区切りを示
す文字が入力されたとき、または所定の手続が取られた
とき、起動するワードプロセッサ。
【請求項１２】自然言語で作られた文を検証する方法
であって、前記自然言語により作られ文に存在し得る構文を出現頻
度の情報と共に予め記憶し、自然言語で作られた文が与えられたとき、該文を形態素
解析して文節を取得し、該取得された文節を用いて、構文を抽出し、該抽出した構文を、前記記憶した構文と照合し、その出
現頻度の情報を取得し、該構文が出現頻度が低い文である場合には、警告を出力
する自然言語文検証方法。
【請求項１３】コンピュータに読み込まれて実行さ
れ、自然言語で作られた文を検証するプログラムであっ
て、自然言語で作られた文が与えられたとき、該文を形態素
解析して文節を取得する機能と、該取得された文節を用いて、構文を抽出する機能と、該構文を抽出したとき、自然言語により作られ文に存在
し得る構文を出現頻度の情報と共に予め記憶したデータ
を照合し、その構文の出現頻度の情報を取得する機能
と、該構文が出現頻度が低い文である場合には、警告を出力
する機能とをコンピュータにより実現するプログラム。
【請求項１４】請求項１３記載のプログラムであっ
て、当該プログラムは、文字の入力と編集を行なうワードプ
ロセッサに付加される機能を有するプログラム。
【請求項１５】請求項１３記載のプログラムであっ
て、他のアプリケーションプログラムから呼び出されて、当
該他のアプリケーションプログラムにおいて入力された
文についての前記検証を行なうプログラム。
【請求項１６】請求項１３ないし請求項１５のいずれ
か記載のプログラムを記録した記録媒体。