JP2002288175A

JP2002288175A - 文書の標準化

Info

Publication number: JP2002288175A
Application number: JP2001091888A
Authority: JP
Inventors: Yasuo Koyama; 泰男小山; Koji Yamada; 孝司山田; Yasuo Kasai; 庸雄河西; Tatsuya Hosoda; 達矢細田; Katsuhito Suzuki; 勝仁鈴木
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2001-03-28
Filing date: 2001-03-28
Publication date: 2002-10-04
Anticipated expiration: 2021-03-28
Also published as: JP3937741B2

Abstract

(57)【要約】【課題】文書のデータベースを構築する際、日本語は
派生語や表記のゆれが大きいため、そのままでは検索が
困難であった。【解決手段】入力したテキストデータを形態素解析し
て（ステップＳ３１０）、予め定めた文字に置き換える
文字の標準化処理（ステップＳ３２０）、共起関係を有
する単語の関係を予め定めた関係に修正する連語化処理
（ステップＳ３３０）、自立語を、予め定めた置き換え
の基準に従って、他の自立語に置き換える自立語処理
（ステップＳ３４０）、表記のゆれを予め定めた表記に
統一する表記の統一処理（ステップＳ３５０）、付属語
を、所定の規則に従って他の付属語に置き換える付属語
処理（ステップＳ３６０）、を順次行なうことで、文書
を標準化し、データベースＴＤＢを構築し検索を容易に
する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文書に対して処理
を行なうことにより、文書を標準化する技術に関する。

【０００２】

【従来の技術】テキストデータの検索は、特許公報や文
献データベースの検索など、様々な分野で必要とされて
いるが、大量のテキストデータを単にデータベースとし
て蓄積しておき、パターンマッチングの技術を用いて、
蓄積した文書から目的の単語が含まれるものを検索する
のが通常である。この場合、検索を容易にしようとすれ
ば、シソーラスなどを用いて、検索しようとする単語と
よく似た概念語の検索を行なったり（例えば、検索語が
「自動車」である場合に、「車」や「車両」も検索語と
して検索を行なったり）、あるいは表記の相違を考慮し
て検索を行なったり（例えば、「車両」に対して「車
輌」も検索語として検索を行なったり）することが提案
されている。

【０００３】かかる手法を実現するには、文書をデータ
ベースに登録する際に、検索の対象となりそうな言葉を
派生させて、文書のキーワードとして記憶しておいた
り、検索を行なう際に、正規表現と呼ばれるような表現
形式を用いて、一文字違いなどの単語などを検索の対象
とするといった対応が採られていた。例えば、特開平１
０−２４０７４２号では、文字列情報の蓄積時に、入力
された原文字列以外の入力候補文字列を生成し、この入
力候補文字列を蓄積文字列に変換して、データベースに
蓄積している。また、検索時には、検索者が、検索する
ための検索文字列情報を入力すると、この検索文字列以
外で検索可能な検索候補文字列を生成し、検索文字列情
報と、蓄積されている蓄積文字列とを照合することによ
り、検索を行なっている。

【０００４】

【発明が解決しようとする課題】しかしながら、かかる
手法では、データベースへの登録時に、多数の単語につ
いてそれぞれ派生語を生成せねばならず、処理に膨大な
手間を要するという問題があった。例えば、「切換」と
いう用語に「切り換え」「切替」「切り替え」「切替
え」などの表記のゆれが存在する場合、これら全ての候
補文字列を、蓄積しようとしている文書毎に発生され、
かつ記憶したのでは、処理に時間を要し、しかも膨大な
記憶容量が必要となってしまう。

【０００５】また、異なる単語に異なる表現のゆれなど
が存在する場合、例えば「切り替え」と「書き換え」と
いう単語を考えると、一方を「切替」に統一すること
と、他方を「書替」に統一することは、それぞれ別の作
業になるので、いちいち指定しなければならないという
問題があった。更に、上記の「切り替え」の例のよう
に、複数の表記が存在する場合、どの表記を用いるか、
という指定を行なわねばならなかった。

【０００６】本発明は、こうした問題を解決し、文書の
標準化を行なうことで、その後の種々の文書処理、例え
ば検索の手間を減らすことを目的とする。

【０００７】

【課題を解決するための手段およびその作用・効果】上
記課題の少なくとも一部を解決する本発明の文書標準化
方法は、一定のまとまりを持った文書を入力し、該文書
を形態素解析して、文法情報を伴う単語を切り出し、該
切り出した単語に対して、予め定めた標準化の処理を行
ない、該標準化された後の単語から再構成された文書を
出力することを要旨としている。

【０００８】また、これに関連してなされた文書データ
ベースの構築方法の発明は、一定のまとまりを持った文
書を入力し、該文書を形態素解析して、文法情報を伴う
単語を切り出し、該切り出した単語に対して、予め定め
た標準化の処理を行ない、該標準化された後の単語から
再構成された文書をデータベースとして蓄積することを
要旨としている。

【０００９】更に、これらに関連してなされた文書検索
方法の発明は、文書の検索に先立って、一定のまとまり
を持った文書を入力し、該文書を形態素解析して、文法
情報を伴う単語を切り出し、該切り出した単語に対し
て、予め定めた標準化の処理を行ない、該標準化された
後の単語から再構成された文書を予めデータベースとし
て蓄積しておき、文書の検索時に、指定された検索用単
語と前記データベースに蓄積された文書とを比較して、
該検索用単語が含まれる文書を特定することを要旨とし
ている。

【００１０】かかる発明においては、文書を形態素解析
することにより文法情報を伴って単語を切り出すので、
これに対して適切な標準化を施すことができる。即ち、
単語の切り出しを行なっていることから、単純な置き換
えではなく、単語単位で適切な標準化を施すことができ
る。標準化した単語から再構成した文書は、例えばファ
イルとしてあるいはディスプレイに、出力しても良い
し、再構成した文書としてデータベースの構築に用いて
も良い。かかるデータベースでは、文書は、原則として
標準化されて蓄積されているから、検索を極めて容易に
行なうこともできる。

【００１１】かかる標準化において、前記予め定めた標
準化の処理としては、少なくとも（ａ）予め定めた文字に置き換える文字の標準化、
（ｂ）共起関係を有する単語の関係を予め定めた関係に
修正する連語化処理、（ｃ）表記のゆれを予め定めた表
記に統一する表記の統一処理、（ｄ）自立語を、予め定
めた置き換えの基準に従って、他の自立語に置き換える
自立語処理、（ｅ）付属語を、所定の規則に従って他の
付属語に置き換える付属語処理のうちの一つを含ませる
ことができる。これらの処理のうち、少なくとも一つを
採用することで、文書の標準化を様々なレベルで行なう
ことができる。

【００１２】これらの標準化の処理は、予め用意した辞
書を参照することにより、単語の置き換えを行なう処理
として実現することができる。形態素解析により文法情
報を伴って単語を切り出しているので、辞書を参照する
ことは容易である。かかる形態素解析についても、予め
用意した形態素解析用の辞書を用いて実現することがで
きる。もとより、アルゴリズムに依拠して形態素解析を
行なうことも可能である。

【００１３】上記の複数の標準化処理は、様々な順序で
実施可能であるが、例えば文字の標準化の処理（ａ）の
後に自立語処理（ｄ）を行なうことも好適である。こう
すれば、例えば半角の「WINDOWS」と「ウィンドウ
ズ」、および全角の「ＷＩＮＤＯＷＳ」「ウィンドウ
ズ」といった自立語のばらつきを、簡単な操作で確実に
標準化することができる。

【００１４】また、連語化処理（ｂ）の後に自立語処理
を行なうことをも同様に好適である。連語化処理とは、
共起関係にある単語の関係を予め定めた関係に修正する
ものであり、連語化処理を予めしておくことで、自立語
処理をより確実に行なうことができる。例えば、「腹
が」＋「立つ」という連語を「怒る」に置き換える自立
語処理を行なうものとした場合、「腹が」＋「ひどく」
＋「立つ」を、一旦連語化処理により「ひどく」＋「腹
が」＋「立つ」に変換しておけば、次の自立語処理によ
り、「ひどく」＋「怒る」に標準化することは容易であ
る。更に、表記の統一処理（ｃ）を、少なくとも自立語
処理（ｄ）の後に行なうことも好適である。こうするこ
とで、自立語処理より、表記の統一が崩れると言うこと
がない。

【００１５】また、前記標準化の処理の際に、標準化の
結果が２以上存在する場合には、該２以上の結果のうち
の一つを表示すると共に、複数の結果が存在することを
表示することも望ましい。標準化の処理を行なっている
使用者は、これにより、複数の結果が存在することを知
ることができ、場合によっては、他の候補を選択するこ
とができるからである。使用者の操作に応じて、前記表
示した結果以外の結果を次候補として順次表示すること
も、候補選択の面から望ましい。

【００１６】なお、これらの発明は、いずれも上記の方
法を実行する装置の発明、コンピュータ上で実行され、
上記の機能を実現するプログラムの発明、こうしたプロ
グラムを記録した記録媒体としての発明として、それぞ
れ把握することができる。装置は、コンピュータ上でプ
ログラムが実行されることで、上記の文書の入力、形態
素解析、標準化、出力、データベースの構築などを実現
するものであっても良いし、ディスクリートな回路構成
より実現するものであっても良い。また、プログラム
は、Ｃ言語やパスカル、フォートラン、コボル、ＢＡＳ
ＩＣ、等の周知のプログラム言語が採用可能であり、オ
ブジェクト指向のプログラム言語、あるいはＪａｖａＳ
ｃｒｉｐｔ等の言語などを利用することも可能である。
記録媒体としては、フレキシブルディスク，ＣＤ−ＲＯ
Ｍ，ＤＶＤ−ＲＯＭ，半導体メモリ（ＲＯＭ，ＰＲＯ
Ｍ，ＥＥＰＲＯＭ，フラッシュメモリ等）など、種々の
記録媒体を用いることができる。もとより、インターネ
ットなどのネットワーク上に置かれたサーバにこれらの
プログラムを記憶しておき、クライアントのコンピュー
タにダウンロードして利用することも可能である。

【００１７】

【発明の他の態様】本願発明の標準化の技術は、例えば
翻訳などにも用いることができる。翻訳では、翻訳例を
データベース化することが有効であり、こうしたデータ
ベースを翻訳者の作成した文書の癖などから自由なプレ
ーンなテキストにより構築することは、翻訳のための検
索において極めて有用である。また、インターネットな
どの検索エンジンがネット上の多数のウェブを検索し、
これをデータベース化する際にも、同様の標準化を適用
することは有効である。ウェブサイトなどの作成は、基
本的には個人の責任に委ねられているので、文書の表現
の統一がなされていないからである。

【００１８】

【発明の実施の形態】以下、本発明の実施の形態を実施
例に基づいて説明する。（１）実施例の構成：はじめに、実施例の構成について
図１を用いて説明する。図１は本実施例のデータベース
構築を行なうシステムを示す概略構成図である。このシ
ステムは、インターネットのような大規模なネットワー
ク１０に接続されたデータベースサーバ２００として実
現されている。ネットワーク１０には図示しないクライ
アントが接続されている。

【００１９】データベースサーバ２００は、モデムやル
ータ２０を介してネットワーク１０とのデータのやり取
りを制御するネットワークインタフェース（ＮＴ−Ｉ／
Ｆ）２１、処理を行なうＣＰＵ２２、処理プログラムや
固定的なデータを記憶するＲＯＭ２３、ワークエリアと
してのＲＡＭ２４、時間を管理するタイマ２５、モニタ
３０への表示を司る表示回路２６、後述する各種のデー
タを蓄積するハードディスク（ＨＤ）２７、キーボード
１１やマウス１２とのインタフェースを司る入力インタ
フェース（Ｉ／Ｆ）２８等を備える。なお、ハードディ
スク２７は、固定式のものとして記載したが、着脱式の
ものでも良いし、着脱式の記憶装置（例えばＣＤ−ＲＯ
Ｍ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ−
ＲＡＭ、フレキシブルディスクなど）を併用することも
可能である。また、この実施例では、サーバ２００の処
理プログラムは、ＲＯＭ２３内に記憶されているものと
したが、ハードディスク２７に記憶しておき、起動時に
ＲＡＭ２４上に展開して実行するものとしても良い。あ
るいは、上述した着脱式の記録媒体から読み込むものと
しても良い。更には、ネットワーク１０を介して、他の
サーバから読み込んで実行するものとしても良い。

【００２０】図１に示したサーバ２００は、キーボード
１１から入力した文書（テキストデータ）や、ネットワ
ーク１０を介して外部から取り込んだテキストデータ
を、標準化して、最終的にはハードディスク２７に文書
データベースを構築する。その後、データベース化され
た文書データに対して、検索処理を行なうこともできる
が、この検索処理は、サーバ２００から行なっても良い
し、ネットワーク１０を介して接続された各クライアン
トから行なうこともできる。

【００２１】サーバ２００内には、上述のように、ＣＰ
Ｕ２２やＲＯＭ２３などのハードウェアが設けられてい
るが、かかるサーバ２００内において後述するプログラ
ムを実行することにより、図２に示した構成を実現する
ことができる。即ち、サーバ２００は、図２に示した機
能実現手段をディスクリートに設けたのと同じ働きを実
現する。サーバ２００は、図示するように、文書入力部
２０５，形態素解析部２１０、辞書検索部２２０，形態
素解析用辞書２３０，標準化ルールデータベース２４
０，標準化処理部２５０，ログ管理部２６０，文書出力
部２７０，ログ出力装置２８０などを備える。

【００２２】ここで、文書入力部２０５は、文書を入力
する処理を実現するものであり、キーボード１１から文
書を入力したり、予めハードディスク２７などに記憶し
ている文書を取り込んだりするものである。形態素解析
部２１０は、入力した文書のテキストデータを形態素解
析するものであり、漢字仮名混じりのテキストデータの
形態素を解析して、テキストデータを構成する自立語や
付属語などを、その文法情報と共に取得するものであ
る。標準化処理部２５０は、形態素解析されたテキスト
データに対して標準化の処理を実行するものであり、実
行される標準化の処理としては、（ａ）文字の標準化処
理（予め定めた文字に置き換える文字の標準化）、
（ｂ）連語化処理（共起関係を有する単語の関係を予め
定めた関係に修正する処理）、（ｃ）表記の統一処理
（表記のゆれを予め定めた表記に統一する処理）、
（ｄ）自立語処理（自立語を、予め定めた置き換えの基
準に従って、他の自立語に置き換える処理）、（ｅ）付
属語処理（付属語を、所定の規則に従って他の付属語に
置き換える処理）がある。これらの処理は全て実行され
る必要はなく、使用者の設定により、必要な処理（少な
くとも一つの処理）が実行される。

【００２３】文書出力部２７０は、標準化されたテキス
トデータを外部に出力するものである。本実施例では、
テキストデータは、ハードディスク２７にデータベース
として保存されるものとしたが、単純に標準化処理後の
テキストデータをモニタ３０上に表示するものとしても
良いし、図示しないプリンタなどに印字するものとして
も良い。あるいは、ネットワーク１０を介して外部のク
ライアントマシンに出力するものとしても良い。

【００２４】辞書検索部２２０は、形態素解析用辞書２
３０と標準化ルールデータベース２４０を参照するため
のものである。形態素解析部２１０や標準化処理部２５
０は、辞書やデータベースを参照する必要が生じると、
この辞書検索部２２０を介して、辞書２３０やデータベ
ース２４０をアクセスし、必要な情報を取り出し、それ
ぞれ形態素解析部２１０や標準化処理部２５０に渡す。
なお、辞書検索部２２０は、形態素解析用辞書２３０や
標準化ルールデータベース２４０毎に別々に設けても差
し支えない。

【００２５】ログ管理部２６０とログ出力部２８０は、
標準化の処理のログを管理し、これを出力するものであ
る。標準化の処理は、上述したように、文字の標準化か
ら連語化処理まで、様々なレベルに及ぶので、どのよう
な処理を行なったか、必要に応じて参照できるよう、ロ
グを管理し出力するのである。ログには、処理対象とな
った文書、実施された標準化処理の内容、その結果、エ
ラーなどの情報が保存される。

【００２６】（２）実施例における処理の概要：そこ
で、次に標準化処理部２５０において実現される標準化
処理について、図３に依拠しつつ説明する。図３は、標
準化処理部２５０が実行する処理の概要を示す説明図で
ある。この図では、標準化処理部２５０は、全ての標準
化処理を実行するものとして記載しているが、実際に
は、少なくともいずれか一つの標準化処理が実行される
場合も存在する。いずれの標準化処理ないしそれらの任
意の組合わせを実行するかは、使用者が初期設定（プロ
パティなど）により定めるものとなっている。図３に示
した標準化処理ルーチンが起動されると、まず、文書を
読み込む処理が実行される（ステップＳ３００）。この
処理は、文書入力部２０５に相当する処理であり、キー
ボード１１から文書を入力するものとしても良いし、既
に作られてハードディスク２７などに保存されている処
理用の文書ＴＸＴ（テキストデータ）を読み出すものと
してもよい。従って、例えば標準化処理の実行を示すア
イコンを、モニタ３０のいわゆるデスクトップに表示し
ておき、マウス１２によりテキストファイルをドラッグ
アンドドロップすることにより、図３に示した標準化処
理が起動され、そのテキストファイルが、読み込まれる
ものとすることもできる。

【００２７】文書の読み込みは、一括して全データを読
み込むという形で実現しても良いし、テキストデータか
ら改行などを区切りコードとして、順次読み込む形態と
しても良い。可能であれば、句読点などを用いて「文」
単位で読み込んでも良い。いずれの場合でも、一つ一つ
の文には、識別番号を付与して、その後に管理に用いる
ことが望ましい。なお、テキストデータは、ＲＡＭ２４
上に実際に展開して処理可能な状態としても良いし、識
別番号を付けてからハードディスク２７などにランダム
アクセスあるいはシーケンシャルアクセス可能に保存し
てもよい。

【００２８】こうして文書の読込を行なった後、まず形
態素解析処理を行なう（ステップＳ３１０）。これは、
形態素解析部２１０に相当する処理であり、辞書検索部
２２０を介して形態素解析用辞書２３０を参照する処理
に相当する。実際には、ハードディスク２７に記憶され
た逆引き辞書ＩＤＣを参照して、文書を構成する単語を
形態素解析により定める。形態素解析処理の詳細を図４
に示した。以下、図４に基づいて、形態素解析の処理に
ついて説明する。なお、逆引き辞書とは、通常の仮名漢
字変換用辞書が、仮名文字を見出しにして漢字やカタカ
ナ等の変換文字列が、文法情報と共に配列されているの
に対して、図５に示すように、これが逆に配列されてい
る辞書である。従って、例えば「学校」という文字列か
ら「がっこう」という読みと名詞という文法情報などを
取り出すことができる。

【００２９】形態素解析処理が開始されると、まず識別
番号をつけた一つの文が、解析の対象として特定され、
この文の先頭からＭ文字目（Ｍ＝１，２，・・・・）か
らＬ文字分（Ｌ＝１，２，・・・）を取り出して逆引き
辞書ＩＤＣを引く処理を行なう（ステップＳ１２）。Ｍ
は、着目している文字列の先頭位置を、Ｌは、取り出す
文字数を、それぞれ示していることになる。逆引き辞書
の参照の手法は、まずＭ＝１、即ち先頭位置から、Ｌ＝
１、即ち１文字分の文字を取り出し、辞書を参照して該
当語を取り出す処理から開始する。Ｌを順次インクリメ
ントしながら辞書ＩＤＣを参照し、該当する見出し語が
なくなれば、着目する文字列の先頭位置Ｍをインクリメ
ントし、再度文字数Ｌを１に戻して、辞書の検索を行な
う。こうして着目する文字の位置か、解析しようとする
文の文字数を超えたところで、辞書の参照をうち切る。

【００３０】例えば、「ＤＤという車は、品質を重視し
たセダンである。」という文章に対して、逆引き辞書Ｉ
ＤＣを参照すると、「ＤＤ」「と」「いう」「という」
「い」「う」「車」「は」「品質」「を」「重視」「し
た」「し」「た」「セダン」「で」「ある」「である」
「あ」といった語を切り出すことができる。ここで、
「い」や「う」「あ」「し」「た」などの仮名一音も、
語として切り出しているのは、「いう（言う）」の語幹
「い」や「うる（売る）」の語幹「う」などが、文中に
現れる可能性があるからである。

【００３１】逆引き辞書ＩＤＣには、これらの語がその
文法情報と共に記憶されている。そこで、切り出した語
を次に文法情報に従って並べて、破綻しない配列を見い
出す処理を行なう。かかる解析は、例えば複数文節最長
一致法や最小コスト法といった手法が知られており、所
定の語の組合わせのうちどれが最も日本語としてもっと
もらしいかを検定するのである。本実施例では、最小コ
スト法を採用しているので、こうして得られた多数の文
字列を対象として、次にコスト計算を行なう（ステップ
Ｓ３１４）。コスト計算とは、文字列の配列に対して、
日本語らしい配列ほど点数が低くなるように予め用意さ
れた文字列のコストを計算する処理である。その規則は
大まかに言えば、自立語はコスト２、これに付属語が付
属する場合はコスト０、といったものである。例えば、
「品質を」を例にとると、「品質」＋「を」ではあれ
ば、自立語＋付属語（助詞）の結びつきとなって、コス
ト２、「品」＋「質」＋「を」であれば、自立語＋自立
語＋付属語（助詞）となってコストは４となるのであ
る。最小コスト法のルールは、現実の日本語にあわせて
チューニングされており、「まったく」＋「ない」など
の共起関係にある単語が文中に生じる場合は、コスト
「−１」など、様々な規則が用意されている。

【００３２】こうして、逆引き辞書の参照により得られ
た全ての単語について、上記のコストを計算し、そのう
ちで最小のコストになる文を特定する処理を行なう（ス
テップＳ３１５）。上記の例では、「品」（自立語・名
詞）＋「質」（自立語・名詞）＋「を」（付属語・助
詞）よりも、「品質」（自立語・名詞）＋「を」（付属
語・助詞）の方が、日本語として確からしいと判断する
のである。もとより、この計算は、少なくとも文を単位
として行なわれ、文全体で、コストが最小になるような
単語の配列を選択する。従って、例えば共起関係による
コストの低減などがあれば、「品質」＋「を」に替え
て、「品」＋「質」＋「を」が選択される場合も存在す
る。

【００３３】こうして最小コスト法による形態素解析が
完了すると、次に文構造の解析処理を行なう（ステップ
Ｓ３１６）。この処理は、文を構成している単語の結び
つき方を、論理積と論理和により表現するものであり、
例えば複文を、二つの文に分離する場合などに利用され
る。本実施例では、特にこの点については説明しない。
以上の処理を行なった後、形態素解析されたデータを出
力する処理を行なう（ステップＳ３１８）。データは、
そのまま次の標準化処理に渡されても良いし、一旦ハー
ドディスク２７に識別コード付きで保存されるものとし
ても良い。

【００３４】こうして形態素解析された文に対して、次
に各種の標準化の処理が実行される（図３参照）。標準
化の処理としては、文字の標準化処理（ステップＳ３２０）連語化処理（ステップＳ３３０）自立語処理（ステップＳ３４０）表記の統一処理（ステップＳ３５０）付属語処理（ステップＳ３６０）がある。なお、各標準化の処理は、既に説明したよう
に、全てを実行する必要はなく、使用者の意図に合致し
た処理のみ実施しすればよい。また、複数の標準化処理
を実施する場合、上記の順に限るものではなく、その他
の順序で実施することも可能である。

【００３５】まず、文字の標準化の処理について、図６
を参照しつつ説明する。文字の標準化処理が起動される
と、まず標準化規則ＣＳＤを参照する処理を実行する
（ステップＳ３２２）。この標準化規則ＣＳＤは、予め
ハードディスク２７に記憶されているものであり、文字
の標準化をどのような規則に沿って行なうかを定めたも
のである。こうした規則は、一応デフォルトが設定され
ているが、使用者により変更可能なものとなっている。
この実施例における文字の標準化とは、図７に示したよ
うに、括弧、引用符、一般記号、英数字、句点、読点、
半角カタカナ、名前の繋文字、長音記号を、一定の規則
で置き換える処理を言う。このうち図７の欄Ａに「×」
で示したものは、置き換えに際して周りの文字を考慮す
る必要がないことを、「○」は周囲の文字を考慮する必
要があることを、それぞれ示している。また、欄Ｂは、
置き換えの範囲を示しているが、ここで「文」が置き換
えの範囲になる場合があるとされているので、例えば
「−」（マイナス記号）と「−」（長音記号）とが相違
している場合などには、長音記号に置き換えると、形態
素解析の結果に影響を与える場合があるからである。従
って、長音記号の置き換えなどを行なった場合には、逆
引き辞書ＩＤＣを参照して、文構成を変更することがあ
る。

【００３６】文字の標準化の例として、句点や読点を取
り上げると、まずこれらについては、デフォルト
で「、」「。」に置き換えられるように設定されてい
る。従って、「コーヒーは，うまい．」という文に対し
て、文字の置き換えが行なわれると、「コーヒーは、う
まい。」となる。もっとも、この設定は、変更可能なの
で、句点として「。」が、読点として「，」に設定が変
更されていれば、「コーヒーは，うまい。」となる。な
お、欄Ａに示したように、周りの文字を考慮するとなっ
ているが、周りの文字列が英文であれば、逆
に「，」「．」への置き換えがデフォルトの設定となっ
ている。

【００３７】その他の文字の標準化を例示すると、（Ａ）括弧：『』と「」の置き換えを行なうなど、（Ｂ）引用符：“”と””の置き換えを行なうなど、（Ｃ）一般記号：種々の記号（例えば「：，？！」な
ど）について、半角／全角の置き換えを行なうなど、（Ｄ）英数字：全角／半角や大文字／小文字の置き換え
を行なうなど、（Ｅ）半角カタカナ：カタカナについて全角／半角の置
き換えを行なうなど、（Ｆ）名前の繋文字：「クイーン＝エリザベス」を「ク
イーン・エリザベス」に置き換えるなど、がある。

【００３８】これらの規則を用いて、各文字を変更する
処理を行なう（図６、ステップＳ３２４）。その後、全
ての文字についての置き換えが完了したかを判断し（ス
テップＳ３２６）、全ての文字について完了するまで、
規則に従う置き換えを実施する。

【００３９】以上説明した文字の標準化処理を行なった
後、次に、共起の連語化処理（図３、ステップＳ３３
０）を実行する。この処理の詳細を、図８に示した。以
下、この図８に従って説明する。共起の連語化処理が開
始されると、まず形態素解析により得られた文の文節Ｎ
に着目する（ステップＳ３３１）。処理の開始時にはＮ
＝１である。次に、共起辞書ＲＧＤを参照しつつ、文節
列を後方に向かってサーチする処理を行なう（ステップ
Ｓ３３２）。このサーチの様子を図９に示した。図９
は、「俺は学校に急いで行くよ」という文を対象に共起
の連語化処理を行なう様子を示している。形態素解析に
より、「俺は」＋「学校に」＋「急いで」＋「行くよ」
という文節が切り出されている。なお、詳しく言えば、
各文節内は、自立語＋付属語（＋付属語・・・）として
解析されている。

【００４０】ここでまずＮ＝１、即ち、「俺は」という
文節に着目し、この文節を起点としてＮ＝２、３、４、
即ち「学校に」「急いで」「行くよ」などの文節がサー
チされる、サーチは、共起辞書ＲＧＤに記載されている
文節がないかを検証するものである。従って、正確には
文節によるサーチではなく、文節とその語幹を用いたサ
ーチである。こうしたサーチを行ないつつ、共起関係に
ある文節があるかを判断する（ステップＳ３３３）。図
９に示した例では、「俺は」については共起辞書に該当
する項目がなく、Ｎ＝２、即ち「学校に」について、
「学校に行」という共起関係が、共起辞書ＲＧＤに見い
出された。共起関係にある文節が見い出された場合に
は、次に文節の入れ替えが可能であるか否かを判断する
（ステップＳ３３４）。共起関係にある二つの文節が連
続していれば、入れ替えを行なう必要はない。また、離
れた位置にある文節間に共起関係が見い出されても、文
構造上、文節の入れ替えを行なうことができない場合も
存在する。例えば、「俺は学校に電話し、それから行く
よ」という例文では、「学校に」と「行く」という共起
関係が見い出されても、「俺は電話し、それから学校に
行くよ」と入れ替えることが必ずしもできない。文構造
上の制約があるからである。

【００４１】共起関係にあることが見い出された二つの
文節が離れており、かつ文構造上、文節の入れ替えが可
能であると判断された場合には、文節の位置を入れ替え
る処理を行なう（ステップＳ３３５）。この結果、図１
０に示したように、文は、「俺は急いで学校に行くよ」
となる。続いて、連語化処理を行なう（ステップＳ３３
６）。即ち、連続する二つの文節に共起関係が認められ
るので、これを連語化して一つの文節扱いとするのであ
る。この様子を図１１に示した。なお、共起関係に基づ
く連語化は、上記実施例では２文節を一つの文節に連語
化するものとして説明したが、場合によっては３文節以
上を一つの文節に連語化することも可能である。

【００４２】その後、着目する文節を一つ進め（ステッ
プＳ３３７）、全ての文節について共起関係の処理が完
了したかを判断し（ステップＳ３３８）、未だ完了して
いなければ、ステップＳ３３２に戻って、処理を継続す
る。全ての文節について、共起関係の処理が完了すれ
ば、「ＮＥＸＴ」に抜けて、本ルーチンを終了する。な
お、上記のフローでは、共起関係にある文節の探索は、
文の先頭の文節から順に行なうものとしたが、いわゆる
「係り受け」の受け語を先に特定して探索を行なうとい
う手法を採用すれば、文の後方から順に探索するものと
することもできる。いずれから探索するかは、辞書の構
成や探索アルゴリズムに拠る。

【００４３】こうして文字の標準化（図３，ステップＳ
３２０）、共起の連語化処理（ステップＳ３３０）が完
了すると、次に、自立語の標準化処理を行なう（ステッ
プＳ３４０）。この処理の詳細を、図１２に示した。図
１２に示した自立語の標準化処理が開始されると、まず
標準化規則を参照する処理を行なう（ステップＳ３４
２）。この処理は、文字の標準化で参照したものと同様
に、デフォルトは予め設定してあるが、使用者により変
更可能な設定を取得するものである。もとより、この規
則は固定的なものとすることもできる。自立語の標準化
は、基本的には同一意味の自立語間の異表現の置き換え
処理である。かかる処理には、多数の類型が存在する
が、例えば、より一般的な表現に置き換える：例、庭球→テニス平易な表現に置き換える：例、瑠璃色→青色常用漢字外の忌避：例、愛嬌→愛敬、挨拶→あいさつ慣用句の平易化：例、一挙手一投足→一つ一つの動作より使用される文字形態への置き換え：例、ウィンド
ウズ→Ｗｉｎｄｏｗｓ、スパイラルアップ→spiral up 連語の置き換え：例、学校に行く→登校する等を考えることができる。

【００４４】これらの処理は、実際には、標準化の対象
となっている文から順次自立語を取り出し、これを自立
語用の標準化辞書ＩＷＤを検索することにより行なわれ
る（ステップＳ３４４）。自立語用の標準化辞書ＩＷＤ
は、上述した置き換え可能な自立語が、適用される規則
と共に、参照可能に構成されている。従って、標準化の
規則を取得した後、辞書を参照して、規則に合致した置
き換え語を読み出し、各単語を変更する処理（ステップ
Ｓ３４６）を行なうことができる。図１３は、この置き
換えの様子を模式的に示した説明図である。図示するよ
うに、まず規則の設定を参照する。図において、「◎」
はその置き換えが設定（オン）されていることを、
「○」は未設定（オフ）であることを、それぞれ示して
いる。自立語の標準化処理において、上記のないし
を例にとれば、いずれの置き換えを行なうか否かが、標
準化規則として記憶されているので、これを読み出し、
次に自立語を順次読みだして、この自立語について、置
き換えを行なう語が辞書ＩＷＤに登録されているか否か
を検索し、仮に登録されていれば、現在オンになってい
る置き換え規則に合致するかを確認し、オンになってい
る置き換え規則に合致していれば、自立語の置き換えを
行なうのである。以上の処理を全単語について繰り返す
（ステップＳ３４８）。図１３に示した例は、常用漢
字外の忌避がオンになっているので、「俺は」が「僕
は」に置き換えられている。また、共起関係があると認
定されて連語化された言葉も、必要に応じて、他の言葉
に置き換えられるので、この例では「学校に行」→「登
校」といった置き換えが行なわれ、これに応じて、付属
語の部分も、「くよ」→「するよ」と置き換えられた。

【００４５】この結果、自立語の標準化処理が完了する
と、標準化規則として予め定めた類型について、全ての
単語が置き換えられ、自立語は、所望のレベルで標準化
されることになる。

【００４６】自立語の標準化を行なった後、次に表記の
ゆれの標準化処理を行なう（図３、ステップＳ３５
０）。表記のゆれとは、日本語における表記の曖昧さ、
許容幅を言い、例えば、長音記号のゆれ：例、ユーザー、ユーザ、送り仮名のゆれ：例、売上げ、売り上げ、拗音表記のゆれ：例、ウィザード、ウイザード、複合語のかな表記のゆれ：例、売り上げ、売りあげ、外来語表記のゆれ：エンゼル、エンジェル、繰り返し文字のゆれ：例、正正堂堂、正々堂々などを例示することができる。

【００４７】この処理の概要は、図１２に示した自立語
の標準化処理と似ているので、フローチャートは示さな
いが、自立語の標準化同様、まず規則の設定を参照す
る。即ち、表記のゆれの標準化処理において、上記の
ないしを例にとれば、いずれの置き換えを行なうか否
かが、図１５に示したように、標準化規則ＤＡＤ（図３
参照）として記憶されているので、これを読み出し、次
に単語を順次読みだして、この単語が標準化規則ＤＡＤ
に記憶した規則が当てはまるものであれば、かな漢字変
換用の通常の単語辞書ＤＩＣを検索する。この辞書には
表記のゆれが広く登録されているので、標準化規則ＤＡ
Ｄで指定された規則に該当する単語が、辞書ＤＩＣに登
録されていれば、その後を読み出して、表記の異なる単
語に置き換えるのである。そして、以上の処理を全単語
について繰り返す。

【００４８】自立語の標準化と処理が若干異なるのは、
自立語の標準化辞書が、一方向への標準化を行なうこと
を前提として構成されているのに対して、表記のゆれ
は、双方向に標準化を行なうことを前提としているため
である。表記のゆれは、許容幅を大きく、いずれの表記
がより正しいといった判断になじまないものだからであ
る。こうした表記のゆれは、かな漢字変換用の単語辞書
ＤＩＣに広く採取されており、互いに関連付けられてい
るので、表記のゆれの標準化を行なう場合には、表記の
ゆれの標準化規則ＤＡＤを参照し、指定された表記とな
るよう、単語辞書ＤＩＣを検索するのである。

【００４９】こうして表記のゆれの標準化を行なった
後、付属語の標準化処理を行なう（ステップＳ３６
０）。この処理の概要は、図１２に示した自立語の標準
化処理とほぼ同一なので、フローチャートは示さない
が、基本的には同一意味の付属語間の異表現の置き換え
処理である。かかる処理には、多数の類型が存在する
が、例えば、繰り返された丁寧表現の簡素化：例、「出られておら
れます」→「出られています」、古風な表現の現代化：例、「原因なのか否か」→「原
因なのかどうか」、くだけた表現の通常表現化：例、「勉強しなくっち
ゃ」→「勉強しなくては」などを考えることができる。

【００５０】これらの処理は、実際には、標準化の対象
となっている文から順次付属語を取り出し、これを付属
語用の標準化辞書ＡＷＤを検索することにより行なわれ
る。付属語用の標準化辞書ＡＷＤは、上述した置き換え
可能な付属語が、適用される規則と共に、参照可能に構
成されている。従って、標準化の規則を取得した後、辞
書を参照して、規則に合致した置き換え語を読み出し、
各付属語を変更する処理を行なうことができる。図１６
は、この置き換えの様子を模式的に示した説明図であ
る。図示するように、まず規則の設定を参照する。即
ち、付属語の標準化処理において、上記のないしを
例にとれば、いずれの置き換えを行なうか否かが、標準
化規則として記憶されているので、これを読み出し、次
に付属語を順次読みだして、この付属語について、置き
換えを行なう語が辞書ＡＷＤに登録されているか否かを
検索し、仮に登録されていれば、現在オンになっている
置き換え規則に合致するかを確認し、オンになっている
置き換え規則に合致していれば、付属語の置き換えを行
なうのである。

【００５１】この結果、付属語の標準化処理が完了する
と、標準化規則として予め定めた類型について、全ての
単語が置き換えられ、付属語は、所望のレベルで標準化
されることになる。

【００５２】こうして、図３に示した全ての標準化（ス
テップＳ３２０ないしＳ３６０）が完了すると、サーバ
２００は、標準化の結果を、ハードディスク２７内の文
書データベースＴＤＢに登録する処理を行なう（ステッ
プＳ３７０）。このデータベースは、文書の全文データ
ベースであり、後述する検索装置により、全文検索を行
なうことができる。

【００５３】（３）実施例の効果：この文書データベー
スＴＤＢに登録された文書は、文字、自立語、表記のゆ
れ、付属語という態様で、標準化がなされているから、
書き手の癖や言い回しの相違などがほとんど解消されて
いる。従って、処理された文書は、極めてプレーンなテ
キストデータとなっており、様々な用途に用いることが
できる。例えば、特許公報や技術文献などの全文データ
ベースの構築に用いれば、できあがったデータベースを
検索する際の雑音や検索漏れなどを低減することができ
る。また、翻訳しようとする文を標準化すると、機械翻
訳のための下訳の一つとして用いることができる。逆に
翻訳例を蓄積した翻訳データベースを構築する場合に
は、訳出者の相違を解消することができる。更に、時代
を隔てた著者の表現を比較するといった研究など、文書
を対象とした広範な比較研究に用いることも可能であ
る。また、本実施例では、標準化の処理に先立って、テ
キストデータを形態素解析し、必要な文法情報を入手し
ている。このため、標準化が、単純な文字の置き換えに
とどまらず、文法情報を利用した自立語の標準化、表記
のゆれの標準化などとしてまとめて行なうことが可能と
なっている。このため、標準化のために用意するルール
も数を低減することができる。文法情報が存在するの
で、かな漢字変換用の辞書や表記のゆれの辞書、自立語
の置き換え辞書などを参照して、容易に標準化を行なう
ことができる。

【００５４】実施例では、標準化処理は、文字の標準
化、共起の連語化処理、自立語の標準化処理、表
記のゆれの標準化処理、付属語の標準化処理の順で行
なったが、この処理は様々な順序で実施可能である。本
実施例のように、文字の標準化の処理の後に自立語の標
準化処理を行なえば、例えば文字の標準化で半角／全角
変換を済ませておき、その後、「ＷＩＮＤＯＷＳ」「ウ
ィンドウズ」といった自立語のばらつきを、標準化すれ
ばよいので、簡単な操作で確実に処理を行なうことがで
きる。

【００５５】また、連語化の処理の後に自立語の標準化
処理を行なうことをも同様に好適である。連語化処理を
予めしておくことで、自立語の標準化処理をより確実に
行なうことができる。実施例では、「学校に」＋「行
く」という連語を「登校する」に置き換える処理を行な
うものとして説明したが、「学校に」＋「急いで」＋
「行く」を、一旦連語化処理により「急いで」＋「学校
に」＋「行く」に置き換えておけば、次の自立語処理に
おいて「すぐに」＋「登校する」に標準化することは容
易であった。更に、表記のゆれの統一処理を、自立語の
標準化処理の後に行なっているので、自立語の標準化処
理より、一旦なされた表記の統一が崩れると言うことが
ない。

【００５６】なお、上記実施例では、標準化の処理にお
いて、結果が２以上存在する場合について特に説明しな
かったが、２以上の結果が存在する場合（例えば、「売
り上げ」に対して、「売上げ」と「売りあげ」が存在す
る場合）、このうちの一つを優先的に表示し、複数の結
果が存在することを、表示することも可能である。こう
した表示は、標準化した文字のモニタ３０上での色を変
えたり、「次候補あり」といった表示を行なうことで、
容易に実現することができる。次候補があることを表示
すれば、処理を行なっている使用者は、これにより、複
数の結果が存在することを知ることができ、好適であ
る。他の候補を選択する場合には、カーソルを表示され
ている文節に移動し、「次候補」キーを押すことで、次
候補を表示し、必要があれば、複数の候補から所望の候
補を選択すればよい。

【００５７】この他、本実施例では、ログ管理部２５０
により、標準化のログを管理しているので、入力した文
書に対して行なわれた標準化の処理の詳細を残しておく
ことも可能である。入力した文章の何番目の文の何番目
の単語に対して、どんな処理を行なったか、という形で
ログを記録しておければ、いつでも、標準化した後の文
から元の文を復元することもできる。また、ログ出力部
２８０から出力されたログを解析することにより、どの
タイプの標準化が多用されたかといった解析を行なうこ
ともでき、標準化を実施した対象である文章の趣（文語
的な文か、くだけた口語文か等）や癖（長音を落としや
すいか等）を分析することも可能である。

【００５８】（４）第２実施例の説明：次に、本発明の
第２実施例として、文書の検索方法と検索を行なう装置
について説明する。第１実施例として説明した文書の標
準化の処理により完成された文書データベースＴＤＢ
は、外部に公開され、自由な使用、または登録した会員
の使用に供される。このとき、文書データベースＴＤＢ
に直接アクセスするような構成も可能であるが、ネット
ワーク１０を介して不特定多数のクライアントからアク
セス可能とするには、例えば、文書データベースＴＤＢ
をアクセスするためのＣＧＩを備えたサイトを、サーバ
２００内に用意し、クライアント４０は、ネットワーク
１０を経由して、いわゆるブラウザから、この文書デー
タベースＴＤＢにアクセスできるようにするのが通常で
ある。そこで、第２実施例として、文書データベースＴ
ＤＢを用いて、ウェブページの検索を行なう手法につい
て、説明する。図１７は、クライアント４０において実
行される検索時の処理を示すフローチャートである。ま
ず、検索を開始するクライアント４０は、検索用に用意
されたサーバ２００内のサイトにアクセスする（ステッ
プＳ４００）。この結果、図１８に示すような、検索画
面が表示される。

【００５９】そこで、クライアントは、この画面に用意
された検索用の文字列を入力するボックスＫＢに、検索
内容を、日本語による文章として入力する（ステップＳ
４１０）。例えば、図１８に示したように、文字列を入
力するボックスＫＢに、「俺が登校した」などと自然文
で入力するのである。このとき、検索文の入力に並行し
て、「検索」ボタンＢＢが押されたかを監視し（ステッ
プＳ４２０）、検索ボタンが押された時には、入力され
た文章を読み取り、図１８に示した入力の場合には、こ
の文章を形態素解析して、第１実施例で説明した標準化
処理を行なう（ステップＳ４３０）。なお、検索は、必
ずしも文章による入力に基づいて行なう必要はなく、例
えばキーワードを入力して、一または複数のキーワード
により検索するものとしても良いし、キーワードと検索
分野を指定して検索するものとしても良い。

【００６０】こうして得られた標準化された検索文から
切り出された検索語（図１８の例では「僕」や「登
校」）ＤＳ１，ＤＳ２を利用して、文書データベースＴ
ＤＢの検索を行なう（ステップＳ４４０）。検索の結
果、一致する文を有する文書が見つかればその検索結果
を出力するのである（ステップＳ４５０）。出力された
検索結果は、ネットワーク１０を介してクライアントに
送られ、クライアント４０側の画面に表示される。

【００６１】以上説明した第２実施例によれば、予め標
準化されて登録された文書データベースに対して、自然
な日本語文を用いて検索を行なうことができる。この場
合、検索を行なうとする使用者の言葉の癖を標準化によ
り低減してから検索を行なうので、検索により所望の文
書を見い出し易くなっている。このため、検索語の入力
について複雑な規則を熟知している必要がなく、特別な
訓練を積んだサーチャでなくても容易に検索を行なうこ
とができる。

【００６２】以上、本発明の実施の形態について説明し
たが、本発明はこうした実施の形態に何等限定されるも
のではなく、本発明の要旨を逸脱しない範囲内におい
て、更に種々なる形態で実施し得ることは勿論である。
例えば、文書データベースは、全文データベースに替え
て、キーワードを用いたデータベースとしても良い。ま
た、翻訳装置に応用することも可能である。翻訳は、単
に文法情報を用いて言語間の変換を行なおうとしても上
手く行かず（必要な規則が無限に大きくなる）、むしろ
豊富な用例を用意し、翻訳にマッチした用例を見い出し
て、これを適用するような形で訳した方が、意味的に正
確な翻訳にできることが知られている。そこで、与えら
れたテキストデータに、本発明を適用して文書を標準化
しておき、これを利用して用例を特定するのを容易にす
るといった使い方が可能である。

【図面の簡単な説明】

【図１】本発明の実施例における全体構成を示す概略構
成図である。

【図２】第１実施例における標準化処理を実現する構成
を示すブロック図である。

【図３】実施例における標準化処理ルーチンを示すフロ
ーチャートである。

【図４】形態素解析処理ルーチンを示すフローチャート
である。

【図５】逆引き辞書の構成を例示する説明図である。

【図６】文字の標準化処理ルーチンを示すフローチャー
トである。

【図７】文字の標準化処理の内容を例示する説明図であ
る。

【図８】共起の連語化処理ルーチンを示すフローチャー
トである。

【図９】連語化の処理様子を示す説明図である。

【図１０】同じく連語化における文節の入れ替えの様子
を示す説明図である。

【図１１】同じく連語化の様子を示す説明図である。

【図１２】自立語の標準化処理ルーチンを示すフローチ
ャートである。

【図１３】図１３は、自立語の置き換えの様子を模式的
に示した説明図である。

【図１４】常用漢字外の忌避がオンになっている場合の
自立語の置き換えの一例を示す説明図である。

【図１５】いずれの置き換えを行なうか否かを示す標準
化規則ＤＡＤの一例を示す説明図である。

【図１６】付属語の置き換えの様子を模式的に示した説
明図である。

【図１７】第２実施例として、クライアント４０におい
て実行される検索時の処理を示すフローチャートであ
る。

【図１８】第２実施例における検索画面の一例を示す説
明図である。

【符号の説明】

１０…ネットワーク１１…キーボード１２…マウス２０…ルータ２２…ＣＰＵ２３…ＲＯＭ２４…ＲＡＭ２５…タイマ２６…表示回路２７…ハードディスク３０…モニタ４０…クライアント２００…データベースサーバ２０５…文書入力部２１０…形態素解析部２２０…辞書検索部２３０…形態素解析用辞書２４０…データベース２４０…標準化ルールデータベース２５０…標準化処理部２６０…データベース２６０…ログ管理部２７０…ハードディスク２７０…文書出力部２８０…ログ出力部

───────────────────────────────────────────────────── フロントページの続き (72)発明者河西庸雄長野県諏訪市大和三丁目３番５号セイコーエプソン株式会社内 (72)発明者細田達矢長野県諏訪市大和三丁目３番５号セイコーエプソン株式会社内 (72)発明者鈴木勝仁長野県諏訪市大和三丁目３番５号セイコーエプソン株式会社内Ｆターム(参考） 5B009 QA03 QA14 QA15 QA16 VA09 5B075 ND26 QP02 QP03

Claims

【特許請求の範囲】

【請求項１】文書標準化方法であって、一定のまとまりを持った文書を入力し、該文書を形態素解析して、文法情報を伴う単語を切り出
し、該切り出した単語に対して、予め定めた標準化の処理を
行ない、該標準化された後の単語から再構成された文書を出力す
る文書標準化方法。
【請求項２】請求項１記載の標準化方法であって、前記予め定めた標準化の処理は、少なくとも（ａ）予め
定めた文字に置き換える文字の標準化、（ｂ）共起関係
を有する単語の関係を予め定めた関係に修正する連語化
処理、（ｃ）表記のゆれを予め定めた表記に統一する表
記の統一処理、（ｄ）自立語を、予め定めた置き換えの
基準に従って、他の自立語に置き換える自立語処理、
（ｅ）付属語を、所定の規則に従って他の付属語に置き
換える付属語処理のうちの一つを含む標準化方法。
【請求項３】請求項１記載の標準化方法であって、前記標準化の処理は、予め用意した辞書を参照すること
により、単語の置き換えを行なう処理であることを特徴
とする標準化方法。
【請求項４】請求項１記載の標準化方法であって、前記形態素解析は、予め用意した形態素解析用の辞書を
用いることを特徴とする標準化方法。
【請求項５】文字の標準化の処理（ａ）の後に自立語
処理（ｄ）を行なうことを特徴とする請求項２記載の標
準化方法。
【請求項６】連語化処理（ｂ）の後に自立語処理を行
なうことを特徴とする請求項２記載の標準化方法。
【請求項７】表記の統一処理（ｃ）を、少なくとも自
立語処理（ｄ）の後に行なうことを特徴とする請求項２
記載の標準化方法。
【請求項８】請求項１記載の標準化方法であって、前記標準化の処理の際に、標準化の結果が２以上存在す
る場合には、該２以上の結果のうちの一つを表示すると
共に、複数の結果が存在することを表示する標準化方法。
【請求項９】請求項８記載の標準化方法であって、使用者の操作に応じて、前記表示した結果以外の結果を
次候補として順次表示する標準化方法。
【請求項１０】文書データベースの構築方法であっ
て、一定のまとまりを持った文書を入力し、該文書を形態素解析して、文法情報を伴う単語を切り出
し、該切り出した単語に対して、予め定めた標準化の処理を
行ない、該標準化された後の単語から再構成された文書をデータ
ベースとして蓄積する文書データベースの構築方法。
【請求項１１】文書検索方法であって、文書の検索に先立って、一定のまとまりを持った文書を入力し、該文書を形態素解析して、文法情報を伴う単語を切り出
し、該切り出した単語に対して、予め定めた標準化の処理を
行ない、該標準化された後の単語から再構成された文書を予めデ
ータベースとして蓄積しておき、文書の検索時に、指定された検索用単語と前記データベースに蓄積された
文書とを比較して、該検索用単語が含まれる文書を特定
する文書検索方法。
【請求項１２】テキストデータから構成された文書を
標準化する装置であって、一定のまとまりを持った文書を入力する入力手段と、該文書を形態素解析して、文法情報を伴う単語を切り出
す形態素解析手段と、該切り出した単語に対して、予め定めた標準化の処理を
行なう標準化処理手段と、該標準化された後の単語から再構成された文書を出力す
る文書出力手段とを備えた文書標準化装置。
【請求項１３】請求項１２記載の文書標準化装置であ
って、前記標準化処理手段は、予め定めた標準化の処理を行な
う（ａ）予め定めた文字に置き換える文字標準化手段、
（ｂ）共起関係を有する単語の関係を予め定めた関係に
修正する連語化処理手段、（ｃ）表記のゆれを予め定め
た表記に統一する表記の統一処理手段、（ｄ）自立語
を、予め定めた置き換えの基準に従って、他の自立語に
置き換える自立語処理手段、（ｅ）付属語を、所定の規
則に従って他の付属語に置き換える付属語処理手段のう
ちの少なくとも一つを備えた文書標準化装置。
【請求項１４】文書データベースの構築装置であっ
て、一定のまとまりを持った文書を入力する入力手段と、該文書を形態素解析して、文法情報を伴う単語を切り出
す形態素解析手段と、該切り出した単語に対して、予め定めた標準化の処理を
行なう標準化処理手段と、該標準化された後の単語から再構成された文書をデータ
ベースとして蓄積する文書蓄積手段とを備えた文書デー
タベースの構築装置。
【請求項１５】文書検索装置であって、文書の検索に先立って動作する一定のまとまりを持った
文書を入力する手段と、該文書を形態素解析して、文法情報を伴う単語を切り出
す形態素解析手段と、該切り出した単語に対して、予め定めた標準化の処理を
行なう標準化処理手段と、該標準化された後の単語から再構成された文書を予めデ
ータベースとして蓄積しておく蓄積手段とを備え、更
に、文書の検索時に動作する指定された検索用単語と前記デ
ータベースに蓄積された文書とを比較して、該検索用単
語が含まれる文書を特定する検索手段を備えた文書検索
装置。
【請求項１６】一定のまとまりを有するテキストデー
タを標準化する処理をコンピュータに行なわせるプログ
ラムであって、該テキストデータを形態素解析して、文法情報を伴う単
語を切り出す機能と、該切り出した単語に対して、予め定めた標準化の処理を
行なう機能と、該標準化された後の単語から再構成された文書を出力す
る機能とを実現させるためのプログラム。
【請求項１７】請求項１６記載のプログラムであっ
て、前記予め定めた標準化の処理を行なう機能には、少なく
とも（ａ）予め定めた文字に置き換える文字の標準化の
機能、（ｂ）共起関係を有する単語の関係を予め定めた
関係に修正する連語化処理の機能、（ｃ）表記のゆれを
予め定めた表記に統一する表記の統一処理の機能、
（ｄ）自立語を、予め定めた置き換えの基準に従って、
他の自立語に置き換える自立語処理の機能、（ｅ）付属
語を、所定の規則に従って他の付属語に置き換える付属
語処理の機能のうちの一つを含むプログラム。
【請求項１８】一定のまとまりを有するテキストデー
タを標準化する処理をコンピュータに行なわせるプログ
ラムを記録した記録媒体であって、該テキストデータを形態素解析して、文法情報を伴う単
語を切り出す機能と、該切り出した単語に対して、予め定めた標準化の処理を
行なう機能と、該標準化された後の単語から再構成された文書を出力す
る機能とを実現させるためのプログラムをコンピュータ
に読み取り可能に記録した媒体。
【請求項１９】請求項１８記載の記録媒体であって、前記予め定めた標準化の処理を行なう機能には、少なく
とも（ａ）予め定めた文字に置き換える文字の標準化の
機能、（ｂ）共起関係を有する単語の関係を予め定めた
関係に修正する連語化処理の機能、（ｃ）表記のゆれを
予め定めた表記に統一する表記の統一処理の機能、
（ｄ）自立語を、予め定めた置き換えの基準に従って、
他の自立語に置き換える自立語処理の機能、（ｅ）付属
語を、所定の規則に従って他の付属語に置き換える付属
語処理の機能のうちの一つが含まれる記憶媒体。