JP2002288175A - 文書の標準化 - Google Patents

文書の標準化

Info

Publication number
JP2002288175A
JP2002288175A JP2001091888A JP2001091888A JP2002288175A JP 2002288175 A JP2002288175 A JP 2002288175A JP 2001091888 A JP2001091888 A JP 2001091888A JP 2001091888 A JP2001091888 A JP 2001091888A JP 2002288175 A JP2002288175 A JP 2002288175A
Authority
JP
Japan
Prior art keywords
document
standardization
word
processing
predetermined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001091888A
Other languages
English (en)
Other versions
JP3937741B2 (ja
Inventor
Yasuo Koyama
泰男 小山
Koji Yamada
孝司 山田
Yasuo Kasai
庸雄 河西
Tatsuya Hosoda
達矢 細田
Katsuhito Suzuki
勝仁 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2001091888A priority Critical patent/JP3937741B2/ja
Publication of JP2002288175A publication Critical patent/JP2002288175A/ja
Application granted granted Critical
Publication of JP3937741B2 publication Critical patent/JP3937741B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文書のデータベースを構築する際、日本語は
派生語や表記のゆれが大きいため、そのままでは検索が
困難であった。 【解決手段】 入力したテキストデータを形態素解析し
て(ステップS310)、予め定めた文字に置き換える
文字の標準化処理(ステップS320)、共起関係を有
する単語の関係を予め定めた関係に修正する連語化処理
(ステップS330)、自立語を、予め定めた置き換え
の基準に従って、他の自立語に置き換える自立語処理
(ステップS340)、表記のゆれを予め定めた表記に
統一する表記の統一処理(ステップS350)、付属語
を、所定の規則に従って他の付属語に置き換える付属語
処理(ステップS360)、を順次行なうことで、文書
を標準化し、データベースTDBを構築し検索を容易に
する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書に対して処理
を行なうことにより、文書を標準化する技術に関する。
【0002】
【従来の技術】テキストデータの検索は、特許公報や文
献データベースの検索など、様々な分野で必要とされて
いるが、大量のテキストデータを単にデータベースとし
て蓄積しておき、パターンマッチングの技術を用いて、
蓄積した文書から目的の単語が含まれるものを検索する
のが通常である。この場合、検索を容易にしようとすれ
ば、シソーラスなどを用いて、検索しようとする単語と
よく似た概念語の検索を行なったり(例えば、検索語が
「自動車」である場合に、「車」や「車両」も検索語と
して検索を行なったり)、あるいは表記の相違を考慮し
て検索を行なったり(例えば、「車両」に対して「車
輌」も検索語として検索を行なったり)することが提案
されている。
【0003】かかる手法を実現するには、文書をデータ
ベースに登録する際に、検索の対象となりそうな言葉を
派生させて、文書のキーワードとして記憶しておいた
り、検索を行なう際に、正規表現と呼ばれるような表現
形式を用いて、一文字違いなどの単語などを検索の対象
とするといった対応が採られていた。例えば、特開平1
0−240742号では、文字列情報の蓄積時に、入力
された原文字列以外の入力候補文字列を生成し、この入
力候補文字列を蓄積文字列に変換して、データベースに
蓄積している。また、検索時には、検索者が、検索する
ための検索文字列情報を入力すると、この検索文字列以
外で検索可能な検索候補文字列を生成し、検索文字列情
報と、蓄積されている蓄積文字列とを照合することによ
り、検索を行なっている。
【0004】
【発明が解決しようとする課題】しかしながら、かかる
手法では、データベースへの登録時に、多数の単語につ
いてそれぞれ派生語を生成せねばならず、処理に膨大な
手間を要するという問題があった。例えば、「切換」と
いう用語に「切り換え」「切替」「切り替え」「切替
え」などの表記のゆれが存在する場合、これら全ての候
補文字列を、蓄積しようとしている文書毎に発生され、
かつ記憶したのでは、処理に時間を要し、しかも膨大な
記憶容量が必要となってしまう。
【0005】また、異なる単語に異なる表現のゆれなど
が存在する場合、例えば「切り替え」と「書き換え」と
いう単語を考えると、一方を「切替」に統一すること
と、他方を「書替」に統一することは、それぞれ別の作
業になるので、いちいち指定しなければならないという
問題があった。更に、上記の「切り替え」の例のよう
に、複数の表記が存在する場合、どの表記を用いるか、
という指定を行なわねばならなかった。
【0006】本発明は、こうした問題を解決し、文書の
標準化を行なうことで、その後の種々の文書処理、例え
ば検索の手間を減らすことを目的とする。
【0007】
【課題を解決するための手段およびその作用・効果】上
記課題の少なくとも一部を解決する本発明の文書標準化
方法は、一定のまとまりを持った文書を入力し、該文書
を形態素解析して、文法情報を伴う単語を切り出し、該
切り出した単語に対して、予め定めた標準化の処理を行
ない、該標準化された後の単語から再構成された文書を
出力することを要旨としている。
【0008】また、これに関連してなされた文書データ
ベースの構築方法の発明は、一定のまとまりを持った文
書を入力し、該文書を形態素解析して、文法情報を伴う
単語を切り出し、該切り出した単語に対して、予め定め
た標準化の処理を行ない、該標準化された後の単語から
再構成された文書をデータベースとして蓄積することを
要旨としている。
【0009】更に、これらに関連してなされた文書検索
方法の発明は、文書の検索に先立って、一定のまとまり
を持った文書を入力し、該文書を形態素解析して、文法
情報を伴う単語を切り出し、該切り出した単語に対し
て、予め定めた標準化の処理を行ない、該標準化された
後の単語から再構成された文書を予めデータベースとし
て蓄積しておき、文書の検索時に、指定された検索用単
語と前記データベースに蓄積された文書とを比較して、
該検索用単語が含まれる文書を特定することを要旨とし
ている。
【0010】かかる発明においては、文書を形態素解析
することにより文法情報を伴って単語を切り出すので、
これに対して適切な標準化を施すことができる。即ち、
単語の切り出しを行なっていることから、単純な置き換
えではなく、単語単位で適切な標準化を施すことができ
る。標準化した単語から再構成した文書は、例えばファ
イルとしてあるいはディスプレイに、出力しても良い
し、再構成した文書としてデータベースの構築に用いて
も良い。かかるデータベースでは、文書は、原則として
標準化されて蓄積されているから、検索を極めて容易に
行なうこともできる。
【0011】かかる標準化において、前記予め定めた標
準化の処理としては、少なくとも (a)予め定めた文字に置き換える文字の標準化、
(b)共起関係を有する単語の関係を予め定めた関係に
修正する連語化処理、(c)表記のゆれを予め定めた表
記に統一する表記の統一処理、(d)自立語を、予め定
めた置き換えの基準に従って、他の自立語に置き換える
自立語処理、(e)付属語を、所定の規則に従って他の
付属語に置き換える付属語処理のうちの一つを含ませる
ことができる。これらの処理のうち、少なくとも一つを
採用することで、文書の標準化を様々なレベルで行なう
ことができる。
【0012】これらの標準化の処理は、予め用意した辞
書を参照することにより、単語の置き換えを行なう処理
として実現することができる。形態素解析により文法情
報を伴って単語を切り出しているので、辞書を参照する
ことは容易である。かかる形態素解析についても、予め
用意した形態素解析用の辞書を用いて実現することがで
きる。もとより、アルゴリズムに依拠して形態素解析を
行なうことも可能である。
【0013】上記の複数の標準化処理は、様々な順序で
実施可能であるが、例えば文字の標準化の処理(a)の
後に自立語処理(d)を行なうことも好適である。こう
すれば、例えば半角の「WINDOWS」と「ウィンドウ
ズ」、および全角の「WINDOWS」「ウィンドウ
ズ」といった自立語のばらつきを、簡単な操作で確実に
標準化することができる。
【0014】また、連語化処理(b)の後に自立語処理
を行なうことをも同様に好適である。連語化処理とは、
共起関係にある単語の関係を予め定めた関係に修正する
ものであり、連語化処理を予めしておくことで、自立語
処理をより確実に行なうことができる。例えば、「腹
が」+「立つ」という連語を「怒る」に置き換える自立
語処理を行なうものとした場合、「腹が」+「ひどく」
+「立つ」を、一旦連語化処理により「ひどく」+「腹
が」+「立つ」に変換しておけば、次の自立語処理によ
り、「ひどく」+「怒る」に標準化することは容易であ
る。更に、表記の統一処理(c)を、少なくとも自立語
処理(d)の後に行なうことも好適である。こうするこ
とで、自立語処理より、表記の統一が崩れると言うこと
がない。
【0015】また、前記標準化の処理の際に、標準化の
結果が2以上存在する場合には、該2以上の結果のうち
の一つを表示すると共に、複数の結果が存在することを
表示することも望ましい。標準化の処理を行なっている
使用者は、これにより、複数の結果が存在することを知
ることができ、場合によっては、他の候補を選択するこ
とができるからである。使用者の操作に応じて、前記表
示した結果以外の結果を次候補として順次表示すること
も、候補選択の面から望ましい。
【0016】なお、これらの発明は、いずれも上記の方
法を実行する装置の発明、コンピュータ上で実行され、
上記の機能を実現するプログラムの発明、こうしたプロ
グラムを記録した記録媒体としての発明として、それぞ
れ把握することができる。装置は、コンピュータ上でプ
ログラムが実行されることで、上記の文書の入力、形態
素解析、標準化、出力、データベースの構築などを実現
するものであっても良いし、ディスクリートな回路構成
より実現するものであっても良い。また、プログラム
は、C言語やパスカル、フォートラン、コボル、BAS
IC、等の周知のプログラム言語が採用可能であり、オ
ブジェクト指向のプログラム言語、あるいはJavaS
cript等の言語などを利用することも可能である。
記録媒体としては、フレキシブルディスク,CD−RO
M,DVD−ROM,半導体メモリ(ROM,PRO
M,EEPROM,フラッシュメモリ等)など、種々の
記録媒体を用いることができる。もとより、インターネ
ットなどのネットワーク上に置かれたサーバにこれらの
プログラムを記憶しておき、クライアントのコンピュー
タにダウンロードして利用することも可能である。
【0017】
【発明の他の態様】本願発明の標準化の技術は、例えば
翻訳などにも用いることができる。翻訳では、翻訳例を
データベース化することが有効であり、こうしたデータ
ベースを翻訳者の作成した文書の癖などから自由なプレ
ーンなテキストにより構築することは、翻訳のための検
索において極めて有用である。また、インターネットな
どの検索エンジンがネット上の多数のウェブを検索し、
これをデータベース化する際にも、同様の標準化を適用
することは有効である。ウェブサイトなどの作成は、基
本的には個人の責任に委ねられているので、文書の表現
の統一がなされていないからである。
【0018】
【発明の実施の形態】以下、本発明の実施の形態を実施
例に基づいて説明する。 (1)実施例の構成:はじめに、実施例の構成について
図1を用いて説明する。図1は本実施例のデータベース
構築を行なうシステムを示す概略構成図である。このシ
ステムは、インターネットのような大規模なネットワー
ク10に接続されたデータベースサーバ200として実
現されている。ネットワーク10には図示しないクライ
アントが接続されている。
【0019】データベースサーバ200は、モデムやル
ータ20を介してネットワーク10とのデータのやり取
りを制御するネットワークインタフェース(NT−I/
F)21、処理を行なうCPU22、処理プログラムや
固定的なデータを記憶するROM23、ワークエリアと
してのRAM24、時間を管理するタイマ25、モニタ
30への表示を司る表示回路26、後述する各種のデー
タを蓄積するハードディスク(HD)27、キーボード
11やマウス12とのインタフェースを司る入力インタ
フェース(I/F)28等を備える。なお、ハードディ
スク27は、固定式のものとして記載したが、着脱式の
ものでも良いし、着脱式の記憶装置(例えばCD−RO
M、CD−R、CD−RW、DVD−ROM、DVD−
RAM、フレキシブルディスクなど)を併用することも
可能である。また、この実施例では、サーバ200の処
理プログラムは、ROM23内に記憶されているものと
したが、ハードディスク27に記憶しておき、起動時に
RAM24上に展開して実行するものとしても良い。あ
るいは、上述した着脱式の記録媒体から読み込むものと
しても良い。更には、ネットワーク10を介して、他の
サーバから読み込んで実行するものとしても良い。
【0020】図1に示したサーバ200は、キーボード
11から入力した文書(テキストデータ)や、ネットワ
ーク10を介して外部から取り込んだテキストデータ
を、標準化して、最終的にはハードディスク27に文書
データベースを構築する。その後、データベース化され
た文書データに対して、検索処理を行なうこともできる
が、この検索処理は、サーバ200から行なっても良い
し、ネットワーク10を介して接続された各クライアン
トから行なうこともできる。
【0021】サーバ200内には、上述のように、CP
U22やROM23などのハードウェアが設けられてい
るが、かかるサーバ200内において後述するプログラ
ムを実行することにより、図2に示した構成を実現する
ことができる。即ち、サーバ200は、図2に示した機
能実現手段をディスクリートに設けたのと同じ働きを実
現する。サーバ200は、図示するように、文書入力部
205,形態素解析部210、辞書検索部220,形態
素解析用辞書230,標準化ルールデータベース24
0,標準化処理部250,ログ管理部260,文書出力
部270,ログ出力装置280などを備える。
【0022】ここで、文書入力部205は、文書を入力
する処理を実現するものであり、キーボード11から文
書を入力したり、予めハードディスク27などに記憶し
ている文書を取り込んだりするものである。形態素解析
部210は、入力した文書のテキストデータを形態素解
析するものであり、漢字仮名混じりのテキストデータの
形態素を解析して、テキストデータを構成する自立語や
付属語などを、その文法情報と共に取得するものであ
る。標準化処理部250は、形態素解析されたテキスト
データに対して標準化の処理を実行するものであり、実
行される標準化の処理としては、(a)文字の標準化処
理(予め定めた文字に置き換える文字の標準化)、
(b)連語化処理(共起関係を有する単語の関係を予め
定めた関係に修正する処理)、(c)表記の統一処理
(表記のゆれを予め定めた表記に統一する処理)、
(d)自立語処理(自立語を、予め定めた置き換えの基
準に従って、他の自立語に置き換える処理)、(e)付
属語処理(付属語を、所定の規則に従って他の付属語に
置き換える処理)がある。これらの処理は全て実行され
る必要はなく、使用者の設定により、必要な処理(少な
くとも一つの処理)が実行される。
【0023】文書出力部270は、標準化されたテキス
トデータを外部に出力するものである。本実施例では、
テキストデータは、ハードディスク27にデータベース
として保存されるものとしたが、単純に標準化処理後の
テキストデータをモニタ30上に表示するものとしても
良いし、図示しないプリンタなどに印字するものとして
も良い。あるいは、ネットワーク10を介して外部のク
ライアントマシンに出力するものとしても良い。
【0024】辞書検索部220は、形態素解析用辞書2
30と標準化ルールデータベース240を参照するため
のものである。形態素解析部210や標準化処理部25
0は、辞書やデータベースを参照する必要が生じると、
この辞書検索部220を介して、辞書230やデータベ
ース240をアクセスし、必要な情報を取り出し、それ
ぞれ形態素解析部210や標準化処理部250に渡す。
なお、辞書検索部220は、形態素解析用辞書230や
標準化ルールデータベース240毎に別々に設けても差
し支えない。
【0025】ログ管理部260とログ出力部280は、
標準化の処理のログを管理し、これを出力するものであ
る。標準化の処理は、上述したように、文字の標準化か
ら連語化処理まで、様々なレベルに及ぶので、どのよう
な処理を行なったか、必要に応じて参照できるよう、ロ
グを管理し出力するのである。ログには、処理対象とな
った文書、実施された標準化処理の内容、その結果、エ
ラーなどの情報が保存される。
【0026】(2)実施例における処理の概要:そこ
で、次に標準化処理部250において実現される標準化
処理について、図3に依拠しつつ説明する。図3は、標
準化処理部250が実行する処理の概要を示す説明図で
ある。この図では、標準化処理部250は、全ての標準
化処理を実行するものとして記載しているが、実際に
は、少なくともいずれか一つの標準化処理が実行される
場合も存在する。いずれの標準化処理ないしそれらの任
意の組合わせを実行するかは、使用者が初期設定(プロ
パティなど)により定めるものとなっている。図3に示
した標準化処理ルーチンが起動されると、まず、文書を
読み込む処理が実行される(ステップS300)。この
処理は、文書入力部205に相当する処理であり、キー
ボード11から文書を入力するものとしても良いし、既
に作られてハードディスク27などに保存されている処
理用の文書TXT(テキストデータ)を読み出すものと
してもよい。従って、例えば標準化処理の実行を示すア
イコンを、モニタ30のいわゆるデスクトップに表示し
ておき、マウス12によりテキストファイルをドラッグ
アンドドロップすることにより、図3に示した標準化処
理が起動され、そのテキストファイルが、読み込まれる
ものとすることもできる。
【0027】文書の読み込みは、一括して全データを読
み込むという形で実現しても良いし、テキストデータか
ら改行などを区切りコードとして、順次読み込む形態と
しても良い。可能であれば、句読点などを用いて「文」
単位で読み込んでも良い。いずれの場合でも、一つ一つ
の文には、識別番号を付与して、その後に管理に用いる
ことが望ましい。なお、テキストデータは、RAM24
上に実際に展開して処理可能な状態としても良いし、識
別番号を付けてからハードディスク27などにランダム
アクセスあるいはシーケンシャルアクセス可能に保存し
てもよい。
【0028】こうして文書の読込を行なった後、まず形
態素解析処理を行なう(ステップS310)。これは、
形態素解析部210に相当する処理であり、辞書検索部
220を介して形態素解析用辞書230を参照する処理
に相当する。実際には、ハードディスク27に記憶され
た逆引き辞書IDCを参照して、文書を構成する単語を
形態素解析により定める。形態素解析処理の詳細を図4
に示した。以下、図4に基づいて、形態素解析の処理に
ついて説明する。なお、逆引き辞書とは、通常の仮名漢
字変換用辞書が、仮名文字を見出しにして漢字やカタカ
ナ等の変換文字列が、文法情報と共に配列されているの
に対して、図5に示すように、これが逆に配列されてい
る辞書である。従って、例えば「学校」という文字列か
ら「がっこう」という読みと名詞という文法情報などを
取り出すことができる。
【0029】形態素解析処理が開始されると、まず識別
番号をつけた一つの文が、解析の対象として特定され、
この文の先頭からM文字目(M=1,2,・・・・)か
らL文字分(L=1,2,・・・)を取り出して逆引き
辞書IDCを引く処理を行なう(ステップS12)。M
は、着目している文字列の先頭位置を、Lは、取り出す
文字数を、それぞれ示していることになる。逆引き辞書
の参照の手法は、まずM=1、即ち先頭位置から、L=
1、即ち1文字分の文字を取り出し、辞書を参照して該
当語を取り出す処理から開始する。Lを順次インクリメ
ントしながら辞書IDCを参照し、該当する見出し語が
なくなれば、着目する文字列の先頭位置Mをインクリメ
ントし、再度文字数Lを1に戻して、辞書の検索を行な
う。こうして着目する文字の位置か、解析しようとする
文の文字数を超えたところで、辞書の参照をうち切る。
【0030】例えば、「DDという車は、品質を重視し
たセダンである。」という文章に対して、逆引き辞書I
DCを参照すると、「DD」「と」「いう」「という」
「い」「う」「車」「は」「品質」「を」「重視」「し
た」「し」「た」「セダン」「で」「ある」「である」
「あ」といった語を切り出すことができる。ここで、
「い」や「う」「あ」「し」「た」などの仮名一音も、
語として切り出しているのは、「いう(言う)」の語幹
「い」や「うる(売る)」の語幹「う」などが、文中に
現れる可能性があるからである。
【0031】逆引き辞書IDCには、これらの語がその
文法情報と共に記憶されている。そこで、切り出した語
を次に文法情報に従って並べて、破綻しない配列を見い
出す処理を行なう。かかる解析は、例えば複数文節最長
一致法や最小コスト法といった手法が知られており、所
定の語の組合わせのうちどれが最も日本語としてもっと
もらしいかを検定するのである。本実施例では、最小コ
スト法を採用しているので、こうして得られた多数の文
字列を対象として、次にコスト計算を行なう(ステップ
S314)。コスト計算とは、文字列の配列に対して、
日本語らしい配列ほど点数が低くなるように予め用意さ
れた文字列のコストを計算する処理である。その規則は
大まかに言えば、自立語はコスト2、これに付属語が付
属する場合はコスト0、といったものである。例えば、
「品質を」を例にとると、「品質」+「を」ではあれ
ば、自立語+付属語(助詞)の結びつきとなって、コス
ト2、「品」+「質」+「を」であれば、自立語+自立
語+付属語(助詞)となってコストは4となるのであ
る。最小コスト法のルールは、現実の日本語にあわせて
チューニングされており、「まったく」+「ない」など
の共起関係にある単語が文中に生じる場合は、コスト
「−1」など、様々な規則が用意されている。
【0032】こうして、逆引き辞書の参照により得られ
た全ての単語について、上記のコストを計算し、そのう
ちで最小のコストになる文を特定する処理を行なう(ス
テップS315)。上記の例では、「品」(自立語・名
詞)+「質」(自立語・名詞)+「を」(付属語・助
詞)よりも、「品質」(自立語・名詞)+「を」(付属
語・助詞)の方が、日本語として確からしいと判断する
のである。もとより、この計算は、少なくとも文を単位
として行なわれ、文全体で、コストが最小になるような
単語の配列を選択する。従って、例えば共起関係による
コストの低減などがあれば、「品質」+「を」に替え
て、「品」+「質」+「を」が選択される場合も存在す
る。
【0033】こうして最小コスト法による形態素解析が
完了すると、次に文構造の解析処理を行なう(ステップ
S316)。この処理は、文を構成している単語の結び
つき方を、論理積と論理和により表現するものであり、
例えば複文を、二つの文に分離する場合などに利用され
る。本実施例では、特にこの点については説明しない。
以上の処理を行なった後、形態素解析されたデータを出
力する処理を行なう(ステップS318)。データは、
そのまま次の標準化処理に渡されても良いし、一旦ハー
ドディスク27に識別コード付きで保存されるものとし
ても良い。
【0034】こうして形態素解析された文に対して、次
に各種の標準化の処理が実行される(図3参照)。標準
化の処理としては、 文字の標準化処理(ステップS320) 連語化処理(ステップS330) 自立語処理(ステップS340) 表記の統一処理(ステップS350) 付属語処理(ステップS360) がある。なお、各標準化の処理は、既に説明したよう
に、全てを実行する必要はなく、使用者の意図に合致し
た処理のみ実施しすればよい。また、複数の標準化処理
を実施する場合、上記の順に限るものではなく、その他
の順序で実施することも可能である。
【0035】まず、文字の標準化の処理について、図6
を参照しつつ説明する。文字の標準化処理が起動される
と、まず標準化規則CSDを参照する処理を実行する
(ステップS322)。この標準化規則CSDは、予め
ハードディスク27に記憶されているものであり、文字
の標準化をどのような規則に沿って行なうかを定めたも
のである。こうした規則は、一応デフォルトが設定され
ているが、使用者により変更可能なものとなっている。
この実施例における文字の標準化とは、図7に示したよ
うに、括弧、引用符、一般記号、英数字、句点、読点、
半角カタカナ、名前の繋文字、長音記号を、一定の規則
で置き換える処理を言う。このうち図7の欄Aに「×」
で示したものは、置き換えに際して周りの文字を考慮す
る必要がないことを、「○」は周囲の文字を考慮する必
要があることを、それぞれ示している。また、欄Bは、
置き換えの範囲を示しているが、ここで「文」が置き換
えの範囲になる場合があるとされているので、例えば
「−」(マイナス記号)と「−」(長音記号)とが相違
している場合などには、長音記号に置き換えると、形態
素解析の結果に影響を与える場合があるからである。従
って、長音記号の置き換えなどを行なった場合には、逆
引き辞書IDCを参照して、文構成を変更することがあ
る。
【0036】文字の標準化の例として、句点や読点を取
り上げると、まずこれらについては、デフォルト
で「、」「。」に置き換えられるように設定されてい
る。従って、「コーヒーは,うまい.」という文に対し
て、文字の置き換えが行なわれると、「コーヒーは、う
まい。」となる。もっとも、この設定は、変更可能なの
で、句点として「。」が、読点として「,」に設定が変
更されていれば、「コーヒーは,うまい。」となる。な
お、欄Aに示したように、周りの文字を考慮するとなっ
ているが、周りの文字列が英文であれば、逆
に「,」「.」への置き換えがデフォルトの設定となっ
ている。
【0037】その他の文字の標準化を例示すると、 (A)括弧:『』と「」の置き換えを行なうなど、 (B)引用符:“”と””の置き換えを行なうなど、 (C)一般記号:種々の記号(例えば「:,?!」な
ど)について、半角/全角の置き換えを行なうなど、 (D)英数字:全角/半角や大文字/小文字の置き換え
を行なうなど、 (E)半角カタカナ:カタカナについて全角/半角の置
き換えを行なうなど、 (F)名前の繋文字:「クイーン=エリザベス」を「ク
イーン・エリザベス」に置き換えるなど、 がある。
【0038】これらの規則を用いて、各文字を変更する
処理を行なう(図6、ステップS324)。その後、全
ての文字についての置き換えが完了したかを判断し(ス
テップS326)、全ての文字について完了するまで、
規則に従う置き換えを実施する。
【0039】以上説明した文字の標準化処理を行なった
後、次に、共起の連語化処理(図3、ステップS33
0)を実行する。この処理の詳細を、図8に示した。以
下、この図8に従って説明する。共起の連語化処理が開
始されると、まず形態素解析により得られた文の文節N
に着目する(ステップS331)。処理の開始時にはN
=1である。次に、共起辞書RGDを参照しつつ、文節
列を後方に向かってサーチする処理を行なう(ステップ
S332)。このサーチの様子を図9に示した。図9
は、「俺は学校に急いで行くよ」という文を対象に共起
の連語化処理を行なう様子を示している。形態素解析に
より、「俺は」+「学校に」+「急いで」+「行くよ」
という文節が切り出されている。なお、詳しく言えば、
各文節内は、自立語+付属語(+付属語・・・)として
解析されている。
【0040】ここでまずN=1、即ち、「俺は」という
文節に着目し、この文節を起点としてN=2、3、4、
即ち「学校に」「急いで」「行くよ」などの文節がサー
チされる、サーチは、共起辞書RGDに記載されている
文節がないかを検証するものである。従って、正確には
文節によるサーチではなく、文節とその語幹を用いたサ
ーチである。こうしたサーチを行ないつつ、共起関係に
ある文節があるかを判断する(ステップS333)。図
9に示した例では、「俺は」については共起辞書に該当
する項目がなく、N=2、即ち「学校に」について、
「学校に行」という共起関係が、共起辞書RGDに見い
出された。共起関係にある文節が見い出された場合に
は、次に文節の入れ替えが可能であるか否かを判断する
(ステップS334)。共起関係にある二つの文節が連
続していれば、入れ替えを行なう必要はない。また、離
れた位置にある文節間に共起関係が見い出されても、文
構造上、文節の入れ替えを行なうことができない場合も
存在する。例えば、「俺は学校に電話し、それから行く
よ」という例文では、「学校に」と「行く」という共起
関係が見い出されても、「俺は電話し、それから学校に
行くよ」と入れ替えることが必ずしもできない。文構造
上の制約があるからである。
【0041】共起関係にあることが見い出された二つの
文節が離れており、かつ文構造上、文節の入れ替えが可
能であると判断された場合には、文節の位置を入れ替え
る処理を行なう(ステップS335)。この結果、図1
0に示したように、文は、「俺は急いで学校に行くよ」
となる。続いて、連語化処理を行なう(ステップS33
6)。即ち、連続する二つの文節に共起関係が認められ
るので、これを連語化して一つの文節扱いとするのであ
る。この様子を図11に示した。なお、共起関係に基づ
く連語化は、上記実施例では2文節を一つの文節に連語
化するものとして説明したが、場合によっては3文節以
上を一つの文節に連語化することも可能である。
【0042】その後、着目する文節を一つ進め(ステッ
プS337)、全ての文節について共起関係の処理が完
了したかを判断し(ステップS338)、未だ完了して
いなければ、ステップS332に戻って、処理を継続す
る。全ての文節について、共起関係の処理が完了すれ
ば、「NEXT」に抜けて、本ルーチンを終了する。な
お、上記のフローでは、共起関係にある文節の探索は、
文の先頭の文節から順に行なうものとしたが、いわゆる
「係り受け」の受け語を先に特定して探索を行なうとい
う手法を採用すれば、文の後方から順に探索するものと
することもできる。いずれから探索するかは、辞書の構
成や探索アルゴリズムに拠る。
【0043】こうして文字の標準化(図3,ステップS
320)、共起の連語化処理(ステップS330)が完
了すると、次に、自立語の標準化処理を行なう(ステッ
プS340)。この処理の詳細を、図12に示した。図
12に示した自立語の標準化処理が開始されると、まず
標準化規則を参照する処理を行なう(ステップS34
2)。この処理は、文字の標準化で参照したものと同様
に、デフォルトは予め設定してあるが、使用者により変
更可能な設定を取得するものである。もとより、この規
則は固定的なものとすることもできる。自立語の標準化
は、基本的には同一意味の自立語間の異表現の置き換え
処理である。かかる処理には、多数の類型が存在する
が、例えば、 より一般的な表現に置き換える:例、庭球→テニス 平易な表現に置き換える:例、瑠璃色→青色 常用漢字外の忌避:例、愛嬌→愛敬、挨拶→あいさつ 慣用句の平易化:例、一挙手一投足→一つ一つの動作 より使用される文字形態への置き換え:例、ウィンド
ウズ→Windows、スパイラルアップ→spiral up 連語の置き換え:例、学校に行く→登校する 等を考えることができる。
【0044】これらの処理は、実際には、標準化の対象
となっている文から順次自立語を取り出し、これを自立
語用の標準化辞書IWDを検索することにより行なわれ
る(ステップS344)。自立語用の標準化辞書IWD
は、上述した置き換え可能な自立語が、適用される規則
と共に、参照可能に構成されている。従って、標準化の
規則を取得した後、辞書を参照して、規則に合致した置
き換え語を読み出し、各単語を変更する処理(ステップ
S346)を行なうことができる。図13は、この置き
換えの様子を模式的に示した説明図である。図示するよ
うに、まず規則の設定を参照する。図において、「◎」
はその置き換えが設定(オン)されていることを、
「○」は未設定(オフ)であることを、それぞれ示して
いる。自立語の標準化処理において、上記のないし
を例にとれば、いずれの置き換えを行なうか否かが、標
準化規則として記憶されているので、これを読み出し、
次に自立語を順次読みだして、この自立語について、置
き換えを行なう語が辞書IWDに登録されているか否か
を検索し、仮に登録されていれば、現在オンになってい
る置き換え規則に合致するかを確認し、オンになってい
る置き換え規則に合致していれば、自立語の置き換えを
行なうのである。以上の処理を全単語について繰り返す
(ステップS348)。図13に示した例は、常用漢
字外の忌避がオンになっているので、「俺は」が「僕
は」に置き換えられている。また、共起関係があると認
定されて連語化された言葉も、必要に応じて、他の言葉
に置き換えられるので、この例では「学校に行」→「登
校」といった置き換えが行なわれ、これに応じて、付属
語の部分も、「くよ」→「するよ」と置き換えられた。
【0045】この結果、自立語の標準化処理が完了する
と、標準化規則として予め定めた類型について、全ての
単語が置き換えられ、自立語は、所望のレベルで標準化
されることになる。
【0046】自立語の標準化を行なった後、次に表記の
ゆれの標準化処理を行なう(図3、ステップS35
0)。表記のゆれとは、日本語における表記の曖昧さ、
許容幅を言い、例えば、 長音記号のゆれ:例、ユーザー、ユーザ、 送り仮名のゆれ:例、売上げ、売り上げ、 拗音表記のゆれ:例、ウィザード、ウイザード、 複合語のかな表記のゆれ:例、売り上げ、売りあげ、 外来語表記のゆれ:エンゼル、エンジェル、 繰り返し文字のゆれ:例、正正堂堂、正々堂々 などを例示することができる。
【0047】この処理の概要は、図12に示した自立語
の標準化処理と似ているので、フローチャートは示さな
いが、自立語の標準化同様、まず規則の設定を参照す
る。即ち、表記のゆれの標準化処理において、上記の
ないしを例にとれば、いずれの置き換えを行なうか否
かが、図15に示したように、標準化規則DAD(図3
参照)として記憶されているので、これを読み出し、次
に単語を順次読みだして、この単語が標準化規則DAD
に記憶した規則が当てはまるものであれば、かな漢字変
換用の通常の単語辞書DICを検索する。この辞書には
表記のゆれが広く登録されているので、標準化規則DA
Dで指定された規則に該当する単語が、辞書DICに登
録されていれば、その後を読み出して、表記の異なる単
語に置き換えるのである。そして、以上の処理を全単語
について繰り返す。
【0048】自立語の標準化と処理が若干異なるのは、
自立語の標準化辞書が、一方向への標準化を行なうこと
を前提として構成されているのに対して、表記のゆれ
は、双方向に標準化を行なうことを前提としているため
である。表記のゆれは、許容幅を大きく、いずれの表記
がより正しいといった判断になじまないものだからであ
る。こうした表記のゆれは、かな漢字変換用の単語辞書
DICに広く採取されており、互いに関連付けられてい
るので、表記のゆれの標準化を行なう場合には、表記の
ゆれの標準化規則DADを参照し、指定された表記とな
るよう、単語辞書DICを検索するのである。
【0049】こうして表記のゆれの標準化を行なった
後、付属語の標準化処理を行なう(ステップS36
0)。この処理の概要は、図12に示した自立語の標準
化処理とほぼ同一なので、フローチャートは示さない
が、基本的には同一意味の付属語間の異表現の置き換え
処理である。かかる処理には、多数の類型が存在する
が、例えば、 繰り返された丁寧表現の簡素化:例、「出られておら
ます」→「出られています」、 古風な表現の現代化:例、「原因なのか否か」→「原
なのかどうか」、 くだけた表現の通常表現化:例、「勉強しなくっち
ゃ」→「勉強しなくては」などを考えることができる。
【0050】これらの処理は、実際には、標準化の対象
となっている文から順次付属語を取り出し、これを付属
語用の標準化辞書AWDを検索することにより行なわれ
る。付属語用の標準化辞書AWDは、上述した置き換え
可能な付属語が、適用される規則と共に、参照可能に構
成されている。従って、標準化の規則を取得した後、辞
書を参照して、規則に合致した置き換え語を読み出し、
各付属語を変更する処理を行なうことができる。図16
は、この置き換えの様子を模式的に示した説明図であ
る。図示するように、まず規則の設定を参照する。即
ち、付属語の標準化処理において、上記のないしを
例にとれば、いずれの置き換えを行なうか否かが、標準
化規則として記憶されているので、これを読み出し、次
に付属語を順次読みだして、この付属語について、置き
換えを行なう語が辞書AWDに登録されているか否かを
検索し、仮に登録されていれば、現在オンになっている
置き換え規則に合致するかを確認し、オンになっている
置き換え規則に合致していれば、付属語の置き換えを行
なうのである。
【0051】この結果、付属語の標準化処理が完了する
と、標準化規則として予め定めた類型について、全ての
単語が置き換えられ、付属語は、所望のレベルで標準化
されることになる。
【0052】こうして、図3に示した全ての標準化(ス
テップS320ないしS360)が完了すると、サーバ
200は、標準化の結果を、ハードディスク27内の文
書データベースTDBに登録する処理を行なう(ステッ
プS370)。このデータベースは、文書の全文データ
ベースであり、後述する検索装置により、全文検索を行
なうことができる。
【0053】(3)実施例の効果:この文書データベー
スTDBに登録された文書は、文字、自立語、表記のゆ
れ、付属語という態様で、標準化がなされているから、
書き手の癖や言い回しの相違などがほとんど解消されて
いる。従って、処理された文書は、極めてプレーンなテ
キストデータとなっており、様々な用途に用いることが
できる。例えば、特許公報や技術文献などの全文データ
ベースの構築に用いれば、できあがったデータベースを
検索する際の雑音や検索漏れなどを低減することができ
る。また、翻訳しようとする文を標準化すると、機械翻
訳のための下訳の一つとして用いることができる。逆に
翻訳例を蓄積した翻訳データベースを構築する場合に
は、訳出者の相違を解消することができる。更に、時代
を隔てた著者の表現を比較するといった研究など、文書
を対象とした広範な比較研究に用いることも可能であ
る。また、本実施例では、標準化の処理に先立って、テ
キストデータを形態素解析し、必要な文法情報を入手し
ている。このため、標準化が、単純な文字の置き換えに
とどまらず、文法情報を利用した自立語の標準化、表記
のゆれの標準化などとしてまとめて行なうことが可能と
なっている。このため、標準化のために用意するルール
も数を低減することができる。文法情報が存在するの
で、かな漢字変換用の辞書や表記のゆれの辞書、自立語
の置き換え辞書などを参照して、容易に標準化を行なう
ことができる。
【0054】実施例では、標準化処理は、文字の標準
化、共起の連語化処理、自立語の標準化処理、表
記のゆれの標準化処理、付属語の標準化処理の順で行
なったが、この処理は様々な順序で実施可能である。本
実施例のように、文字の標準化の処理の後に自立語の標
準化処理を行なえば、例えば文字の標準化で半角/全角
変換を済ませておき、その後、「WINDOWS」「ウ
ィンドウズ」といった自立語のばらつきを、標準化すれ
ばよいので、簡単な操作で確実に処理を行なうことがで
きる。
【0055】また、連語化の処理の後に自立語の標準化
処理を行なうことをも同様に好適である。連語化処理を
予めしておくことで、自立語の標準化処理をより確実に
行なうことができる。実施例では、「学校に」+「行
く」という連語を「登校する」に置き換える処理を行な
うものとして説明したが、「学校に」+「急いで」+
「行く」を、一旦連語化処理により「急いで」+「学校
に」+「行く」に置き換えておけば、次の自立語処理に
おいて「すぐに」+「登校する」に標準化することは容
易であった。更に、表記のゆれの統一処理を、自立語の
標準化処理の後に行なっているので、自立語の標準化処
理より、一旦なされた表記の統一が崩れると言うことが
ない。
【0056】なお、上記実施例では、標準化の処理にお
いて、結果が2以上存在する場合について特に説明しな
かったが、2以上の結果が存在する場合(例えば、「売
り上げ」に対して、「売上げ」と「売りあげ」が存在す
る場合)、このうちの一つを優先的に表示し、複数の結
果が存在することを、表示することも可能である。こう
した表示は、標準化した文字のモニタ30上での色を変
えたり、「次候補あり」といった表示を行なうことで、
容易に実現することができる。次候補があることを表示
すれば、処理を行なっている使用者は、これにより、複
数の結果が存在することを知ることができ、好適であ
る。他の候補を選択する場合には、カーソルを表示され
ている文節に移動し、「次候補」キーを押すことで、次
候補を表示し、必要があれば、複数の候補から所望の候
補を選択すればよい。
【0057】この他、本実施例では、ログ管理部250
により、標準化のログを管理しているので、入力した文
書に対して行なわれた標準化の処理の詳細を残しておく
ことも可能である。入力した文章の何番目の文の何番目
の単語に対して、どんな処理を行なったか、という形で
ログを記録しておければ、いつでも、標準化した後の文
から元の文を復元することもできる。また、ログ出力部
280から出力されたログを解析することにより、どの
タイプの標準化が多用されたかといった解析を行なうこ
ともでき、標準化を実施した対象である文章の趣(文語
的な文か、くだけた口語文か等)や癖(長音を落としや
すいか等)を分析することも可能である。
【0058】(4)第2実施例の説明:次に、本発明の
第2実施例として、文書の検索方法と検索を行なう装置
について説明する。第1実施例として説明した文書の標
準化の処理により完成された文書データベースTDB
は、外部に公開され、自由な使用、または登録した会員
の使用に供される。このとき、文書データベースTDB
に直接アクセスするような構成も可能であるが、ネット
ワーク10を介して不特定多数のクライアントからアク
セス可能とするには、例えば、文書データベースTDB
をアクセスするためのCGIを備えたサイトを、サーバ
200内に用意し、クライアント40は、ネットワーク
10を経由して、いわゆるブラウザから、この文書デー
タベースTDBにアクセスできるようにするのが通常で
ある。そこで、第2実施例として、文書データベースT
DBを用いて、ウェブページの検索を行なう手法につい
て、説明する。図17は、クライアント40において実
行される検索時の処理を示すフローチャートである。ま
ず、検索を開始するクライアント40は、検索用に用意
されたサーバ200内のサイトにアクセスする(ステッ
プS400)。この結果、図18に示すような、検索画
面が表示される。
【0059】そこで、クライアントは、この画面に用意
された検索用の文字列を入力するボックスKBに、検索
内容を、日本語による文章として入力する(ステップS
410)。例えば、図18に示したように、文字列を入
力するボックスKBに、「俺が登校した」などと自然文
で入力するのである。このとき、検索文の入力に並行し
て、「検索」ボタンBBが押されたかを監視し(ステッ
プS420)、検索ボタンが押された時には、入力され
た文章を読み取り、図18に示した入力の場合には、こ
の文章を形態素解析して、第1実施例で説明した標準化
処理を行なう(ステップS430)。なお、検索は、必
ずしも文章による入力に基づいて行なう必要はなく、例
えばキーワードを入力して、一または複数のキーワード
により検索するものとしても良いし、キーワードと検索
分野を指定して検索するものとしても良い。
【0060】こうして得られた標準化された検索文から
切り出された検索語(図18の例では「僕」や「登
校」)DS1,DS2を利用して、文書データベースT
DBの検索を行なう(ステップS440)。検索の結
果、一致する文を有する文書が見つかればその検索結果
を出力するのである(ステップS450)。出力された
検索結果は、ネットワーク10を介してクライアントに
送られ、クライアント40側の画面に表示される。
【0061】以上説明した第2実施例によれば、予め標
準化されて登録された文書データベースに対して、自然
な日本語文を用いて検索を行なうことができる。この場
合、検索を行なうとする使用者の言葉の癖を標準化によ
り低減してから検索を行なうので、検索により所望の文
書を見い出し易くなっている。このため、検索語の入力
について複雑な規則を熟知している必要がなく、特別な
訓練を積んだサーチャでなくても容易に検索を行なうこ
とができる。
【0062】以上、本発明の実施の形態について説明し
たが、本発明はこうした実施の形態に何等限定されるも
のではなく、本発明の要旨を逸脱しない範囲内におい
て、更に種々なる形態で実施し得ることは勿論である。
例えば、文書データベースは、全文データベースに替え
て、キーワードを用いたデータベースとしても良い。ま
た、翻訳装置に応用することも可能である。翻訳は、単
に文法情報を用いて言語間の変換を行なおうとしても上
手く行かず(必要な規則が無限に大きくなる)、むしろ
豊富な用例を用意し、翻訳にマッチした用例を見い出し
て、これを適用するような形で訳した方が、意味的に正
確な翻訳にできることが知られている。そこで、与えら
れたテキストデータに、本発明を適用して文書を標準化
しておき、これを利用して用例を特定するのを容易にす
るといった使い方が可能である。
【図面の簡単な説明】
【図1】本発明の実施例における全体構成を示す概略構
成図である。
【図2】第1実施例における標準化処理を実現する構成
を示すブロック図である。
【図3】実施例における標準化処理ルーチンを示すフロ
ーチャートである。
【図4】形態素解析処理ルーチンを示すフローチャート
である。
【図5】逆引き辞書の構成を例示する説明図である。
【図6】文字の標準化処理ルーチンを示すフローチャー
トである。
【図7】文字の標準化処理の内容を例示する説明図であ
る。
【図8】共起の連語化処理ルーチンを示すフローチャー
トである。
【図9】連語化の処理様子を示す説明図である。
【図10】同じく連語化における文節の入れ替えの様子
を示す説明図である。
【図11】同じく連語化の様子を示す説明図である。
【図12】自立語の標準化処理ルーチンを示すフローチ
ャートである。
【図13】図13は、自立語の置き換えの様子を模式的
に示した説明図である。
【図14】常用漢字外の忌避がオンになっている場合の
自立語の置き換えの一例を示す説明図である。
【図15】いずれの置き換えを行なうか否かを示す標準
化規則DADの一例を示す説明図である。
【図16】付属語の置き換えの様子を模式的に示した説
明図である。
【図17】第2実施例として、クライアント40におい
て実行される検索時の処理を示すフローチャートであ
る。
【図18】第2実施例における検索画面の一例を示す説
明図である。
【符号の説明】
10…ネットワーク 11…キーボード 12…マウス 20…ルータ 22…CPU 23…ROM 24…RAM 25…タイマ 26…表示回路 27…ハードディスク 30…モニタ 40…クライアント 200…データベースサーバ 205…文書入力部 210…形態素解析部 220…辞書検索部 230…形態素解析用辞書 240…データベース 240…標準化ルールデータベース 250…標準化処理部 260…データベース 260…ログ管理部 270…ハードディスク 270…文書出力部 280…ログ出力部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 河西 庸雄 長野県諏訪市大和三丁目3番5号 セイコ ーエプソン株式会社内 (72)発明者 細田 達矢 長野県諏訪市大和三丁目3番5号 セイコ ーエプソン株式会社内 (72)発明者 鈴木 勝仁 長野県諏訪市大和三丁目3番5号 セイコ ーエプソン株式会社内 Fターム(参考) 5B009 QA03 QA14 QA15 QA16 VA09 5B075 ND26 QP02 QP03

Claims (19)

    【特許請求の範囲】
  1. 【請求項1】 文書標準化方法であって、 一定のまとまりを持った文書を入力し、 該文書を形態素解析して、文法情報を伴う単語を切り出
    し、 該切り出した単語に対して、予め定めた標準化の処理を
    行ない、 該標準化された後の単語から再構成された文書を出力す
    る文書標準化方法。
  2. 【請求項2】 請求項1記載の標準化方法であって、 前記予め定めた標準化の処理は、少なくとも(a)予め
    定めた文字に置き換える文字の標準化、(b)共起関係
    を有する単語の関係を予め定めた関係に修正する連語化
    処理、(c)表記のゆれを予め定めた表記に統一する表
    記の統一処理、(d)自立語を、予め定めた置き換えの
    基準に従って、他の自立語に置き換える自立語処理、
    (e)付属語を、所定の規則に従って他の付属語に置き
    換える付属語処理のうちの一つを含む標準化方法。
  3. 【請求項3】 請求項1記載の標準化方法であって、 前記標準化の処理は、予め用意した辞書を参照すること
    により、単語の置き換えを行なう処理であることを特徴
    とする標準化方法。
  4. 【請求項4】 請求項1記載の標準化方法であって、 前記形態素解析は、予め用意した形態素解析用の辞書を
    用いることを特徴とする標準化方法。
  5. 【請求項5】 文字の標準化の処理(a)の後に自立語
    処理(d)を行なうことを特徴とする請求項2記載の標
    準化方法。
  6. 【請求項6】 連語化処理(b)の後に自立語処理を行
    なうことを特徴とする請求項2記載の標準化方法。
  7. 【請求項7】 表記の統一処理(c)を、少なくとも自
    立語処理(d)の後に行なうことを特徴とする請求項2
    記載の標準化方法。
  8. 【請求項8】 請求項1記載の標準化方法であって、 前記標準化の処理の際に、標準化の結果が2以上存在す
    る場合には、該2以上の結果のうちの一つを表示すると
    共に、 複数の結果が存在することを表示する標準化方法。
  9. 【請求項9】 請求項8記載の標準化方法であって、 使用者の操作に応じて、前記表示した結果以外の結果を
    次候補として順次表示する標準化方法。
  10. 【請求項10】 文書データベースの構築方法であっ
    て、 一定のまとまりを持った文書を入力し、 該文書を形態素解析して、文法情報を伴う単語を切り出
    し、 該切り出した単語に対して、予め定めた標準化の処理を
    行ない、 該標準化された後の単語から再構成された文書をデータ
    ベースとして蓄積する文書データベースの構築方法。
  11. 【請求項11】 文書検索方法であって、 文書の検索に先立って、 一定のまとまりを持った文書を入力し、 該文書を形態素解析して、文法情報を伴う単語を切り出
    し、 該切り出した単語に対して、予め定めた標準化の処理を
    行ない、 該標準化された後の単語から再構成された文書を予めデ
    ータベースとして蓄積しておき、 文書の検索時に、 指定された検索用単語と前記データベースに蓄積された
    文書とを比較して、該検索用単語が含まれる文書を特定
    する文書検索方法。
  12. 【請求項12】 テキストデータから構成された文書を
    標準化する装置であって、 一定のまとまりを持った文書を入力する入力手段と、 該文書を形態素解析して、文法情報を伴う単語を切り出
    す形態素解析手段と、 該切り出した単語に対して、予め定めた標準化の処理を
    行なう標準化処理手段と、 該標準化された後の単語から再構成された文書を出力す
    る文書出力手段とを備えた文書標準化装置。
  13. 【請求項13】 請求項12記載の文書標準化装置であ
    って、 前記標準化処理手段は、予め定めた標準化の処理を行な
    う(a)予め定めた文字に置き換える文字標準化手段、
    (b)共起関係を有する単語の関係を予め定めた関係に
    修正する連語化処理手段、(c)表記のゆれを予め定め
    た表記に統一する表記の統一処理手段、(d)自立語
    を、予め定めた置き換えの基準に従って、他の自立語に
    置き換える自立語処理手段、(e)付属語を、所定の規
    則に従って他の付属語に置き換える付属語処理手段のう
    ちの少なくとも一つを備えた文書標準化装置。
  14. 【請求項14】 文書データベースの構築装置であっ
    て、 一定のまとまりを持った文書を入力する入力手段と、 該文書を形態素解析して、文法情報を伴う単語を切り出
    す形態素解析手段と、 該切り出した単語に対して、予め定めた標準化の処理を
    行なう標準化処理手段と、 該標準化された後の単語から再構成された文書をデータ
    ベースとして蓄積する文書蓄積手段とを備えた文書デー
    タベースの構築装置。
  15. 【請求項15】 文書検索装置であって、 文書の検索に先立って動作する一定のまとまりを持った
    文書を入力する手段と、 該文書を形態素解析して、文法情報を伴う単語を切り出
    す形態素解析手段と、 該切り出した単語に対して、予め定めた標準化の処理を
    行なう標準化処理手段と、 該標準化された後の単語から再構成された文書を予めデ
    ータベースとして蓄積しておく蓄積手段とを備え、更
    に、 文書の検索時に動作する指定された検索用単語と前記デ
    ータベースに蓄積された文書とを比較して、該検索用単
    語が含まれる文書を特定する検索手段を備えた文書検索
    装置。
  16. 【請求項16】 一定のまとまりを有するテキストデー
    タを標準化する処理をコンピュータに行なわせるプログ
    ラムであって、 該テキストデータを形態素解析して、文法情報を伴う単
    語を切り出す機能と、 該切り出した単語に対して、予め定めた標準化の処理を
    行なう機能と、 該標準化された後の単語から再構成された文書を出力す
    る機能とを実現させるためのプログラム。
  17. 【請求項17】 請求項16記載のプログラムであっ
    て、 前記予め定めた標準化の処理を行なう機能には、少なく
    とも(a)予め定めた文字に置き換える文字の標準化の
    機能、(b)共起関係を有する単語の関係を予め定めた
    関係に修正する連語化処理の機能、(c)表記のゆれを
    予め定めた表記に統一する表記の統一処理の機能、
    (d)自立語を、予め定めた置き換えの基準に従って、
    他の自立語に置き換える自立語処理の機能、(e)付属
    語を、所定の規則に従って他の付属語に置き換える付属
    語処理の機能のうちの一つを含むプログラム。
  18. 【請求項18】 一定のまとまりを有するテキストデー
    タを標準化する処理をコンピュータに行なわせるプログ
    ラムを記録した記録媒体であって、 該テキストデータを形態素解析して、文法情報を伴う単
    語を切り出す機能と、 該切り出した単語に対して、予め定めた標準化の処理を
    行なう機能と、 該標準化された後の単語から再構成された文書を出力す
    る機能とを実現させるためのプログラムをコンピュータ
    に読み取り可能に記録した媒体。
  19. 【請求項19】 請求項18記載の記録媒体であって、 前記予め定めた標準化の処理を行なう機能には、少なく
    とも(a)予め定めた文字に置き換える文字の標準化の
    機能、(b)共起関係を有する単語の関係を予め定めた
    関係に修正する連語化処理の機能、(c)表記のゆれを
    予め定めた表記に統一する表記の統一処理の機能、
    (d)自立語を、予め定めた置き換えの基準に従って、
    他の自立語に置き換える自立語処理の機能、(e)付属
    語を、所定の規則に従って他の付属語に置き換える付属
    語処理の機能のうちの一つが含まれる記憶媒体。
JP2001091888A 2001-03-28 2001-03-28 文書の標準化 Expired - Fee Related JP3937741B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001091888A JP3937741B2 (ja) 2001-03-28 2001-03-28 文書の標準化

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001091888A JP3937741B2 (ja) 2001-03-28 2001-03-28 文書の標準化

Publications (2)

Publication Number Publication Date
JP2002288175A true JP2002288175A (ja) 2002-10-04
JP3937741B2 JP3937741B2 (ja) 2007-06-27

Family

ID=18946439

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001091888A Expired - Fee Related JP3937741B2 (ja) 2001-03-28 2001-03-28 文書の標準化

Country Status (1)

Country Link
JP (1) JP3937741B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006126883A (ja) * 2004-10-26 2006-05-18 Shinano Kenshi Co Ltd 情報検索装置及び情報検索方法
JP2008152639A (ja) * 2006-12-19 2008-07-03 Bank Of Tokyo-Mitsubishi Ufj Ltd 認証システム、認証方法、及びプログラム
US7584217B2 (en) 2005-02-24 2009-09-01 Seiko Epson Corporation Photo image retrieval system and program
JP2012118822A (ja) * 2010-12-01 2012-06-21 Internatl Business Mach Corp <Ibm> ドキュメント作成支援方法とドキュメント作成支援装置とドキュメント作成支援プログラム
JP2012238325A (ja) * 2012-07-26 2012-12-06 Bank Of Tokyo-Mitsubishi Ufj Ltd 認証システム、認証方法、及びプログラム
JP5161891B2 (ja) * 2007-12-26 2013-03-13 有限会社ティ辞書企画 辞書システム
CN116663495A (zh) * 2023-07-31 2023-08-29 中国电子技术标准化研究院 文本标准化处理方法、装置、设备及介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006126883A (ja) * 2004-10-26 2006-05-18 Shinano Kenshi Co Ltd 情報検索装置及び情報検索方法
US7584217B2 (en) 2005-02-24 2009-09-01 Seiko Epson Corporation Photo image retrieval system and program
JP2008152639A (ja) * 2006-12-19 2008-07-03 Bank Of Tokyo-Mitsubishi Ufj Ltd 認証システム、認証方法、及びプログラム
JP5161891B2 (ja) * 2007-12-26 2013-03-13 有限会社ティ辞書企画 辞書システム
JP2012118822A (ja) * 2010-12-01 2012-06-21 Internatl Business Mach Corp <Ibm> ドキュメント作成支援方法とドキュメント作成支援装置とドキュメント作成支援プログラム
JP2012238325A (ja) * 2012-07-26 2012-12-06 Bank Of Tokyo-Mitsubishi Ufj Ltd 認証システム、認証方法、及びプログラム
CN116663495A (zh) * 2023-07-31 2023-08-29 中国电子技术标准化研究院 文本标准化处理方法、装置、设备及介质
CN116663495B (zh) * 2023-07-31 2023-10-20 中国电子技术标准化研究院 文本标准化处理方法、装置、设备及介质

Also Published As

Publication number Publication date
JP3937741B2 (ja) 2007-06-27

Similar Documents

Publication Publication Date Title
US6396951B1 (en) Document-based query data for information retrieval
US7630880B2 (en) Japanese virtual dictionary
JP3983265B1 (ja) 辞書作成支援システム、方法及びプログラム
WO2003065245A1 (fr) Procede de traduction, procede de production de phrase traduite, support d&#39;enregistrement, programme et ordinateur
JP3937741B2 (ja) 文書の標準化
Koleva et al. An automatic part-of-speech tagger for Middle Low German
JPWO2008018287A1 (ja) 検索装置及び検索データベース生成装置
JPH08129554A (ja) 関係表現抽出装置および関係表現検索装置
Azmi et al. Light diacritic restoration to disambiguate homographs in modern Arabic texts
JP5025603B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
KR100631086B1 (ko) Xml을 이용한 텍스트 정규화 방법 및 장치
Gakis et al. Design and implementation of an electronic lexicon for Modern Greek
Albarillo Evaluating language functionality in library databases
JP4843596B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JP2003178087A (ja) 外国語電子辞書検索装置および方法
JP2001034611A (ja) 読み情報出力装置および記録媒体
L’haire FipsOrtho: A spell checker for learners of French
JP2004220226A (ja) 検索文書のための文書分類方法及び装置
JP4088176B2 (ja) 質問応答装置及び質問応答プログラム
JP3285149B2 (ja) 外国語電子辞書検索方法及び装置
JP2002073656A (ja) 異表記正規化処理・異表記展開処理方法および該処理方法による文書検索方法、該処理装置および文書検索装置並びにプログラム記録媒体
JP3949874B2 (ja) 翻訳訳語学習方法、翻訳訳語学習装置、記憶媒体及び翻訳システム
JPH1145280A (ja) 他言語文書検索システム、他言語文書検索プログラムが記憶された記憶媒体、及び他言語文書検索方法
JP2003173338A (ja) 辞書構築支援装置、辞書構築支援方法及び辞書構築支援プログラム
JP2004264960A (ja) 用例ベースの文変換装置、およびコンピュータプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061121

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070306

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070319

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110406

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110406

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120406

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130406

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130406

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140406

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees