JP2004348574A

JP2004348574A - 文書蓄積装置、文書蓄積方法およびそのプログラムを記録した記録媒体

Info

Publication number: JP2004348574A
Application number: JP2003146515A
Authority: JP
Inventors: Takashi Inoue; 孝史井上; Masayuki Sugizaki; 正之杉崎; Akiya Kurishima; 聡哉栗島; Hiroshi Takeno; 浩竹野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2003-05-23
Filing date: 2003-05-23
Publication date: 2004-12-09

Abstract

【課題】正規化された単語ＩＤの列とは別に、元の表記にも単語ＩＤを割り当て、その単語ＩＤの列を記録する場合、正規化された単語ＩＤの列と同じ容量を別途必要としない文書蓄積装置、文書蓄積方法およびそのプログラムを記録した記録媒体を提供することを目的とするものである。
【解決手段】所定の文書を単語に分割する分割手段と、上記分割された単語を正規化する正規化手段と、上記正規化単語と、上記分割された単語の表記単語との両者を、識別可能に登録する登録手段とを有することを特徴とする文書蓄積装置である。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、文書情報を蓄積する文書蓄積装置に関するものである。
【０００２】
【従来の技術】
計算機等で扱うことができる情報として、文書を蓄積する際に、通常は、標準的な符号化方法（たとえば英語であればＡＳＣＩＩコード、日本語であればＪＩＳコード等）を用いて、文字単位に符号化し、記憶装置に蓄積する。
【０００３】
一方、検索、分類、文の内容の解析等、文書を高度に利用するためには、形態素解析と呼ばれる技術を用い、文書を単語単位に分割し、処理することが多い。
【０００４】
また、その際には、単語を何らかのＩＤに変換し、記録し、処理を行うことが一般的である。
【０００５】
そこで、文書を元の文字列そのものではなく、単語に分割し、その単語ＩＤの配列を、単語文字列と、単語ＩＤとの対応を記憶する語彙表とともに記憶しておく（たとえば、非特許文献１参照）。
【０００６】
【非特許文献１】
ＲｉｃａｒｄｏＢａｅｚａ−Ｙａｔｅｓ他著「ＭｏｄｅｒｎＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ」第７章
Ａｄｄｉｓｏｎ−ＷｅｓｌｅｙＰｕｂＣｏ１ｓｔｅｄｉｔｉｏｎ，１９９９年５月
【０００７】
【発明が解決しようとする課題】
ところが、通常、検索等の処理で用いられる単語ＩＤは、単語の表記上のバリエーションを正規化した正規化単語に付与されるＩＤであり、この単語ＩＤを登録する。つまり、たとえば、平仮名／片仮名や、アルファベットの大文字／小文字等の表記のバリエーションをいずれかに統一し、この統一された表記単語を登録する。
【０００８】
たとえば、単語ＡＢＢと、単語Ａｂｂと、単語ａｂｂとは、全て、単語ａｂｂに正規化される。この正規化によって、たとえば検索処理であれば、ユーザから与えられた検索キーワードに対して、上記と同じ正規化処理を行い、これによって、どの表記であっても（ＡＢＢ、Ａｂｂ、ａｂｂのいずれが与えられても）マッチする。
【０００９】
しかし、正規化された単語ＩＤには、元々の表記のバリエーションに関する情報がないので、正規化された単語ＩＤ列から文書を再現した場合、再現された単語の表記が、元の文とは異なるという問題がある。
【００１０】
ところで、元の表記の情報を記録、再現することができるようにするには、正規化された単語ＩＤの列とは別に、元の表記にも単語ＩＤを割り当て、その単語ＩＤの列を記録することが考えられ、これによって、元の表記の情報を、記録、再現することができる。
【００１１】
しかし、上記のように、正規化された単語ＩＤの列とは別に、元の表記にも単語ＩＤを割り当て、その単語ＩＤの列を記録する場合、単純に記録すると、正規化された単語ＩＤの列と同じ容量を別途必要とし、合計で２倍の容量が必要であり、記憶容量が大きくなるという問題がある。
【００１２】
本発明は、正規化された単語ＩＤの列とは別に、元の表記にも単語ＩＤを割り当て、その単語ＩＤの列を記録する場合、正規化された単語ＩＤの列と同じ容量を別途必要としない文書蓄積装置、文書蓄積方法およびそのプログラムを記録した記録媒体を提供することを目的とするものである。
【００１３】
【課題を解決するための手段】
本発明は、所定の文書を単語に分割する分割手段と、上記分割された単語を正規化する正規化手段と、上記正規化単語と、上記分割された単語の表記単語との両者を、識別可能に登録する登録手段とを有することを特徴とする文書蓄積装置である。
【００１４】
【発明の実施の形態および実施例】
図１は、本発明の一実施例である文書蓄積装置１００の全体構成を示す図である。
【００１５】
文書蓄積装置１００は、単語分割部１０と、語彙表登録／参照部２０と、格納部３０とを有する。
【００１６】
単語分割部１０は、文書１１を受け取り、この受け取った文書１１の単語を、形態素解析処理によって、分割し、この分割された結果の単語リストを、語彙表登録／参照部２０に送る。
【００１７】
語彙表登録／参照部２０は、単語リストを受け取り、語彙表２１を登録し、また、受け取った単語リストを参照して処理する。
【００１８】
図２は、上記実施例における語彙表２１の例を示す図である。
【００１９】
語彙表２１は、文書１１を構成する単語の文字列と、単語ＩＤとの対応を記憶する表形式の情報であり、文字列をキーとした探索を高速で実行することができるデータ構造（たとえばＴＲＩＥ構造等）を有する。
【００２０】
格納部３０は、記憶装置３１を有する。
【００２１】
また、単語ＩＤは、１から始まる整数であり、新しい単語が記憶装置３１に登録される度に、１ずつ増加される整数である。
【００２２】
語彙表登録／参照部２０は、受け取った単語リスト中の各単語について、まず所定の正規化処理を行う。
【００２３】
この正規化処理は、たとえば「アルファベットの文字を全て小文字にする」という処理である。このようにして正規化された単語を、キーとして、語彙表２１を参照し、上記正規化された単語が、語彙表２１に既に存在していれば、対応する単語ＩＤ（語彙表２１に既に存在している単語に付与されている単語ＩＤ）を得る。語彙表２１に初めて出現した単語（語彙表２１に存在していない単語）であれば、語彙表２１に、当該単語を追加し、新たな単語ＩＤを割り当てる。
【００２４】
次に、実際に出現した表記の単語について、上記と同様に処理する。このようにして得られた「正規化単語ＩＤ」と、「元表記単語ＩＤ」とのＩＤペアを、出力リストに追加し、分割された単語の全てについて、上記正規化処理が終わると、結果のリストを格納部３０に出力する。
【００２５】
格納部３０は、受け取ったリスト中の各単語ＩＤペアについて、「元表記単語ＩＤ」と「正規化単語ＩＤ」との差Ｓを計算する。つまり、差Ｓ＝「元表記単語ＩＤ」−「正規化単語ＩＤ」である。
【００２６】
図３は、上記実施例における文書蓄積構造の例を示す図である。
【００２７】
図３に示す文書蓄積構造は、文書ＩＤと、正規化単語ＩＤリストと、ＩＤ差分リストとを有する。正規化単語ＩＤリストは、正規化単語ＩＤのリストであり、ＩＤ差分リストは、差Ｓ＝「元表記単語ＩＤ」−「正規化単語ＩＤ」のリストである。
【００２８】
正規化単語ＩＤは、元表記単語ＩＤよりも、常に先に語彙表２１に登録されるので、上記差Ｓ（「元表記単語ＩＤ」−「正規化単語ＩＤ」）は、必ず０または正の数値になる。この値を、図３に示すＩＤ差分リストに追加する。また、正規化単語ＩＤを、図３に示す正規化単語ＩＤリストに追加する。
【００２９】
入力されたリスト中の全ての上記ＩＤペアに対して処理すると、現在処理中の文書１１について、図３に示す正規化単語ＩＤリストとＩＤ差分リストとの２つのリストを得ることができる。
【００３０】
図３に示す表において、該当するレコード（所定の文書ＩＤの欄）に、正規化単語ＩＤリストを、そのまま記憶する。
【００３１】
また、ＩＤ差分について、さらに「小さい整数に対して短く符号を割り当てる符号化」を行ってから、上記ＩＤ差分リストを記憶する。このような符号化方法として、Ｅｌｉａｓのδ符号、γ符号等があり、一般的に利用されているものを用いればよい。なお、上記Ｅｌｉａｓのδ符号、γ符号等の詳細については、Ｗｉｔｔｅｎ他著「ＭａｎａｇｉｎｇＧｉｇａｂｙｔｅｓ第２版」（ＭｏｒｇａｎＫａｕｆｍａｎｎＰｕｂｌｉｓｈｉｎｇ発行）の第２章を参照されたい。
【００３２】
つまり、単語分割部１０は、所定の文書を単語に分割する分割手段の例であり、語彙表登録／参照部２０は、上記分割された単語を正規化する正規化手段の例であり、記憶装置３１は、上記正規化単語と、上記分割された単語の表記単語との両者を、識別可能に登録する登録手段の例である。
【００３３】
また、上記登録手段は、上記正規化単語と上記表記単語との両者を語彙表に登録する手段の例であり、格納部３０は、上記正規化単語と上記表記単語とにそれぞれ単語ＩＤを割り当て、出現した単語に対して、上記正規化単語ＩＤと上記表記単語ＩＤとの差分を求め、この求めた差分をＩＤ差分リストとして上記登録手段に登録する登録制御手段の例である。
【００３４】
さらに、格納部３０は、上記差分が小さい場合、短い符号長を与える符号化方式によって上記差分符号化する手段である。
【００３５】
次に、上記実施例における具体的な動作について説明する。
【００３６】
図４は、上記実施例において、蓄積対象である文書（文書ＩＤ１）の例を示す図である。
【００３７】
図５は、上記実施例において、蓄積対象である文書（文書ＩＤ２）の例を示す図である。
【００３８】
図６は、上記実施例において、蓄積対象である文書（文書ＩＤ３）の例を示す図である。
【００３９】
まず、各文書１１には、文書ＩＤが割り振られ、この文書ＩＤの順に、処理される。
【００４０】
ここで、単語の表記の変化として、アルファベットが大文字／小文字で変化する場合のみを想定し、アルファベット文字を正規化処理する場合、全て小文字に正規化処理するものとする。たとえば、単語「ＡＢＢ」は、「ａｂｂ」に正規化されるとする。
【００４１】
格納部３０で用いる符号化は、Ｅｌｉａｓのγコードを用いる。また、この場合、γコードにおいて、値０を扱うことができないので、格納部３０の処理によって得られた差分に１を加えたものを、符号化する。
【００４２】
今、図４に示す文書が、文書ＩＤ１の文書（最初の文書）として、単語分割部１０に入力されたとする。単語分割部１０は、この文書を、形態素解析処理によって単語に分割し、結果として、図３に示すリストが出力される。この段階では、リスト中の単語は、文書中に出現した表記のままである。
【００４３】
リストを受け取った語彙表登録／参照部２０は、まず最初の単語「ＡＢＢ」を取り出す。この単語「ＡＢＢ」を正規化処理すると、「ａｂｂ」になる。この「ａｂｂ」をキーとして、語彙表２１を参照すると、語彙表２１は空であるので、この単語「ａｂｂ」は、語彙表２１に存在せず、語彙表２１に新たに登録され、この登録された「ａｂｂ」に、最初の単語ＩＤである「１」が割り当てられる。元表記「ＡＢＢ」をキーとして、語彙表２１を調べると、この表記「ＡＢＢ」も存在しないので、語彙表２１に新たに登録され、次の単語ＩＤである「２」が割り当てられる。上記単語ＩＤ「１」と「２」とによって、単語ＩＤペア（１，２）が、出力リストに追加される。
【００４４】
図４に示す例において、次の単語は、「は」である。正規化処理する場合にひらがなはそのままである（元の表記と同じである）ので、上記単語「は」を正規化処理すると、「は」が得られる。
【００４５】
上記正規化した単語「は」は、語彙表２１に存在しないので、語彙表２１に新たに登録され、単語ＩＤ「３」が割り当てられる。元表記も同じであるので、同じく単語ＩＤは「３」である。よって、単語「は」における単語ＩＤペアは、（３，３）であり、この単語ペア（３，３）が出力リストに追加される。
【００４６】
上記と同様の処理を、リスト中の他の単語についても実行すると、語彙表登録／参照部２０の出力として、図８に示す単語ＩＤペアのリストが得られる。また、ＩＤ１〜ＩＤ３の各文書についても、上記処理と同様の処理を実行する。
【００４７】
図７は、上記実施例において、単語分割の結果、得られた単語リストの例を示す図である。
【００４８】
図８は、上記実施例において、入力した文書（文書ＩＤ１）について正規化処理した結果、得られた単語ペアのリストを示す図である。
【００４９】
図９は、上記実施例において、入力した文書（文書ＩＤ２）について正規化処理した結果、得られた単語ペアのリストを示す図である。
【００５０】
図１０は、上記実施例において、入力した文書（文書ＩＤ３）について正規化処理した結果、得られた単語ペアのリストを示す図である。
【００５１】
格納部３０では、受け取った単語ペアのリストから、まず、最初のＩＤペアを取り出す。この最初のＩＤペアは、（１，２）であり、正規化単語ＩＤは、「１」であるので、正規化単語ＩＤリストに、「１」を追加する。一方、これら２つの単語ＩＤの差を求めると、２−１＝１であり、この「１」に、「１」を加え、「２」を得、この得た「２」を、γ符号で符号化し、ＩＤ差分リストに追加する。
【００５２】
次のＩＤペアは、図８から、（３，３）である。正規化単語ＩＤは、「３」であるので、正規化単語ＩＤリストに、「３」を追加する。一方、２つの単語ＩＤの差を求めると、３−３＝０であり、この「０」に、「１」を加え、「１」を得、この得た「１」を、γ符号で符号化し、ＩＤ差分リストに追加する。
【００５３】
図１１は、上記実施例において得られた正規化単語ＩＤリストの例を示す図である。
【００５４】
図１２は、上記実施例において得られたＩＤ差分リストの例を示す図である。
【００５５】
リスト中の全てのペアに対して、上記処理と同様の処理を行うと、図１１に示す正規化単語ＩＤリストと、図１２に示すＩＤ差分リストとを得る。これを、文書ＩＤと対応付け、記憶装置３１に格納する。
【００５６】
ＩＤ２、ＩＤ３の文書についても、上記と同様の処理を全て実行し、記憶装置３１に格納する。この状態が、図３に示す状態である。
【００５７】
なお、上記実施例をプログラムの発明として把握することができる。
【００５８】
つまり、上記実施例は、所定の文書を単語に分割する分割手順と、上記分割された単語を正規化する正規化手順と、上記正規化単語と、上記分割された単語の表記単語との両者を、記憶装置に、識別可能に登録する登録手順とをコンピュータに実行させるプログラムの例である。
【００５９】
また、この場合、上記登録手順は、上記正規化単語と上記表記単語との両者を語彙表に登録する手順であり、上記正規化単語と上記表記単語とにそれぞれ単語ＩＤを割り当て、出現した単語に対して、上記正規化単語ＩＤと上記表記単語ＩＤとの差分を求め、この求めた差分をＩＤ差分リストとして上記記憶装置に登録する登録制御手順をコンピュータに実行させるコンピュータが読み取り可能な記録媒体の例である。
【００６０】
さらに、上記登録制御手順は、上記差分が小さい場合、短い符号長を与える符号化方式によって上記差分符号化する手順である。
【００６１】
また、上記プログラムを、ＣＤ、ＤＶＤ、ＨＤ、半導体メモリ等の記録媒体に記録するようにしてもよい。
【００６２】
【発明の効果】
本発明によれば、正規化された単語ＩＤの列とは別に、元の表記にも単語ＩＤを割り当て、その単語ＩＤの列を記録する場合、正規化された単語ＩＤの列と同じ容量を別途必要としないという効果を奏する。
【図面の簡単な説明】
【図１】本発明の一実施例である文書蓄積装置１００の全体構成を示す図である。
【図２】上記実施例における語彙表２１の例を示す図である。
【図３】上記実施例における文書蓄積構造の例を示す図である。
【図４】上記実施例における蓄積対象である文書（文書ＩＤ１）の例を示す図である。
【図５】上記実施例における蓄積対象である文書（文書ＩＤ２）の例を示す図である。
【図６】上記実施例における蓄積対象である文書（文書ＩＤ３）の例を示す図である。
【図７】上記実施例において、単語分割の結果、得られた単語リストの例を示す図である。
【図８】上記実施例において、入力した文書（文書ＩＤ１）について正規化処理した結果、得られた単語ペアのリストを示す図である。
【図９】上記実施例において、入力した文書（文書ＩＤ２）について正規化処理した結果、得られた単語ペアのリストを示す図である。
【図１０】上記実施例において、入力した文書（文書ＩＤ３）について正規化処理した結果、得られた単語ペアのリストを示す図である。
【図１１】上記実施例において、得られた正規化単語ＩＤリストの例を示す図である。
【図１２】上記実施例において、得られたＩＤ差分リストの例を示す図である。
【符号の説明】
１００…文書蓄積装置、
１０…単語分割部、
１１…文書、
２０…語彙表登録／参照部、
２１…語彙表、
３０…格納部、
３１…記憶装置。

Claims

所定の文書を単語に分割する分割手段と；
上記分割された単語を正規化する正規化手段と；
上記正規化単語と、上記分割された単語の表記単語との両者を、識別可能に登録する登録手段と；
を有することを特徴とする文書蓄積装置。
請求項１において、
上記登録手段は、上記正規化単語と上記表記単語との両者を語彙表に登録する手段であり、
上記正規化単語と上記表記単語とにそれぞれ単語ＩＤを割り当て、出現した単語に対して、上記正規化単語ＩＤと上記表記単語ＩＤとの差分を求め、この求めた差分をＩＤ差分リストとして上記登録手段に登録する登録制御手段を有することを特徴とする文書蓄積装置。
請求項２において、
上記登録制御手段は、上記差分が小さい場合、短い符号長を与える符号化方式によって上記差分符号化する手段であることを特徴とする文書蓄積装置。
所定の文書を単語に分割する分割段階と；
上記分割された単語を正規化する正規化段階と；
上記正規化単語と、上記分割された単語の表記単語との両者を、識別可能に登録する登録段階と；
を有することを特徴とする文書蓄積方法。
請求項４において、
上記登録段階は、上記正規化単語と上記表記単語との両者を語彙表に登録する段階であり、
上記正規化単語と上記表記単語とにそれぞれ単語ＩＤを割り当て、出現した単語に対して、上記正規化単語ＩＤと上記表記単語ＩＤとの差分を求め、この求めた差分をＩＤ差分リストとして上記登録段階で登録する登録制御段階を有することを特徴とする文書蓄積方法。
請求項５において、
上記登録制御段階は、上記差分が小さい場合、短い符号長を与える符号化方式によって上記差分符号化する段階であることを特徴とする文書蓄積方法。
所定の文書を単語に分割する分割手順と；
上記分割された単語を正規化する正規化手順と；
上記正規化単語と、上記分割された単語の表記単語との両者を、記憶装置に、識別可能に登録する登録手順と；
をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
請求項７において、
上記登録手順は、上記正規化単語と上記表記単語との両者を語彙表に登録する手順であり、
上記正規化単語と上記表記単語とにそれぞれ単語ＩＤを割り当て、出現した単語に対して、上記正規化単語ＩＤと上記表記単語ＩＤとの差分を求め、この求めた差分をＩＤ差分リストとして上記記憶装置に登録する登録制御手順をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
請求項８において、
上記登録制御手順は、上記差分が小さい場合、短い符号長を与える符号化方式によって上記差分符号化する手順であることを特徴とする記録媒体。