JP2004348574A - 文書蓄積装置、文書蓄積方法およびそのプログラムを記録した記録媒体 - Google Patents

文書蓄積装置、文書蓄積方法およびそのプログラムを記録した記録媒体 Download PDF

Info

Publication number
JP2004348574A
JP2004348574A JP2003146515A JP2003146515A JP2004348574A JP 2004348574 A JP2004348574 A JP 2004348574A JP 2003146515 A JP2003146515 A JP 2003146515A JP 2003146515 A JP2003146515 A JP 2003146515A JP 2004348574 A JP2004348574 A JP 2004348574A
Authority
JP
Japan
Prior art keywords
word
normalized
difference
document
registering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003146515A
Other languages
English (en)
Inventor
Takashi Inoue
孝史 井上
Masayuki Sugizaki
正之 杉崎
Akiya Kurishima
聡哉 栗島
Hiroshi Takeno
浩 竹野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003146515A priority Critical patent/JP2004348574A/ja
Publication of JP2004348574A publication Critical patent/JP2004348574A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】正規化された単語IDの列とは別に、元の表記にも単語IDを割り当て、その単語IDの列を記録する場合、正規化された単語IDの列と同じ容量を別途必要としない文書蓄積装置、文書蓄積方法およびそのプログラムを記録した記録媒体を提供することを目的とするものである。
【解決手段】所定の文書を単語に分割する分割手段と、上記分割された単語を正規化する正規化手段と、上記正規化単語と、上記分割された単語の表記単語との両者を、識別可能に登録する登録手段とを有することを特徴とする文書蓄積装置である。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、文書情報を蓄積する文書蓄積装置に関するものである。
【0002】
【従来の技術】
計算機等で扱うことができる情報として、文書を蓄積する際に、通常は、標準的な符号化方法(たとえば英語であればASCIIコード、日本語であればJISコード等)を用いて、文字単位に符号化し、記憶装置に蓄積する。
【0003】
一方、検索、分類、文の内容の解析等、文書を高度に利用するためには、形態素解析と呼ばれる技術を用い、文書を単語単位に分割し、処理することが多い。
【0004】
また、その際には、単語を何らかのIDに変換し、記録し、処理を行うことが一般的である。
【0005】
そこで、文書を元の文字列そのものではなく、単語に分割し、その単語IDの配列を、単語文字列と、単語IDとの対応を記憶する語彙表とともに記憶しておく(たとえば、非特許文献1参照)。
【0006】
【非特許文献1】
Ricardo Baeza−Yates他著「Modern Information Retrieval」第7章
Addison−Wesley Pub Co 1st edition, 1999年5月
【0007】
【発明が解決しようとする課題】
ところが、通常、検索等の処理で用いられる単語IDは、単語の表記上のバリエーションを正規化した正規化単語に付与されるIDであり、この単語IDを登録する。つまり、たとえば、平仮名/片仮名や、アルファベットの大文字/小文字等の表記のバリエーションをいずれかに統一し、この統一された表記単語を登録する。
【0008】
たとえば、単語ABBと、単語Abbと、単語abbとは、全て、単語abbに正規化される。この正規化によって、たとえば検索処理であれば、ユーザから与えられた検索キーワードに対して、上記と同じ正規化処理を行い、これによって、どの表記であっても(ABB、Abb、abbのいずれが与えられても)マッチする。
【0009】
しかし、正規化された単語IDには、元々の表記のバリエーションに関する情報がないので、正規化された単語ID列から文書を再現した場合、再現された単語の表記が、元の文とは異なるという問題がある。
【0010】
ところで、元の表記の情報を記録、再現することができるようにするには、正規化された単語IDの列とは別に、元の表記にも単語IDを割り当て、その単語IDの列を記録することが考えられ、これによって、元の表記の情報を、記録、再現することができる。
【0011】
しかし、上記のように、正規化された単語IDの列とは別に、元の表記にも単語IDを割り当て、その単語IDの列を記録する場合、単純に記録すると、正規化された単語IDの列と同じ容量を別途必要とし、合計で2倍の容量が必要であり、記憶容量が大きくなるという問題がある。
【0012】
本発明は、正規化された単語IDの列とは別に、元の表記にも単語IDを割り当て、その単語IDの列を記録する場合、正規化された単語IDの列と同じ容量を別途必要としない文書蓄積装置、文書蓄積方法およびそのプログラムを記録した記録媒体を提供することを目的とするものである。
【0013】
【課題を解決するための手段】
本発明は、所定の文書を単語に分割する分割手段と、上記分割された単語を正規化する正規化手段と、上記正規化単語と、上記分割された単語の表記単語との両者を、識別可能に登録する登録手段とを有することを特徴とする文書蓄積装置である。
【0014】
【発明の実施の形態および実施例】
図1は、本発明の一実施例である文書蓄積装置100の全体構成を示す図である。
【0015】
文書蓄積装置100は、単語分割部10と、語彙表登録/参照部20と、格納部30とを有する。
【0016】
単語分割部10は、文書11を受け取り、この受け取った文書11の単語を、形態素解析処理によって、分割し、この分割された結果の単語リストを、語彙表登録/参照部20に送る。
【0017】
語彙表登録/参照部20は、単語リストを受け取り、語彙表21を登録し、また、受け取った単語リストを参照して処理する。
【0018】
図2は、上記実施例における語彙表21の例を示す図である。
【0019】
語彙表21は、文書11を構成する単語の文字列と、単語IDとの対応を記憶する表形式の情報であり、文字列をキーとした探索を高速で実行することができるデータ構造(たとえばTRIE構造等)を有する。
【0020】
格納部30は、記憶装置31を有する。
【0021】
また、単語IDは、1から始まる整数であり、新しい単語が記憶装置31に登録される度に、1ずつ増加される整数である。
【0022】
語彙表登録/参照部20は、受け取った単語リスト中の各単語について、まず所定の正規化処理を行う。
【0023】
この正規化処理は、たとえば「アルファベットの文字を全て小文字にする」という処理である。このようにして正規化された単語を、キーとして、語彙表21を参照し、上記正規化された単語が、語彙表21に既に存在していれば、対応する単語ID(語彙表21に既に存在している単語に付与されている単語ID)を得る。語彙表21に初めて出現した単語(語彙表21に存在していない単語)であれば、語彙表21に、当該単語を追加し、新たな単語IDを割り当てる。
【0024】
次に、実際に出現した表記の単語について、上記と同様に処理する。このようにして得られた「正規化単語ID」と、「元表記単語ID」とのIDペアを、出力リストに追加し、分割された単語の全てについて、上記正規化処理が終わると、結果のリストを格納部30に出力する。
【0025】
格納部30は、受け取ったリスト中の各単語IDペアについて、「元表記単語ID」と「正規化単語ID」との差Sを計算する。つまり、差S=「元表記単語ID」−「正規化単語ID」である。
【0026】
図3は、上記実施例における文書蓄積構造の例を示す図である。
【0027】
図3に示す文書蓄積構造は、文書IDと、正規化単語IDリストと、ID差分リストとを有する。正規化単語IDリストは、正規化単語IDのリストであり、ID差分リストは、差S=「元表記単語ID」−「正規化単語ID」のリストである。
【0028】
正規化単語IDは、元表記単語IDよりも、常に先に語彙表21に登録されるので、上記差S(「元表記単語ID」−「正規化単語ID」)は、必ず0または正の数値になる。この値を、図3に示すID差分リストに追加する。また、正規化単語IDを、図3に示す正規化単語IDリストに追加する。
【0029】
入力されたリスト中の全ての上記IDペアに対して処理すると、現在処理中の文書11について、図3に示す正規化単語IDリストとID差分リストとの2つのリストを得ることができる。
【0030】
図3に示す表において、該当するレコード(所定の文書IDの欄)に、正規化単語IDリストを、そのまま記憶する。
【0031】
また、ID差分について、さらに「小さい整数に対して短く符号を割り当てる符号化」を行ってから、上記ID差分リストを記憶する。このような符号化方法として、Eliasのδ符号、γ符号等があり、一般的に利用されているものを用いればよい。なお、上記Eliasのδ符号、γ符号等の詳細については、Witten他著「Managing Gigabytes第2版」(Morgan Kaufmann Publishing発行)の第2章を参照されたい。
【0032】
つまり、単語分割部10は、所定の文書を単語に分割する分割手段の例であり、語彙表登録/参照部20は、上記分割された単語を正規化する正規化手段の例であり、記憶装置31は、上記正規化単語と、上記分割された単語の表記単語との両者を、識別可能に登録する登録手段の例である。
【0033】
また、上記登録手段は、上記正規化単語と上記表記単語との両者を語彙表に登録する手段の例であり、格納部30は、上記正規化単語と上記表記単語とにそれぞれ単語IDを割り当て、出現した単語に対して、上記正規化単語IDと上記表記単語IDとの差分を求め、この求めた差分をID差分リストとして上記登録手段に登録する登録制御手段の例である。
【0034】
さらに、格納部30は、上記差分が小さい場合、短い符号長を与える符号化方式によって上記差分符号化する手段である。
【0035】
次に、上記実施例における具体的な動作について説明する。
【0036】
図4は、上記実施例において、蓄積対象である文書(文書ID1)の例を示す図である。
【0037】
図5は、上記実施例において、蓄積対象である文書(文書ID2)の例を示す図である。
【0038】
図6は、上記実施例において、蓄積対象である文書(文書ID3)の例を示す図である。
【0039】
まず、各文書11には、文書IDが割り振られ、この文書IDの順に、処理される。
【0040】
ここで、単語の表記の変化として、アルファベットが大文字/小文字で変化する場合のみを想定し、アルファベット文字を正規化処理する場合、全て小文字に正規化処理するものとする。たとえば、単語「ABB」は、「abb」に正規化されるとする。
【0041】
格納部30で用いる符号化は、Eliasのγコードを用いる。また、この場合、γコードにおいて、値0を扱うことができないので、格納部30の処理によって得られた差分に1を加えたものを、符号化する。
【0042】
今、図4に示す文書が、文書ID1の文書(最初の文書)として、単語分割部10に入力されたとする。単語分割部10は、この文書を、形態素解析処理によって単語に分割し、結果として、図3に示すリストが出力される。この段階では、リスト中の単語は、文書中に出現した表記のままである。
【0043】
リストを受け取った語彙表登録/参照部20は、まず最初の単語「ABB」を取り出す。この単語「ABB」を正規化処理すると、「abb」になる。この「abb」をキーとして、語彙表21を参照すると、語彙表21は空であるので、この単語「abb」は、語彙表21に存在せず、語彙表21に新たに登録され、この登録された「abb」に、最初の単語IDである「1」が割り当てられる。元表記「ABB」をキーとして、語彙表21を調べると、この表記「ABB」も存在しないので、語彙表21に新たに登録され、次の単語IDである「2」が割り当てられる。上記単語ID「1」と「2」とによって、単語IDペア(1,2)が、出力リストに追加される。
【0044】
図4に示す例において、次の単語は、「は」である。正規化処理する場合にひらがなはそのままである(元の表記と同じである)ので、上記単語「は」を正規化処理すると、「は」が得られる。
【0045】
上記正規化した単語「は」は、語彙表21に存在しないので、語彙表21に新たに登録され、単語ID「3」が割り当てられる。元表記も同じであるので、同じく単語IDは「3」である。よって、単語「は」における単語IDペアは、(3,3)であり、この単語ペア(3,3)が出力リストに追加される。
【0046】
上記と同様の処理を、リスト中の他の単語についても実行すると、語彙表登録/参照部20の出力として、図8に示す単語IDペアのリストが得られる。また、ID1〜ID3の各文書についても、上記処理と同様の処理を実行する。
【0047】
図7は、上記実施例において、単語分割の結果、得られた単語リストの例を示す図である。
【0048】
図8は、上記実施例において、入力した文書(文書ID1)について正規化処理した結果、得られた単語ペアのリストを示す図である。
【0049】
図9は、上記実施例において、入力した文書(文書ID2)について正規化処理した結果、得られた単語ペアのリストを示す図である。
【0050】
図10は、上記実施例において、入力した文書(文書ID3)について正規化処理した結果、得られた単語ペアのリストを示す図である。
【0051】
格納部30では、受け取った単語ペアのリストから、まず、最初のIDペアを取り出す。この最初のIDペアは、(1,2)であり、正規化単語IDは、「1」であるので、正規化単語IDリストに、「1」を追加する。一方、これら2つの単語IDの差を求めると、2−1=1であり、この「1」に、「1」を加え、「2」を得、この得た「2」を、γ符号で符号化し、ID差分リストに追加する。
【0052】
次のIDペアは、図8から、(3,3)である。正規化単語IDは、「3」であるので、正規化単語IDリストに、「3」を追加する。一方、2つの単語IDの差を求めると、3−3=0であり、この「0」に、「1」を加え、「1」を得、この得た「1」を、γ符号で符号化し、ID差分リストに追加する。
【0053】
図11は、上記実施例において得られた正規化単語IDリストの例を示す図である。
【0054】
図12は、上記実施例において得られたID差分リストの例を示す図である。
【0055】
リスト中の全てのペアに対して、上記処理と同様の処理を行うと、図11に示す正規化単語IDリストと、図12に示すID差分リストとを得る。これを、文書IDと対応付け、記憶装置31に格納する。
【0056】
ID2、ID3の文書についても、上記と同様の処理を全て実行し、記憶装置31に格納する。この状態が、図3に示す状態である。
【0057】
なお、上記実施例をプログラムの発明として把握することができる。
【0058】
つまり、上記実施例は、所定の文書を単語に分割する分割手順と、上記分割された単語を正規化する正規化手順と、上記正規化単語と、上記分割された単語の表記単語との両者を、記憶装置に、識別可能に登録する登録手順とをコンピュータに実行させるプログラムの例である。
【0059】
また、この場合、上記登録手順は、上記正規化単語と上記表記単語との両者を語彙表に登録する手順であり、上記正規化単語と上記表記単語とにそれぞれ単語IDを割り当て、出現した単語に対して、上記正規化単語IDと上記表記単語IDとの差分を求め、この求めた差分をID差分リストとして上記記憶装置に登録する登録制御手順をコンピュータに実行させるコンピュータが読み取り可能な記録媒体の例である。
【0060】
さらに、上記登録制御手順は、上記差分が小さい場合、短い符号長を与える符号化方式によって上記差分符号化する手順である。
【0061】
また、上記プログラムを、CD、DVD、HD、半導体メモリ等の記録媒体に記録するようにしてもよい。
【0062】
【発明の効果】
本発明によれば、正規化された単語IDの列とは別に、元の表記にも単語IDを割り当て、その単語IDの列を記録する場合、正規化された単語IDの列と同じ容量を別途必要としないという効果を奏する。
【図面の簡単な説明】
【図1】本発明の一実施例である文書蓄積装置100の全体構成を示す図である。
【図2】上記実施例における語彙表21の例を示す図である。
【図3】上記実施例における文書蓄積構造の例を示す図である。
【図4】上記実施例における蓄積対象である文書(文書ID1)の例を示す図である。
【図5】上記実施例における蓄積対象である文書(文書ID2)の例を示す図である。
【図6】上記実施例における蓄積対象である文書(文書ID3)の例を示す図である。
【図7】上記実施例において、単語分割の結果、得られた単語リストの例を示す図である。
【図8】上記実施例において、入力した文書(文書ID1)について正規化処理した結果、得られた単語ペアのリストを示す図である。
【図9】上記実施例において、入力した文書(文書ID2)について正規化処理した結果、得られた単語ペアのリストを示す図である。
【図10】上記実施例において、入力した文書(文書ID3)について正規化処理した結果、得られた単語ペアのリストを示す図である。
【図11】上記実施例において、得られた正規化単語IDリストの例を示す図である。
【図12】上記実施例において、得られたID差分リストの例を示す図である。
【符号の説明】
100…文書蓄積装置、
10…単語分割部、
11…文書、
20…語彙表登録/参照部、
21…語彙表、
30…格納部、
31…記憶装置。

Claims (9)

  1. 所定の文書を単語に分割する分割手段と;
    上記分割された単語を正規化する正規化手段と;
    上記正規化単語と、上記分割された単語の表記単語との両者を、識別可能に登録する登録手段と;
    を有することを特徴とする文書蓄積装置。
  2. 請求項1において、
    上記登録手段は、上記正規化単語と上記表記単語との両者を語彙表に登録する手段であり、
    上記正規化単語と上記表記単語とにそれぞれ単語IDを割り当て、出現した単語に対して、上記正規化単語IDと上記表記単語IDとの差分を求め、この求めた差分をID差分リストとして上記登録手段に登録する登録制御手段を有することを特徴とする文書蓄積装置。
  3. 請求項2において、
    上記登録制御手段は、上記差分が小さい場合、短い符号長を与える符号化方式によって上記差分符号化する手段であることを特徴とする文書蓄積装置。
  4. 所定の文書を単語に分割する分割段階と;
    上記分割された単語を正規化する正規化段階と;
    上記正規化単語と、上記分割された単語の表記単語との両者を、識別可能に登録する登録段階と;
    を有することを特徴とする文書蓄積方法。
  5. 請求項4において、
    上記登録段階は、上記正規化単語と上記表記単語との両者を語彙表に登録する段階であり、
    上記正規化単語と上記表記単語とにそれぞれ単語IDを割り当て、出現した単語に対して、上記正規化単語IDと上記表記単語IDとの差分を求め、この求めた差分をID差分リストとして上記登録段階で登録する登録制御段階を有することを特徴とする文書蓄積方法。
  6. 請求項5において、
    上記登録制御段階は、上記差分が小さい場合、短い符号長を与える符号化方式によって上記差分符号化する段階であることを特徴とする文書蓄積方法。
  7. 所定の文書を単語に分割する分割手順と;
    上記分割された単語を正規化する正規化手順と;
    上記正規化単語と、上記分割された単語の表記単語との両者を、記憶装置に、識別可能に登録する登録手順と;
    をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
  8. 請求項7において、
    上記登録手順は、上記正規化単語と上記表記単語との両者を語彙表に登録する手順であり、
    上記正規化単語と上記表記単語とにそれぞれ単語IDを割り当て、出現した単語に対して、上記正規化単語IDと上記表記単語IDとの差分を求め、この求めた差分をID差分リストとして上記記憶装置に登録する登録制御手順をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
  9. 請求項8において、
    上記登録制御手順は、上記差分が小さい場合、短い符号長を与える符号化方式によって上記差分符号化する手順であることを特徴とする記録媒体。
JP2003146515A 2003-05-23 2003-05-23 文書蓄積装置、文書蓄積方法およびそのプログラムを記録した記録媒体 Pending JP2004348574A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003146515A JP2004348574A (ja) 2003-05-23 2003-05-23 文書蓄積装置、文書蓄積方法およびそのプログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003146515A JP2004348574A (ja) 2003-05-23 2003-05-23 文書蓄積装置、文書蓄積方法およびそのプログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2004348574A true JP2004348574A (ja) 2004-12-09

Family

ID=33533345

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003146515A Pending JP2004348574A (ja) 2003-05-23 2003-05-23 文書蓄積装置、文書蓄積方法およびそのプログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2004348574A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019159743A (ja) * 2018-03-13 2019-09-19 富士通株式会社 対応関係生成プログラム、対応関係生成装置、対応関係生成方法、及び翻訳プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019159743A (ja) * 2018-03-13 2019-09-19 富士通株式会社 対応関係生成プログラム、対応関係生成装置、対応関係生成方法、及び翻訳プログラム
JP7247460B2 (ja) 2018-03-13 2023-03-29 富士通株式会社 対応関係生成プログラム、対応関係生成装置、対応関係生成方法、及び翻訳プログラム

Similar Documents

Publication Publication Date Title
JP5471065B2 (ja) 文書情報生成装置、文書登録システム、及びプログラム
JP4365162B2 (ja) 構造化文書のデータを検索する装置および方法
US20080133565A1 (en) Device and method for constructing inverted indexes
JPWO2017017738A1 (ja) 符号化プログラム、符号化装置、及び符号化方法
JP6805720B2 (ja) データ検索プログラム、データ検索装置およびデータ検索方法
JP2007025939A (ja) 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム
Shimbo et al. Using sectioning information for text retrieval: a case study with the medline abstracts
JP2004348574A (ja) 文書蓄積装置、文書蓄積方法およびそのプログラムを記録した記録媒体
JP4251299B2 (ja) ファイル検索装置、方法、プログラム
US11487817B2 (en) Index generation method, data retrieval method, apparatus of index generation
JPH056398A (ja) 文書登録装置及び文書検索装置
JP4985096B2 (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
JP5346156B2 (ja) プログラム、転置インデックスの格納方法及び検索方法
JP2010146273A (ja) 文書検索装置およびプログラム
JP2009140113A (ja) 辞書編集装置、および辞書編集方法、並びにコンピュータ・プログラム
JP5906810B2 (ja) 全文検索装置、プログラム及び記録媒体
JP5971069B2 (ja) 情報処理装置、タイトル抽出方法及びプログラム
WO2022219804A1 (ja) 情報処理装置、作成方法、及び作成プログラム
JP2018180890A (ja) インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法
JP2018018279A (ja) 文書検索装置及びプログラム
JP4139805B2 (ja) 字句をデータに変換する装置、方法及びプログラム
JP4061283B2 (ja) 字句をデータに変換する装置、方法及びプログラム
Mori Applications of Natural Language Processing for Predicting Self-Harm Risk
JP2005275880A (ja) 字句をデータに変換する装置、方法及びプログラム
JP4612469B2 (ja) 漏洩源業務調査システム及び漏洩源業務調査方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060331

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060530

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060616