JP2010061284A

JP2010061284A - 辞書構築促進装置、辞書構築装置、辞書構築促進方法、辞書構築方法および辞書構築促進プログラム

Info

Publication number: JP2010061284A
Application number: JP2008224915A
Authority: JP
Inventors: Hidenori Kawai; 英紀河合
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2008-09-02
Filing date: 2008-09-02
Publication date: 2010-03-18

Abstract

【課題】シード語集合が大規模になっても、新語の抽出効率の低下を防ぎ、シード語集合の大きさに合わせて辞書の規模をスケーラブルに増加させることができる辞書構築装置、辞書構築方法および辞書構築プログラムを提供する。
【解決手段】文書の検索に用いる語の組合せと、文書の検索で検索した文書から抽出した、辞書に登録するための新たな語の数を取得する抽出新語数取得部２４と、抽出新語数取得部２４で取得した新たな語の数から所定の規則で、抽出新語数取得部２４で取得した検索に用いる語の組合せの和集合の、任意の部分集合の語を用いて文書を検索した場合の新語抽出数の推定値を算出する新語抽出数推定部２３と、新語抽出数推定部２３で算出した推定値に基づいて、検索に用いる語の組合せの和集合の部分集合である任意の語の組合せから、所定の基準で文書の検索に用いる語の組合せを選択する検索クエリ選択部２１と、を備える。
【選択図】図１

Description

本発明は、辞書構築促進装置、辞書構築装置、辞書構築促進方法、辞書構築方法および辞書構築促進プログラムに関する。

コンピュータに単語の意味を理解させるには、どの単語がどの意味的階層に属するかを登録した辞書が必要である。例えば、人名辞書、地名辞書、組織名辞書など、個別の辞書にそれぞれの意味的階層に属する単語を登録しておく。各辞書を参照して、例えば、ある単語が人名辞書に登録されていれば、その単語は人名に属する可能性があることが分かる。

特許文献１には、テキストの意味把握に利用される意味属性辞書を自動的に作成・構築する技術が記載されている。特許文献１の技術は、インターネット上からタグ付き文書を収集し、タグ付き文書のタグのパターンとそのパターンに対応した文字列の意味階層構造を記述した構造変換ルールデータベースと、該構造変換ルールデータベースを参照して、前記収集したタグ付き文書から各文字列の階層構造を抽出する。そして、単語間の係り受けルールを記述した文法解析ルールデータベースと、該文法解析ルールデータベースを参照して、前記階層構造の抽出された各文字列を単語に分割し、単語ごとの意味階層関係を辞書（意味属性辞書）に記述する。

特許文献２には、単語辞書作成および単語認識の技術が記載されている。特許文献２の技術は、「顧客名称」、「姓」、「名」、「普通名詞」の文字列をそれぞれ種別データと共に記憶し、単語検索の照合に用いる照合用単語辞書を備え、顧客内の「顧客名称」文字列の構成要素が氏名内の文字列または一般名称内の文字列と一致するかどうか判定する。一致条件の成立した「顧客名称」文字列を一致先の文字列に対応する種別データと共に照合用単語辞書に記憶せしめる辞書生成部を備える。

特許文献３には、未知語を含む新規テキストから関連語を抽出する方法が記載されている。まず、前処理部は、文書ファイルを参照して、二連単語リストを作成する前処理を行う。第１処理部は、注目単語ａに対して、前置単語ｘのリストと、後置単語ｙのリストを生成する第１の処理を行う。第２処理部は、二連単語リストを参照して、各前置単語ｘに対する後置単語の集合と、各後置単語ｙに対する前置単語の集合を生成する第２の処理を行う。第３処理部は、これらの後置単語の集合と前置単語の集合の共通要素から、関連語の候補対（ａ，ｂ）を抽出する第３の処理を行う。

特許文献４には、文書を適切な担当者に自動的に正確に分類する文書分類装置が記載されている。文書分類装置は、そのカテゴリにおいて出現した単語毎にtf・idf 値を格納する重要性辞書と、そのカテゴリにおいて出現した単語についての第１単語と第２単語の組合せ毎にidf/conf値を格納する同時出現性辞書とからなる辞書を備える。文書分類装置は、入力された文書に出現する単語を用いて辞書でその単語を照合して、辞書の単語毎のtf・idf 値とidf/conf値とを求め、これらに基づいて所定の演算を行って算出した単語毎のスコアに基づいてカテゴリ毎のスコアを算出し、これに基づいて入力された文書を複数のカテゴリのいずれかに分類する。

特許文献５には、代表語句を直接含んでいなくとも、関連性の高いコンテンツを幅広くコミュニティに取り込み、ユーザに提示する技術が記載されている。特許文献５のコミュニティ抽出技術は、コミュニティを代表するシードとなる語句を得る手段と、その語句を検索条件としてコンテンツ検索を行い第一検索結果を得る手段と、第一検索結果から代表語句と関連性の高い関連語句集合を抽出する手段と、関連語句集合中の各関連語句を検索条件としてコンテンツ検索を行うことで得られた第二検索結果と、第一検索結果との間の関連性の強さを表すスコアを算出する手段と、スコアの値に基づいて、関連語句をコミュニティを代表する代表語句集合へ結合し、第一検索結果と第二検索結果とを一つのコミュニティとして結合するか否かを判定する手段とを備える。

特開２０００−０９９５１５号公報特開２０００−２５１０１７号公報特開２００３−２５６４４７号公報特開２００５−１８２２１８号公報特開２００７−０９４５５２号公報

同一の意味的階層に属するキーワードを辞書として構築する方法の例として、河合英紀、水口弘紀、土田正明、「ブートストラップ式辞書構築における検索効率の向上」、データベースとＷｅｂ情報システムに関するシンポジウム(ＤＢＷｅｂ)、２００７年（参考文献）の技術が挙げられる。参考文献では、利用者の所望の種類の意味的階層に属する数語〜数十語程度の小規模な単語集合をシード語として入力し、複数のシード語が含まれる文書群を検索する。検索した各文書に含まれるシード語の周りの一貫性の高い周辺文字列を抽出パタンとして、シード語と同一の意味的階層に属する新語を抽出する方法が記載されている。

参考文献に記載された方法では、シード語集合が大規模になった場合、新語の抽出効率が低下し、ついには新語がほとんど抽出されなくなるという問題がある。ここで新語とは、シード語集合に格納されていない未知の単語であり、新語の抽出効率は、
（抽出された新語の数）／（検索回数）
で定義される指標である。

新語抽出効率の低下の主な原因は、以下の３つが挙げられる。

第１の問題として、シード語の低共起性の問題がある。シード語の数が多くなるほど、お互い共起しない複数のシード語の組合せが検索クエリとなってしまうケースが増える問題である。ここで、「共起する」とは、複数の単語が同一文書内に出現することを意味する。

例えば、地名辞書を構築する場合、シード語に様々な国の都市名が含まれていると、単純なランダム選択による検索クエリでは、「奈良市ＡＮＤポズナニＡＮＤパロアルト」という組合せで検索されるケースも発生する。このような場合、３都市の名前が同時に出現する文書は存在しないため、検索結果が０件になってしまう。したがって、１回の検索で得られる新語も０語となり、新語の抽出効率が低下することになる。

第２の問題として、検索文書の重複の問題がある。検索文書の重複の問題とは、既に検索結果として現れた文書が別の検索クエリでもヒットしてしまう問題である。

例えば、図１４に示す文書は、「東京ＡＮＤミラノＡＮＤパリ」でもヒットするが、「東京ＡＮＤミラノＡＮＤトロント」でもヒットする。この場合、一度、前者の検索クエリで図１４に示した文書から新語を抽出した後は、後者の検索クエリで同一文書がヒットしても、そこから新語を抽出するのは無駄な処理である。したがって、１回の検索で得られる新規の検索結果文書数が減ってしまうため、結果として新語の抽出効率が低下することになる。

第３の問題として、新語の重複の問題がある。新語の重複の問題とは、検索結果としては新しい文書であっても、そこから抽出した単語が既に新語として登録済みである場合の問題である。

例えば、既にシード語の中に「アトランティックシティー」「ニューヨーク」「トロント」「大邱」「デュッセルドルフ」という都市名が登録済みであれば、「東京ＡＮＤミラノＡＮＤパリ」という検索クエリを使って図１４から単語を抽出しても、それらはもはや新語とはいえない。このような重複が増えると、１回の検索で得られる新語の数が減り、新語の抽出効率が低下することになる。

ここで、高頻出語を優先して組合せることで、第１の問題にあるシード語の低共起性の問題を回避することは可能である。しかし、第２の問題（検索文書の重複）や第３の問題（新語の重複）の効果が支配的になり、新語の抽出効率が低下するおそれがある。その理由は、高頻出語ばかりを優先させた検索クエリは、同じ語ばかりを含んでおり、時間が経つにつれ、既にアクセス済みの検索文書が何度もヒットしたり、検索文書から単語を抽出しても既に登録済みであるケースが多くなるからである。

本発明の目的は、シード語集合が大規模になっても、新語の抽出効率の低下を防ぎ、シード語集合の大きさに合わせて辞書の規模をスケーラブルに増加させることができる辞書構築促進装置、辞書構築装置、辞書構築促進方法、辞書構築方法および辞書構築促進プログラムを提供することである。

本発明の第１の観点に係る辞書構築促進装置は、
文書の検索に用いる語の組合せを取得する検索語取得手段と、
前記文書の検索で検索した文書から抽出した、辞書に登録するための新たな語の数を取得する新語数取得手段と、
前記新語数取得手段で取得した新たな語の数から所定の規則で、前記検索語取得手段で取得した検索に用いる語の組合せの和集合の、任意の部分集合の語を用いて文書を検索した場合の新語抽出数の推定値を算出する推定手段と、
前記推定手段で算出した推定値に基づいて、前記検索に用いる語の組合せの和集合の部分集合である任意の語の組合せから、所定の基準で文書の検索に用いる語の組合せを選択する選択手段と、
を備えることを特徴とする。

本発明の第２の観点に係る辞書構築装置は、
文書の検索に用いる語の組合せを取得するクエリ取得手段と、
前記クエリ取得手段で取得した語の組合せを用いて、文書を検索する検索手段と、
前記検索手段で検索した文書から、辞書に登録する新たな語を抽出する新語抽出手段と、
本発明の第１の観点に係る辞書構築促進装置と、
を備え、
前記検索語取得手段は、前記検索手段から文書の検索に用いた語の組合せを取得し、
前記新語数取得手段は、前記新語抽出手段から検索で抽出した新たな語の数を取得する、
ことを特徴とする。

本発明の第３の観点に係る辞書構築促進方法は、
文書の検索に用いる語の組合せを取得する検索語取得ステップと、
前記文書の検索で検索した文書から抽出した、辞書に登録するための新たな語の数を取得する新語数取得ステップと、
前記新語数取得ステップで取得した新たな語の数から所定の規則で、前記検索語取得ステップで取得した検索に用いる語の組合せの和集合の、任意の部分集合の語を用いて文書を検索した場合の新語抽出数の推定値を算出する推定ステップと、
前記推定ステップで算出した推定値に基づいて、前記検索に用いる語の組合せの和集合の部分集合である任意の語の組合せから、所定の基準で文書の検索に用いる語の組合せを選択する選択ステップと、
を備えることを特徴とする。

本発明の第４の観点に係る辞書構築方法は、
文書の検索に用いる語の組合せを取得するクエリ取得ステップと、
前記クエリ取得ステップで取得した語の組合せを用いて、文書を検索する検索ステップと、
前記検索ステップで検索した文書から、辞書に登録する新たな語を抽出する新語抽出ステップと、
本発明の第３の観点に係る辞書構築促進方法と、
を備え、
前記検索語取得ステップは、前記検索ステップで文書の検索に用いた語の組合せを取得し、
前記新語数取得ステップは、前記新語抽出ステップで抽出した新たな語の数を取得する、
ことを特徴とする

本発明の第５の観点に係る辞書構築促進プログラムは、
文書の検索に用いる語の組合せを取得する検索語取得手段と、
前記文書の検索で検索した文書から抽出した、辞書に登録するための新たな語の数を取得する新語数取得手段と、
前記新語数取得手段で取得した新たな語の数から所定の規則で、前記検索語取得手段で取得した検索に用いる語の組合せの和集合の、任意の部分集合の語を用いて文書を検索した場合の新語抽出数の推定値を算出する推定手段と、
前記推定手段で算出した推定値に基づいて、前記検索に用いる語の組合せの和集合の部分集合である任意の語の組合せから、所定の基準で文書の検索に用いる語の組合せを選択する選択手段、
として機能させることを特徴とする。

本発明によれば、シード語集合が大規模になっても、新語の抽出効率の低下を防ぎ、シード語集合の大きさに合わせて辞書の規模を増大させ適応できる。

以下、この発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付す。

（実施の形態１）
図１は、本発明の実施の形態１に係る辞書構築装置の構成例を示すブロック図である。図１を参照すると、辞書構築装置１００は、新語抽出装置１と、辞書構築促進装置２から構成される。新語抽出装置１は、キーボード等の入力部３と、ディスプレイやプリンタ等の出力部４を備える。

新語抽出装置１は、文書群記憶部１１、検索結果記憶部１２、シード語記憶部１３、検索クエリ入力部１４、文書検索部１５および単語抽出部１６を含む。

文書群記憶部１１には、電子化された文書群が格納されている。各文書には文書ＩＤが付与されており、文書検索部１５は、文書ＩＤ（識別子）を介して任意の文書の内容にアクセスすることが可能である。なお、ここでは、理解を容易にするため、文書群記憶部１１が新語抽出装置１に格納されるケースについて説明するが、他にも、文書群記憶部１１がネットワークを介して外部のサーバーにあってもよく、本実施の形態に述べる方法に限定されない。例えば、文書群記憶部１１がインターネットを介して検索エンジンに格納されていてもよい。この場合、文書はＷｅｂページであり、文書ＩＤはＷｅｂページのＵＲＬ（Uniform Resource Locator）となる。

検索結果記憶部１２には、検索に使われた検索クエリと、それによって得られた検索結果件数、および、ヒットした文書ＩＤのリストが格納されている。図２に、検索結果記憶部１２に格納されるデータの例を示す。図２を見ると、文書群記憶部１１内で、キーワードＫ１、Ｋ２、Ｋ３を組合せた検索クエリ「K1 AND K2 AND K3」がヒットした文書は１０件あり、その内容は文書Ｄ１〜Ｄ１０にアクセスすることで得られることが分かる。同様に、キーワードＫ１、Ｋ４、Ｋ５を組合せた検索クエリ「K1 AND K4 AND K5」がヒットした文書は６件あり、その内容は文書Ｄ１、Ｄ２、Ｄ１１、Ｄ１２、Ｄ１３、Ｄ１４にアクセスすることで得られることが分かる。なお、この場合、検索結果記憶部１２に格納されているデータから、異なる検索クエリで検索結果が重複した場合を検出することができる。例えば、検索クエリ「K1 AND K4 AND K5」の検索結果に含まれているＤ１とＤ２は、既に検索クエリ「K1 AND K2 AND K3」の検索結果に含まれているため、改めてアクセスする必要はない。このように、検索結果記憶部１２を見ることで、重複した文書にアクセスすることを防ぐことができる。

シード語記憶部１３には、利用者が最初に登録した単語、および、後から抽出された新語が、出現頻度と出現文書ＩＤとともに格納されている。シード語記憶部１３に格納されているデータの例を図３に示す。図３を見ると、キーワードＫ１は出現頻度が１４回で、文書Ｄ１〜Ｄ１４の文書に出現していたことが分かる。同様に、キーワードＫ２の出現頻度は１６回で、文書Ｄ１〜Ｄ１２、Ｄ１５〜Ｄ１８に出現していたことが分かる。また、図３のデータからキーワードの共起度も計算可能である。例えば、キーワードＫ１とＫ２は、文書Ｄ１〜Ｄ１２に共通して出現していることが分かる。なお、シード語記憶部１３に格納されているキーワードのうち、実際にシード語として検索クエリに用いられるキーワードは、出現頻度があらかじめ定められた閾値θの場合のみであるとする。

検索クエリ入力部１４は、文書を検索するための検索クエリを取得する。検索クエリは、文字列からなるキーワード（検索語）を含む論理式で与えられる。新語を抽出するための検索クエリは、一般に、複数のキーワードの論理積である。すなわち、新語を抽出するための検索クエリは、キーワード（語）の組合せで表現される。初期のシード語の組と初期の検索クエリは、入力部３から入力される。初期の検索クエリで文書を検索し、新語を抽出してからは、継続する検索クエリが辞書構築促進装置２から入力される。

文書検索部１５は、検索クエリ入力部１４で入力された検索クエリを用いて、文書群記憶部１１を検索し、文書ＩＤで示される文書の内容を取得する。同時に、検索結果記憶部１２に、検索結果件数および文書ＩＤリストを記録する。

単語抽出部１６は、文書検索部１５によって取得された文書の内容を解析し、検索クエリに含まれているキーワードの周りに共通している周辺文字列を抽出パタンとし、抽出パタンにマッチする他のキーワードを文書から抽出する。抽出されたキーワードが既にシード語記憶部１３に登録されていれば、そのキーワードの出現頻度を加算し、出現文書ＩＤを追加する。抽出されたキーワードが新語の場合は、シード語記憶部１３に新たな行としてデータを追加し、辞書構築促進装置２にそのデータを送る。

辞書構築促進装置２は、検索クエリ選択部２１、新語抽出数推定部２３、抽出新語数取得部２４、抽出新語数記憶部２７および抽出効率記憶部２８を備える。

抽出新語数取得部２４は、新語抽出装置１で抽出されたキーワードが新語の場合に、そのときの検索クエリと新語が抽出されたことを示すデータを、新語抽出装置１から受け取り、抽出新語数記憶部２７の新語数に加算する。新語数は、検索クエリごとに加算する。

抽出新語数記憶部２７には、検索に使われた検索クエリと、それによって抽出された新語の数が格納されている。抽出新語数記憶部２７に格納されているデータの例を図４に示す。図４を見ると、検索クエリ「K1 AND K2 AND K3」にヒットした文書群から最終的に抽出された新語数は１２３４語であることが分かる。一方、検索クエリ「K1 AND K4 AND K5」にヒットした文書群から最終的に抽出された新語数は１３語しかないことが分かる。図４のデータから、キーワードＫ１、Ｋ４、Ｋ５の組合せは新語抽出効率が比較的低いことが分かる。

なお、抽出新語数記憶部２７のデータと、検索結果記憶部１２のデータと合わせることで、新語抽出効率が低い原因も特定可能である。例えば、検索結果記憶部１２に記録されている検索結果件数が著しく少ない場合は、（Ａ）検索語の低共起性の問題が原因であると推定できる。また、検索結果記憶部１２の出現文書ＩＤが、それより前の出現文書ＩＤと重複が多い場合は、（Ｂ）検索文書の重複の問題が原因であると推定できる。さらに、（Ａ）、（Ｂ）、のいずれの場合でもない場合は、（Ｃ）新語の重複の問題が原因であると推定できる。検索クエリごとの新語抽出数は、検索の順序によっても変化する。最終的には、いずれの原因であっても、新語抽出効率の低いキーワードの組合せを避けることが最も重要である。

図１の新語抽出数推定部２３は、抽出新語数記憶部２７に格納されたデータを元に、すでに文書の検索に用いた検索クエリの集合に含まれる任意の２語のキーワードの組について、次にその２語のキーワードを含む検索クエリで文書を検索した場合の、新語抽出数の推定値を計算する。新語抽出数推定部２３は、計算した新語抽出数の推定値を、抽出効率記憶部２８に格納する。任意の２語のキーワードの組について、新語抽出数の推定値を計算する方法は後述する。

抽出効率記憶部２８には、新語抽出数推定部２３で計算された任意の２語のキーワードの組についての新語抽出数の推定値が記録されている。抽出効率記憶部２８に格納されているデータの例を図５に示す。図５は、行と列のキーワードの組について、新語抽出数の推定値を記録している。新語抽出数の推定値は対角線を挟んで、対称である。図５の例では、キーワードＫ１との組合せでは、Ｋ４が最も新語抽出数の推定値が大きく、Ｋ２は新語抽出数の推定値が最も小さい。また、キーワードＫ３とＫ４の組合せでは「？」が記録されている。「？」は、その組合せでまだ十分な回数の検索が行われておらず、統計的な新語抽出数の推定値が求められていないことを表す。

検索クエリ選択部２１は、新語抽出数推定部２３で計算した任意の２語の組合せの新語抽出数の推定値から、シード語記憶部１３に記憶されている語を任意に組合せた検索クエリを用いて文書を検索した場合の、新語抽出数の推定値を計算する。任意の検索クエリについて、新語抽出数の推定値を計算する方法は後述する。検索クエリ選択部２１は、新語抽出効率の低いキーワードの組合せを避け、新語抽出効率の高い組合せの検索クエリを選択する。

高頻度語や高共起度を優先した検索クエリ選択と比べて、新語抽出効率を用いた検索クエリ選択が優れている理由は、新語抽出数という指標には、新語の抽出数が低下する３つの原因、（Ａ）シード語の低共起性の問題、（Ｂ）検索文書の重複の問題、（Ｃ）新語の重複の問題が全て反映されているからである。例えば、高頻度語や高共起性のキーワード同士を組合せて検索クエリに利用すると、（Ａ）シード語の低共起性の問題は解消されるが、時間が経つと（Ｂ）検索文書の重複の問題、（Ｃ）新語の重複の問題により、新語抽出の数は低下してしまう。一方、新語抽出数を常時モニタリングすることによって、（Ｂ）検索文書の重複の問題や（Ｃ）新語の重複の問題が発生しているキーワードの組合せを知ることができるため、そのようなキーワードの組合せを避けた検索クエリ選択が可能となる。

検索クエリ入力部１４は、検索クエリ選択部２１から検索クエリを入力する。文書検索部１５は、検索クエリ選択部２１によって選択された検索クエリを用いて、文書群記憶部１１を検索し、文書ＩＤで示される文書の内容を取得する。同時に、検索結果記憶部１２に、検索結果件数および文書ＩＤリストを記録する。

新語抽出数推定部２３は、抽出新語数記憶部２７のデータから、任意の２語のキーワードの組合せに対し、それら２語のキーワードが含まれる直近ｘ回の検索クエリで抽出された新語数の平均値を新語抽出効率の推定値として計算し、抽出効率記憶部２８に格納する。

図１および図６〜８を用いて、本実施の形態の動作について詳細に説明する。図６は、本実施の形態１に係る辞書構築装置１００の動作の一例を示す流れ図である。なお、理解を容易にするため、検索クエリに使うキーワード数はあらかじめω語（ωは２以上）と定められているものとする。以下、ω＝３の場合を例に説明する。

まず、検索クエリ選択部２１が、抽出効率記憶部２８に格納された新語抽出効率の推定値を用いて、検索クエリを選択する（図６のステップＳ１０１）。もし、初期状態で、抽出効率記憶部２８に格納された新語抽出効率の推定値がまったくない、もしくは、ほとんどない場合は、シード語記憶部１３に格納されているシード語リストからランダムにω語選択すればよい。ここでは、ある程度シード語集合の規模が大きくなった状態における動作について詳細に説明する。

図７は、本実施の形態１におけるシード語選択処理（ステップＳ１０１）の詳細な動作を示す流れ図である。検索クエリ選択部２１は、まず、検索クエリとして選択するキーワードのカウンタｉを１にセットする（図７のステップＳ１１１）。

次に、検索クエリ選択部２１は、検索クエリとして１語目を選択するための各キーワードのスコア分布を計算する（図７のステップＳ１１２）。スコア分布としては例えば、シード語記憶部１３に格納されている出現頻度を用いることができる。なお、他にも１語目の選択には一様分布を使う方法なども考えられ、本実施の形態に述べた方法に限定されない。

次に、検索クエリ選択部２１は、スコア分布に従って、ランダムに１語目を選択する（図７のステップＳ１１３）。例えば、スコア分布に出現頻度を用いる場合、シード語記憶部１３におけるキーワードＫ１、Ｋ２、Ｋ３、Ｋ４の出現頻度がそれぞれ、１０回、１５回、５回、２０回であったとする。出現頻度の分布に比例してキーワードを選択するには、例えば、１以上５０以下の整数の乱数ｒを発生させ、ｒが１０以下ならばキーワードＫ１を、ｒが１１以上２５以下ならばキーワードＫ２を、ｒが２６以上３０以下ならばキーワードＫ３を、ｒが３１以上５０以下ならばキーワードＫ４を選択する。以下、ここで１語目の検索キーワードとしてＫ１が選択されたものとして、後の説明を続ける。

次に、カウンタｉの値が検索クエリに使うキーワード数ω語よりも小さければ（図７のステップＳ１１４；ＹＥＳ）、カウンタｉに１を加算して（図７のステップＳ１１５）、次の語の選択に戻る（図７のステップＳ１１２）。

２語目以降のキーワードのスコア分布は、既に検索クエリとして選択された語に対して、未選択の語を組合せた際の新語抽出数の推定値の平均として求める。すなわち、既に検索クエリとして選択されたｓ語のキーワードの集合Kq = {K_t1, K_t2, ..., K_ts}に対し、ｊ番目のキーワードＫｊのスコアSC(Kj)を、
SC(Kj) = {NWR(K_t1, Kj) + NWR(K_t2, Kj) + ... + NWR(K_ts, Kj)} / s
と定義する。ここで、NWR(x, y)は、抽出効率記憶部２８に格納されているｘ列ｙ行の要素の値である。なお、NWR(x, y)が未知である場合は、全要素の平均値を使うこととする。例えば、抽出効率記憶部２８に格納されているデータが図５のようであった場合は、NWR(K3, K4)の値は、(12+40+158+0+33)/5 = 48.6とする。

例えば、１語目の検索キーワードとしてＫ１が選択された場合、抽出効率記憶部２８に格納されているデータが図５の新語抽出数推定値の場合は、スコア分布として、
SC(K2) = {NWR(K1, K2)} / 1 = 12
SC(K3) = {NWR(K1, K3)} / 1 = 40
SC(K4) = {NWR(K1, K4)} / 1 = 158
が得られる。

次に、検索クエリ選択部２１は、スコア分布に従って、ランダムに２語目を選択する（図７のステップＳ１１３）。上記の例に示される通り、キーワードＫ１と組合せた時に新語抽出数が低いＫ２は選ばれにくく、新語抽出数の高いＫ４が選ばれやすくなっている。以下、ここで２語目の検索キーワードとしてＫ３が選択されたものとして、後の説明を続ける。

次に、カウンタｉが検索クエリに使うキーワード数ω語よりも小さければ（図７のステップＳ１１４；ＹＥＳ）、ｉに１加算して（図７のステップＳ１１５）、次の語の選択に戻る（図７のステップＳ１１２）。

３語目のキーワードのスコア分布は、２語目の時と同様に求める。検索キーワードとして、Ｋ１、Ｋ３が選択されている場合、抽出効率記憶部２８に格納されているデータが図５の新語抽出数推定値の場合は、スコア分布として、
SC(K2) = {NWR(K1, K2) + NWR(K3, K2)} / 2 = (12 + 0) / 2 = 6
SC(K4) = {NWR(K1, K4) + NWR(K3, K4)} / 2 = (158 + 48.6) / 2 = 103.3
が得られる。

次に、検索クエリ選択部２１は、スコア分布に従って、ランダムに３語目を選択する（図７のステップＳ１１３）。上記の例に示される通り、キーワードＫ１と組合せた時に新語抽出数が低いＫ２は選ばれにくく、新語抽出数の高いＫ４が選ばれやすくなっている。以下、ここで３語目の検索キーワードとしてＫ４が選択されたものとして、後の説明を続ける。

次に、カウンタｉの値が検索クエリに使うキーワード数ω語と等しくなったため（図７のステップＳ１１４；ＮＯ）、キーワードＫ１、Ｋ３、Ｋ４を検索クエリとしてシード語選択処理を終了する。

文書検索部１５は、検索クエリ選択部２１によって生成された検索クエリを用いて、文書群記憶部１１を検索し、文書ＩＤで示される文書の内容を取得する（図６のステップＳ１０２）。同時に、検索結果記憶部１２に、検索結果件数および文書ＩＤリストを記録する。

単語抽出部１６は、文書検索部１５によって取得された文書の内容を解析し、検索クエリに含まれているキーワードの周りに共通している周辺文字列を抽出パタンとし、抽出パタンにマッチする他のキーワードを文書から抽出する（図６のステップＳ１０３）。抽出パタンの生成方法は、以下の通りである。

文書内に出現している各シード語について、右側２〜５０文字のｓｕｆｆｉｘ（後方一致）を右側パタン集合ＲＰとし、左側２〜５０文字のｐｒｅｆｉｘ（前方一致）を左側パタン集合ＬＰとする。それぞれの集合における周辺文字列（右側のｓｕｆｆｉｘと左側のｐｒｅｆｉｘ）の出現頻度と文字列の長さの積をとり、最大値になった周辺文字列の組合せを抽出パタンとする。

新語抽出数推定部２３は、抽出新語数記憶部２７のデータから、任意の２語のキーワードの組合せに対し、それら２語のキーワードが含まれる直近ｘ回の検索クエリで抽出された新語数の平均値を新語抽出効率の推定値として計算し、抽出効率記憶部２８に格納する（図６のステップＳ１０４）。

図８に、新語抽出数推定部２３が行う抽出効率計算処理の詳細を示す。まず、新語抽出数推定部２３はカウンタｉを１にセットする（図８のステップＳ１２１）。

次に、新語抽出数推定部２３は、カウンタｊをｉ＋１にセットする。ｉ＝１の場合は、ｊ＝２になる。（図８のステップＳ１２２）。

次に、新語抽出数推定部２３は、抽出新語数記憶部２７に格納されているデータの中から、キーワードＫｉ、Ｋｊを含むクエリと、その時の抽出新語数の履歴を検索し、直近ｘ回の検索クエリで抽出された新語数の平均値を、新語抽出効率の推定値として計算する。

例えば、キーワードＫ１、Ｋ２を含む検索クエリが１０件存在し、新語抽出数NN(K1, K2, Kp)が以下のようであった場合、直近３回の検索クエリによる抽出新語数の平均値は、(15+4+8)/3=9である。
NN（K1, K2, K3) = 3,245
NN（K1, K2, K6) = 8,270
NN（K1, K2, K8) = 897
NN（K1, K2, K12) = 1,459
NN（K1, K2, K15) = 671
NN（K1, K2, K17) = 130
NN（K1, K2, K18) = 87
NN（K1, K2, K20) = 15
NN（K1, K2, K22) = 4
NN（K1, K2, K23) = 8

このように、直近の検索クエリで抽出された新語数の平均値を新語抽出効率の推定値として計算することによって、キーワードＫ１、Ｋ２を含む検索クエリによる新語抽出の効率が低下しているか否かを反映することができる。

ここで、もし、Ｋｉ、Ｋｊを含む直近のクエリがｘ回以上存在しない場合、新語抽出効率の推定値は「？」として未知であるとしておく。

次に、新語抽出数推定部２３は、カウンタｊを１ずつ加算しながらシード語数Ｓを超えるまで抽出新語数の平均値を繰り返す（図８のステップＳ１２４、Ｓ１２５）。

また、新語抽出数推定部２３は、カウンタｉについても１ずつ加算しながらシード語数Ｓを超えるまで抽出新語数の平均値を繰り返す（図８のステップＳ１２６、Ｓ１２７）。以上の処理により、全てのキーワードの組合せにおける新語抽出効率の推定値を計算することができる。

なお、本実施の形態では、検索クエリに利用するキーワードを、新語抽出数推定値を参照しながら１語ずつ決定する方法について述べたが、他にも、単純なランダムサンプリングでキーワードの組合せを複数通り生成し、各組合せに対して、下記のようなクエリスコアＱＳを用いて各検索クエリに対するスコア付けを行い、一番高いスコアの検索クエリを検索に用いるといった方法も考えられ、本実施の形態に述べた方法に限定されない。

ｓ語のシード語からなる検索クエリ候補QC={K_q1, K_q2, ..., K_qs}について、クエリスコアＱＳは、クエリ候補ＱＣ内における任意の２語のキーワードの組合せに対する新語抽出数推定値の平均値として定義される。具体的には、
QS(QC) = Σ_ij {NWR(K_i, K_j)}/s_C_2
となる。ここで、Σ_ijは、ｉとｊが等しくない全ての組合せについて加算を行うことを意味しており、s_C_2はｓ個の要素から２個とりだす組合せ（Combination）の数s(s-1)/2である。

例えば、ランダムサンプリングでキーワードの組合せを複数通り生成した結果、３つのクエリ候補QC1={K1, K2, K3}、QC2={K1, K2, K4}、QC3={K1, K3, K4}が得られたとする。この時、抽出効率記憶部２８に格納されているデータが図５の通りであったとすると、各クエリ候補のクエリスコアＱＳは、以下のように計算できる。
QS(QC1) = {NWR(K1, K2) + NWR(K2, K3) + NWR(K1, K3)} / 3
= (12 + 0 + 40) / 3 = 17.3
QS(QC2) = {NWR(K1, K2) + NWR(K2, K4) + NWR(K1, K4)} / 3
= (12 + 33 + 158) / 3 = 67.7
QS(QC3) = {NWR(K1, K3) + NWR(K3, K4) + NWR(K1, K4)} / 3
= (40 + 48.6 + 158) / 3 = 82.2
以上より、上記の例の場合は、検索クエリQC3={K1, K3, K4}が検索に使われることになる。

以上説明したように、本実施の形態の辞書構築促進装置２によれば、各キーワードの組合せにおける抽出新語数から、任意のキーワードの組合せにおける新語抽出効率の推定値を求め、それを用いてなるべく新語抽出効率が高くなるようなキーワードの組合せを検索クエリとして選択する検索戦略を備えている。そのため、シード語集合が大規模になっても、辞書構築装置１００における新語の抽出効率の低下を防ぎ、辞書の規模をスケーラブルに増加させることができる。

なお、図１では、新語抽出装置１と辞書構築促進装置２を別の装置のように説明した。辞書構築促進装置２は、新語抽出装置１（狭義の辞書構築装置と考えてもよい）にとりつける装置として構成することができる。また、新語抽出装置１と辞書構築促進装置２をハードウェアとして１つの装置（辞書構築装置１００）で構成することもできる。その場合、新語抽出装置１の単語抽出部１６は、辞書構築促進装置２の抽出新語数取得部２４を兼ねることができる。すなわち、単語抽出部１６は、抽出されたキーワードが新語の場合は、シード語記憶部１３に新たな行としてデータを追加すると同時に、抽出新語数記憶部２７の新語数に加算する。また、検索クエリ入力部１４は、検索クエリ選択部２１に含めてもよい。

また、実施の形態１の説明では、新語抽出数推定部２３において、２語のキーワードが含まれる直近ｘ回の検索クエリで抽出された新語数の平均値を新語抽出効率の推定値として計算する方法を説明した。２語のキーワードが含まれる直近ｘ回の検索クエリで抽出された新語数の変化を近似する、一次式またはｎ次多項式などを用いて、新語抽出効率の推定値を計算してもよい。前述の平均値は０次近似といえる。

（実施の形態２）
実施の形態２の辞書構築促進装置は、新語抽出数推定値に加えて、共起度を用いて検索クエリを選択する。図９は、本発明の実施の形態２に係る辞書構築装置の構成例を示すブロック図である。

図９を参照すると、実施の形態２の辞書構築促進装置２は、図１に示された実施の形態１の構成に加えて、文書内共起記憶部２６と、文書内共起計算部２５を備えている点で異なる。また、検索クエリ選択部２１が、第２の検索クエリ選択部２２に置き換わっている点でも異なる。

文書内共起記憶部２６は、任意の２組のキーワードが何件の文書から同時に抽出されたかを表すデータを格納している。文書内共起記憶部２６が格納するデータの例を図１０に示す。図１０を見ると、キーワードＫ１とＫ２は５件の文書から同時に抽出されたことが分かる。同様に、キーワードＫ１とＫ３は１４件の文書から同時に抽出されたことが分かる。さらに、キーワードＫ１とＫ４は、同一文書から同時に抽出されたことがなく、文書内共起は０件となっていることが分かる。

文書内共起計算部２５は、シード語記憶部１３に格納されているキーワードと文書ＩＤのリストから、任意の２組のキーワードが何件の文書から同時に抽出されたかを計数し、文書内共起記憶部２６に格納する。

検索クエリ選択部２２は、抽出効率記憶部２８に格納されている抽出効率の推定値に加えて、文書内共起記憶部２６に格納されている文書内共起の値も考慮に入れながら検索クエリとすべきキーワードの組合せを求める。

文書内共起記憶部２６に格納されるデータは、抽出効率記憶部２８に格納されるデータと同一の形式であるが、その性質は異なる。抽出効率記憶部２８に格納されるデータは、抽出新語数記憶部２７のデータを元に計算されるため、実際に検索クエリとして検索されたキーワードの組合せしか値が不明である。一方、文書内共起記憶部２６に格納されるデータは、任意の２組のキーワードが同一文書から抽出されると計算できる値であるため、より早く、より多くのキーワードの組合せに対する値を求めることができる。

このような性質の違いを利用することにより、抽出効率記憶部２８のデータが、図１１にように不明部分が多い場合であっても、検索クエリ選択部２２は、文書内共起記憶部２６から、どのキーワードの組合せの共起度が高い可能性があるかを推定し、より多くの検索結果が得られる可能性の高い検索クエリを生成することができるようになる。

以下に、図９〜図１２を用いて、本実施の形態の動作について詳細に説明する。図１２は、本実施の形態の辞書構築装置１００に係る動作の一例を示す流れ図である。なお、理解を容易にするため、検索クエリに使うキーワード数はあらかじめω語（ωは２以上）と定められているものとする。以下、ω＝３の場合を例に説明する。

なお、本実施の形態における文書検索部１５、単語抽出部１６、および新語抽出数推定部２３の動作は、図６に示す実施の形態１における動作と同一である。

まず、検索クエリ選択部２２は、抽出効率記憶部２８のデータと、文書内共起記憶部２６のデータの両方を使って、シード語の選択を行う（図１２のステップＳ１１１）。例えば、ここでは１語目にキーワードＫ１が検索クエリとして選択され、２語目を選択する場合について詳細に説明する。

２語目以降のキーワードのスコア分布は、既に検索クエリとして選択された語に対して、未選択の語を組合せた際の、新語抽出数の推定値の平均と文書内共起度の線形和として求める。すなわち、既に検索クエリとして選択されたｓ語のキーワードの集合Kq = {K_t1, K_t2, ..., K_ts}に対し、新語抽出数から求められるj番目のキーワードKjのスコアSC1(Kj)を、
SC1(Kj) = {NWR(K_t1, Kj) + NWR(K_t2, Kj) + ... + NWR(K_ts, Kj)} / s
とし、
文書内共起度から求められるj番目のキーワードKjのスコアSC2(Kj)を
SC2(Kj) = {DCO(K_t1, Kj) + DCO(K_t2, Kj) + ... + DCO(K_ts, Kj)} / s
とし、
全体のスコアSC(Kj)をSC1(Kj)とSC2(Kj)の線形和として求める。
SC(Kj) = ρSC1(Kj) + (1 - ρ)SC2(Kj)
ここで、NWR(x, y)は、抽出効率記憶部２８に格納されているｘ列ｙ行の要素の値である。また、DCO(x, y)は、文書内共起記憶部２６に格納されているｘ列ｙ行の要素の値である。また、ρは０以上１未満のパラメータであり、新語抽出効率をどの程度重視するかによって、あらかじめ定められる値である。以下では、ρ＝０．９を例として説明を行う。

なお、NWR(x, y)が未知である場合は、全要素の平均値を使うこととする。例えば、抽出効率記憶部２８に格納されているデータが図１１のようであった場合は、NWR(K1, K4)の値は、
(4+51+11+13+67+23+5+0+14+0+32+2+43)/13 = 20.4
とする。

例えば、１語目の検索キーワードとしてＫ１が選択された場合、抽出効率記憶部２８に格納されているデータが図１１のようであった場合は、スコア分布として、
SC(K2) = 0.9*{NWR(K1, K2)} / 1 + 0.1*{DCO(K1, K2)} / 1
= 0.9*4/1 + 0.1*5/1 = 4.1
SC(K3) = 0.9*{NWR(K1, K3)} / 1 + 0.1*{DCO(K1, K3)} / 1
= 0.9*51/1 + 0.1*14/1 = 47.3
SC(K4) = 0.9*{NWR(K1, K4)} / 1 + 0.1*{DCO(K1, K4)} / 1
= 0.9*20.4/1 + 0.1*0/1 = 18.4
SC(K5) = 0.9*{NWR(K1, K5)} / 1 + 0.1*{DCO(K1, K5)} / 1
= 0.9*20.4/1 + 0.1*92/1 = 27.6
SC(K6) = 0.9*{NWR(K1, K6)} / 1 + 0.1*{DCO(K1, K6)} / 1
= 0.9*11/1 + 0.1*6/1 = 10.5
SC(K7) = 0.9*{NWR(K1, K7)} / 1 + 0.1*{DCO(K1, K7)} / 1
= 0.9*20.4/1 + 0.1*25/1 = 20.86
SC(K8) = 0.9*{NWR(K1, K8)} / 1 + 0.1*{DCO(K1, K8)} / 1
= 0.9*13/1 + 0.1*6/1 = 12.3
SC(K9) = 0.9*{NWR(K1, K9)} / 1 + 0.1*{DCO(K1, K9)} / 1
= 0.9*67/1 + 0.1*55/1 = 65.8
が得られる。

上記の例では、キーワードＫ１とＫ４、Ｋ１とＫ５、Ｋ１とＫ７の組合せでは、新語抽出効率の項だけでは、いずれも値が不明で差がつかないが、文書内共起度のスコアが第２項に入ってくることによって、より文書内共起度の高いキーワードのスコア分布が高くなるようになっている。２語の検索クエリの場合は、上述の例で、スコアＳＣが最大の組合せ（Ｋ１、Ｋ９）を選択することができる。

検索クエリが３語の場合は、実施の形態１のスコアの計算と同様に、前述のＳＣ１、ＳＣ２の式を３語（選択された２語＋追加の１語）に適用して、スコアＳＣ１とスコアＳＣ２を算出する。そして、ＳＣ１とＳＣ２から線形和のスコアＳＣを計算する。

検索クエリ選択部２２は、新語抽出数推定値と共起度に基づいて算出されたスコアから、例えば、最大のスコアのシード語の組合せを検索クエリとして選択する。

文書検索処理（ステップＳ１０２）以降について、図１２のステップＳ１０２ないしステップＳ１０４の動作は、図６の対応するステップと同様である。文書内共起計算部２５は、ステップＳ１０３で新たに抽出された新語を含めて、シード語記憶部１３に格納されているキーワードと文書ＩＤのリストから、任意の２組のキーワードが何件の文書から同時に抽出されたかを計数し、文書内共起記憶部２６に格納する（図１２のステップＳ１１５）。

なお、実施の形態１で説明した計算方法と同様に、単純なランダムサンプリングでキーワードの組合せを複数通り生成し、各組合せに対して、スコア付けを行い、一番高いスコアの検索クエリを検索に用いる方法も考えられ、本実施の形態に述べた方法に限定されない。

例えば、ｓ語のシード語からなる検索クエリ候補QC={K_q1, K_q2, ..., K_qs}について、クエリスコアＱＳは、クエリ候補ＱＣ内における任意の２語のキーワードの組合せに対する、新語抽出数推定値の平均値と共起度の平均値の線形和として定義することができる。具体的には、
QS(QC) = ρ・Σ_ij {NWR(K_i, K_j)}/s_C_2 + (1-ρ)・Σ_ij {DCO(K_i, K_j)}/s_C_2
となる。ここで、Σ_ijは、ｉとｊが等しくない全ての組合せについて加算を行うことを意味しており、s_C_2はｓ個の要素から２個とりだす組合せ（Combination）の数s(s-1)/2である。

以上説明したように、本実施の形態２の辞書構築促進装置２では、抽出効率記憶部２８の新語抽出効率の推定値と、文書内共起記憶部２６の文書内共起度の両方を使って、シード語の選択を行う。これにより、新語抽出効率が不明の場合でも、より文書内共起度の高いキーワードのスコア分布が高くなるので、多くの検索結果が得られる可能性の高いキーワードの組合せを選択できる。

なお、実施の形態１と同様に、新語抽出装置１と辞書構築促進装置２をハードウェアとして１つの装置（辞書構築装置１００）で構成することもできる。

図１３は、図１または図９に示す辞書構築促進装置２、または辞書構築装置１００のハードウェア構成の一例を示すブロック図である。辞書構築促進装置２または辞書構築装置１００は、図１３に示すように、制御部３１、主記憶部３２、外部記憶部３３、操作部３４および表示部３５を備える。また、辞書構築装置１００はさらに、送受信部３６を備える場合がある。主記憶部３２、外部記憶部３３、操作部３４、表示部３５および送受信部３６はいずれも内部バス３０を介して制御部３１に接続されている。

辞書構築促進装置２が、新語抽出装置１と同じハードウェア上に実現される場合は、図１３に示す構成は辞書構築装置１００である。その場合、辞書構築促進装置２は、辞書構築装置１００で実行されるプロセスとして実現される。以下、辞書構築プログラム５００は、辞書構築促進処理のプログラム（辞書構築促進プログラム）の場合を含むものとして説明する。すなわち、辞書構築促進装置２が、新語抽出装置１と同じハードウェア上に実現される場合は、辞書構築プログラム５００は辞書構築促進プログラムを含む。辞書構築促進装置２が、新語抽出装置１と別のハードウェア上に実現される場合に、図１３のハードウェアが辞書構築促進装置を表すときには、辞書構築プログラム５００は、辞書構築促進プログラム５００を指すものとする。

制御部３１はＣＰＵ（Central Processing Unit）等から構成され、外部記憶部３３に記憶されている辞書構築（促進）プログラム５００に従って、前述の辞書構築処理を実行する。

主記憶部３２はＲＡＭ（Random-Access Memory）等から構成され、外部記憶部３３に記憶されている辞書構築（促進）プログラム５００をロードし、制御部３１の作業領域として用いられる。

外部記憶部３３は、フラッシュメモリ、ハードディスク、ＤＶＤ−ＲＡＭ（Digital Versatile Disc Random-Access Memory）、ＤＶＤ−ＲＷ（Digital Versatile Disc ReWritable）等の不揮発性メモリから構成され、前記の処理を制御部３１に行わせるための辞書構築（促進）プログラム５００を予め記憶し、また、制御部３１の指示に従って、このプログラムが記憶するデータを制御部３１に供給し、制御部３１から供給されたデータを記憶する。図１または図９の文書群記憶部１１、検索結果記憶部１２およびシード語記憶部１３は、および／または、文書内共起記憶部２６、抽出新語数記憶部２７および抽出効率記憶部２８は、外部記憶部３３に構成される。辞書構築処理を行っているときは、それらのデータの一部は主記憶部３２に記憶されて制御部３１の作業に用いる。

操作部３４はキーボード及びマウスなどのポインティングデバイス等と、キーボード及びポインティングデバイス等を内部バス３０に接続するインターフェース装置から構成されている。操作部３４を介して、辞書構築の初期のシード語や初期の検索クエリが入力され、制御部３１に供給される。操作部３４は、図１または図９の入力部３に相当する。

表示部３５は、ＣＲＴ（Cathode Ray Tube）又はＬＣＤ（Liquid Crystal Display）などから構成され、辞書構築のためのシード語、検索クエリ、検索文書、抽出新語数、抽出新語数推定値、文書内共起度などを表示する。表示部３５は、図１または図９の出力部４の例である。その他、出力部４として、プリンタなどを備えてもよい。

辞書構築装置１００では、送受信部３６を備えて、外部の文書データベースまたは検索エンジンなどとネットワークを介して通信し、文書を検索する場合がある。

図１または図９に示す辞書構築促進装置２、または辞書構築装置１００の、検索クエリ入力部１４、文書検索部１５、単語抽出部１６、検索クエリ選択部２１、２２、新語抽出数推定部２３、抽出新語数取得部２４および文書内共起計算部２５の処理は、辞書構築プログラム５００が、制御部３１、主記憶部３２、外部記憶部３３、操作部３４および表示部３５などを資源として用いて処理することによって実行する。

その他、本発明の好適な変形として、以下の構成が含まれる。

本発明の第１の観点に係る辞書構築装置について、
好ましくは、前記推定手段は、前記検索語取得手段で取得した、前記検索に用いる語の組合せの和集合に含まれる任意の２つの語の組について、その２つの語を含む直近の所定回数の検索により抽出した新たな語の数の平均を推定値として算出し、
前記選択手段は、任意の語の組合せのうち、その語の組合せに含まれる全ての２つの語の組の前記推定値の平均を比較して、該推定値の平均が大きいものから検索に用いる語の組合せを選択する、
ことを特徴とする。

好ましくは、前記検索語取得手段で取得した、前記検索に用いる語の組合せの和集合に含まれる任意の２つの語の組について、共起度を取得する共起度取得手段を備え、
前記選択手段は、前記推定値に加えて、前記共起度取得手段で取得した共起度に基づいて文書の検索に用いる語の組合せを選択することを特徴とする。

好ましくは、前記選択手段は、任意の語の組合せのうち、その語の組合せに含まれる全ての２つの語の組の推定値の平均と、その語の組合せに含まれる全ての２つの語の組の共起度の平均、の線形和を比較して、該線形和が大きいものから検索に用いる語の組合せを選択することを特徴とする。

本発明の第３の観点に係る辞書構築方法について、
好ましくは、前記推定ステップは、前記検索語取得ステップで取得した、前記検索に用いる語の組合せの和集合に含まれる任意の２つの語の組について、その２つの語を含む直近の所定回数の検索により抽出した新たな語の数の平均を推定値として算出し、
前記選択ステップは、任意の語の組合せのうち、その語の組合せに含まれる全ての２つの語の組の前記推定値の平均を比較して、該推定値の平均が大きいものから検索に用いる語の組合せを選択する、
ことを特徴とする。

好ましくは、前記検索語取得ステップで取得した、前記検索に用いる語の組合せの和集合に含まれる任意の２つの語の組について、共起度を取得する共起度取得ステップを備え、
前記選択ステップは、前記推定値に加えて、前記共起度取得ステップで取得した共起度に基づいて文書の検索に用いる語の組合せを選択する、
ことを特徴とする。

好ましくは、前記選択ステップは、任意の語の組合せのうち、その語の組合せに含まれる全ての２つの語の組の推定値の平均と、その語の組合せに含まれる全ての２つの語の組の共起度の平均、の線形和を比較して、該線形和が大きいものから検索に用いる語の組合せを選択することを特徴とする。

その他、前記のハードウエェア構成やフローチャートは一例であり、任意に変更および修正が可能である。

制御部３１、主記憶部３２、外部記憶部３３、操作部３４、内部バス３０などから構成される辞書構築促進処理を行う中心となる部分は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。たとえば、前記の動作を実行するためのコンピュータプログラムを、コンピュータが読み取り可能な記録媒体（フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ等）に格納して配布し、当該コンピュータプログラムをコンピュータにインストールすることにより、前記の処理を実行する辞書構築促進装置および辞書構築装置を構成してもよい。また、インターネット等の通信ネットワーク上のサーバ装置が有する記憶装置に当該コンピュータプログラムを格納しておき、通常のコンピュータシステムがダウンロード等することで辞書構築促進装置および辞書構築装置を構成してもよい。

また、辞書構築促進装置および辞書構築装置の機能を、ＯＳ（オペレーティングシステム）とアプリケーションプログラムの分担、またはＯＳとアプリケーションプログラムとの協働により実現する場合などには、アプリケーションプログラム部分のみを記録媒体や記憶装置に格納してもよい。

また、搬送波にコンピュータプログラムを重畳し、通信ネットワークを介して配信することも可能である。たとえば、通信ネットワーク上の掲示板(BBS, Bulletin Board System)に前記コンピュータプログラムを掲示し、ネットワークを介して前記コンピュータプログラムを配信してもよい。そして、このコンピュータプログラムを起動し、ＯＳの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行できるように構成してもよい。

本発明によれば、同一意味的階層に属するキーワードを辞書として構築することによって、辞書を検索エンジン、情報抽出、および、質問応答、などの技術に適用可能である。

本発明の実施の形態１に係る辞書構築装置の構成例を示すブロック図である。検索結果記憶部に格納されるデータの例を示す図である。シード語記憶部に格納されるデータの例を示す図である。抽出新語数記憶部に格納されるデータの例を示す図である。抽出効率記憶部に格納されるデータの例を示す図である。実施の形態１に係る辞書構築装置の動作の一例を示す流れ図である。実施の形態１におけるシード語選択処理の詳細な動作の一例を示す流れ図である。抽出効率計算処理の詳細な動作の一例を示す流れ図である。本発明の実施の形態２に係る辞書構築装置の構成例を示すブロック図である。文書内共起記憶部が格納するデータの例を示す図である。新語抽出数推定値を格納するデータの例を示す図である。実施の形態２に係る辞書構築装置の動作の一例を示す流れ図である。辞書構築促進装置または辞書構築装置のハードウェア構成の一例を示すブロック図である。検索クエリと検索文書の関係の例を示す概念図である。

符号の説明

１新語抽出装置
２辞書構築促進装置
３入力部
４出力部
１１文書群記憶部
１２検索結果記憶部
１３シード語記憶部
１４検索クエリ入力部
１５文書検索部
１６単語抽出部
２１、２２検索クエリ選択部
２３新語抽出数推定部
２４抽出新語数取得部
２５文書内共起計算部
２６文書内共起記憶部
２７抽出新語数記憶部
２８抽出効率記憶部
１００辞書構築装置
５００辞書構築（促進）プログラム

Claims

文書の検索に用いる語の組合せを取得する検索語取得手段と、
前記文書の検索で検索した文書から抽出した、辞書に登録するための新たな語の数を取得する新語数取得手段と、
前記新語数取得手段で取得した新たな語の数から所定の規則で、前記検索語取得手段で取得した検索に用いる語の組合せの和集合の、任意の部分集合の語を用いて文書を検索した場合の新語抽出数の推定値を算出する推定手段と、
前記推定手段で算出した推定値に基づいて、前記検索に用いる語の組合せの和集合の部分集合である任意の語の組合せから、所定の基準で文書の検索に用いる語の組合せを選択する選択手段と、
を備えることを特徴とする辞書構築促進装置。
前記推定手段は、前記検索語取得手段で取得した、前記検索に用いる語の組合せの和集合に含まれる任意の２つの語の組について、その２つの語を含む直近の所定回数の検索により抽出した新たな語の数の平均を推定値として算出し、
前記選択手段は、任意の語の組合せのうち、その語の組合せに含まれる全ての２つの語の組の前記推定値の平均を比較して、該推定値の平均が大きいものから検索に用いる語の組合せを選択する、
ことを特徴とする請求項１に記載の辞書構築促進装置。
前記検索語取得手段で取得した、前記検索に用いる語の組合せの和集合に含まれる任意の２つの語の組について、共起度を取得する共起度取得手段を備え、
前記選択手段は、前記推定値に加えて、前記共起度取得手段で取得した共起度に基づいて文書の検索に用いる語の組合せを選択することを特徴とする請求項１または２に記載の辞書構築促進装置。
前記選択手段は、任意の語の組合せのうち、その語の組合せに含まれる全ての２つの語の組の推定値の平均と、その語の組合せに含まれる全ての２つの語の組の共起度の平均、の線形和を比較して、該線形和が大きいものから検索に用いる語の組合せを選択することを特徴とする請求項３に記載の辞書構築促進装置。
文書の検索に用いる語の組合せを取得するクエリ取得手段と、
前記クエリ取得手段で取得した語の組合せを用いて、文書を検索する検索手段と、
前記検索手段で検索した文書から、辞書に登録する新たな語を抽出する新語抽出手段と、
請求項１ないし４のいずれか１項に記載の辞書構築促進装置と、
を備え、
前記検索語取得手段は、前記検索手段から文書の検索に用いた語の組合せを取得し、
前記新語数取得手段は、前記新語抽出手段から検索で抽出した新たな語の数を取得する、
ことを特徴とする辞書構築装置。
文書の検索に用いる語の組合せを取得する検索語取得ステップと、
前記文書の検索で検索した文書から抽出した、辞書に登録するための新たな語の数を取得する新語数取得ステップと、
前記新語数取得ステップで取得した新たな語の数から所定の規則で、前記検索語取得ステップで取得した検索に用いる語の組合せの和集合の、任意の部分集合の語を用いて文書を検索した場合の新語抽出数の推定値を算出する推定ステップと、
前記推定ステップで算出した推定値に基づいて、前記検索に用いる語の組合せの和集合の部分集合である任意の語の組合せから、所定の基準で文書の検索に用いる語の組合せを選択する選択ステップと、
を備えることを特徴とする辞書構築促進方法。
前記推定ステップは、前記検索語取得ステップで取得した、前記検索に用いる語の組合せの和集合に含まれる任意の２つの語の組について、その２つの語を含む直近の所定回数の検索により抽出した新たな語の数の平均を推定値として算出し、
前記選択ステップは、任意の語の組合せのうち、その語の組合せに含まれる全ての２つの語の組の前記推定値の平均を比較して、該推定値の平均が大きいものから検索に用いる語の組合せを選択する、
ことを特徴とする請求項６に記載の辞書構築促進方法。
前記検索語取得ステップで取得した、前記検索に用いる語の組合せの和集合に含まれる任意の２つの語の組について、共起度を取得する共起度取得ステップを備え、
前記選択ステップは、前記推定値に加えて、前記共起度取得ステップで取得した共起度に基づいて文書の検索に用いる語の組合せを選択する、
ことを特徴とする請求項６または７に記載の辞書構築促進方法。
前記選択ステップは、任意の語の組合せのうち、その語の組合せに含まれる全ての２つの語の組の推定値の平均と、その語の組合せに含まれる全ての２つの語の組の共起度の平均、の線形和を比較して、該線形和が大きいものから検索に用いる語の組合せを選択することを特徴とする請求項８に記載の辞書構築促進方法。
文書の検索に用いる語の組合せを取得するクエリ取得ステップと、
前記クエリ取得ステップで取得した語の組合せを用いて、文書を検索する検索ステップと、
前記検索ステップで検索した文書から、辞書に登録する新たな語を抽出する新語抽出ステップと、
請求項６ないし９のいずれか１項に記載の辞書構築促進方法と、
を備え、
前記検索語取得ステップは、前記検索ステップで文書の検索に用いた語の組合せを取得し、
前記新語数取得ステップは、前記新語抽出ステップで抽出した新たな語の数を取得する、
ことを特徴とする辞書構築方法。
コンピュータを、
文書の検索に用いる語の組合せを取得する検索語取得手段と、
前記文書の検索で検索した文書から抽出した、辞書に登録するための新たな語の数を取得する新語数取得手段と、
前記新語数取得手段で取得した新たな語の数から所定の規則で、前記検索語取得手段で取得した検索に用いる語の組合せの和集合の、任意の部分集合の語を用いて文書を検索した場合の新語抽出数の推定値を算出する推定手段と、
前記推定手段で算出した推定値に基づいて、前記検索に用いる語の組合せの和集合の部分集合である任意の語の組合せから、所定の基準で文書の検索に用いる語の組合せを選択する選択手段、
として機能させることを特徴とする辞書構築促進プログラム。