JP2010061284A - 辞書構築促進装置、辞書構築装置、辞書構築促進方法、辞書構築方法および辞書構築促進プログラム - Google Patents

辞書構築促進装置、辞書構築装置、辞書構築促進方法、辞書構築方法および辞書構築促進プログラム Download PDF

Info

Publication number
JP2010061284A
JP2010061284A JP2008224915A JP2008224915A JP2010061284A JP 2010061284 A JP2010061284 A JP 2010061284A JP 2008224915 A JP2008224915 A JP 2008224915A JP 2008224915 A JP2008224915 A JP 2008224915A JP 2010061284 A JP2010061284 A JP 2010061284A
Authority
JP
Japan
Prior art keywords
word
search
words
new
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008224915A
Other languages
English (en)
Inventor
Hidenori Kawai
英紀 河合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008224915A priority Critical patent/JP2010061284A/ja
Publication of JP2010061284A publication Critical patent/JP2010061284A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】シード語集合が大規模になっても、新語の抽出効率の低下を防ぎ、シード語集合の大きさに合わせて辞書の規模をスケーラブルに増加させることができる辞書構築装置、辞書構築方法および辞書構築プログラムを提供する。
【解決手段】文書の検索に用いる語の組合せと、文書の検索で検索した文書から抽出した、辞書に登録するための新たな語の数を取得する抽出新語数取得部24と、抽出新語数取得部24で取得した新たな語の数から所定の規則で、抽出新語数取得部24で取得した検索に用いる語の組合せの和集合の、任意の部分集合の語を用いて文書を検索した場合の新語抽出数の推定値を算出する新語抽出数推定部23と、新語抽出数推定部23で算出した推定値に基づいて、検索に用いる語の組合せの和集合の部分集合である任意の語の組合せから、所定の基準で文書の検索に用いる語の組合せを選択する検索クエリ選択部21と、を備える。
【選択図】図1

Description

本発明は、辞書構築促進装置、辞書構築装置、辞書構築促進方法、辞書構築方法および辞書構築促進プログラムに関する。
コンピュータに単語の意味を理解させるには、どの単語がどの意味的階層に属するかを登録した辞書が必要である。例えば、人名辞書、地名辞書、組織名辞書など、個別の辞書にそれぞれの意味的階層に属する単語を登録しておく。各辞書を参照して、例えば、ある単語が人名辞書に登録されていれば、その単語は人名に属する可能性があることが分かる。
特許文献1には、テキストの意味把握に利用される意味属性辞書を自動的に作成・構築する技術が記載されている。特許文献1の技術は、インターネット上からタグ付き文書を収集し、タグ付き文書のタグのパターンとそのパターンに対応した文字列の意味階層構造を記述した構造変換ルールデータベースと、該構造変換ルールデータベースを参照して、前記収集したタグ付き文書から各文字列の階層構造を抽出する。そして、単語間の係り受けルールを記述した文法解析ルールデータベースと、該文法解析ルールデータベースを参照して、前記階層構造の抽出された各文字列を単語に分割し、単語ごとの意味階層関係を辞書(意味属性辞書)に記述する。
特許文献2には、単語辞書作成および単語認識の技術が記載されている。特許文献2の技術は、「顧客名称」、「姓」、「名」、「普通名詞」の文字列をそれぞれ種別データと共に記憶し、単語検索の照合に用いる照合用単語辞書を備え、顧客内の「顧客名称」文字列の構成要素が氏名内の文字列または一般名称内の文字列と一致するかどうか判定する。一致条件の成立した「顧客名称」文字列を一致先の文字列に対応する種別データと共に照合用単語辞書に記憶せしめる辞書生成部を備える。
特許文献3には、未知語を含む新規テキストから関連語を抽出する方法が記載されている。まず、前処理部は、文書ファイルを参照して、二連単語リストを作成する前処理を行う。第1処理部は、注目単語aに対して、前置単語xのリストと、後置単語yのリストを生成する第1の処理を行う。第2処理部は、二連単語リストを参照して、各前置単語xに対する後置単語の集合と、各後置単語yに対する前置単語の集合を生成する第2の処理を行う。第3処理部は、これらの後置単語の集合と前置単語の集合の共通要素から、関連語の候補対(a,b)を抽出する第3の処理を行う。
特許文献4には、文書を適切な担当者に自動的に正確に分類する文書分類装置が記載されている。文書分類装置は、そのカテゴリにおいて出現した単語毎にtf・idf 値を格納する重要性辞書と、そのカテゴリにおいて出現した単語についての第1単語と第2単語の組合せ毎にidf/conf値を格納する同時出現性辞書とからなる辞書を備える。文書分類装置は、入力された文書に出現する単語を用いて辞書でその単語を照合して、辞書の単語毎のtf・idf 値とidf/conf値とを求め、これらに基づいて所定の演算を行って算出した単語毎のスコアに基づいてカテゴリ毎のスコアを算出し、これに基づいて入力された文書を複数のカテゴリのいずれかに分類する。
特許文献5には、代表語句を直接含んでいなくとも、関連性の高いコンテンツを幅広くコミュニティに取り込み、ユーザに提示する技術が記載されている。特許文献5のコミュニティ抽出技術は、コミュニティを代表するシードとなる語句を得る手段と、その語句を検索条件としてコンテンツ検索を行い第一検索結果を得る手段と、第一検索結果から代表語句と関連性の高い関連語句集合を抽出する手段と、関連語句集合中の各関連語句を検索条件としてコンテンツ検索を行うことで得られた第二検索結果と、第一検索結果との間の関連性の強さを表すスコアを算出する手段と、スコアの値に基づいて、関連語句をコミュニティを代表する代表語句集合へ結合し、第一検索結果と第二検索結果とを一つのコミュニティとして結合するか否かを判定する手段とを備える。
特開2000−099515号公報 特開2000−251017号公報 特開2003−256447号公報 特開2005−182218号公報 特開2007−094552号公報
同一の意味的階層に属するキーワードを辞書として構築する方法の例として、河合英紀、水口弘紀、土田正明、「ブートストラップ式辞書構築における検索効率の向上」、データベースとWeb情報システムに関するシンポジウム(DBWeb)、2007年(参考文献)の技術が挙げられる。参考文献では、利用者の所望の種類の意味的階層に属する数語〜数十語程度の小規模な単語集合をシード語として入力し、複数のシード語が含まれる文書群を検索する。検索した各文書に含まれるシード語の周りの一貫性の高い周辺文字列を抽出パタンとして、シード語と同一の意味的階層に属する新語を抽出する方法が記載されている。
参考文献に記載された方法では、シード語集合が大規模になった場合、新語の抽出効率が低下し、ついには新語がほとんど抽出されなくなるという問題がある。ここで新語とは、シード語集合に格納されていない未知の単語であり、新語の抽出効率は、
(抽出された新語の数)/(検索回数)
で定義される指標である。
新語抽出効率の低下の主な原因は、以下の3つが挙げられる。
第1の問題として、シード語の低共起性の問題がある。シード語の数が多くなるほど、お互い共起しない複数のシード語の組合せが検索クエリとなってしまうケースが増える問題である。ここで、「共起する」とは、複数の単語が同一文書内に出現することを意味する。
例えば、地名辞書を構築する場合、シード語に様々な国の都市名が含まれていると、単純なランダム選択による検索クエリでは、「奈良市ANDポズナニANDパロアルト」という組合せで検索されるケースも発生する。このような場合、3都市の名前が同時に出現する文書は存在しないため、検索結果が0件になってしまう。したがって、1回の検索で得られる新語も0語となり、新語の抽出効率が低下することになる。
第2の問題として、検索文書の重複の問題がある。検索文書の重複の問題とは、既に検索結果として現れた文書が別の検索クエリでもヒットしてしまう問題である。
例えば、図14に示す文書は、「東京ANDミラノANDパリ」でもヒットするが、「東京ANDミラノANDトロント」でもヒットする。この場合、一度、前者の検索クエリで図14に示した文書から新語を抽出した後は、後者の検索クエリで同一文書がヒットしても、そこから新語を抽出するのは無駄な処理である。したがって、1回の検索で得られる新規の検索結果文書数が減ってしまうため、結果として新語の抽出効率が低下することになる。
第3の問題として、新語の重複の問題がある。新語の重複の問題とは、検索結果としては新しい文書であっても、そこから抽出した単語が既に新語として登録済みである場合の問題である。
例えば、既にシード語の中に「アトランティックシティー」「ニューヨーク」「トロント」「大邱」「デュッセルドルフ」という都市名が登録済みであれば、「東京ANDミラノANDパリ」という検索クエリを使って図14から単語を抽出しても、それらはもはや新語とはいえない。このような重複が増えると、1回の検索で得られる新語の数が減り、新語の抽出効率が低下することになる。
ここで、高頻出語を優先して組合せることで、第1の問題にあるシード語の低共起性の問題を回避することは可能である。しかし、第2の問題(検索文書の重複)や第3の問題(新語の重複)の効果が支配的になり、新語の抽出効率が低下するおそれがある。その理由は、高頻出語ばかりを優先させた検索クエリは、同じ語ばかりを含んでおり、時間が経つにつれ、既にアクセス済みの検索文書が何度もヒットしたり、検索文書から単語を抽出しても既に登録済みであるケースが多くなるからである。
本発明の目的は、シード語集合が大規模になっても、新語の抽出効率の低下を防ぎ、シード語集合の大きさに合わせて辞書の規模をスケーラブルに増加させることができる辞書構築促進装置、辞書構築装置、辞書構築促進方法、辞書構築方法および辞書構築促進プログラムを提供することである。
本発明の第1の観点に係る辞書構築促進装置は、
文書の検索に用いる語の組合せを取得する検索語取得手段と、
前記文書の検索で検索した文書から抽出した、辞書に登録するための新たな語の数を取得する新語数取得手段と、
前記新語数取得手段で取得した新たな語の数から所定の規則で、前記検索語取得手段で取得した検索に用いる語の組合せの和集合の、任意の部分集合の語を用いて文書を検索した場合の新語抽出数の推定値を算出する推定手段と、
前記推定手段で算出した推定値に基づいて、前記検索に用いる語の組合せの和集合の部分集合である任意の語の組合せから、所定の基準で文書の検索に用いる語の組合せを選択する選択手段と、
を備えることを特徴とする。
本発明の第2の観点に係る辞書構築装置は、
文書の検索に用いる語の組合せを取得するクエリ取得手段と、
前記クエリ取得手段で取得した語の組合せを用いて、文書を検索する検索手段と、
前記検索手段で検索した文書から、辞書に登録する新たな語を抽出する新語抽出手段と、
本発明の第1の観点に係る辞書構築促進装置と、
を備え、
前記検索語取得手段は、前記検索手段から文書の検索に用いた語の組合せを取得し、
前記新語数取得手段は、前記新語抽出手段から検索で抽出した新たな語の数を取得する、
ことを特徴とする。
本発明の第3の観点に係る辞書構築促進方法は、
文書の検索に用いる語の組合せを取得する検索語取得ステップと、
前記文書の検索で検索した文書から抽出した、辞書に登録するための新たな語の数を取得する新語数取得ステップと、
前記新語数取得ステップで取得した新たな語の数から所定の規則で、前記検索語取得ステップで取得した検索に用いる語の組合せの和集合の、任意の部分集合の語を用いて文書を検索した場合の新語抽出数の推定値を算出する推定ステップと、
前記推定ステップで算出した推定値に基づいて、前記検索に用いる語の組合せの和集合の部分集合である任意の語の組合せから、所定の基準で文書の検索に用いる語の組合せを選択する選択ステップと、
を備えることを特徴とする。
本発明の第4の観点に係る辞書構築方法は、
文書の検索に用いる語の組合せを取得するクエリ取得ステップと、
前記クエリ取得ステップで取得した語の組合せを用いて、文書を検索する検索ステップと、
前記検索ステップで検索した文書から、辞書に登録する新たな語を抽出する新語抽出ステップと、
本発明の第3の観点に係る辞書構築促進方法と、
を備え、
前記検索語取得ステップは、前記検索ステップで文書の検索に用いた語の組合せを取得し、
前記新語数取得ステップは、前記新語抽出ステップで抽出した新たな語の数を取得する、
ことを特徴とする
本発明の第5の観点に係る辞書構築促進プログラムは、
文書の検索に用いる語の組合せを取得する検索語取得手段と、
前記文書の検索で検索した文書から抽出した、辞書に登録するための新たな語の数を取得する新語数取得手段と、
前記新語数取得手段で取得した新たな語の数から所定の規則で、前記検索語取得手段で取得した検索に用いる語の組合せの和集合の、任意の部分集合の語を用いて文書を検索した場合の新語抽出数の推定値を算出する推定手段と、
前記推定手段で算出した推定値に基づいて、前記検索に用いる語の組合せの和集合の部分集合である任意の語の組合せから、所定の基準で文書の検索に用いる語の組合せを選択する選択手段、
として機能させることを特徴とする。
本発明によれば、シード語集合が大規模になっても、新語の抽出効率の低下を防ぎ、シード語集合の大きさに合わせて辞書の規模を増大させ適応できる。
以下、この発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付す。
(実施の形態1)
図1は、本発明の実施の形態1に係る辞書構築装置の構成例を示すブロック図である。図1を参照すると、辞書構築装置100は、新語抽出装置1と、辞書構築促進装置2から構成される。新語抽出装置1は、キーボード等の入力部3と、ディスプレイやプリンタ等の出力部4を備える。
新語抽出装置1は、文書群記憶部11、検索結果記憶部12、シード語記憶部13、検索クエリ入力部14、文書検索部15および単語抽出部16を含む。
文書群記憶部11には、電子化された文書群が格納されている。各文書には文書IDが付与されており、文書検索部15は、文書ID(識別子)を介して任意の文書の内容にアクセスすることが可能である。なお、ここでは、理解を容易にするため、文書群記憶部11が新語抽出装置1に格納されるケースについて説明するが、他にも、文書群記憶部11がネットワークを介して外部のサーバーにあってもよく、本実施の形態に述べる方法に限定されない。例えば、文書群記憶部11がインターネットを介して検索エンジンに格納されていてもよい。この場合、文書はWebページであり、文書IDはWebページのURL(Uniform Resource Locator)となる。
検索結果記憶部12には、検索に使われた検索クエリと、それによって得られた検索結果件数、および、ヒットした文書IDのリストが格納されている。図2に、検索結果記憶部12に格納されるデータの例を示す。図2を見ると、文書群記憶部11内で、キーワードK1、K2、K3を組合せた検索クエリ「K1 AND K2 AND K3」がヒットした文書は10件あり、その内容は文書D1〜D10にアクセスすることで得られることが分かる。同様に、キーワードK1、K4、K5を組合せた検索クエリ「K1 AND K4 AND K5」がヒットした文書は6件あり、その内容は文書D1、D2、D11、D12、D13、D14にアクセスすることで得られることが分かる。なお、この場合、検索結果記憶部12に格納されているデータから、異なる検索クエリで検索結果が重複した場合を検出することができる。例えば、検索クエリ「K1 AND K4 AND K5」の検索結果に含まれているD1とD2は、既に検索クエリ「K1 AND K2 AND K3」の検索結果に含まれているため、改めてアクセスする必要はない。このように、検索結果記憶部12を見ることで、重複した文書にアクセスすることを防ぐことができる。
シード語記憶部13には、利用者が最初に登録した単語、および、後から抽出された新語が、出現頻度と出現文書IDとともに格納されている。シード語記憶部13に格納されているデータの例を図3に示す。図3を見ると、キーワードK1は出現頻度が14回で、文書D1〜D14の文書に出現していたことが分かる。同様に、キーワードK2の出現頻度は16回で、文書D1〜D12、D15〜D18に出現していたことが分かる。また、図3のデータからキーワードの共起度も計算可能である。例えば、キーワードK1とK2は、文書D1〜D12に共通して出現していることが分かる。なお、シード語記憶部13に格納されているキーワードのうち、実際にシード語として検索クエリに用いられるキーワードは、出現頻度があらかじめ定められた閾値θの場合のみであるとする。
検索クエリ入力部14は、文書を検索するための検索クエリを取得する。検索クエリは、文字列からなるキーワード(検索語)を含む論理式で与えられる。新語を抽出するための検索クエリは、一般に、複数のキーワードの論理積である。すなわち、新語を抽出するための検索クエリは、キーワード(語)の組合せで表現される。初期のシード語の組と初期の検索クエリは、入力部3から入力される。初期の検索クエリで文書を検索し、新語を抽出してからは、継続する検索クエリが辞書構築促進装置2から入力される。
文書検索部15は、検索クエリ入力部14で入力された検索クエリを用いて、文書群記憶部11を検索し、文書IDで示される文書の内容を取得する。同時に、検索結果記憶部12に、検索結果件数および文書IDリストを記録する。
単語抽出部16は、文書検索部15によって取得された文書の内容を解析し、検索クエリに含まれているキーワードの周りに共通している周辺文字列を抽出パタンとし、抽出パタンにマッチする他のキーワードを文書から抽出する。抽出されたキーワードが既にシード語記憶部13に登録されていれば、そのキーワードの出現頻度を加算し、出現文書IDを追加する。抽出されたキーワードが新語の場合は、シード語記憶部13に新たな行としてデータを追加し、辞書構築促進装置2にそのデータを送る。
辞書構築促進装置2は、検索クエリ選択部21、新語抽出数推定部23、抽出新語数取得部24、抽出新語数記憶部27および抽出効率記憶部28を備える。
抽出新語数取得部24は、新語抽出装置1で抽出されたキーワードが新語の場合に、そのときの検索クエリと新語が抽出されたことを示すデータを、新語抽出装置1から受け取り、抽出新語数記憶部27の新語数に加算する。新語数は、検索クエリごとに加算する。
抽出新語数記憶部27には、検索に使われた検索クエリと、それによって抽出された新語の数が格納されている。抽出新語数記憶部27に格納されているデータの例を図4に示す。図4を見ると、検索クエリ「K1 AND K2 AND K3」にヒットした文書群から最終的に抽出された新語数は1234語であることが分かる。一方、検索クエリ「K1 AND K4 AND K5」にヒットした文書群から最終的に抽出された新語数は13語しかないことが分かる。図4のデータから、キーワードK1、K4、K5の組合せは新語抽出効率が比較的低いことが分かる。
なお、抽出新語数記憶部27のデータと、検索結果記憶部12のデータと合わせることで、新語抽出効率が低い原因も特定可能である。例えば、検索結果記憶部12に記録されている検索結果件数が著しく少ない場合は、(A)検索語の低共起性の問題が原因であると推定できる。また、検索結果記憶部12の出現文書IDが、それより前の出現文書IDと重複が多い場合は、(B)検索文書の重複の問題が原因であると推定できる。さらに、(A)、(B)、のいずれの場合でもない場合は、(C)新語の重複の問題が原因であると推定できる。検索クエリごとの新語抽出数は、検索の順序によっても変化する。最終的には、いずれの原因であっても、新語抽出効率の低いキーワードの組合せを避けることが最も重要である。
図1の新語抽出数推定部23は、抽出新語数記憶部27に格納されたデータを元に、すでに文書の検索に用いた検索クエリの集合に含まれる任意の2語のキーワードの組について、次にその2語のキーワードを含む検索クエリで文書を検索した場合の、新語抽出数の推定値を計算する。新語抽出数推定部23は、計算した新語抽出数の推定値を、抽出効率記憶部28に格納する。任意の2語のキーワードの組について、新語抽出数の推定値を計算する方法は後述する。
抽出効率記憶部28には、新語抽出数推定部23で計算された任意の2語のキーワードの組についての新語抽出数の推定値が記録されている。抽出効率記憶部28に格納されているデータの例を図5に示す。図5は、行と列のキーワードの組について、新語抽出数の推定値を記録している。新語抽出数の推定値は対角線を挟んで、対称である。図5の例では、キーワードK1との組合せでは、K4が最も新語抽出数の推定値が大きく、K2は新語抽出数の推定値が最も小さい。また、キーワードK3とK4の組合せでは「?」が記録されている。「?」は、その組合せでまだ十分な回数の検索が行われておらず、統計的な新語抽出数の推定値が求められていないことを表す。
検索クエリ選択部21は、新語抽出数推定部23で計算した任意の2語の組合せの新語抽出数の推定値から、シード語記憶部13に記憶されている語を任意に組合せた検索クエリを用いて文書を検索した場合の、新語抽出数の推定値を計算する。任意の検索クエリについて、新語抽出数の推定値を計算する方法は後述する。検索クエリ選択部21は、新語抽出効率の低いキーワードの組合せを避け、新語抽出効率の高い組合せの検索クエリを選択する。
高頻度語や高共起度を優先した検索クエリ選択と比べて、新語抽出効率を用いた検索クエリ選択が優れている理由は、新語抽出数という指標には、新語の抽出数が低下する3つの原因、(A)シード語の低共起性の問題、(B)検索文書の重複の問題、(C)新語の重複の問題が全て反映されているからである。例えば、高頻度語や高共起性のキーワード同士を組合せて検索クエリに利用すると、(A)シード語の低共起性の問題は解消されるが、時間が経つと(B)検索文書の重複の問題、(C)新語の重複の問題により、新語抽出の数は低下してしまう。一方、新語抽出数を常時モニタリングすることによって、(B)検索文書の重複の問題や(C)新語の重複の問題が発生しているキーワードの組合せを知ることができるため、そのようなキーワードの組合せを避けた検索クエリ選択が可能となる。
検索クエリ入力部14は、検索クエリ選択部21から検索クエリを入力する。文書検索部15は、検索クエリ選択部21によって選択された検索クエリを用いて、文書群記憶部11を検索し、文書IDで示される文書の内容を取得する。同時に、検索結果記憶部12に、検索結果件数および文書IDリストを記録する。
単語抽出部16は、文書検索部15によって取得された文書の内容を解析し、検索クエリに含まれているキーワードの周りに共通している周辺文字列を抽出パタンとし、抽出パタンにマッチする他のキーワードを文書から抽出する。抽出されたキーワードが既にシード語記憶部13に登録されていれば、そのキーワードの出現頻度を加算し、出現文書IDを追加する。抽出されたキーワードが新語の場合は、シード語記憶部13に新たな行としてデータを追加し、辞書構築促進装置2にそのデータを送る。
新語抽出数推定部23は、抽出新語数記憶部27のデータから、任意の2語のキーワードの組合せに対し、それら2語のキーワードが含まれる直近x回の検索クエリで抽出された新語数の平均値を新語抽出効率の推定値として計算し、抽出効率記憶部28に格納する。
図1および図6〜8を用いて、本実施の形態の動作について詳細に説明する。図6は、本実施の形態1に係る辞書構築装置100の動作の一例を示す流れ図である。なお、理解を容易にするため、検索クエリに使うキーワード数はあらかじめω語(ωは2以上)と定められているものとする。以下、ω=3の場合を例に説明する。
まず、検索クエリ選択部21が、抽出効率記憶部28に格納された新語抽出効率の推定値を用いて、検索クエリを選択する(図6のステップS101)。もし、初期状態で、抽出効率記憶部28に格納された新語抽出効率の推定値がまったくない、もしくは、ほとんどない場合は、シード語記憶部13に格納されているシード語リストからランダムにω語選択すればよい。ここでは、ある程度シード語集合の規模が大きくなった状態における動作について詳細に説明する。
図7は、本実施の形態1におけるシード語選択処理(ステップS101)の詳細な動作を示す流れ図である。検索クエリ選択部21は、まず、検索クエリとして選択するキーワードのカウンタiを1にセットする(図7のステップS111)。
次に、検索クエリ選択部21は、検索クエリとして1語目を選択するための各キーワードのスコア分布を計算する(図7のステップS112)。スコア分布としては例えば、シード語記憶部13に格納されている出現頻度を用いることができる。なお、他にも1語目の選択には一様分布を使う方法なども考えられ、本実施の形態に述べた方法に限定されない。
次に、検索クエリ選択部21は、スコア分布に従って、ランダムに1語目を選択する(図7のステップS113)。例えば、スコア分布に出現頻度を用いる場合、シード語記憶部13におけるキーワードK1、K2、K3、K4の出現頻度がそれぞれ、10回、15回、5回、20回であったとする。出現頻度の分布に比例してキーワードを選択するには、例えば、1以上50以下の整数の乱数rを発生させ、rが10以下ならばキーワードK1を、rが11以上25以下ならばキーワードK2を、rが26以上30以下ならばキーワードK3を、rが31以上50以下ならばキーワードK4を選択する。以下、ここで1語目の検索キーワードとしてK1が選択されたものとして、後の説明を続ける。
次に、カウンタiの値が検索クエリに使うキーワード数ω語よりも小さければ(図7のステップS114;YES)、カウンタiに1を加算して(図7のステップS115)、次の語の選択に戻る(図7のステップS112)。
2語目以降のキーワードのスコア分布は、既に検索クエリとして選択された語に対して、未選択の語を組合せた際の新語抽出数の推定値の平均として求める。すなわち、既に検索クエリとして選択されたs語のキーワードの集合Kq = {K_t1, K_t2, ..., K_ts}に対し、j番目のキーワードKjのスコアSC(Kj)を、
SC(Kj) = {NWR(K_t1, Kj) + NWR(K_t2, Kj) + ... + NWR(K_ts, Kj)} / s
と定義する。ここで、NWR(x, y)は、抽出効率記憶部28に格納されているx列y行の要素の値である。なお、NWR(x, y)が未知である場合は、全要素の平均値を使うこととする。例えば、抽出効率記憶部28に格納されているデータが図5のようであった場合は、NWR(K3, K4)の値は、(12+40+158+0+33)/5 = 48.6とする。
例えば、1語目の検索キーワードとしてK1が選択された場合、抽出効率記憶部28に格納されているデータが図5の新語抽出数推定値の場合は、スコア分布として、
SC(K2) = {NWR(K1, K2)} / 1 = 12
SC(K3) = {NWR(K1, K3)} / 1 = 40
SC(K4) = {NWR(K1, K4)} / 1 = 158
が得られる。
次に、検索クエリ選択部21は、スコア分布に従って、ランダムに2語目を選択する(図7のステップS113)。上記の例に示される通り、キーワードK1と組合せた時に新語抽出数が低いK2は選ばれにくく、新語抽出数の高いK4が選ばれやすくなっている。以下、ここで2語目の検索キーワードとしてK3が選択されたものとして、後の説明を続ける。
次に、カウンタiが検索クエリに使うキーワード数ω語よりも小さければ(図7のステップS114;YES)、iに1加算して(図7のステップS115)、次の語の選択に戻る(図7のステップS112)。
3語目のキーワードのスコア分布は、2語目の時と同様に求める。検索キーワードとして、K1、K3が選択されている場合、抽出効率記憶部28に格納されているデータが図5の新語抽出数推定値の場合は、スコア分布として、
SC(K2) = {NWR(K1, K2) + NWR(K3, K2)} / 2 = (12 + 0) / 2 = 6
SC(K4) = {NWR(K1, K4) + NWR(K3, K4)} / 2 = (158 + 48.6) / 2 = 103.3
が得られる。
次に、検索クエリ選択部21は、スコア分布に従って、ランダムに3語目を選択する(図7のステップS113)。上記の例に示される通り、キーワードK1と組合せた時に新語抽出数が低いK2は選ばれにくく、新語抽出数の高いK4が選ばれやすくなっている。以下、ここで3語目の検索キーワードとしてK4が選択されたものとして、後の説明を続ける。
次に、カウンタiの値が検索クエリに使うキーワード数ω語と等しくなったため(図7のステップS114;NO)、キーワードK1、K3、K4を検索クエリとしてシード語選択処理を終了する。
文書検索部15は、検索クエリ選択部21によって生成された検索クエリを用いて、文書群記憶部11を検索し、文書IDで示される文書の内容を取得する(図6のステップS102)。同時に、検索結果記憶部12に、検索結果件数および文書IDリストを記録する。
単語抽出部16は、文書検索部15によって取得された文書の内容を解析し、検索クエリに含まれているキーワードの周りに共通している周辺文字列を抽出パタンとし、抽出パタンにマッチする他のキーワードを文書から抽出する(図6のステップS103)。抽出パタンの生成方法は、以下の通りである。
文書内に出現している各シード語について、右側2〜50文字のsuffix(後方一致)を右側パタン集合RPとし、左側2〜50文字のprefix(前方一致)を左側パタン集合LPとする。それぞれの集合における周辺文字列(右側のsuffixと左側のprefix)の出現頻度と文字列の長さの積をとり、最大値になった周辺文字列の組合せを抽出パタンとする。
新語抽出数推定部23は、抽出新語数記憶部27のデータから、任意の2語のキーワードの組合せに対し、それら2語のキーワードが含まれる直近x回の検索クエリで抽出された新語数の平均値を新語抽出効率の推定値として計算し、抽出効率記憶部28に格納する(図6のステップS104)。
図8に、新語抽出数推定部23が行う抽出効率計算処理の詳細を示す。まず、新語抽出数推定部23はカウンタiを1にセットする(図8のステップS121)。
次に、新語抽出数推定部23は、カウンタjをi+1にセットする。i=1の場合は、j=2になる。(図8のステップS122)。
次に、新語抽出数推定部23は、抽出新語数記憶部27に格納されているデータの中から、キーワードKi、Kjを含むクエリと、その時の抽出新語数の履歴を検索し、直近x回の検索クエリで抽出された新語数の平均値を、新語抽出効率の推定値として計算する。
例えば、キーワードK1、K2を含む検索クエリが10件存在し、新語抽出数NN(K1, K2, Kp)が以下のようであった場合、直近3回の検索クエリによる抽出新語数の平均値は、(15+4+8)/3=9である。
NN(K1, K2, K3) = 3,245
NN(K1, K2, K6) = 8,270
NN(K1, K2, K8) = 897
NN(K1, K2, K12) = 1,459
NN(K1, K2, K15) = 671
NN(K1, K2, K17) = 130
NN(K1, K2, K18) = 87
NN(K1, K2, K20) = 15
NN(K1, K2, K22) = 4
NN(K1, K2, K23) = 8
このように、直近の検索クエリで抽出された新語数の平均値を新語抽出効率の推定値として計算することによって、キーワードK1、K2を含む検索クエリによる新語抽出の効率が低下しているか否かを反映することができる。
ここで、もし、Ki、Kjを含む直近のクエリがx回以上存在しない場合、新語抽出効率の推定値は「?」として未知であるとしておく。
次に、新語抽出数推定部23は、カウンタjを1ずつ加算しながらシード語数Sを超えるまで抽出新語数の平均値を繰り返す(図8のステップS124、S125)。
また、新語抽出数推定部23は、カウンタiについても1ずつ加算しながらシード語数Sを超えるまで抽出新語数の平均値を繰り返す(図8のステップS126、S127)。以上の処理により、全てのキーワードの組合せにおける新語抽出効率の推定値を計算することができる。
なお、本実施の形態では、検索クエリに利用するキーワードを、新語抽出数推定値を参照しながら1語ずつ決定する方法について述べたが、他にも、単純なランダムサンプリングでキーワードの組合せを複数通り生成し、各組合せに対して、下記のようなクエリスコアQSを用いて各検索クエリに対するスコア付けを行い、一番高いスコアの検索クエリを検索に用いるといった方法も考えられ、本実施の形態に述べた方法に限定されない。
s語のシード語からなる検索クエリ候補QC={K_q1, K_q2, ..., K_qs}について、クエリスコアQSは、クエリ候補QC内における任意の2語のキーワードの組合せに対する新語抽出数推定値の平均値として定義される。具体的には、
QS(QC) = Σ_ij {NWR(K_i, K_j)}/s_C_2
となる。ここで、Σ_ijは、iとjが等しくない全ての組合せについて加算を行うことを意味しており、s_C_2はs個の要素から2個とりだす組合せ(Combination)の数s(s-1)/2である。
例えば、ランダムサンプリングでキーワードの組合せを複数通り生成した結果、3つのクエリ候補QC1={K1, K2, K3}、QC2={K1, K2, K4}、QC3={K1, K3, K4}が得られたとする。この時、抽出効率記憶部28に格納されているデータが図5の通りであったとすると、各クエリ候補のクエリスコアQSは、以下のように計算できる。
QS(QC1) = {NWR(K1, K2) + NWR(K2, K3) + NWR(K1, K3)} / 3
= (12 + 0 + 40) / 3 = 17.3
QS(QC2) = {NWR(K1, K2) + NWR(K2, K4) + NWR(K1, K4)} / 3
= (12 + 33 + 158) / 3 = 67.7
QS(QC3) = {NWR(K1, K3) + NWR(K3, K4) + NWR(K1, K4)} / 3
= (40 + 48.6 + 158) / 3 = 82.2
以上より、上記の例の場合は、検索クエリQC3={K1, K3, K4}が検索に使われることになる。
以上説明したように、本実施の形態の辞書構築促進装置2によれば、各キーワードの組合せにおける抽出新語数から、任意のキーワードの組合せにおける新語抽出効率の推定値を求め、それを用いてなるべく新語抽出効率が高くなるようなキーワードの組合せを検索クエリとして選択する検索戦略を備えている。そのため、シード語集合が大規模になっても、辞書構築装置100における新語の抽出効率の低下を防ぎ、辞書の規模をスケーラブルに増加させることができる。
なお、図1では、新語抽出装置1と辞書構築促進装置2を別の装置のように説明した。辞書構築促進装置2は、新語抽出装置1(狭義の辞書構築装置と考えてもよい)にとりつける装置として構成することができる。また、新語抽出装置1と辞書構築促進装置2をハードウェアとして1つの装置(辞書構築装置100)で構成することもできる。その場合、新語抽出装置1の単語抽出部16は、辞書構築促進装置2の抽出新語数取得部24を兼ねることができる。すなわち、単語抽出部16は、抽出されたキーワードが新語の場合は、シード語記憶部13に新たな行としてデータを追加すると同時に、抽出新語数記憶部27の新語数に加算する。また、検索クエリ入力部14は、検索クエリ選択部21に含めてもよい。
また、実施の形態1の説明では、新語抽出数推定部23において、2語のキーワードが含まれる直近x回の検索クエリで抽出された新語数の平均値を新語抽出効率の推定値として計算する方法を説明した。2語のキーワードが含まれる直近x回の検索クエリで抽出された新語数の変化を近似する、一次式またはn次多項式などを用いて、新語抽出効率の推定値を計算してもよい。前述の平均値は0次近似といえる。
(実施の形態2)
実施の形態2の辞書構築促進装置は、新語抽出数推定値に加えて、共起度を用いて検索クエリを選択する。図9は、本発明の実施の形態2に係る辞書構築装置の構成例を示すブロック図である。
図9を参照すると、実施の形態2の辞書構築促進装置2は、図1に示された実施の形態1の構成に加えて、文書内共起記憶部26と、文書内共起計算部25を備えている点で異なる。また、検索クエリ選択部21が、第2の検索クエリ選択部22に置き換わっている点でも異なる。
文書内共起記憶部26は、任意の2組のキーワードが何件の文書から同時に抽出されたかを表すデータを格納している。文書内共起記憶部26が格納するデータの例を図10に示す。図10を見ると、キーワードK1とK2は5件の文書から同時に抽出されたことが分かる。同様に、キーワードK1とK3は14件の文書から同時に抽出されたことが分かる。さらに、キーワードK1とK4は、同一文書から同時に抽出されたことがなく、文書内共起は0件となっていることが分かる。
文書内共起計算部25は、シード語記憶部13に格納されているキーワードと文書IDのリストから、任意の2組のキーワードが何件の文書から同時に抽出されたかを計数し、文書内共起記憶部26に格納する。
検索クエリ選択部22は、抽出効率記憶部28に格納されている抽出効率の推定値に加えて、文書内共起記憶部26に格納されている文書内共起の値も考慮に入れながら検索クエリとすべきキーワードの組合せを求める。
文書内共起記憶部26に格納されるデータは、抽出効率記憶部28に格納されるデータと同一の形式であるが、その性質は異なる。抽出効率記憶部28に格納されるデータは、抽出新語数記憶部27のデータを元に計算されるため、実際に検索クエリとして検索されたキーワードの組合せしか値が不明である。一方、文書内共起記憶部26に格納されるデータは、任意の2組のキーワードが同一文書から抽出されると計算できる値であるため、より早く、より多くのキーワードの組合せに対する値を求めることができる。
このような性質の違いを利用することにより、抽出効率記憶部28のデータが、図11にように不明部分が多い場合であっても、検索クエリ選択部22は、文書内共起記憶部26から、どのキーワードの組合せの共起度が高い可能性があるかを推定し、より多くの検索結果が得られる可能性の高い検索クエリを生成することができるようになる。
以下に、図9〜図12を用いて、本実施の形態の動作について詳細に説明する。図12は、本実施の形態の辞書構築装置100に係る動作の一例を示す流れ図である。なお、理解を容易にするため、検索クエリに使うキーワード数はあらかじめω語(ωは2以上)と定められているものとする。以下、ω=3の場合を例に説明する。
なお、本実施の形態における文書検索部15、単語抽出部16、および新語抽出数推定部23の動作は、図6に示す実施の形態1における動作と同一である。
まず、検索クエリ選択部22は、抽出効率記憶部28のデータと、文書内共起記憶部26のデータの両方を使って、シード語の選択を行う(図12のステップS111)。例えば、ここでは1語目にキーワードK1が検索クエリとして選択され、2語目を選択する場合について詳細に説明する。
2語目以降のキーワードのスコア分布は、既に検索クエリとして選択された語に対して、未選択の語を組合せた際の、新語抽出数の推定値の平均と文書内共起度の線形和として求める。すなわち、既に検索クエリとして選択されたs語のキーワードの集合Kq = {K_t1, K_t2, ..., K_ts}に対し、新語抽出数から求められるj番目のキーワードKjのスコアSC1(Kj)を、
SC1(Kj) = {NWR(K_t1, Kj) + NWR(K_t2, Kj) + ... + NWR(K_ts, Kj)} / s
とし、
文書内共起度から求められるj番目のキーワードKjのスコアSC2(Kj)を
SC2(Kj) = {DCO(K_t1, Kj) + DCO(K_t2, Kj) + ... + DCO(K_ts, Kj)} / s
とし、
全体のスコアSC(Kj)をSC1(Kj)とSC2(Kj)の線形和として求める。
SC(Kj) = ρSC1(Kj) + (1 - ρ)SC2(Kj)
ここで、NWR(x, y)は、抽出効率記憶部28に格納されているx列y行の要素の値である。また、DCO(x, y)は、文書内共起記憶部26に格納されているx列y行の要素の値である。また、ρは0以上1未満のパラメータであり、新語抽出効率をどの程度重視するかによって、あらかじめ定められる値である。以下では、ρ=0.9を例として説明を行う。
なお、NWR(x, y)が未知である場合は、全要素の平均値を使うこととする。例えば、抽出効率記憶部28に格納されているデータが図11のようであった場合は、NWR(K1, K4)の値は、
(4+51+11+13+67+23+5+0+14+0+32+2+43)/13 = 20.4
とする。
例えば、1語目の検索キーワードとしてK1が選択された場合、抽出効率記憶部28に格納されているデータが図11のようであった場合は、スコア分布として、
SC(K2) = 0.9*{NWR(K1, K2)} / 1 + 0.1*{DCO(K1, K2)} / 1
= 0.9*4/1 + 0.1*5/1 = 4.1
SC(K3) = 0.9*{NWR(K1, K3)} / 1 + 0.1*{DCO(K1, K3)} / 1
= 0.9*51/1 + 0.1*14/1 = 47.3
SC(K4) = 0.9*{NWR(K1, K4)} / 1 + 0.1*{DCO(K1, K4)} / 1
= 0.9*20.4/1 + 0.1*0/1 = 18.4
SC(K5) = 0.9*{NWR(K1, K5)} / 1 + 0.1*{DCO(K1, K5)} / 1
= 0.9*20.4/1 + 0.1*92/1 = 27.6
SC(K6) = 0.9*{NWR(K1, K6)} / 1 + 0.1*{DCO(K1, K6)} / 1
= 0.9*11/1 + 0.1*6/1 = 10.5
SC(K7) = 0.9*{NWR(K1, K7)} / 1 + 0.1*{DCO(K1, K7)} / 1
= 0.9*20.4/1 + 0.1*25/1 = 20.86
SC(K8) = 0.9*{NWR(K1, K8)} / 1 + 0.1*{DCO(K1, K8)} / 1
= 0.9*13/1 + 0.1*6/1 = 12.3
SC(K9) = 0.9*{NWR(K1, K9)} / 1 + 0.1*{DCO(K1, K9)} / 1
= 0.9*67/1 + 0.1*55/1 = 65.8
が得られる。
上記の例では、キーワードK1とK4、K1とK5、K1とK7の組合せでは、新語抽出効率の項だけでは、いずれも値が不明で差がつかないが、文書内共起度のスコアが第2項に入ってくることによって、より文書内共起度の高いキーワードのスコア分布が高くなるようになっている。2語の検索クエリの場合は、上述の例で、スコアSCが最大の組合せ(K1、K9)を選択することができる。
検索クエリが3語の場合は、実施の形態1のスコアの計算と同様に、前述のSC1、SC2の式を3語(選択された2語+追加の1語)に適用して、スコアSC1とスコアSC2を算出する。そして、SC1とSC2から線形和のスコアSCを計算する。
検索クエリ選択部22は、新語抽出数推定値と共起度に基づいて算出されたスコアから、例えば、最大のスコアのシード語の組合せを検索クエリとして選択する。
文書検索処理(ステップS102)以降について、図12のステップS102ないしステップS104の動作は、図6の対応するステップと同様である。文書内共起計算部25は、ステップS103で新たに抽出された新語を含めて、シード語記憶部13に格納されているキーワードと文書IDのリストから、任意の2組のキーワードが何件の文書から同時に抽出されたかを計数し、文書内共起記憶部26に格納する(図12のステップS115)。
なお、実施の形態1で説明した計算方法と同様に、単純なランダムサンプリングでキーワードの組合せを複数通り生成し、各組合せに対して、スコア付けを行い、一番高いスコアの検索クエリを検索に用いる方法も考えられ、本実施の形態に述べた方法に限定されない。
例えば、s語のシード語からなる検索クエリ候補QC={K_q1, K_q2, ..., K_qs}について、クエリスコアQSは、クエリ候補QC内における任意の2語のキーワードの組合せに対する、新語抽出数推定値の平均値と共起度の平均値の線形和として定義することができる。具体的には、
QS(QC) = ρ・Σ_ij {NWR(K_i, K_j)}/s_C_2 + (1-ρ)・Σ_ij {DCO(K_i, K_j)}/s_C_2
となる。ここで、Σ_ijは、iとjが等しくない全ての組合せについて加算を行うことを意味しており、s_C_2はs個の要素から2個とりだす組合せ(Combination)の数s(s-1)/2である。
以上説明したように、本実施の形態2の辞書構築促進装置2では、抽出効率記憶部28の新語抽出効率の推定値と、文書内共起記憶部26の文書内共起度の両方を使って、シード語の選択を行う。これにより、新語抽出効率が不明の場合でも、より文書内共起度の高いキーワードのスコア分布が高くなるので、多くの検索結果が得られる可能性の高いキーワードの組合せを選択できる。
なお、実施の形態1と同様に、新語抽出装置1と辞書構築促進装置2をハードウェアとして1つの装置(辞書構築装置100)で構成することもできる。
図13は、図1または図9に示す辞書構築促進装置2、または辞書構築装置100のハードウェア構成の一例を示すブロック図である。辞書構築促進装置2または辞書構築装置100は、図13に示すように、制御部31、主記憶部32、外部記憶部33、操作部34および表示部35を備える。また、辞書構築装置100はさらに、送受信部36を備える場合がある。主記憶部32、外部記憶部33、操作部34、表示部35および送受信部36はいずれも内部バス30を介して制御部31に接続されている。
辞書構築促進装置2が、新語抽出装置1と同じハードウェア上に実現される場合は、図13に示す構成は辞書構築装置100である。その場合、辞書構築促進装置2は、辞書構築装置100で実行されるプロセスとして実現される。以下、辞書構築プログラム500は、辞書構築促進処理のプログラム(辞書構築促進プログラム)の場合を含むものとして説明する。すなわち、辞書構築促進装置2が、新語抽出装置1と同じハードウェア上に実現される場合は、辞書構築プログラム500は辞書構築促進プログラムを含む。辞書構築促進装置2が、新語抽出装置1と別のハードウェア上に実現される場合に、図13のハードウェアが辞書構築促進装置を表すときには、辞書構築プログラム500は、辞書構築促進プログラム500を指すものとする。
制御部31はCPU(Central Processing Unit)等から構成され、外部記憶部33に記憶されている辞書構築(促進)プログラム500に従って、前述の辞書構築処理を実行する。
主記憶部32はRAM(Random-Access Memory)等から構成され、外部記憶部33に記憶されている辞書構築(促進)プログラム500をロードし、制御部31の作業領域として用いられる。
外部記憶部33は、フラッシュメモリ、ハードディスク、DVD−RAM(Digital Versatile Disc Random-Access Memory)、DVD−RW(Digital Versatile Disc ReWritable)等の不揮発性メモリから構成され、前記の処理を制御部31に行わせるための辞書構築(促進)プログラム500を予め記憶し、また、制御部31の指示に従って、このプログラムが記憶するデータを制御部31に供給し、制御部31から供給されたデータを記憶する。図1または図9の文書群記憶部11、検索結果記憶部12およびシード語記憶部13は、および/または、文書内共起記憶部26、抽出新語数記憶部27および抽出効率記憶部28は、外部記憶部33に構成される。辞書構築処理を行っているときは、それらのデータの一部は主記憶部32に記憶されて制御部31の作業に用いる。
操作部34はキーボード及びマウスなどのポインティングデバイス等と、キーボード及びポインティングデバイス等を内部バス30に接続するインターフェース装置から構成されている。操作部34を介して、辞書構築の初期のシード語や初期の検索クエリが入力され、制御部31に供給される。操作部34は、図1または図9の入力部3に相当する。
表示部35は、CRT(Cathode Ray Tube)又はLCD(Liquid Crystal Display)などから構成され、辞書構築のためのシード語、検索クエリ、検索文書、抽出新語数、抽出新語数推定値、文書内共起度などを表示する。表示部35は、図1または図9の出力部4の例である。その他、出力部4として、プリンタなどを備えてもよい。
辞書構築装置100では、送受信部36を備えて、外部の文書データベースまたは検索エンジンなどとネットワークを介して通信し、文書を検索する場合がある。
図1または図9に示す辞書構築促進装置2、または辞書構築装置100の、検索クエリ入力部14、文書検索部15、単語抽出部16、検索クエリ選択部21、22、新語抽出数推定部23、抽出新語数取得部24および文書内共起計算部25の処理は、辞書構築プログラム500が、制御部31、主記憶部32、外部記憶部33、操作部34および表示部35などを資源として用いて処理することによって実行する。
その他、本発明の好適な変形として、以下の構成が含まれる。
本発明の第1の観点に係る辞書構築装置について、
好ましくは、前記推定手段は、前記検索語取得手段で取得した、前記検索に用いる語の組合せの和集合に含まれる任意の2つの語の組について、その2つの語を含む直近の所定回数の検索により抽出した新たな語の数の平均を推定値として算出し、
前記選択手段は、任意の語の組合せのうち、その語の組合せに含まれる全ての2つの語の組の前記推定値の平均を比較して、該推定値の平均が大きいものから検索に用いる語の組合せを選択する、
ことを特徴とする。
好ましくは、前記検索語取得手段で取得した、前記検索に用いる語の組合せの和集合に含まれる任意の2つの語の組について、共起度を取得する共起度取得手段を備え、
前記選択手段は、前記推定値に加えて、前記共起度取得手段で取得した共起度に基づいて文書の検索に用いる語の組合せを選択することを特徴とする。
好ましくは、前記選択手段は、任意の語の組合せのうち、その語の組合せに含まれる全ての2つの語の組の推定値の平均と、その語の組合せに含まれる全ての2つの語の組の共起度の平均、の線形和を比較して、該線形和が大きいものから検索に用いる語の組合せを選択することを特徴とする。
本発明の第3の観点に係る辞書構築方法について、
好ましくは、前記推定ステップは、前記検索語取得ステップで取得した、前記検索に用いる語の組合せの和集合に含まれる任意の2つの語の組について、その2つの語を含む直近の所定回数の検索により抽出した新たな語の数の平均を推定値として算出し、
前記選択ステップは、任意の語の組合せのうち、その語の組合せに含まれる全ての2つの語の組の前記推定値の平均を比較して、該推定値の平均が大きいものから検索に用いる語の組合せを選択する、
ことを特徴とする。
好ましくは、前記検索語取得ステップで取得した、前記検索に用いる語の組合せの和集合に含まれる任意の2つの語の組について、共起度を取得する共起度取得ステップを備え、
前記選択ステップは、前記推定値に加えて、前記共起度取得ステップで取得した共起度に基づいて文書の検索に用いる語の組合せを選択する、
ことを特徴とする。
好ましくは、前記選択ステップは、任意の語の組合せのうち、その語の組合せに含まれる全ての2つの語の組の推定値の平均と、その語の組合せに含まれる全ての2つの語の組の共起度の平均、の線形和を比較して、該線形和が大きいものから検索に用いる語の組合せを選択することを特徴とする。
その他、前記のハードウエェア構成やフローチャートは一例であり、任意に変更および修正が可能である。
制御部31、主記憶部32、外部記憶部33、操作部34、内部バス30などから構成される辞書構築促進処理を行う中心となる部分は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。たとえば、前記の動作を実行するためのコンピュータプログラムを、コンピュータが読み取り可能な記録媒体(フレキシブルディスク、CD−ROM、DVD−ROM等)に格納して配布し、当該コンピュータプログラムをコンピュータにインストールすることにより、前記の処理を実行する辞書構築促進装置および辞書構築装置を構成してもよい。また、インターネット等の通信ネットワーク上のサーバ装置が有する記憶装置に当該コンピュータプログラムを格納しておき、通常のコンピュータシステムがダウンロード等することで辞書構築促進装置および辞書構築装置を構成してもよい。
また、辞書構築促進装置および辞書構築装置の機能を、OS(オペレーティングシステム)とアプリケーションプログラムの分担、またはOSとアプリケーションプログラムとの協働により実現する場合などには、アプリケーションプログラム部分のみを記録媒体や記憶装置に格納してもよい。
また、搬送波にコンピュータプログラムを重畳し、通信ネットワークを介して配信することも可能である。たとえば、通信ネットワーク上の掲示板(BBS, Bulletin Board System)に前記コンピュータプログラムを掲示し、ネットワークを介して前記コンピュータプログラムを配信してもよい。そして、このコンピュータプログラムを起動し、OSの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行できるように構成してもよい。
本発明によれば、同一意味的階層に属するキーワードを辞書として構築することによって、辞書を検索エンジン、情報抽出、および、質問応答、などの技術に適用可能である。
本発明の実施の形態1に係る辞書構築装置の構成例を示すブロック図である。 検索結果記憶部に格納されるデータの例を示す図である。 シード語記憶部に格納されるデータの例を示す図である。 抽出新語数記憶部に格納されるデータの例を示す図である。 抽出効率記憶部に格納されるデータの例を示す図である。 実施の形態1に係る辞書構築装置の動作の一例を示す流れ図である。 実施の形態1におけるシード語選択処理の詳細な動作の一例を示す流れ図である。 抽出効率計算処理の詳細な動作の一例を示す流れ図である。 本発明の実施の形態2に係る辞書構築装置の構成例を示すブロック図である。 文書内共起記憶部が格納するデータの例を示す図である。 新語抽出数推定値を格納するデータの例を示す図である。 実施の形態2に係る辞書構築装置の動作の一例を示す流れ図である。 辞書構築促進装置または辞書構築装置のハードウェア構成の一例を示すブロック図である。 検索クエリと検索文書の関係の例を示す概念図である。
符号の説明
1 新語抽出装置
2 辞書構築促進装置
3 入力部
4 出力部
11 文書群記憶部
12 検索結果記憶部
13 シード語記憶部
14 検索クエリ入力部
15 文書検索部
16 単語抽出部
21、22 検索クエリ選択部
23 新語抽出数推定部
24 抽出新語数取得部
25 文書内共起計算部
26 文書内共起記憶部
27 抽出新語数記憶部
28 抽出効率記憶部
100 辞書構築装置
500 辞書構築(促進)プログラム

Claims (11)

  1. 文書の検索に用いる語の組合せを取得する検索語取得手段と、
    前記文書の検索で検索した文書から抽出した、辞書に登録するための新たな語の数を取得する新語数取得手段と、
    前記新語数取得手段で取得した新たな語の数から所定の規則で、前記検索語取得手段で取得した検索に用いる語の組合せの和集合の、任意の部分集合の語を用いて文書を検索した場合の新語抽出数の推定値を算出する推定手段と、
    前記推定手段で算出した推定値に基づいて、前記検索に用いる語の組合せの和集合の部分集合である任意の語の組合せから、所定の基準で文書の検索に用いる語の組合せを選択する選択手段と、
    を備えることを特徴とする辞書構築促進装置。
  2. 前記推定手段は、前記検索語取得手段で取得した、前記検索に用いる語の組合せの和集合に含まれる任意の2つの語の組について、その2つの語を含む直近の所定回数の検索により抽出した新たな語の数の平均を推定値として算出し、
    前記選択手段は、任意の語の組合せのうち、その語の組合せに含まれる全ての2つの語の組の前記推定値の平均を比較して、該推定値の平均が大きいものから検索に用いる語の組合せを選択する、
    ことを特徴とする請求項1に記載の辞書構築促進装置。
  3. 前記検索語取得手段で取得した、前記検索に用いる語の組合せの和集合に含まれる任意の2つの語の組について、共起度を取得する共起度取得手段を備え、
    前記選択手段は、前記推定値に加えて、前記共起度取得手段で取得した共起度に基づいて文書の検索に用いる語の組合せを選択することを特徴とする請求項1または2に記載の辞書構築促進装置。
  4. 前記選択手段は、任意の語の組合せのうち、その語の組合せに含まれる全ての2つの語の組の推定値の平均と、その語の組合せに含まれる全ての2つの語の組の共起度の平均、の線形和を比較して、該線形和が大きいものから検索に用いる語の組合せを選択することを特徴とする請求項3に記載の辞書構築促進装置。
  5. 文書の検索に用いる語の組合せを取得するクエリ取得手段と、
    前記クエリ取得手段で取得した語の組合せを用いて、文書を検索する検索手段と、
    前記検索手段で検索した文書から、辞書に登録する新たな語を抽出する新語抽出手段と、
    請求項1ないし4のいずれか1項に記載の辞書構築促進装置と、
    を備え、
    前記検索語取得手段は、前記検索手段から文書の検索に用いた語の組合せを取得し、
    前記新語数取得手段は、前記新語抽出手段から検索で抽出した新たな語の数を取得する、
    ことを特徴とする辞書構築装置。
  6. 文書の検索に用いる語の組合せを取得する検索語取得ステップと、
    前記文書の検索で検索した文書から抽出した、辞書に登録するための新たな語の数を取得する新語数取得ステップと、
    前記新語数取得ステップで取得した新たな語の数から所定の規則で、前記検索語取得ステップで取得した検索に用いる語の組合せの和集合の、任意の部分集合の語を用いて文書を検索した場合の新語抽出数の推定値を算出する推定ステップと、
    前記推定ステップで算出した推定値に基づいて、前記検索に用いる語の組合せの和集合の部分集合である任意の語の組合せから、所定の基準で文書の検索に用いる語の組合せを選択する選択ステップと、
    を備えることを特徴とする辞書構築促進方法。
  7. 前記推定ステップは、前記検索語取得ステップで取得した、前記検索に用いる語の組合せの和集合に含まれる任意の2つの語の組について、その2つの語を含む直近の所定回数の検索により抽出した新たな語の数の平均を推定値として算出し、
    前記選択ステップは、任意の語の組合せのうち、その語の組合せに含まれる全ての2つの語の組の前記推定値の平均を比較して、該推定値の平均が大きいものから検索に用いる語の組合せを選択する、
    ことを特徴とする請求項6に記載の辞書構築促進方法。
  8. 前記検索語取得ステップで取得した、前記検索に用いる語の組合せの和集合に含まれる任意の2つの語の組について、共起度を取得する共起度取得ステップを備え、
    前記選択ステップは、前記推定値に加えて、前記共起度取得ステップで取得した共起度に基づいて文書の検索に用いる語の組合せを選択する、
    ことを特徴とする請求項6または7に記載の辞書構築促進方法。
  9. 前記選択ステップは、任意の語の組合せのうち、その語の組合せに含まれる全ての2つの語の組の推定値の平均と、その語の組合せに含まれる全ての2つの語の組の共起度の平均、の線形和を比較して、該線形和が大きいものから検索に用いる語の組合せを選択することを特徴とする請求項8に記載の辞書構築促進方法。
  10. 文書の検索に用いる語の組合せを取得するクエリ取得ステップと、
    前記クエリ取得ステップで取得した語の組合せを用いて、文書を検索する検索ステップと、
    前記検索ステップで検索した文書から、辞書に登録する新たな語を抽出する新語抽出ステップと、
    請求項6ないし9のいずれか1項に記載の辞書構築促進方法と、
    を備え、
    前記検索語取得ステップは、前記検索ステップで文書の検索に用いた語の組合せを取得し、
    前記新語数取得ステップは、前記新語抽出ステップで抽出した新たな語の数を取得する、
    ことを特徴とする辞書構築方法。
  11. コンピュータを、
    文書の検索に用いる語の組合せを取得する検索語取得手段と、
    前記文書の検索で検索した文書から抽出した、辞書に登録するための新たな語の数を取得する新語数取得手段と、
    前記新語数取得手段で取得した新たな語の数から所定の規則で、前記検索語取得手段で取得した検索に用いる語の組合せの和集合の、任意の部分集合の語を用いて文書を検索した場合の新語抽出数の推定値を算出する推定手段と、
    前記推定手段で算出した推定値に基づいて、前記検索に用いる語の組合せの和集合の部分集合である任意の語の組合せから、所定の基準で文書の検索に用いる語の組合せを選択する選択手段、
    として機能させることを特徴とする辞書構築促進プログラム。
JP2008224915A 2008-09-02 2008-09-02 辞書構築促進装置、辞書構築装置、辞書構築促進方法、辞書構築方法および辞書構築促進プログラム Pending JP2010061284A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008224915A JP2010061284A (ja) 2008-09-02 2008-09-02 辞書構築促進装置、辞書構築装置、辞書構築促進方法、辞書構築方法および辞書構築促進プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008224915A JP2010061284A (ja) 2008-09-02 2008-09-02 辞書構築促進装置、辞書構築装置、辞書構築促進方法、辞書構築方法および辞書構築促進プログラム

Publications (1)

Publication Number Publication Date
JP2010061284A true JP2010061284A (ja) 2010-03-18

Family

ID=42188031

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008224915A Pending JP2010061284A (ja) 2008-09-02 2008-09-02 辞書構築促進装置、辞書構築装置、辞書構築促進方法、辞書構築方法および辞書構築促進プログラム

Country Status (1)

Country Link
JP (1) JP2010061284A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7384354B2 (ja) 2020-02-04 2023-11-21 本田技研工業株式会社 情報処理装置、情報処理方法およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7384354B2 (ja) 2020-02-04 2023-11-21 本田技研工業株式会社 情報処理装置、情報処理方法およびプログラム

Similar Documents

Publication Publication Date Title
Deveaud et al. Accurate and effective latent concept modeling for ad hoc information retrieval
RU2501078C2 (ru) Ранжирование результатов поиска с использованием расстояния редактирования и информации о документе
US9424351B2 (en) Hybrid-distribution model for search engine indexes
US20110055192A1 (en) Full text query and search systems and method of use
US8417692B2 (en) Generalized edit distance for queries
US10152478B2 (en) Apparatus, system and method for string disambiguation and entity ranking
Pervin et al. Fast, scalable, and context-sensitive detection of trending topics in microblog post streams
WO2008106667A1 (en) Searching heterogeneous interrelated entities
KR20110050478A (ko) 검색 질의에 응답하여 디스커션 스레드에 대한 포스트를 제공하는 방법 및 시스템
WO2012178152A1 (en) Methods and systems for retrieval of experts based on user customizable search and ranking parameters
WO2007149623A2 (en) Full text query and search systems and method of use
WO2010014082A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
Van Britsom et al. Using data merging techniques for generating multidocument summarizations
Gong et al. Phrase-based hashtag recommendation for microblog posts.
Barrio et al. Sampling strategies for information extraction over the deep web
Nikas et al. Open domain question answering over knowledge graphs using keyword search, answer type prediction, SPARQL and pre-trained neural models
CN108509449B (zh) 一种信息处理的方法及服务器
Balasubramanian et al. Topic pages: An alternative to the ten blue links
Hsu et al. Efficient and effective prediction of social tags to enhance web search
Kunpeng et al. A new query expansion method based on query logs mining
JP2008102790A (ja) 検索システム
JP2010061284A (ja) 辞書構築促進装置、辞書構築装置、辞書構築促進方法、辞書構築方法および辞書構築促進プログラム
Cai et al. Term-level semantic similarity helps time-aware term popularity based query completion
Lin et al. Predicting next search actions with search engine query logs
Zhang et al. Topic level disambiguation for weak queries