JP2004070636A

JP2004070636A - 概念検索装置

Info

Publication number: JP2004070636A
Application number: JP2002228464A
Authority: JP
Inventors: Takeyuki Aikawa; 相川　勇之; Katsushi Suzuki; 鈴木　克志; Yasuhiro Takayama; 高山　泰博
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2002-08-06
Filing date: 2002-08-06
Publication date: 2004-03-04

Abstract

【課題】概念検索に用いる概念辞書を自動更新する。
【解決手段】語の概念ベクトル情報を格納した概念辞書と、概念辞書が記憶する概念ベクトル情報の類似度を計算する類似度計算手段とを備え、検索対象文書から検索語を検索するために、この検索語と概念ベクトル情報が類似する類似語を求めて、検索語とともに類似語についても検索対象文書を検索する概念検索装置において、概念辞書に概念ベクトル情報が格納されていない新語を検索対象文書から検出する単語検出手段と、前記新語の概念ベクトル情報を計算し前記概念辞書に出力する概念辞書更新手段とを有する概念検索装置を提供する。
【選択図】　　　　　図１

Description

【０００１】
【発明の属する技術分野】
この発明は、入力テキストと類似する内容の文書を検索するための概念検索装置に関するものである。
【０００２】
【従来の技術】
文書の電子化が進み、短時間で必要な情報を取得するための検索装置の重要性が増している。このような検索装置のうち、検索文字列とは異なる表現であっても類似する意味内容をもつ文書を検索可能な概念検索方式として、文献１（「単語の連想関係に基づく情報検索システムＩｎｆｏＭＡＰ、高山他、情報学基礎５３−１、１９９９−３」）がある。図１３は、文献１に開示された概念検索方式の構成を図示したものである。
【０００３】
１３０１は登録手段であり、登録文書１３０２に含まれるテキストを解析し、文書ベクトルに変換して文書ベクトル索引１３０３に登録する。１３０４はベクトル生成手段であり、概念辞書１３０５に登録された概念ベクトルをもとに入力テキストをベクトル情報に変換する。１３０６は検索手段であり、検索入力テキスト１３０７を解析して検索ベクトルを生成する。１３０８は類似度計算手段であり、検索ベクトルと文書ベクトル索引１３０３に登録されている文書ベクトルとの類似度を計算する。１３０９は検索結果出力手段であり、上記類似度の順に登録文書の情報を検索結果１３１０として出力する。１３１１は学習手段であり、学習用文書１３１２を解析し、単語の出現傾向から各単語の概念ベクトルを計算して概念辞書１３０５を生成する。
【０００４】
しかし、文献１の概念検索方式では、概念辞書１３０５に登録されていない新語のみからなる検索入力１３０７ｂに対しては検索ベクトルを生成することができず、検索結果が得られないという課題があった。そこで上記の新語の検索に関わる課題を解決するための技術として、文献２（特開２００２−９２０１７：概念辞書拡張装置）、および文献３（特開平０５−３２４６１１：用語辞書生成機能付き文書処理装置）に開示されている技術がある。
【０００５】
図１４は、文献２に開示されている概念辞書拡張装置の構成を図示したものである。新語ベクトル計算手段１４０１では、新語リスト１４０２に含まれる各単語について、以下の処理を行なう。まず、関連語データベース１４０５から、各単語の関連語を取得する。関連語データベース１４０５は、検索ログ１４０３に出現する各単語の出現時刻の差を関連度として定義したもので、学習手段１４０４により生成される。つぎに、得られた関連語のうち、概念辞書１４０６に登録されている語の概念ベクトルを取得し、これらを上記関連度により重み付けして加算した概念ベクトルを新語の概念ベクトルとして、新語辞書１４０７に登録する。
【０００６】
また文献３に開示されている用語辞書生成機能付き文書処理装置によれば、新規用語学習対象となる文書を構文分解し、新語と判定された単語の出現頻度を取得し、所定頻度以上の新語の辞書更新を支援することができる。
【０００７】
【発明が解決しようとする課題】
しかし、文献２および文献３で開示された技術には、以下のような課題がある。まず、文献２に開示された技術では、入力として与える新語リストを人手で作成する必要があるため、辞書の更新に要する手間が大きいという課題がある。また、文献２では検索ログから生成した関連語データベースと既存の概念辞書とに基づいて新語の概念ベクトルを生成するので、検索対象文書中における当該新語の使用法については考慮されておらず、必ずしも適切な概念を学習できるとは限らないという課題がある。
【０００８】
上記の文献２および文献３に開示されている技術を組み合わせれば、文献３の新規用語判別手段により所定文書に出現する新出単語を自動判別し、文献２の新語ベクトル計算手段により新語辞書を自動生成することも可能である。しかし、文献３の新規用語判別手段が検出できる単語は辞書に登録されていない単語のみであるため、一連の単語としては未知の単語であるがその単語を過剰に分割した結果、既知の単語に分割されてしまう単語（以下、過分割と呼ぶ）については新出単語として検出できないという課題がある。
【０００９】
また、文献３に開示された技術では、新規用語対象物件中に出現した頻度により新規用語を取捨選択するのみであるため、当該新出単語が一時的に使用されている一過性の単語であるか、今後定常的に使用される用語であるかを判断することができないという課題がある。
【００１０】
本発明は上記課題を解決するためになされたものであって、新出単語の検出から辞書データの更新までを全自動で行なう新出単語検出手段及び概念辞書更新手段を設けることにより、新出単語リストの作成や辞書登録の手間がなくなり、概念辞書の保守作業を効率化することができる。また文書蓄積手段により蓄積された大量の蓄積文書から新出単語を検出するので、検索対象文書中に含まれる新語を的確に検出できる。さらに、蓄積文書中のテキストをもとに新出単語の概念ベクトルを計算するので、検索対象文書中における当該新出単語の意味を的確に反映することができる。
【００１１】
また本発明では、新出単語検出処理において蓄積文書中に出現する既知語に対するベクトル情報を計算する既知語ベクトル計算手段と、概念辞書中に登録されているベクトル情報と上記既知語ベクトルとの差異を検出する既知語ベクトル変化検出手段と、形態素解析誤りにより既知語の連続として過剰に分割された新語を検出する過分割新語検出手段とを有するので、過分割された新語をも検出し、概念辞書に自動登録することが可能である。
【００１２】
さらに本発明では、新出単語検出処理において所定期間中の当該新出単語の頻度推移を取得するための頻度推移検出手段、および上記頻度推移により一過性の単語か定着した新出単語かを判定する新出単語定着判定手段を有するので、有効な新出単語を選択して自動登録することが可能となる。
【００１３】
【課題を解決するための手段】
本発明は、語の概念ベクトル情報を格納した概念辞書と、前記概念辞書を用いて表記の異なる文書館の類似度を計算する類似度計算手段とを備え、前記類似度に基づき検索を行う概念検索装置において、前記概念辞書に概念ベクトル情報が格納されていない新語を前記検索対象文書から検出する単語検出手段と、前記新語の概念ベクトル情報を計算し前記概念辞書に出力する概念辞書更新手段とを有するものである。
【００１４】
また本発明は、前記概念検索装置が、検索対象文書を履歴文書として蓄積する文書蓄積手段を備え、前記単語検出手段が、前記履歴文書から前記新語を検出するものである。
【００１５】
また本発明は、前記概念検索装置が、新語であるにもかかわらず形態素解析誤りにより過剰に分割されて既知語と判定された語を検出する過分割新語検出手段を備え、前記単語検出手段が、前記過分割新語検出手段により検出された語を新語として検出するものである。
【００１６】
また本発明は、前記単語検出手段が、前記履歴文書における出現頻度が所定値以上の新語について前記履歴文書の蓄積時期ごとの出現頻度を出力する頻度推移計算手段と、前記蓄積時期ごとの出現頻度のばらつきから前記新語が定着して使用されている語であることを判定する新出単語定着判定手段とを備えたものである。
【００１７】
また本発明は、前記概念辞書が、語の共起頻度からなる共起頻度行列を特異値分解して得られる左特異行列と特異値行列と右特異行列のうち前記左特異行列を含み、前記概念検索装置が、前記特異値行列と前記右特異行列とを逆演算用データとして記憶する逆演算用データ記憶手段を備え、前記概念辞書更新手段が、前記逆演算用データを用いて前記新語の概念ベクトル情報を計算するものである。
【００１８】
また本発明は、前記概念辞書が、前記左特異行列の左から所定数の列を取り出した行列を含み、前記逆演算用データ記憶手段が、前記特異値行列の左から前記所定数の列でかつ上から前記所定数の行を取り出した行列と、前記右特異行列の左から前記所定数の列を取り出した行列とを前記逆演算用データとするものである。
【００１９】
また本発明は、前記概念辞書が、文書の段落ごとの語の共起頻度に基づいて作成された概念ベクトル情報を格納したものである。
【００２０】
【発明の実施の形態】
実施の形態１．
図１に本発明の実施の形態における構成図を示す。１０１は登録文書に含まれるテキストを解析し、文書ベクトルに変換して文書ベクトル索引に登録する登録手段であって、１０２は登録手段１０１が解析する登録文書であり、１０３は登録手段１０１が文書ベクトルを登録する文書ベクトル索引である。１０４はベクトル情報を格納する概念辞書であって、１０５は概念辞書１０４に登録された概念ベクトルに基づいて入力テキストをベクトル情報に変換するベクトル生成手段である。１０６は検索入力テキストを解析して検索ベクトルを生成する検索手段であって、１０７は検索手段１０６が解析する検索入力テキストである。１０８は検索ベクトルと文書ベクトル索引１０３に登録されている文書ベクトルとの類似度を計算する類似度計算手段である。１０９は、上記類似度の順に登録文書１０２の情報を検索結果として出力する検索結果出力手段であって、１１０は検索結果出力手段１０９が出力する検索結果である。１１１は学習用文書を解析し、単語の出現傾向から各単語の概念ベクトルを計算して概念辞書１０４を生成する学習手段であって、１１２は学習手段１１１が解析する学習用文書である。１１３は登録文書１０２のテキスト情報を蓄積文書として一定期間蓄積する文書蓄積手段であって、１１４は文書蓄積手段１１３が蓄積する蓄積文書である。１１５は登録処理時に蓄積文書の内容を走査し、新出単語を検出する単語検出手段である。１１６は蓄積文書１１４の走査により検出された新出単語の概念ベクトルを計算し、概念辞書１０４を更新する概念辞書更新手段である。
【００２１】
まず本実施の形態における文書登録処理について説明する。図２は本実施の形態における文書登録処理を示すフローチャートである。まずステップＳ２０１において登録手段１０１は登録文書１０２を読み込み、ベクトル生成手段１０５を呼び出してテキスト情報をベクトル情報に変換し、得られたベクトル情報（以下、文書ベクトルという）を文書ベクトル索引１０３に登録する。図１２に文書ベクトル索引の例を示す。図においてＥ１、Ｅ２、…、Ｅｋは複数単語の線形和である基底ベクトルである。また図中の成分ｄ１１、ｄ１２、…、ｄｉｊ、…は各文書における各単語の出現頻度を表す数値である。
【００２２】
ここで、ベクトル生成手段１０５におけるベクトル情報の生成方法の詳細について説明する。図４はベクトル生成手段１０５におけるベクトル生成処理のフローチャートである。まずステップＳ４０１において、入力テキストを形態素解析して単語に分割する。次にステップＳ４０２において、その入力テキストにおける各単語の出現回数をカウントする。続けてステップＳ４０３において、各単語の概念ベクトルを概念辞書１０４より検索する。概念辞書の生成方法については後で説明する。さらにステップＳ４０４において、各単語の出現回数に基づいた重み付けをしたうえで概念ベクトルを加算し、ベクトルの長さが１となるよう正規化する。以上がベクトル情報の生成方法の詳細である。
【００２３】
次に図２のステップＳ２０２において、文書蓄積手段１１３は蓄積文書１１４の更新を行なう。登録文書１０２のテキスト情報を蓄積文書１１４に追加すると同時に、古いデータを削除することによって、常に一定期間のデータが蓄積されるようにする。蓄積期間については、一度に登録される文書量および登録頻度に応じて事前に設定するものとする。続いてステップＳ２０３において、単語検出手段１１５は蓄積文書１１４を走査し、蓄積文書１１４中に含まれる新出単語を検出する。この検出処理の詳細については後述する。さらにステップＳ２０４において、概念辞書更新手段１１６は新出単語に対する概念ベクトルを生成し、概念辞書１０４への追加登録を行なう。辞書データ更新処理の詳細についても後述する。
【００２４】
次に本実施の形態における検索処理について説明する。図３は本実施の形態における検索処理のフローチャートである。まずステップＳ３０１において、検索手段１０６により検索入力テキスト１０７を読み込み、ベクトル生成手段１０５を呼び出して検索入力テキストをベクトル情報（以下、検索ベクトルと呼ぶ）に変換する。続いてステップＳ３０２において、類似度計算手段１０８により検索ベクトルと文書ベクトル索引１０３に登録されている文書ベクトルとの類似度を計算する。ここでは、検索ベクトルと文書ベクトルとがなす角度の余弦値を類似度として定義する。さらにステップＳ３０３において、検索結果出力手段により検索ベクトルと類似する順に登録文書の情報を検索結果１０９として出力する。
【００２５】
次に学習手段１１１の詳細について説明する。図５は学習手段１１１の構成図である。図において５０１は共起頻度表を作成する共起頻度計算手段である。共起頻度とは、ある文書単位において、ある単語と他の単語が同時に出現する頻度をいう。本実施の形態ではこの文書単位として、段落を用いることにする。そうすると、共起頻度表は学習用文書中のテキストを段落毎に分割し、各段落毎の単語の共起頻度を計算して作成される。図６の６０１に共起頻度表の例を示す。共起頻度表６０１において同一列には、ある段落における単語毎の共起頻度を表記している。また同一行には、ある単語の段落毎の共起頻度を表記している。図５において、５０２は共起頻度表６０１に対する特異値分解を行う特異値分解手段である。５０３は概念ベクトル情報を概念辞書１０４に出力する概念辞書出力手段である。５０４は新出単語ベクトル計算に用いる逆演算用データの出力を行う逆演算用データ出力手段である。また図６において、６０５は概念辞書である。
【００２６】
続いて学習手段１１１における概念辞書１０４を生成する学習処理について説明する。図７は学習手段１１１における学習処理のフローチャートである。まずステップＳ７０１において学習手段１１１は、学習用文書１１２を読み込み、形態素解析を行って学習用文書中のテキストを単語に分割する。続いてステップＳ７０２において、図７に示す共起頻度計算手段５０１により入力テキストを段落ごとに分割し、単語の共起頻度を計算し、共起頻度表６０１を作成する。なお本実施の形態では、単語間の共起をとる文書単位を段落としたが、入力テキストの性質に応じて文書単位を文ごと、文書ごととしてもよい。次にステップＳ７０３において図７の特異値分解手段５０２により共起頻度表６０１に対する特異値分解を行なう。
【００２７】
ここで、本実施の形態における概念辞書とは、単語の意味がそれぞれ類似する単語の関係を表現した辞書である。一般にこのような概念辞書を生成するには、予め人間の手によって互いに意味の類似し合う単語を分類して相互の関係を特定のデータ形式を用いて記述する方法も考えられる。しかしこの方法では、今まで出現したことのない単語に対する概念をうまく記述することができず、その都度人間の判断に基づいて意味関係を構築していく必要がある。そこで本実施の形態における概念辞書では、同じような概念を有する単語が同じような文章のコンテキストで使用されることに着目して、その単語と共起する単語の頻度に基づいて単語間の類似度を算出する。類似する概念の単語、例えば「首相」と「総理」という単語は、それぞれ同じような別の単語、例えば「国会」、「内閣」、「所信演説」といった語と同時に用いられることが統計的に多いからである。検索処理において単語の概念の類似関係を参照する場合には、各単語間で他の単語との共起頻度が類似するものを抽出すればよい。
【００２８】
ところで、ある文書において出現する単語の個数がｎであって、その単語のそれぞれと共起する単語がｍ個ある場合には、その共起頻度表はｎ行ｍ列の行列となる。より精度の高い共起頻度表を得るために、数多くの文書を通じて共通の共起頻度表を構成していくと、行列の次元は極めて大きくなり、膨大な計算機資源を要求することになる。そこで本実施の形態では、この共起頻度表を特異値分解をすることによってこの次元数を減少させ、その結果を概念辞書として利用する。特異値分解の結果、図６に示す３つ組の行列Ｕ６０２、Σ６０３、Ｖ６０４が得られる。ここで、Ｕ６０２は左特異行列と呼ばれるものであり、Σ６０３は特異値行列、Ｖ６０４は右特異行列と呼ばれるものである。なお、特異値分解に関しては、公知の数値解法が多数存在するので説明を割愛する。
【００２９】
ステップＳ７０４において概念辞書出力手段５０３は、さらに記憶容量を削減するために、Ｕ６０２の左からｋ列を切り出した行列データＵｋを概念辞書６０５の概念ベクトル情報として採用する。これは、特異値の大きな方からｋ次元を採用することを意味する。共起頻度表を生成する段階では、文章に出現する単語間のすべての組み合わせでの共起頻度を求めることになるが、実際には単語間には特有の結びつきがあり、共起する頻度が極めて小さいために無視してよい単語の組み合わせも存在するからである。一方、ステップＳ７０５において逆演算用データ出力手段５０４はΣおよびＶをディスクに記憶させる。特異値分解の結果得られたΣおよびＶを用いると、新出単語から概念ベクトルを逆演算によって計算することができるからである。本実施の形態では逆演算用データ出力手段５０４は、上記Ｕと同様に記憶容量削減を目的として、ΣおよびＶのうち特異値の大きなほうからｋ次元に対応する部分であるΣｋ（６０６）およびＶｋ（６０７）を採用して、ディスク上に記憶させる。
【００３０】
本実施の形態においては、上記特異値分解の結果は実数値として得られるが、概念辞書に格納するベクトル情報６０５を１バイトまたは２バイトで表現し得るよう離散値で近似すれば、メモリ容量を節減するとともに、類似度計算などの処理コストを低減できる。以上が学習手段１１１の詳細な説明である。
【００３１】
次に単語検出手段１１５における新出単語検出処理の詳細について説明する。図８は単語検出手段１１５の構成図である。図において、８０１は形態素解析の結果の単語が新語か否かを判定するために用いる概念ベクトル情報を計算する既知語ベクトル計算手段である。８０２は既知語ベクトル計算手段８０１と概念辞書１０４とを照合することにより概念ベクトルが変化した既知語を検出する既知語ベクトル変化検出手段である。８０３は既知語ベクトル変化検出手段８０２が検出した既知語の前後の単語を連結した新語候補を抽出する過分割新語抽出手段である。８０４は蓄積文書１１４を走査し、当該新出単語候補の合計出現回数が所定回数以上である新出単語候補の頻度推移を取得する頻度推移計算手段である。８０５は各登録時期に対する出現頻度のばらつきに基づいて新出単語の定着判定を行う新出単語定着判定手段である。
【００３２】
次に単語検出手段１１５における単語検出処理の詳細について説明する。図９は当該単語検出処理のフローチャートである。まずステップＳ９０１において、単語検出手段１１５により蓄積文書１１４を読み込んで形態素解析を行ない単語に分割する。形態素解析結果として得られる一又は二以上の単語のうちｉ番目の単語ＫＷｉについて、ステップＳ９０２からステップＳ９０８までの処理を繰り返す。ステップＳ９０２は繰り返し処理の終了条件判定である。全単語についてステップＳ９０３以下の処理を終えていればステップＳ９０９に進む。そうでなければ、ステップＳ９０３からステップＳ９０８までの処理を繰り返す。
【００３３】
ステップＳ９０３において単語検出手段１１５は、処理中の単語ＫＷｉが新語かどうかを判定する。判定は形態素解析結果の品詞コードに基づいて行なう。ＫＷｉが新語であると判定された場合はステップＳ９０８に進み、ＫＷｉを新語リストに追加する。ＫＷｉが新語でなければステップＳ９０４に進む。
【００３４】
ステップＳ９０４において既知語ベクトル計算手段８０１は、ＫＷｉの概念ベクトル情報を計算する。概念ベクトル情報の計算には図６で説明した逆演算用のデータΣｋ（６０６）およびＶｋ（６０７）を用いる。まず蓄積文書１１４を走査し、ＫＷｉと共起する単語の頻度を取得する。ＫＷｉに対する共起頻度ベクトルをＦｘとしたとき、ＫＷｉの概念ベクトル情報Ｃｉは、Ｆｘ・Σｋ−１・ＶｋＴにより得られる。ここで共起頻度ベクトルとは、図６に示した共起頻度表６０１における各単語に対する行データを意味する。
【００３５】
ステップＳ９０５において既知語ベクトル変化検出手段８０２は、概念辞書１０４に登録されている概念ベクトル情報と、ステップＳ９０４において既知語ベクトル計算手段８０１が計算した概念ベクトル情報との類似度を計算し、類似度が所定値以下である場合には概念ベクトルが変化した既知語として、次のステップＳ９０６において過分割新語抽出処理を行なう。検索処理と同様に、２つのベクトルがなす角度の余弦値を類似度として定義する。上記類似度が大きく、概念ベクトルの変化が検出されなかった場合はステップＳ９０２に戻り、次の単語を処理する。
【００３６】
ステップＳ９０６において過分割新語検出手段８０３は、蓄積文書１１４を走査して、ステップＳ９０５において既知語ベクトル変化検出手段８０２が検出した既知語の前後の単語を連結した新語候補を抽出する。新語候補の抽出に際しては、処理中の単語ＫＷｉとの字種の共通性、および前後の付属語の連接情報を用いた抽出処理を行なう。
【００３７】
ここで過分割新語抽出処理を詳細に説明する。図１０は過分割新語抽出処理のフローチャートである。ステップＳ１００１において、ステップＳ９０５において既知語ベクトル変化検出手段８０２が検出した新語候補の前後に存在する同一字種単語を抽出する。たとえば新語候補がカタカナ語の場合、前後のカタカナ語とあわせて一つの単語となる可能性が高いので、これらをまとめて新たな新語候補として抽出する。
【００３８】
次にステップＳ１００２において、新語候補の前後にある付属語を検出し、その前後を自立語の切れ目と判定して新語候補として抽出する。続いてステップＳ１００３において、抽出された新語候補の前後にある接辞を除去する処理を行なう。最後にステップＳ１００４において、ここまでに抽出された複数単語を結合してなる新たな新語候補に対して、構成単語間の共起頻度判定を行なう。各単語の個別の出現頻度に対して、複数単語が連続して出現する共起頻度の割合が十分に大きければ、これらの複数単語は過分割された一つの単語である可能性が高いと判定し、この単語列を１つの新語候補と認定する。以上が過分割新語抽出処理の詳細である。
【００３９】
ステップＳ９０７において、過分割新語検出手段８０３により検出された過分割新語があるかどうかを判定する。新語があればステップＳ９０８に進み、新語リストに当該単語を追加する。ここで、過分割新語検出結果は複数あってもよい。過分割新語検出結果が０語であればステップＳ９０２に戻り、次の単語を処理する。
【００４０】
すべての単語を処理し終わると、ステップＳ９０２からステップＳ９０９に進む。ステップＳ９０９において頻度推移計算手段８０４は、蓄積文書１１４を走査し、当該新出単語候補の合計出現回数が所定回数以上である新出単語候補の頻度推移を取得し、次に蓄積文書１１４を登録時期ごとに分割して、それぞれの時期ごとの各データにおける新出単語候補の出現頻度を計算する。次にステップＳ９１０において新出単語定着判定手段８０５は、新出単語の定着判定を行なう。ここでは、頻度推移計算手段８０４が取得した各登録時期に対する出現頻度のばらつきが一定数以下である場合には、当該新出単語候補は定着して使用されている語であると判定し、新出単語検出結果として図８の概念辞書更新手段１１６に転送する。
【００４１】
次に概念辞書更新手段１１６について詳細に説明する。図１１は概念辞書更新手段１１６における辞書データ更新処理のフローチャートである。まずステップＳ１１０１において、蓄積文書１１４を走査し、単語検出手段１１５が検出した新出単語と共起する単語の共起頻度表を作成する。続いてステップＳ１１０２において、新出単語に対する概念ベクトル情報Ｃｎを、図６で説明した逆演算用のデータΣｋ（６０６）およびＶｋ（６０７）を用いて計算する。新出単語の共起頻度ベクトルをＦｎとすれば、概念ベクトル情報Ｃｎは、Ｆｎ・Σｋ−１・ＶｋＴにより得られる。最後にステップＳ１１０３において、上記で得られた新語の概念ベクトル情報を概念辞書１０４に追加登録する。
【００４２】
以上説明したように、本実施の形態によれば、新出単語を検出する対象テキストとして一定期間の蓄積文書を蓄積するための文書蓄積手段と、新出単語の検出から辞書データの更新までを全自動で行なう単語検出手段及び概念辞書更新手段を設けることにより、新出単語リストの作成や辞書登録の手間がなくなり、概念辞書の保守作業を効率化することができる。また、蓄積文書から新出単語を検出するので、検索対象文書中に含まれる新語を的確に検出できる。さらに、蓄積文書中のテキストから新出単語の概念ベクトルを計算するので、検索対象文書中における当該新出単語の意味を的確に反映することができる。
【００４３】
また、単語検出処理において蓄積文書中に出現する既知語に対するベクトル情報を計算する既知語ベクトル計算手段と、概念辞書中に登録されているベクトル情報と上記既知語ベクトルとの差異を検出する既知語ベクトル変化検出手段と、形態素解析誤りにより既知語の連続として過剰に分割された新語を検出する過分割新語検出手段とを有するので、過分割された新語をも検出し、概念辞書に自動登録することが可能である。
【００４４】
さらに、単語検出処理において所定期間中の当該新出単語の頻度推移を取得するための頻度推移検出手段、および上記頻度推移により一過性の単語か定着した新出単語かを判定する新出単語定着判定手段を有するので、有効な新出単語を選択して自動登録することが可能となる。
【００４５】
【発明の効果】
本発明は、前記概念辞書に概念ベクトル情報が格納されていない新語を前記検索対象文書から検出する単語検出手段と、前記新語の概念ベクトル情報を計算し前記概念辞書に出力する概念辞書更新手段とを備えたので、検索対象文書から検出した概念辞書にない新語を概念辞書に自動的に登録できるという効果を有する。
【００４６】
また本発明は、検索対象文書を履歴文書として蓄積する文書蓄積手段を備え、単語検出手段が、履歴文書から新語を検出することとしたため、より確度の高い概念ベクトルと概念辞書を得ることができるという効果を有する。
【００４７】
また本発明は、新語であるにもかかわらず形態素解析誤りにより過剰に分割されて既知語と判定された語を検出する過分割新語検出手段を備えたため、語の概念を誤って識別することを減少し、概念検索の精度を高めるを可能とする概念辞書を得ることができるという効果を有する。
【００４８】
また本発明は、履歴文書における出現頻度が所定値以上の未知語について、履歴文書の蓄積時期ごとの出現頻度を出力する頻度推移計算手段と、蓄積時期ごとの出現頻度のばらつきから新語が定着して使用されている語であることを判定する新出単語定着判定手段とを備えたため、概念や用法が安定している語を優先的に概念辞書に登録する一方で、一過性の単語の登録を排除することができるという効果を有する。
【００４９】
また本発明は、語の共起頻度からなる共起頻度行列を特異値分解して得られる左特異行列と特異値行列と右特異行列のうち特異値行列と右特異行列とを逆演算用データとして記憶する逆演算用データ記憶手段を備え、前記概念辞書更新手段が、この逆演算用データを用いて新語の概念ベクトル情報を計算することとしたため、大量の文書に基づいて作成した概念辞書の概念ベクトルを再利用して新語の概念ベクトル情報を取得することができるという効果を有する。
【００５０】
また本発明は、逆演算用データ記憶手段が、特異値行列の左から所定数の列でかつ上から前記所定数の行を取り出した行列と、右特異行列の左から前記所定数の列を取り出した行列とを逆演算用データとすることとしたため、膨大な計算機資源を必要とせずに精度の高い概念辞書を構築できるという効果を有する。
【００５１】
また本発明は、概念辞書が、文書の段落ごとの語の共起頻度に基づいて作成された概念ベクトル情報を格納することとしたため、文書のコンテキストに応じた適切な概念ベクトル情報を生成し、精度の高い概念検索を可能とするという効果を有する。
【図面の簡単な説明】
【図１】本発明の実施の形態の構成図である。
【図２】本発明の実施の形態の文書登録処理を示すフローチャートである。
【図３】本発明の実施の形態の検索処理のフローチャートである。
【図４】本発明の実施の形態のベクトル生成処理のフローチャートである。
【図５】本発明の実施の形態の学習手段の構成図である。
【図６】本発明の実施の形態の共起頻度表である。
【図７】本発明の実施の形態の学習処理のフローチャートである。
【図８】本発明の実施の形態の単語検出手段の構成図である。
【図９】本発明の実施の形態の単語検出処理のフローチャートである。
【図１０】本発明の実施の形態の過分割新語抽出処理のフローチャートである。
【図１１】本発明の実施の形態１の辞書データ更新処理のフローチャートである。
【図１２】本発明の実施の形態１の文書ベクトル索引を示す図である。
【図１３】従来例による概念検索方式の構成図である。
【図１４】従来例による概念辞書拡張装置の構成図である。
【符号の説明】
１０１：登録手段　１０２：登録文書　１０３：文書ベクトル索引
１０４：概念辞書　１０５：ベクトル生成手段　１０６：検索手段
１０７：検索入力テキスト　１０８：類似度計算手段
１０９：検索結果出力手段　１１０：検索結果　１１１：学習手段
１１２：学習用文書　１１３：文書蓄積手段　１１４：蓄積文書
１１５：単語検出手段　１１６：概念辞書更新手段
５０１：共起頻度計算手段　５０２：特異値分解手段
５０３：概念辞書出力手段　５０４：逆演算用データ出力手段
６０１：共起頻度表　６０２：左特異行列　６０３：特異値行列
６０４：右特異行列　６０５：概念辞書
８０１：既知語ベクトル計算手段　８０２：既知語ベクトル変化検出手段
８０３：過分割新語抽出手段　８０４：頻度推移計算手段
８０５：新出単語定着判定手段
１３０１：登録手段　１３０２：登録文書　１３０３：文書ベクトル索引
１３０４：ベクトル生成手段　１３０５：概念辞書　１３０６：検索手段
１３０７：検索入力テキスト　１３０８：類似度計算手段
１３０９：検索結果出力手段　１３１０：検索結果　１３１１：学習手段
１３１２：学習用文書
１４０１：新語ベクトル計算手段　１４０２：新語リスト　１４０３：検索ログ
１４０４：学習手段　１４０５：関連語データベース　１４０６：概念辞書
１４０７：新語辞書

Claims

語の概念ベクトル情報を格納した概念辞書と、
前記概念辞書を用いて表記の異なる文書館の類似度を計算する類似度計算手段とを備え、
前記類似度に基づき検索を行う概念検索装置において、
前記概念辞書に概念ベクトル情報が格納されていない新語を前記検索対象文書から検出する単語検出手段と、
前記新語の概念ベクトル情報を計算し前記概念辞書に出力する概念辞書更新手段とを有することを特徴とする概念検索装置。
前記概念検索装置は、検索対象文書を履歴文書として蓄積する文書蓄積手段を備え、前記単語検出手段は、前記履歴文書から前記新語を検出する構成とされたことを特徴とする請求項１に記載した概念検索装置。
前記概念検索装置は、新語であるにもかかわらず形態素解析誤りにより過剰に分割されて既知語と判定された語を検出する過分割新語検出手段を備え、
前記単語検出手段は、前記過分割新語検出手段により検出された語を新語として検出することを特徴とする請求項１乃至３のいずれか一に記載された概念検索装置。
前記単語検出手段は、前記履歴文書における出現頻度が所定値以上の新語について前記履歴文書の蓄積時期ごとの出現頻度を出力する頻度推移計算手段と、
前記蓄積時期ごとの出現頻度のばらつきから前記新語が定着して使用されている語であることを判定する新出単語定着判定手段とを備えたことを特徴とする請求項３に記載された概念検索装置。
前記概念辞書は、語の共起頻度からなる共起頻度行列を特異値分解して得られる左特異行列と特異値行列と右特異行列のうち前記左特異行列を含み、
前記概念検索装置は、前記特異値行列と前記右特異行列とを逆演算用データとして記憶する逆演算用データ記憶手段を備え、
前記概念辞書更新手段は、前記逆演算用データを用いて前記新語の概念ベクトル情報を計算する構成とされたことを特徴とする請求項１に記載された概念検索装置。
前記概念辞書は、前記左特異行列の左から所定数の列を取り出した行列を含み、
前記逆演算用データ記憶手段は、前記特異値行列の左から前記所定数の列でかつ上から前記所定数の行を取り出した行列と、前記右特異行列の左から前記所定数の列を取り出した行列とを前記逆演算用データとする構成とされたことを特徴とする請求項６に記載した概念検索装置。
前記概念辞書は、文書の段落ごとの語の共起頻度に基づいて作成された概念ベクトル情報を格納した構成とされたことを特徴とする請求項１乃至６のいずれか一に記載された概念検索装置。