JP2004070636A - 概念検索装置 - Google Patents
概念検索装置 Download PDFInfo
- Publication number
- JP2004070636A JP2004070636A JP2002228464A JP2002228464A JP2004070636A JP 2004070636 A JP2004070636 A JP 2004070636A JP 2002228464 A JP2002228464 A JP 2002228464A JP 2002228464 A JP2002228464 A JP 2002228464A JP 2004070636 A JP2004070636 A JP 2004070636A
- Authority
- JP
- Japan
- Prior art keywords
- concept
- word
- document
- new word
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Abandoned
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】概念検索に用いる概念辞書を自動更新する。
【解決手段】語の概念ベクトル情報を格納した概念辞書と、概念辞書が記憶する概念ベクトル情報の類似度を計算する類似度計算手段とを備え、検索対象文書から検索語を検索するために、この検索語と概念ベクトル情報が類似する類似語を求めて、検索語とともに類似語についても検索対象文書を検索する概念検索装置において、概念辞書に概念ベクトル情報が格納されていない新語を検索対象文書から検出する単語検出手段と、前記新語の概念ベクトル情報を計算し前記概念辞書に出力する概念辞書更新手段とを有する概念検索装置を提供する。
【選択図】 図1
【解決手段】語の概念ベクトル情報を格納した概念辞書と、概念辞書が記憶する概念ベクトル情報の類似度を計算する類似度計算手段とを備え、検索対象文書から検索語を検索するために、この検索語と概念ベクトル情報が類似する類似語を求めて、検索語とともに類似語についても検索対象文書を検索する概念検索装置において、概念辞書に概念ベクトル情報が格納されていない新語を検索対象文書から検出する単語検出手段と、前記新語の概念ベクトル情報を計算し前記概念辞書に出力する概念辞書更新手段とを有する概念検索装置を提供する。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
この発明は、入力テキストと類似する内容の文書を検索するための概念検索装置に関するものである。
【0002】
【従来の技術】
文書の電子化が進み、短時間で必要な情報を取得するための検索装置の重要性が増している。このような検索装置のうち、検索文字列とは異なる表現であっても類似する意味内容をもつ文書を検索可能な概念検索方式として、文献1(「単語の連想関係に基づく情報検索システムInfoMAP、高山他、情報学基礎53−1、1999−3」)がある。図13は、文献1に開示された概念検索方式の構成を図示したものである。
【0003】
1301は登録手段であり、登録文書1302に含まれるテキストを解析し、文書ベクトルに変換して文書ベクトル索引1303に登録する。1304はベクトル生成手段であり、概念辞書1305に登録された概念ベクトルをもとに入力テキストをベクトル情報に変換する。1306は検索手段であり、検索入力テキスト1307を解析して検索ベクトルを生成する。1308は類似度計算手段であり、検索ベクトルと文書ベクトル索引1303に登録されている文書ベクトルとの類似度を計算する。1309は検索結果出力手段であり、上記類似度の順に登録文書の情報を検索結果1310として出力する。1311は学習手段であり、学習用文書1312を解析し、単語の出現傾向から各単語の概念ベクトルを計算して概念辞書1305を生成する。
【0004】
しかし、文献1の概念検索方式では、概念辞書1305に登録されていない新語のみからなる検索入力1307bに対しては検索ベクトルを生成することができず、検索結果が得られないという課題があった。そこで上記の新語の検索に関わる課題を解決するための技術として、文献2(特開2002−92017:概念辞書拡張装置)、および文献3(特開平05−324611:用語辞書生成機能付き文書処理装置)に開示されている技術がある。
【0005】
図14は、文献2に開示されている概念辞書拡張装置の構成を図示したものである。新語ベクトル計算手段1401では、新語リスト1402に含まれる各単語について、以下の処理を行なう。まず、関連語データベース1405から、各単語の関連語を取得する。関連語データベース1405は、検索ログ1403に出現する各単語の出現時刻の差を関連度として定義したもので、学習手段1404により生成される。つぎに、得られた関連語のうち、概念辞書1406に登録されている語の概念ベクトルを取得し、これらを上記関連度により重み付けして加算した概念ベクトルを新語の概念ベクトルとして、新語辞書1407に登録する。
【0006】
また文献3に開示されている用語辞書生成機能付き文書処理装置によれば、新規用語学習対象となる文書を構文分解し、新語と判定された単語の出現頻度を取得し、所定頻度以上の新語の辞書更新を支援することができる。
【0007】
【発明が解決しようとする課題】
しかし、文献2および文献3で開示された技術には、以下のような課題がある。まず、文献2に開示された技術では、入力として与える新語リストを人手で作成する必要があるため、辞書の更新に要する手間が大きいという課題がある。また、文献2では検索ログから生成した関連語データベースと既存の概念辞書とに基づいて新語の概念ベクトルを生成するので、検索対象文書中における当該新語の使用法については考慮されておらず、必ずしも適切な概念を学習できるとは限らないという課題がある。
【0008】
上記の文献2および文献3に開示されている技術を組み合わせれば、文献3の新規用語判別手段により所定文書に出現する新出単語を自動判別し、文献2の新語ベクトル計算手段により新語辞書を自動生成することも可能である。しかし、文献3の新規用語判別手段が検出できる単語は辞書に登録されていない単語のみであるため、一連の単語としては未知の単語であるがその単語を過剰に分割した結果、既知の単語に分割されてしまう単語(以下、過分割と呼ぶ)については新出単語として検出できないという課題がある。
【0009】
また、文献3に開示された技術では、新規用語対象物件中に出現した頻度により新規用語を取捨選択するのみであるため、当該新出単語が一時的に使用されている一過性の単語であるか、今後定常的に使用される用語であるかを判断することができないという課題がある。
【0010】
本発明は上記課題を解決するためになされたものであって、新出単語の検出から辞書データの更新までを全自動で行なう新出単語検出手段及び概念辞書更新手段を設けることにより、新出単語リストの作成や辞書登録の手間がなくなり、概念辞書の保守作業を効率化することができる。また文書蓄積手段により蓄積された大量の蓄積文書から新出単語を検出するので、検索対象文書中に含まれる新語を的確に検出できる。さらに、蓄積文書中のテキストをもとに新出単語の概念ベクトルを計算するので、検索対象文書中における当該新出単語の意味を的確に反映することができる。
【0011】
また本発明では、新出単語検出処理において蓄積文書中に出現する既知語に対するベクトル情報を計算する既知語ベクトル計算手段と、概念辞書中に登録されているベクトル情報と上記既知語ベクトルとの差異を検出する既知語ベクトル変化検出手段と、形態素解析誤りにより既知語の連続として過剰に分割された新語を検出する過分割新語検出手段とを有するので、過分割された新語をも検出し、概念辞書に自動登録することが可能である。
【0012】
さらに本発明では、新出単語検出処理において所定期間中の当該新出単語の頻度推移を取得するための頻度推移検出手段、および上記頻度推移により一過性の単語か定着した新出単語かを判定する新出単語定着判定手段を有するので、有効な新出単語を選択して自動登録することが可能となる。
【0013】
【課題を解決するための手段】
本発明は、語の概念ベクトル情報を格納した概念辞書と、前記概念辞書を用いて表記の異なる文書館の類似度を計算する類似度計算手段とを備え、前記類似度に基づき検索を行う概念検索装置において、前記概念辞書に概念ベクトル情報が格納されていない新語を前記検索対象文書から検出する単語検出手段と、前記新語の概念ベクトル情報を計算し前記概念辞書に出力する概念辞書更新手段とを有するものである。
【0014】
また本発明は、前記概念検索装置が、検索対象文書を履歴文書として蓄積する文書蓄積手段を備え、前記単語検出手段が、前記履歴文書から前記新語を検出するものである。
【0015】
また本発明は、前記概念検索装置が、新語であるにもかかわらず形態素解析誤りにより過剰に分割されて既知語と判定された語を検出する過分割新語検出手段を備え、前記単語検出手段が、前記過分割新語検出手段により検出された語を新語として検出するものである。
【0016】
また本発明は、前記単語検出手段が、前記履歴文書における出現頻度が所定値以上の新語について前記履歴文書の蓄積時期ごとの出現頻度を出力する頻度推移計算手段と、前記蓄積時期ごとの出現頻度のばらつきから前記新語が定着して使用されている語であることを判定する新出単語定着判定手段とを備えたものである。
【0017】
また本発明は、前記概念辞書が、語の共起頻度からなる共起頻度行列を特異値分解して得られる左特異行列と特異値行列と右特異行列のうち前記左特異行列を含み、前記概念検索装置が、前記特異値行列と前記右特異行列とを逆演算用データとして記憶する逆演算用データ記憶手段を備え、前記概念辞書更新手段が、前記逆演算用データを用いて前記新語の概念ベクトル情報を計算するものである。
【0018】
また本発明は、前記概念辞書が、前記左特異行列の左から所定数の列を取り出した行列を含み、前記逆演算用データ記憶手段が、前記特異値行列の左から前記所定数の列でかつ上から前記所定数の行を取り出した行列と、前記右特異行列の左から前記所定数の列を取り出した行列とを前記逆演算用データとするものである。
【0019】
また本発明は、前記概念辞書が、文書の段落ごとの語の共起頻度に基づいて作成された概念ベクトル情報を格納したものである。
【0020】
【発明の実施の形態】
実施の形態1.
図1に本発明の実施の形態における構成図を示す。101は登録文書に含まれるテキストを解析し、文書ベクトルに変換して文書ベクトル索引に登録する登録手段であって、102は登録手段101が解析する登録文書であり、103は登録手段101が文書ベクトルを登録する文書ベクトル索引である。104はベクトル情報を格納する概念辞書であって、105は概念辞書104に登録された概念ベクトルに基づいて入力テキストをベクトル情報に変換するベクトル生成手段である。106は検索入力テキストを解析して検索ベクトルを生成する検索手段であって、107は検索手段106が解析する検索入力テキストである。108は検索ベクトルと文書ベクトル索引103に登録されている文書ベクトルとの類似度を計算する類似度計算手段である。109は、上記類似度の順に登録文書102の情報を検索結果として出力する検索結果出力手段であって、110は検索結果出力手段109が出力する検索結果である。111は学習用文書を解析し、単語の出現傾向から各単語の概念ベクトルを計算して概念辞書104を生成する学習手段であって、112は学習手段111が解析する学習用文書である。113は登録文書102のテキスト情報を蓄積文書として一定期間蓄積する文書蓄積手段であって、114は文書蓄積手段113が蓄積する蓄積文書である。115は登録処理時に蓄積文書の内容を走査し、新出単語を検出する単語検出手段である。116は蓄積文書114の走査により検出された新出単語の概念ベクトルを計算し、概念辞書104を更新する概念辞書更新手段である。
【0021】
まず本実施の形態における文書登録処理について説明する。図2は本実施の形態における文書登録処理を示すフローチャートである。まずステップS201において登録手段101は登録文書102を読み込み、ベクトル生成手段105を呼び出してテキスト情報をベクトル情報に変換し、得られたベクトル情報(以下、文書ベクトルという)を文書ベクトル索引103に登録する。図12に文書ベクトル索引の例を示す。図においてE1、E2、…、Ekは複数単語の線形和である基底ベクトルである。また図中の成分d11、d12、…、dij、…は各文書における各単語の出現頻度を表す数値である。
【0022】
ここで、ベクトル生成手段105におけるベクトル情報の生成方法の詳細について説明する。図4はベクトル生成手段105におけるベクトル生成処理のフローチャートである。まずステップS401において、入力テキストを形態素解析して単語に分割する。次にステップS402において、その入力テキストにおける各単語の出現回数をカウントする。続けてステップS403において、各単語の概念ベクトルを概念辞書104より検索する。概念辞書の生成方法については後で説明する。さらにステップS404において、各単語の出現回数に基づいた重み付けをしたうえで概念ベクトルを加算し、ベクトルの長さが1となるよう正規化する。以上がベクトル情報の生成方法の詳細である。
【0023】
次に図2のステップS202において、文書蓄積手段113は蓄積文書114の更新を行なう。登録文書102のテキスト情報を蓄積文書114に追加すると同時に、古いデータを削除することによって、常に一定期間のデータが蓄積されるようにする。蓄積期間については、一度に登録される文書量および登録頻度に応じて事前に設定するものとする。続いてステップS203において、単語検出手段115は蓄積文書114を走査し、蓄積文書114中に含まれる新出単語を検出する。この検出処理の詳細については後述する。さらにステップS204において、概念辞書更新手段116は新出単語に対する概念ベクトルを生成し、概念辞書104への追加登録を行なう。辞書データ更新処理の詳細についても後述する。
【0024】
次に本実施の形態における検索処理について説明する。図3は本実施の形態における検索処理のフローチャートである。まずステップS301において、検索手段106により検索入力テキスト107を読み込み、ベクトル生成手段105を呼び出して検索入力テキストをベクトル情報(以下、検索ベクトルと呼ぶ)に変換する。続いてステップS302において、類似度計算手段108により検索ベクトルと文書ベクトル索引103に登録されている文書ベクトルとの類似度を計算する。ここでは、検索ベクトルと文書ベクトルとがなす角度の余弦値を類似度として定義する。さらにステップS303において、検索結果出力手段により検索ベクトルと類似する順に登録文書の情報を検索結果109として出力する。
【0025】
次に学習手段111の詳細について説明する。図5は学習手段111の構成図である。図において501は共起頻度表を作成する共起頻度計算手段である。共起頻度とは、ある文書単位において、ある単語と他の単語が同時に出現する頻度をいう。本実施の形態ではこの文書単位として、段落を用いることにする。そうすると、共起頻度表は学習用文書中のテキストを段落毎に分割し、各段落毎の単語の共起頻度を計算して作成される。図6の601に共起頻度表の例を示す。共起頻度表601において同一列には、ある段落における単語毎の共起頻度を表記している。また同一行には、ある単語の段落毎の共起頻度を表記している。図5において、502は共起頻度表601に対する特異値分解を行う特異値分解手段である。503は概念ベクトル情報を概念辞書104に出力する概念辞書出力手段である。504は新出単語ベクトル計算に用いる逆演算用データの出力を行う逆演算用データ出力手段である。また図6において、605は概念辞書である。
【0026】
続いて学習手段111における概念辞書104を生成する学習処理について説明する。図7は学習手段111における学習処理のフローチャートである。まずステップS701において学習手段111は、学習用文書112を読み込み、形態素解析を行って学習用文書中のテキストを単語に分割する。続いてステップS702において、図7に示す共起頻度計算手段501により入力テキストを段落ごとに分割し、単語の共起頻度を計算し、共起頻度表601を作成する。なお本実施の形態では、単語間の共起をとる文書単位を段落としたが、入力テキストの性質に応じて文書単位を文ごと、文書ごととしてもよい。次にステップS703において図7の特異値分解手段502により共起頻度表601に対する特異値分解を行なう。
【0027】
ここで、本実施の形態における概念辞書とは、単語の意味がそれぞれ類似する単語の関係を表現した辞書である。一般にこのような概念辞書を生成するには、予め人間の手によって互いに意味の類似し合う単語を分類して相互の関係を特定のデータ形式を用いて記述する方法も考えられる。しかしこの方法では、今まで出現したことのない単語に対する概念をうまく記述することができず、その都度人間の判断に基づいて意味関係を構築していく必要がある。そこで本実施の形態における概念辞書では、同じような概念を有する単語が同じような文章のコンテキストで使用されることに着目して、その単語と共起する単語の頻度に基づいて単語間の類似度を算出する。類似する概念の単語、例えば「首相」と「総理」という単語は、それぞれ同じような別の単語、例えば「国会」、「内閣」、「所信演説」といった語と同時に用いられることが統計的に多いからである。検索処理において単語の概念の類似関係を参照する場合には、各単語間で他の単語との共起頻度が類似するものを抽出すればよい。
【0028】
ところで、ある文書において出現する単語の個数がnであって、その単語のそれぞれと共起する単語がm個ある場合には、その共起頻度表はn行m列の行列となる。より精度の高い共起頻度表を得るために、数多くの文書を通じて共通の共起頻度表を構成していくと、行列の次元は極めて大きくなり、膨大な計算機資源を要求することになる。そこで本実施の形態では、この共起頻度表を特異値分解をすることによってこの次元数を減少させ、その結果を概念辞書として利用する。特異値分解の結果、図6に示す3つ組の行列U602、Σ603、V604が得られる。ここで、U602は左特異行列と呼ばれるものであり、Σ603は特異値行列、V604は右特異行列と呼ばれるものである。なお、特異値分解に関しては、公知の数値解法が多数存在するので説明を割愛する。
【0029】
ステップS704において概念辞書出力手段503は、さらに記憶容量を削減するために、U602の左からk列を切り出した行列データUkを概念辞書605の概念ベクトル情報として採用する。これは、特異値の大きな方からk次元を採用することを意味する。共起頻度表を生成する段階では、文章に出現する単語間のすべての組み合わせでの共起頻度を求めることになるが、実際には単語間には特有の結びつきがあり、共起する頻度が極めて小さいために無視してよい単語の組み合わせも存在するからである。一方、ステップS705において逆演算用データ出力手段504はΣおよびVをディスクに記憶させる。特異値分解の結果得られたΣおよびVを用いると、新出単語から概念ベクトルを逆演算によって計算することができるからである。本実施の形態では逆演算用データ出力手段504は、上記Uと同様に記憶容量削減を目的として、ΣおよびVのうち特異値の大きなほうからk次元に対応する部分であるΣk(606)およびVk(607)を採用して、ディスク上に記憶させる。
【0030】
本実施の形態においては、上記特異値分解の結果は実数値として得られるが、概念辞書に格納するベクトル情報605を1バイトまたは2バイトで表現し得るよう離散値で近似すれば、メモリ容量を節減するとともに、類似度計算などの処理コストを低減できる。以上が学習手段111の詳細な説明である。
【0031】
次に単語検出手段115における新出単語検出処理の詳細について説明する。図8は単語検出手段115の構成図である。図において、801は形態素解析の結果の単語が新語か否かを判定するために用いる概念ベクトル情報を計算する既知語ベクトル計算手段である。802は既知語ベクトル計算手段801と概念辞書104とを照合することにより概念ベクトルが変化した既知語を検出する既知語ベクトル変化検出手段である。803は既知語ベクトル変化検出手段802が検出した既知語の前後の単語を連結した新語候補を抽出する過分割新語抽出手段である。804は蓄積文書114を走査し、当該新出単語候補の合計出現回数が所定回数以上である新出単語候補の頻度推移を取得する頻度推移計算手段である。805は各登録時期に対する出現頻度のばらつきに基づいて新出単語の定着判定を行う新出単語定着判定手段である。
【0032】
次に単語検出手段115における単語検出処理の詳細について説明する。図9は当該単語検出処理のフローチャートである。まずステップS901において、単語検出手段115により蓄積文書114を読み込んで形態素解析を行ない単語に分割する。形態素解析結果として得られる一又は二以上の単語のうちi番目の単語KWiについて、ステップS902からステップS908までの処理を繰り返す。ステップS902は繰り返し処理の終了条件判定である。全単語についてステップS903以下の処理を終えていればステップS909に進む。そうでなければ、ステップS903からステップS908までの処理を繰り返す。
【0033】
ステップS903において単語検出手段115は、処理中の単語KWiが新語かどうかを判定する。判定は形態素解析結果の品詞コードに基づいて行なう。KWiが新語であると判定された場合はステップS908に進み、KWiを新語リストに追加する。KWiが新語でなければステップS904に進む。
【0034】
ステップS904において既知語ベクトル計算手段801は、KWiの概念ベクトル情報を計算する。概念ベクトル情報の計算には図6で説明した逆演算用のデータΣk(606)およびVk(607)を用いる。まず蓄積文書114を走査し、KWiと共起する単語の頻度を取得する。KWiに対する共起頻度ベクトルをFxとしたとき、KWiの概念ベクトル情報Ciは、Fx・Σk−1・VkTにより得られる。ここで共起頻度ベクトルとは、図6に示した共起頻度表601における各単語に対する行データを意味する。
【0035】
ステップS905において既知語ベクトル変化検出手段802は、概念辞書104に登録されている概念ベクトル情報と、ステップS904において既知語ベクトル計算手段801が計算した概念ベクトル情報との類似度を計算し、類似度が所定値以下である場合には概念ベクトルが変化した既知語として、次のステップS906において過分割新語抽出処理を行なう。検索処理と同様に、2つのベクトルがなす角度の余弦値を類似度として定義する。上記類似度が大きく、概念ベクトルの変化が検出されなかった場合はステップS902に戻り、次の単語を処理する。
【0036】
ステップS906において過分割新語検出手段803は、蓄積文書114を走査して、ステップS905において既知語ベクトル変化検出手段802が検出した既知語の前後の単語を連結した新語候補を抽出する。新語候補の抽出に際しては、処理中の単語KWiとの字種の共通性、および前後の付属語の連接情報を用いた抽出処理を行なう。
【0037】
ここで過分割新語抽出処理を詳細に説明する。図10は過分割新語抽出処理のフローチャートである。ステップS1001において、ステップS905において既知語ベクトル変化検出手段802が検出した新語候補の前後に存在する同一字種単語を抽出する。たとえば新語候補がカタカナ語の場合、前後のカタカナ語とあわせて一つの単語となる可能性が高いので、これらをまとめて新たな新語候補として抽出する。
【0038】
次にステップS1002において、新語候補の前後にある付属語を検出し、その前後を自立語の切れ目と判定して新語候補として抽出する。続いてステップS1003において、抽出された新語候補の前後にある接辞を除去する処理を行なう。最後にステップS1004において、ここまでに抽出された複数単語を結合してなる新たな新語候補に対して、構成単語間の共起頻度判定を行なう。各単語の個別の出現頻度に対して、複数単語が連続して出現する共起頻度の割合が十分に大きければ、これらの複数単語は過分割された一つの単語である可能性が高いと判定し、この単語列を1つの新語候補と認定する。以上が過分割新語抽出処理の詳細である。
【0039】
ステップS907において、過分割新語検出手段803により検出された過分割新語があるかどうかを判定する。新語があればステップS908に進み、新語リストに当該単語を追加する。ここで、過分割新語検出結果は複数あってもよい。過分割新語検出結果が0語であればステップS902に戻り、次の単語を処理する。
【0040】
すべての単語を処理し終わると、ステップS902からステップS909に進む。ステップS909において頻度推移計算手段804は、蓄積文書114を走査し、当該新出単語候補の合計出現回数が所定回数以上である新出単語候補の頻度推移を取得し、次に蓄積文書114を登録時期ごとに分割して、それぞれの時期ごとの各データにおける新出単語候補の出現頻度を計算する。次にステップS910において新出単語定着判定手段805は、新出単語の定着判定を行なう。ここでは、頻度推移計算手段804が取得した各登録時期に対する出現頻度のばらつきが一定数以下である場合には、当該新出単語候補は定着して使用されている語であると判定し、新出単語検出結果として図8の概念辞書更新手段116に転送する。
【0041】
次に概念辞書更新手段116について詳細に説明する。図11は概念辞書更新手段116における辞書データ更新処理のフローチャートである。まずステップS1101において、蓄積文書114を走査し、単語検出手段115が検出した新出単語と共起する単語の共起頻度表を作成する。続いてステップS1102において、新出単語に対する概念ベクトル情報Cnを、図6で説明した逆演算用のデータΣk(606)およびVk(607)を用いて計算する。新出単語の共起頻度ベクトルをFnとすれば、概念ベクトル情報Cnは、Fn・Σk−1・VkTにより得られる。最後にステップS1103において、上記で得られた新語の概念ベクトル情報を概念辞書104に追加登録する。
【0042】
以上説明したように、本実施の形態によれば、新出単語を検出する対象テキストとして一定期間の蓄積文書を蓄積するための文書蓄積手段と、新出単語の検出から辞書データの更新までを全自動で行なう単語検出手段及び概念辞書更新手段を設けることにより、新出単語リストの作成や辞書登録の手間がなくなり、概念辞書の保守作業を効率化することができる。また、蓄積文書から新出単語を検出するので、検索対象文書中に含まれる新語を的確に検出できる。さらに、蓄積文書中のテキストから新出単語の概念ベクトルを計算するので、検索対象文書中における当該新出単語の意味を的確に反映することができる。
【0043】
また、単語検出処理において蓄積文書中に出現する既知語に対するベクトル情報を計算する既知語ベクトル計算手段と、概念辞書中に登録されているベクトル情報と上記既知語ベクトルとの差異を検出する既知語ベクトル変化検出手段と、形態素解析誤りにより既知語の連続として過剰に分割された新語を検出する過分割新語検出手段とを有するので、過分割された新語をも検出し、概念辞書に自動登録することが可能である。
【0044】
さらに、単語検出処理において所定期間中の当該新出単語の頻度推移を取得するための頻度推移検出手段、および上記頻度推移により一過性の単語か定着した新出単語かを判定する新出単語定着判定手段を有するので、有効な新出単語を選択して自動登録することが可能となる。
【0045】
【発明の効果】
本発明は、前記概念辞書に概念ベクトル情報が格納されていない新語を前記検索対象文書から検出する単語検出手段と、前記新語の概念ベクトル情報を計算し前記概念辞書に出力する概念辞書更新手段とを備えたので、検索対象文書から検出した概念辞書にない新語を概念辞書に自動的に登録できるという効果を有する。
【0046】
また本発明は、検索対象文書を履歴文書として蓄積する文書蓄積手段を備え、単語検出手段が、履歴文書から新語を検出することとしたため、より確度の高い概念ベクトルと概念辞書を得ることができるという効果を有する。
【0047】
また本発明は、新語であるにもかかわらず形態素解析誤りにより過剰に分割されて既知語と判定された語を検出する過分割新語検出手段を備えたため、語の概念を誤って識別することを減少し、概念検索の精度を高めるを可能とする概念辞書を得ることができるという効果を有する。
【0048】
また本発明は、履歴文書における出現頻度が所定値以上の未知語について、履歴文書の蓄積時期ごとの出現頻度を出力する頻度推移計算手段と、蓄積時期ごとの出現頻度のばらつきから新語が定着して使用されている語であることを判定する新出単語定着判定手段とを備えたため、概念や用法が安定している語を優先的に概念辞書に登録する一方で、一過性の単語の登録を排除することができるという効果を有する。
【0049】
また本発明は、語の共起頻度からなる共起頻度行列を特異値分解して得られる左特異行列と特異値行列と右特異行列のうち特異値行列と右特異行列とを逆演算用データとして記憶する逆演算用データ記憶手段を備え、前記概念辞書更新手段が、この逆演算用データを用いて新語の概念ベクトル情報を計算することとしたため、大量の文書に基づいて作成した概念辞書の概念ベクトルを再利用して新語の概念ベクトル情報を取得することができるという効果を有する。
【0050】
また本発明は、逆演算用データ記憶手段が、特異値行列の左から所定数の列でかつ上から前記所定数の行を取り出した行列と、右特異行列の左から前記所定数の列を取り出した行列とを逆演算用データとすることとしたため、膨大な計算機資源を必要とせずに精度の高い概念辞書を構築できるという効果を有する。
【0051】
また本発明は、概念辞書が、文書の段落ごとの語の共起頻度に基づいて作成された概念ベクトル情報を格納することとしたため、文書のコンテキストに応じた適切な概念ベクトル情報を生成し、精度の高い概念検索を可能とするという効果を有する。
【図面の簡単な説明】
【図1】本発明の実施の形態の構成図である。
【図2】本発明の実施の形態の文書登録処理を示すフローチャートである。
【図3】本発明の実施の形態の検索処理のフローチャートである。
【図4】本発明の実施の形態のベクトル生成処理のフローチャートである。
【図5】本発明の実施の形態の学習手段の構成図である。
【図6】本発明の実施の形態の共起頻度表である。
【図7】本発明の実施の形態の学習処理のフローチャートである。
【図8】本発明の実施の形態の単語検出手段の構成図である。
【図9】本発明の実施の形態の単語検出処理のフローチャートである。
【図10】本発明の実施の形態の過分割新語抽出処理のフローチャートである。
【図11】本発明の実施の形態1の辞書データ更新処理のフローチャートである。
【図12】本発明の実施の形態1の文書ベクトル索引を示す図である。
【図13】従来例による概念検索方式の構成図である。
【図14】従来例による概念辞書拡張装置の構成図である。
【符号の説明】
101:登録手段 102:登録文書 103:文書ベクトル索引
104:概念辞書 105:ベクトル生成手段 106:検索手段
107:検索入力テキスト 108:類似度計算手段
109:検索結果出力手段 110:検索結果 111:学習手段
112:学習用文書 113:文書蓄積手段 114:蓄積文書
115:単語検出手段 116:概念辞書更新手段
501:共起頻度計算手段 502:特異値分解手段
503:概念辞書出力手段 504:逆演算用データ出力手段
601:共起頻度表 602:左特異行列 603:特異値行列
604:右特異行列 605:概念辞書
801:既知語ベクトル計算手段 802:既知語ベクトル変化検出手段
803:過分割新語抽出手段 804:頻度推移計算手段
805:新出単語定着判定手段
1301:登録手段 1302:登録文書 1303:文書ベクトル索引
1304:ベクトル生成手段 1305:概念辞書 1306:検索手段
1307:検索入力テキスト 1308:類似度計算手段
1309:検索結果出力手段 1310:検索結果 1311:学習手段
1312:学習用文書
1401:新語ベクトル計算手段 1402:新語リスト 1403:検索ログ
1404:学習手段 1405:関連語データベース 1406:概念辞書
1407:新語辞書
【発明の属する技術分野】
この発明は、入力テキストと類似する内容の文書を検索するための概念検索装置に関するものである。
【0002】
【従来の技術】
文書の電子化が進み、短時間で必要な情報を取得するための検索装置の重要性が増している。このような検索装置のうち、検索文字列とは異なる表現であっても類似する意味内容をもつ文書を検索可能な概念検索方式として、文献1(「単語の連想関係に基づく情報検索システムInfoMAP、高山他、情報学基礎53−1、1999−3」)がある。図13は、文献1に開示された概念検索方式の構成を図示したものである。
【0003】
1301は登録手段であり、登録文書1302に含まれるテキストを解析し、文書ベクトルに変換して文書ベクトル索引1303に登録する。1304はベクトル生成手段であり、概念辞書1305に登録された概念ベクトルをもとに入力テキストをベクトル情報に変換する。1306は検索手段であり、検索入力テキスト1307を解析して検索ベクトルを生成する。1308は類似度計算手段であり、検索ベクトルと文書ベクトル索引1303に登録されている文書ベクトルとの類似度を計算する。1309は検索結果出力手段であり、上記類似度の順に登録文書の情報を検索結果1310として出力する。1311は学習手段であり、学習用文書1312を解析し、単語の出現傾向から各単語の概念ベクトルを計算して概念辞書1305を生成する。
【0004】
しかし、文献1の概念検索方式では、概念辞書1305に登録されていない新語のみからなる検索入力1307bに対しては検索ベクトルを生成することができず、検索結果が得られないという課題があった。そこで上記の新語の検索に関わる課題を解決するための技術として、文献2(特開2002−92017:概念辞書拡張装置)、および文献3(特開平05−324611:用語辞書生成機能付き文書処理装置)に開示されている技術がある。
【0005】
図14は、文献2に開示されている概念辞書拡張装置の構成を図示したものである。新語ベクトル計算手段1401では、新語リスト1402に含まれる各単語について、以下の処理を行なう。まず、関連語データベース1405から、各単語の関連語を取得する。関連語データベース1405は、検索ログ1403に出現する各単語の出現時刻の差を関連度として定義したもので、学習手段1404により生成される。つぎに、得られた関連語のうち、概念辞書1406に登録されている語の概念ベクトルを取得し、これらを上記関連度により重み付けして加算した概念ベクトルを新語の概念ベクトルとして、新語辞書1407に登録する。
【0006】
また文献3に開示されている用語辞書生成機能付き文書処理装置によれば、新規用語学習対象となる文書を構文分解し、新語と判定された単語の出現頻度を取得し、所定頻度以上の新語の辞書更新を支援することができる。
【0007】
【発明が解決しようとする課題】
しかし、文献2および文献3で開示された技術には、以下のような課題がある。まず、文献2に開示された技術では、入力として与える新語リストを人手で作成する必要があるため、辞書の更新に要する手間が大きいという課題がある。また、文献2では検索ログから生成した関連語データベースと既存の概念辞書とに基づいて新語の概念ベクトルを生成するので、検索対象文書中における当該新語の使用法については考慮されておらず、必ずしも適切な概念を学習できるとは限らないという課題がある。
【0008】
上記の文献2および文献3に開示されている技術を組み合わせれば、文献3の新規用語判別手段により所定文書に出現する新出単語を自動判別し、文献2の新語ベクトル計算手段により新語辞書を自動生成することも可能である。しかし、文献3の新規用語判別手段が検出できる単語は辞書に登録されていない単語のみであるため、一連の単語としては未知の単語であるがその単語を過剰に分割した結果、既知の単語に分割されてしまう単語(以下、過分割と呼ぶ)については新出単語として検出できないという課題がある。
【0009】
また、文献3に開示された技術では、新規用語対象物件中に出現した頻度により新規用語を取捨選択するのみであるため、当該新出単語が一時的に使用されている一過性の単語であるか、今後定常的に使用される用語であるかを判断することができないという課題がある。
【0010】
本発明は上記課題を解決するためになされたものであって、新出単語の検出から辞書データの更新までを全自動で行なう新出単語検出手段及び概念辞書更新手段を設けることにより、新出単語リストの作成や辞書登録の手間がなくなり、概念辞書の保守作業を効率化することができる。また文書蓄積手段により蓄積された大量の蓄積文書から新出単語を検出するので、検索対象文書中に含まれる新語を的確に検出できる。さらに、蓄積文書中のテキストをもとに新出単語の概念ベクトルを計算するので、検索対象文書中における当該新出単語の意味を的確に反映することができる。
【0011】
また本発明では、新出単語検出処理において蓄積文書中に出現する既知語に対するベクトル情報を計算する既知語ベクトル計算手段と、概念辞書中に登録されているベクトル情報と上記既知語ベクトルとの差異を検出する既知語ベクトル変化検出手段と、形態素解析誤りにより既知語の連続として過剰に分割された新語を検出する過分割新語検出手段とを有するので、過分割された新語をも検出し、概念辞書に自動登録することが可能である。
【0012】
さらに本発明では、新出単語検出処理において所定期間中の当該新出単語の頻度推移を取得するための頻度推移検出手段、および上記頻度推移により一過性の単語か定着した新出単語かを判定する新出単語定着判定手段を有するので、有効な新出単語を選択して自動登録することが可能となる。
【0013】
【課題を解決するための手段】
本発明は、語の概念ベクトル情報を格納した概念辞書と、前記概念辞書を用いて表記の異なる文書館の類似度を計算する類似度計算手段とを備え、前記類似度に基づき検索を行う概念検索装置において、前記概念辞書に概念ベクトル情報が格納されていない新語を前記検索対象文書から検出する単語検出手段と、前記新語の概念ベクトル情報を計算し前記概念辞書に出力する概念辞書更新手段とを有するものである。
【0014】
また本発明は、前記概念検索装置が、検索対象文書を履歴文書として蓄積する文書蓄積手段を備え、前記単語検出手段が、前記履歴文書から前記新語を検出するものである。
【0015】
また本発明は、前記概念検索装置が、新語であるにもかかわらず形態素解析誤りにより過剰に分割されて既知語と判定された語を検出する過分割新語検出手段を備え、前記単語検出手段が、前記過分割新語検出手段により検出された語を新語として検出するものである。
【0016】
また本発明は、前記単語検出手段が、前記履歴文書における出現頻度が所定値以上の新語について前記履歴文書の蓄積時期ごとの出現頻度を出力する頻度推移計算手段と、前記蓄積時期ごとの出現頻度のばらつきから前記新語が定着して使用されている語であることを判定する新出単語定着判定手段とを備えたものである。
【0017】
また本発明は、前記概念辞書が、語の共起頻度からなる共起頻度行列を特異値分解して得られる左特異行列と特異値行列と右特異行列のうち前記左特異行列を含み、前記概念検索装置が、前記特異値行列と前記右特異行列とを逆演算用データとして記憶する逆演算用データ記憶手段を備え、前記概念辞書更新手段が、前記逆演算用データを用いて前記新語の概念ベクトル情報を計算するものである。
【0018】
また本発明は、前記概念辞書が、前記左特異行列の左から所定数の列を取り出した行列を含み、前記逆演算用データ記憶手段が、前記特異値行列の左から前記所定数の列でかつ上から前記所定数の行を取り出した行列と、前記右特異行列の左から前記所定数の列を取り出した行列とを前記逆演算用データとするものである。
【0019】
また本発明は、前記概念辞書が、文書の段落ごとの語の共起頻度に基づいて作成された概念ベクトル情報を格納したものである。
【0020】
【発明の実施の形態】
実施の形態1.
図1に本発明の実施の形態における構成図を示す。101は登録文書に含まれるテキストを解析し、文書ベクトルに変換して文書ベクトル索引に登録する登録手段であって、102は登録手段101が解析する登録文書であり、103は登録手段101が文書ベクトルを登録する文書ベクトル索引である。104はベクトル情報を格納する概念辞書であって、105は概念辞書104に登録された概念ベクトルに基づいて入力テキストをベクトル情報に変換するベクトル生成手段である。106は検索入力テキストを解析して検索ベクトルを生成する検索手段であって、107は検索手段106が解析する検索入力テキストである。108は検索ベクトルと文書ベクトル索引103に登録されている文書ベクトルとの類似度を計算する類似度計算手段である。109は、上記類似度の順に登録文書102の情報を検索結果として出力する検索結果出力手段であって、110は検索結果出力手段109が出力する検索結果である。111は学習用文書を解析し、単語の出現傾向から各単語の概念ベクトルを計算して概念辞書104を生成する学習手段であって、112は学習手段111が解析する学習用文書である。113は登録文書102のテキスト情報を蓄積文書として一定期間蓄積する文書蓄積手段であって、114は文書蓄積手段113が蓄積する蓄積文書である。115は登録処理時に蓄積文書の内容を走査し、新出単語を検出する単語検出手段である。116は蓄積文書114の走査により検出された新出単語の概念ベクトルを計算し、概念辞書104を更新する概念辞書更新手段である。
【0021】
まず本実施の形態における文書登録処理について説明する。図2は本実施の形態における文書登録処理を示すフローチャートである。まずステップS201において登録手段101は登録文書102を読み込み、ベクトル生成手段105を呼び出してテキスト情報をベクトル情報に変換し、得られたベクトル情報(以下、文書ベクトルという)を文書ベクトル索引103に登録する。図12に文書ベクトル索引の例を示す。図においてE1、E2、…、Ekは複数単語の線形和である基底ベクトルである。また図中の成分d11、d12、…、dij、…は各文書における各単語の出現頻度を表す数値である。
【0022】
ここで、ベクトル生成手段105におけるベクトル情報の生成方法の詳細について説明する。図4はベクトル生成手段105におけるベクトル生成処理のフローチャートである。まずステップS401において、入力テキストを形態素解析して単語に分割する。次にステップS402において、その入力テキストにおける各単語の出現回数をカウントする。続けてステップS403において、各単語の概念ベクトルを概念辞書104より検索する。概念辞書の生成方法については後で説明する。さらにステップS404において、各単語の出現回数に基づいた重み付けをしたうえで概念ベクトルを加算し、ベクトルの長さが1となるよう正規化する。以上がベクトル情報の生成方法の詳細である。
【0023】
次に図2のステップS202において、文書蓄積手段113は蓄積文書114の更新を行なう。登録文書102のテキスト情報を蓄積文書114に追加すると同時に、古いデータを削除することによって、常に一定期間のデータが蓄積されるようにする。蓄積期間については、一度に登録される文書量および登録頻度に応じて事前に設定するものとする。続いてステップS203において、単語検出手段115は蓄積文書114を走査し、蓄積文書114中に含まれる新出単語を検出する。この検出処理の詳細については後述する。さらにステップS204において、概念辞書更新手段116は新出単語に対する概念ベクトルを生成し、概念辞書104への追加登録を行なう。辞書データ更新処理の詳細についても後述する。
【0024】
次に本実施の形態における検索処理について説明する。図3は本実施の形態における検索処理のフローチャートである。まずステップS301において、検索手段106により検索入力テキスト107を読み込み、ベクトル生成手段105を呼び出して検索入力テキストをベクトル情報(以下、検索ベクトルと呼ぶ)に変換する。続いてステップS302において、類似度計算手段108により検索ベクトルと文書ベクトル索引103に登録されている文書ベクトルとの類似度を計算する。ここでは、検索ベクトルと文書ベクトルとがなす角度の余弦値を類似度として定義する。さらにステップS303において、検索結果出力手段により検索ベクトルと類似する順に登録文書の情報を検索結果109として出力する。
【0025】
次に学習手段111の詳細について説明する。図5は学習手段111の構成図である。図において501は共起頻度表を作成する共起頻度計算手段である。共起頻度とは、ある文書単位において、ある単語と他の単語が同時に出現する頻度をいう。本実施の形態ではこの文書単位として、段落を用いることにする。そうすると、共起頻度表は学習用文書中のテキストを段落毎に分割し、各段落毎の単語の共起頻度を計算して作成される。図6の601に共起頻度表の例を示す。共起頻度表601において同一列には、ある段落における単語毎の共起頻度を表記している。また同一行には、ある単語の段落毎の共起頻度を表記している。図5において、502は共起頻度表601に対する特異値分解を行う特異値分解手段である。503は概念ベクトル情報を概念辞書104に出力する概念辞書出力手段である。504は新出単語ベクトル計算に用いる逆演算用データの出力を行う逆演算用データ出力手段である。また図6において、605は概念辞書である。
【0026】
続いて学習手段111における概念辞書104を生成する学習処理について説明する。図7は学習手段111における学習処理のフローチャートである。まずステップS701において学習手段111は、学習用文書112を読み込み、形態素解析を行って学習用文書中のテキストを単語に分割する。続いてステップS702において、図7に示す共起頻度計算手段501により入力テキストを段落ごとに分割し、単語の共起頻度を計算し、共起頻度表601を作成する。なお本実施の形態では、単語間の共起をとる文書単位を段落としたが、入力テキストの性質に応じて文書単位を文ごと、文書ごととしてもよい。次にステップS703において図7の特異値分解手段502により共起頻度表601に対する特異値分解を行なう。
【0027】
ここで、本実施の形態における概念辞書とは、単語の意味がそれぞれ類似する単語の関係を表現した辞書である。一般にこのような概念辞書を生成するには、予め人間の手によって互いに意味の類似し合う単語を分類して相互の関係を特定のデータ形式を用いて記述する方法も考えられる。しかしこの方法では、今まで出現したことのない単語に対する概念をうまく記述することができず、その都度人間の判断に基づいて意味関係を構築していく必要がある。そこで本実施の形態における概念辞書では、同じような概念を有する単語が同じような文章のコンテキストで使用されることに着目して、その単語と共起する単語の頻度に基づいて単語間の類似度を算出する。類似する概念の単語、例えば「首相」と「総理」という単語は、それぞれ同じような別の単語、例えば「国会」、「内閣」、「所信演説」といった語と同時に用いられることが統計的に多いからである。検索処理において単語の概念の類似関係を参照する場合には、各単語間で他の単語との共起頻度が類似するものを抽出すればよい。
【0028】
ところで、ある文書において出現する単語の個数がnであって、その単語のそれぞれと共起する単語がm個ある場合には、その共起頻度表はn行m列の行列となる。より精度の高い共起頻度表を得るために、数多くの文書を通じて共通の共起頻度表を構成していくと、行列の次元は極めて大きくなり、膨大な計算機資源を要求することになる。そこで本実施の形態では、この共起頻度表を特異値分解をすることによってこの次元数を減少させ、その結果を概念辞書として利用する。特異値分解の結果、図6に示す3つ組の行列U602、Σ603、V604が得られる。ここで、U602は左特異行列と呼ばれるものであり、Σ603は特異値行列、V604は右特異行列と呼ばれるものである。なお、特異値分解に関しては、公知の数値解法が多数存在するので説明を割愛する。
【0029】
ステップS704において概念辞書出力手段503は、さらに記憶容量を削減するために、U602の左からk列を切り出した行列データUkを概念辞書605の概念ベクトル情報として採用する。これは、特異値の大きな方からk次元を採用することを意味する。共起頻度表を生成する段階では、文章に出現する単語間のすべての組み合わせでの共起頻度を求めることになるが、実際には単語間には特有の結びつきがあり、共起する頻度が極めて小さいために無視してよい単語の組み合わせも存在するからである。一方、ステップS705において逆演算用データ出力手段504はΣおよびVをディスクに記憶させる。特異値分解の結果得られたΣおよびVを用いると、新出単語から概念ベクトルを逆演算によって計算することができるからである。本実施の形態では逆演算用データ出力手段504は、上記Uと同様に記憶容量削減を目的として、ΣおよびVのうち特異値の大きなほうからk次元に対応する部分であるΣk(606)およびVk(607)を採用して、ディスク上に記憶させる。
【0030】
本実施の形態においては、上記特異値分解の結果は実数値として得られるが、概念辞書に格納するベクトル情報605を1バイトまたは2バイトで表現し得るよう離散値で近似すれば、メモリ容量を節減するとともに、類似度計算などの処理コストを低減できる。以上が学習手段111の詳細な説明である。
【0031】
次に単語検出手段115における新出単語検出処理の詳細について説明する。図8は単語検出手段115の構成図である。図において、801は形態素解析の結果の単語が新語か否かを判定するために用いる概念ベクトル情報を計算する既知語ベクトル計算手段である。802は既知語ベクトル計算手段801と概念辞書104とを照合することにより概念ベクトルが変化した既知語を検出する既知語ベクトル変化検出手段である。803は既知語ベクトル変化検出手段802が検出した既知語の前後の単語を連結した新語候補を抽出する過分割新語抽出手段である。804は蓄積文書114を走査し、当該新出単語候補の合計出現回数が所定回数以上である新出単語候補の頻度推移を取得する頻度推移計算手段である。805は各登録時期に対する出現頻度のばらつきに基づいて新出単語の定着判定を行う新出単語定着判定手段である。
【0032】
次に単語検出手段115における単語検出処理の詳細について説明する。図9は当該単語検出処理のフローチャートである。まずステップS901において、単語検出手段115により蓄積文書114を読み込んで形態素解析を行ない単語に分割する。形態素解析結果として得られる一又は二以上の単語のうちi番目の単語KWiについて、ステップS902からステップS908までの処理を繰り返す。ステップS902は繰り返し処理の終了条件判定である。全単語についてステップS903以下の処理を終えていればステップS909に進む。そうでなければ、ステップS903からステップS908までの処理を繰り返す。
【0033】
ステップS903において単語検出手段115は、処理中の単語KWiが新語かどうかを判定する。判定は形態素解析結果の品詞コードに基づいて行なう。KWiが新語であると判定された場合はステップS908に進み、KWiを新語リストに追加する。KWiが新語でなければステップS904に進む。
【0034】
ステップS904において既知語ベクトル計算手段801は、KWiの概念ベクトル情報を計算する。概念ベクトル情報の計算には図6で説明した逆演算用のデータΣk(606)およびVk(607)を用いる。まず蓄積文書114を走査し、KWiと共起する単語の頻度を取得する。KWiに対する共起頻度ベクトルをFxとしたとき、KWiの概念ベクトル情報Ciは、Fx・Σk−1・VkTにより得られる。ここで共起頻度ベクトルとは、図6に示した共起頻度表601における各単語に対する行データを意味する。
【0035】
ステップS905において既知語ベクトル変化検出手段802は、概念辞書104に登録されている概念ベクトル情報と、ステップS904において既知語ベクトル計算手段801が計算した概念ベクトル情報との類似度を計算し、類似度が所定値以下である場合には概念ベクトルが変化した既知語として、次のステップS906において過分割新語抽出処理を行なう。検索処理と同様に、2つのベクトルがなす角度の余弦値を類似度として定義する。上記類似度が大きく、概念ベクトルの変化が検出されなかった場合はステップS902に戻り、次の単語を処理する。
【0036】
ステップS906において過分割新語検出手段803は、蓄積文書114を走査して、ステップS905において既知語ベクトル変化検出手段802が検出した既知語の前後の単語を連結した新語候補を抽出する。新語候補の抽出に際しては、処理中の単語KWiとの字種の共通性、および前後の付属語の連接情報を用いた抽出処理を行なう。
【0037】
ここで過分割新語抽出処理を詳細に説明する。図10は過分割新語抽出処理のフローチャートである。ステップS1001において、ステップS905において既知語ベクトル変化検出手段802が検出した新語候補の前後に存在する同一字種単語を抽出する。たとえば新語候補がカタカナ語の場合、前後のカタカナ語とあわせて一つの単語となる可能性が高いので、これらをまとめて新たな新語候補として抽出する。
【0038】
次にステップS1002において、新語候補の前後にある付属語を検出し、その前後を自立語の切れ目と判定して新語候補として抽出する。続いてステップS1003において、抽出された新語候補の前後にある接辞を除去する処理を行なう。最後にステップS1004において、ここまでに抽出された複数単語を結合してなる新たな新語候補に対して、構成単語間の共起頻度判定を行なう。各単語の個別の出現頻度に対して、複数単語が連続して出現する共起頻度の割合が十分に大きければ、これらの複数単語は過分割された一つの単語である可能性が高いと判定し、この単語列を1つの新語候補と認定する。以上が過分割新語抽出処理の詳細である。
【0039】
ステップS907において、過分割新語検出手段803により検出された過分割新語があるかどうかを判定する。新語があればステップS908に進み、新語リストに当該単語を追加する。ここで、過分割新語検出結果は複数あってもよい。過分割新語検出結果が0語であればステップS902に戻り、次の単語を処理する。
【0040】
すべての単語を処理し終わると、ステップS902からステップS909に進む。ステップS909において頻度推移計算手段804は、蓄積文書114を走査し、当該新出単語候補の合計出現回数が所定回数以上である新出単語候補の頻度推移を取得し、次に蓄積文書114を登録時期ごとに分割して、それぞれの時期ごとの各データにおける新出単語候補の出現頻度を計算する。次にステップS910において新出単語定着判定手段805は、新出単語の定着判定を行なう。ここでは、頻度推移計算手段804が取得した各登録時期に対する出現頻度のばらつきが一定数以下である場合には、当該新出単語候補は定着して使用されている語であると判定し、新出単語検出結果として図8の概念辞書更新手段116に転送する。
【0041】
次に概念辞書更新手段116について詳細に説明する。図11は概念辞書更新手段116における辞書データ更新処理のフローチャートである。まずステップS1101において、蓄積文書114を走査し、単語検出手段115が検出した新出単語と共起する単語の共起頻度表を作成する。続いてステップS1102において、新出単語に対する概念ベクトル情報Cnを、図6で説明した逆演算用のデータΣk(606)およびVk(607)を用いて計算する。新出単語の共起頻度ベクトルをFnとすれば、概念ベクトル情報Cnは、Fn・Σk−1・VkTにより得られる。最後にステップS1103において、上記で得られた新語の概念ベクトル情報を概念辞書104に追加登録する。
【0042】
以上説明したように、本実施の形態によれば、新出単語を検出する対象テキストとして一定期間の蓄積文書を蓄積するための文書蓄積手段と、新出単語の検出から辞書データの更新までを全自動で行なう単語検出手段及び概念辞書更新手段を設けることにより、新出単語リストの作成や辞書登録の手間がなくなり、概念辞書の保守作業を効率化することができる。また、蓄積文書から新出単語を検出するので、検索対象文書中に含まれる新語を的確に検出できる。さらに、蓄積文書中のテキストから新出単語の概念ベクトルを計算するので、検索対象文書中における当該新出単語の意味を的確に反映することができる。
【0043】
また、単語検出処理において蓄積文書中に出現する既知語に対するベクトル情報を計算する既知語ベクトル計算手段と、概念辞書中に登録されているベクトル情報と上記既知語ベクトルとの差異を検出する既知語ベクトル変化検出手段と、形態素解析誤りにより既知語の連続として過剰に分割された新語を検出する過分割新語検出手段とを有するので、過分割された新語をも検出し、概念辞書に自動登録することが可能である。
【0044】
さらに、単語検出処理において所定期間中の当該新出単語の頻度推移を取得するための頻度推移検出手段、および上記頻度推移により一過性の単語か定着した新出単語かを判定する新出単語定着判定手段を有するので、有効な新出単語を選択して自動登録することが可能となる。
【0045】
【発明の効果】
本発明は、前記概念辞書に概念ベクトル情報が格納されていない新語を前記検索対象文書から検出する単語検出手段と、前記新語の概念ベクトル情報を計算し前記概念辞書に出力する概念辞書更新手段とを備えたので、検索対象文書から検出した概念辞書にない新語を概念辞書に自動的に登録できるという効果を有する。
【0046】
また本発明は、検索対象文書を履歴文書として蓄積する文書蓄積手段を備え、単語検出手段が、履歴文書から新語を検出することとしたため、より確度の高い概念ベクトルと概念辞書を得ることができるという効果を有する。
【0047】
また本発明は、新語であるにもかかわらず形態素解析誤りにより過剰に分割されて既知語と判定された語を検出する過分割新語検出手段を備えたため、語の概念を誤って識別することを減少し、概念検索の精度を高めるを可能とする概念辞書を得ることができるという効果を有する。
【0048】
また本発明は、履歴文書における出現頻度が所定値以上の未知語について、履歴文書の蓄積時期ごとの出現頻度を出力する頻度推移計算手段と、蓄積時期ごとの出現頻度のばらつきから新語が定着して使用されている語であることを判定する新出単語定着判定手段とを備えたため、概念や用法が安定している語を優先的に概念辞書に登録する一方で、一過性の単語の登録を排除することができるという効果を有する。
【0049】
また本発明は、語の共起頻度からなる共起頻度行列を特異値分解して得られる左特異行列と特異値行列と右特異行列のうち特異値行列と右特異行列とを逆演算用データとして記憶する逆演算用データ記憶手段を備え、前記概念辞書更新手段が、この逆演算用データを用いて新語の概念ベクトル情報を計算することとしたため、大量の文書に基づいて作成した概念辞書の概念ベクトルを再利用して新語の概念ベクトル情報を取得することができるという効果を有する。
【0050】
また本発明は、逆演算用データ記憶手段が、特異値行列の左から所定数の列でかつ上から前記所定数の行を取り出した行列と、右特異行列の左から前記所定数の列を取り出した行列とを逆演算用データとすることとしたため、膨大な計算機資源を必要とせずに精度の高い概念辞書を構築できるという効果を有する。
【0051】
また本発明は、概念辞書が、文書の段落ごとの語の共起頻度に基づいて作成された概念ベクトル情報を格納することとしたため、文書のコンテキストに応じた適切な概念ベクトル情報を生成し、精度の高い概念検索を可能とするという効果を有する。
【図面の簡単な説明】
【図1】本発明の実施の形態の構成図である。
【図2】本発明の実施の形態の文書登録処理を示すフローチャートである。
【図3】本発明の実施の形態の検索処理のフローチャートである。
【図4】本発明の実施の形態のベクトル生成処理のフローチャートである。
【図5】本発明の実施の形態の学習手段の構成図である。
【図6】本発明の実施の形態の共起頻度表である。
【図7】本発明の実施の形態の学習処理のフローチャートである。
【図8】本発明の実施の形態の単語検出手段の構成図である。
【図9】本発明の実施の形態の単語検出処理のフローチャートである。
【図10】本発明の実施の形態の過分割新語抽出処理のフローチャートである。
【図11】本発明の実施の形態1の辞書データ更新処理のフローチャートである。
【図12】本発明の実施の形態1の文書ベクトル索引を示す図である。
【図13】従来例による概念検索方式の構成図である。
【図14】従来例による概念辞書拡張装置の構成図である。
【符号の説明】
101:登録手段 102:登録文書 103:文書ベクトル索引
104:概念辞書 105:ベクトル生成手段 106:検索手段
107:検索入力テキスト 108:類似度計算手段
109:検索結果出力手段 110:検索結果 111:学習手段
112:学習用文書 113:文書蓄積手段 114:蓄積文書
115:単語検出手段 116:概念辞書更新手段
501:共起頻度計算手段 502:特異値分解手段
503:概念辞書出力手段 504:逆演算用データ出力手段
601:共起頻度表 602:左特異行列 603:特異値行列
604:右特異行列 605:概念辞書
801:既知語ベクトル計算手段 802:既知語ベクトル変化検出手段
803:過分割新語抽出手段 804:頻度推移計算手段
805:新出単語定着判定手段
1301:登録手段 1302:登録文書 1303:文書ベクトル索引
1304:ベクトル生成手段 1305:概念辞書 1306:検索手段
1307:検索入力テキスト 1308:類似度計算手段
1309:検索結果出力手段 1310:検索結果 1311:学習手段
1312:学習用文書
1401:新語ベクトル計算手段 1402:新語リスト 1403:検索ログ
1404:学習手段 1405:関連語データベース 1406:概念辞書
1407:新語辞書
Claims (7)
- 語の概念ベクトル情報を格納した概念辞書と、
前記概念辞書を用いて表記の異なる文書館の類似度を計算する類似度計算手段とを備え、
前記類似度に基づき検索を行う概念検索装置において、
前記概念辞書に概念ベクトル情報が格納されていない新語を前記検索対象文書から検出する単語検出手段と、
前記新語の概念ベクトル情報を計算し前記概念辞書に出力する概念辞書更新手段とを有することを特徴とする概念検索装置。 - 前記概念検索装置は、検索対象文書を履歴文書として蓄積する文書蓄積手段を備え、前記単語検出手段は、前記履歴文書から前記新語を検出する構成とされたことを特徴とする請求項1に記載した概念検索装置。
- 前記概念検索装置は、新語であるにもかかわらず形態素解析誤りにより過剰に分割されて既知語と判定された語を検出する過分割新語検出手段を備え、
前記単語検出手段は、前記過分割新語検出手段により検出された語を新語として検出することを特徴とする請求項1乃至3のいずれか一に記載された概念検索装置。 - 前記単語検出手段は、前記履歴文書における出現頻度が所定値以上の新語について前記履歴文書の蓄積時期ごとの出現頻度を出力する頻度推移計算手段と、
前記蓄積時期ごとの出現頻度のばらつきから前記新語が定着して使用されている語であることを判定する新出単語定着判定手段とを備えたことを特徴とする請求項3に記載された概念検索装置。 - 前記概念辞書は、語の共起頻度からなる共起頻度行列を特異値分解して得られる左特異行列と特異値行列と右特異行列のうち前記左特異行列を含み、
前記概念検索装置は、前記特異値行列と前記右特異行列とを逆演算用データとして記憶する逆演算用データ記憶手段を備え、
前記概念辞書更新手段は、前記逆演算用データを用いて前記新語の概念ベクトル情報を計算する構成とされたことを特徴とする請求項1に記載された概念検索装置。 - 前記概念辞書は、前記左特異行列の左から所定数の列を取り出した行列を含み、
前記逆演算用データ記憶手段は、前記特異値行列の左から前記所定数の列でかつ上から前記所定数の行を取り出した行列と、前記右特異行列の左から前記所定数の列を取り出した行列とを前記逆演算用データとする構成とされたことを特徴とする請求項6に記載した概念検索装置。 - 前記概念辞書は、文書の段落ごとの語の共起頻度に基づいて作成された概念ベクトル情報を格納した構成とされたことを特徴とする請求項1乃至6のいずれか一に記載された概念検索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002228464A JP2004070636A (ja) | 2002-08-06 | 2002-08-06 | 概念検索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002228464A JP2004070636A (ja) | 2002-08-06 | 2002-08-06 | 概念検索装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004070636A true JP2004070636A (ja) | 2004-03-04 |
Family
ID=32015141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002228464A Abandoned JP2004070636A (ja) | 2002-08-06 | 2002-08-06 | 概念検索装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004070636A (ja) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005339412A (ja) * | 2004-05-31 | 2005-12-08 | Bearnet Inc | 特許マップ生成方法およびプログラム |
JP2006331245A (ja) * | 2005-05-30 | 2006-12-07 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索装置、情報検索方法およびプログラム |
JP2010118086A (ja) * | 2010-03-04 | 2010-05-27 | Sony Corp | 情報処理装置および方法、プログラム、並びに記録媒体 |
WO2016111007A1 (ja) * | 2015-01-09 | 2016-07-14 | 株式会社Ubic | データ分析システム、データ分析システムの制御方法、及びデータ分析システムの制御プログラム |
JP2017072884A (ja) * | 2015-10-05 | 2017-04-13 | 日本電信電話株式会社 | 概念ベース生成装置、概念検索装置、方法、及びプログラム |
CN110321552A (zh) * | 2019-05-30 | 2019-10-11 | 泰康保险集团股份有限公司 | 词向量构建方法、装置、介质及电子设备 |
JP2020077228A (ja) * | 2018-11-08 | 2020-05-21 | 株式会社野村総合研究所 | 単語ベクトルリスト生成装置 |
KR20200116760A (ko) * | 2019-04-02 | 2020-10-13 | 성균관대학교산학협력단 | 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 방법 및 장치 |
CN112784572A (zh) * | 2021-01-19 | 2021-05-11 | 上海明略人工智能(集团)有限公司 | 一种营销场景话术分析方法和系统 |
CN114238619A (zh) * | 2022-02-23 | 2022-03-25 | 成都数联云算科技有限公司 | 基于编辑距离的中文名词筛选方法及系统及装置及介质 |
CN117951246A (zh) * | 2024-03-26 | 2024-04-30 | 中国电子科技集团公司第三十研究所 | 一种网络技术新词发现及应用领域预测方法和系统 |
JP7483320B2 (ja) | 2017-11-03 | 2024-05-15 | セールスフォース インコーポレイテッド | 自動検索辞書およびユーザインターフェイス |
CN117951246B (zh) * | 2024-03-26 | 2024-05-28 | 中国电子科技集团公司第三十研究所 | 一种网络技术新词发现及应用领域预测方法和系统 |
-
2002
- 2002-08-06 JP JP2002228464A patent/JP2004070636A/ja not_active Abandoned
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005339412A (ja) * | 2004-05-31 | 2005-12-08 | Bearnet Inc | 特許マップ生成方法およびプログラム |
JP2006331245A (ja) * | 2005-05-30 | 2006-12-07 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索装置、情報検索方法およびプログラム |
JP2010118086A (ja) * | 2010-03-04 | 2010-05-27 | Sony Corp | 情報処理装置および方法、プログラム、並びに記録媒体 |
WO2016111007A1 (ja) * | 2015-01-09 | 2016-07-14 | 株式会社Ubic | データ分析システム、データ分析システムの制御方法、及びデータ分析システムの制御プログラム |
JP2017072884A (ja) * | 2015-10-05 | 2017-04-13 | 日本電信電話株式会社 | 概念ベース生成装置、概念検索装置、方法、及びプログラム |
JP7483320B2 (ja) | 2017-11-03 | 2024-05-15 | セールスフォース インコーポレイテッド | 自動検索辞書およびユーザインターフェイス |
JP2020077228A (ja) * | 2018-11-08 | 2020-05-21 | 株式会社野村総合研究所 | 単語ベクトルリスト生成装置 |
JP7204431B2 (ja) | 2018-11-08 | 2023-01-16 | 株式会社野村総合研究所 | 単語ベクトルリスト生成装置 |
WO2020204364A3 (ko) * | 2019-04-02 | 2020-11-19 | 성균관대학교 산학협력단 | 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 방법 및 장치 |
KR102227939B1 (ko) | 2019-04-02 | 2021-03-15 | 성균관대학교산학협력단 | 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 방법 및 장치 |
KR20200116760A (ko) * | 2019-04-02 | 2020-10-13 | 성균관대학교산학협력단 | 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 방법 및 장치 |
CN110321552A (zh) * | 2019-05-30 | 2019-10-11 | 泰康保险集团股份有限公司 | 词向量构建方法、装置、介质及电子设备 |
CN112784572A (zh) * | 2021-01-19 | 2021-05-11 | 上海明略人工智能(集团)有限公司 | 一种营销场景话术分析方法和系统 |
CN114238619A (zh) * | 2022-02-23 | 2022-03-25 | 成都数联云算科技有限公司 | 基于编辑距离的中文名词筛选方法及系统及装置及介质 |
CN114238619B (zh) * | 2022-02-23 | 2022-04-29 | 成都数联云算科技有限公司 | 基于编辑距离的中文名词筛选方法及系统及装置及介质 |
CN117951246A (zh) * | 2024-03-26 | 2024-04-30 | 中国电子科技集团公司第三十研究所 | 一种网络技术新词发现及应用领域预测方法和系统 |
CN117951246B (zh) * | 2024-03-26 | 2024-05-28 | 中国电子科技集团公司第三十研究所 | 一种网络技术新词发现及应用领域预测方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5794177A (en) | Method and apparatus for morphological analysis and generation of natural language text | |
JP2742115B2 (ja) | 類似文書検索装置 | |
JP5167546B2 (ja) | 文単位検索方法、文単位検索装置、コンピュータプログラム、記録媒体及び文書記憶装置 | |
KR101500617B1 (ko) | 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법 | |
JP2001043236A (ja) | 類似語抽出方法、文書検索方法及びこれらに用いる装置 | |
JP2006268375A (ja) | 翻訳メモリシステム | |
CN102214189B (zh) | 基于数据挖掘获取词用法知识的系统及方法 | |
Ulčar et al. | High quality ELMo embeddings for seven less-resourced languages | |
Shirai et al. | A hybrid rule and example-based method for machine translation | |
CN100454294C (zh) | 用于将日文翻译成中文的设备 | |
CN111859013A (zh) | 数据处理方法、装置、终端和存储介质 | |
Jain et al. | Context sensitive text summarization using k means clustering algorithm | |
JP2004070636A (ja) | 概念検索装置 | |
CN115794995A (zh) | 目标答案获取方法及相关装置、电子设备和存储介质 | |
US20070233462A1 (en) | Method for analyzing morpheme using additional information and morpheme analyzer for executing the method | |
CN112650836B (zh) | 基于句法结构元素语义的文本分析方法、装置及计算终端 | |
KR100559472B1 (ko) | 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법 | |
KR100617319B1 (ko) | 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법 | |
US20110106849A1 (en) | New case generation device, new case generation method, and new case generation program | |
JPH117447A (ja) | 話題抽出方法及びこれに用いる話題抽出モデルとその作成方法、話題抽出プログラム記録媒体 | |
Ezhilarasi et al. | Designing the neural model for POS tag classification and prediction of words from ancient stone inscription script | |
CN114298048A (zh) | 命名实体识别方法及装置 | |
Daelemans et al. | Part-of-speech tagging for Dutch with MBT, a memory-based tagger generator | |
JP2005025555A (ja) | シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体 | |
Eineborg et al. | ILP in part-of-speech tagging—an overview |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20040707 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050729 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080916 |
|
A762 | Written abandonment of application |
Free format text: JAPANESE INTERMEDIATE CODE: A762 Effective date: 20081022 |