JP2009116415A - 概念情報データベース作成装置、概念情報データベース作成方法、プログラムおよび記録媒体 - Google Patents
概念情報データベース作成装置、概念情報データベース作成方法、プログラムおよび記録媒体 Download PDFInfo
- Publication number
- JP2009116415A JP2009116415A JP2007285578A JP2007285578A JP2009116415A JP 2009116415 A JP2009116415 A JP 2009116415A JP 2007285578 A JP2007285578 A JP 2007285578A JP 2007285578 A JP2007285578 A JP 2007285578A JP 2009116415 A JP2009116415 A JP 2009116415A
- Authority
- JP
- Japan
- Prior art keywords
- occurrence
- document
- word
- information database
- conceptual information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】構文解析をせずに、間接的に文法的・意味的な関係を捉え、単語間の類似性を判別する場合や文書検索を高精度化する場合に、十分な精度で概念情報データベースを作成することができる概念情報データベース作成装置を提供することを目的とする。
【解決手段】与えられた文書集合を解析し、上記与えられた文書集合中に存在している語の並びを抽出し、一定の文書範囲内に現れる上記語の並びと、上記一定の文書範囲内に現れる他の語の並びとの共起回数を計数し、上記共起回数を上記文書集合の全体にわたって集計することによって、共起度を算出し、上記算出された共起度に基づいて、上記語の並びの概念情報を定量化し、上記語の並びの概念情報を、データベースに格納する概念情報データベース作成装置である。
【選択図】図1
【解決手段】与えられた文書集合を解析し、上記与えられた文書集合中に存在している語の並びを抽出し、一定の文書範囲内に現れる上記語の並びと、上記一定の文書範囲内に現れる他の語の並びとの共起回数を計数し、上記共起回数を上記文書集合の全体にわたって集計することによって、共起度を算出し、上記算出された共起度に基づいて、上記語の並びの概念情報を定量化し、上記語の並びの概念情報を、データベースに格納する概念情報データベース作成装置である。
【選択図】図1
Description
本発明は、語の並びの持つ概念情報を定量化してデータベース化する装置および方法に係わり、特に、与えられた文書中に現れる語の並びの概念情報を、上記与えられた文書中に現れる語の並びと、一定の文書範囲内に現れる上記語の並びとの共起する回数を文書集合全体にわたって集計することによって、単語の概念情報を定量化する概念情報データベース作成装置および方法に関する。
従来から、単語間の類似性判別や、文書検索の高精度化を目的として、単語の概念情報をデータベース化する装置・方法が提案されている(たとえば、非特許文献1、非特許文献2参照)。この従来装置は、単語間の類似性判別を目的とし、単語を要素とした多次元空間を用意し、該多次元空間中に各単語をベクトルとして配置したデータベースの作成手法が提案されている。
また、特許文献1では、語の概念を表現する際に、文中の単語n−gram(n=1の場合は単語、n=2の場合は2語連鎖)同士の一定の範囲内(文内、段落内等)における共起をカウントし、それらを要素とした多次元ベクトルを用いることで、間接的に構文情報を勘案する発明が知られている(たとえば、特許文献1参照)。
Schuetze, H., "Dimensions of Meaning", in Proceedings of Supercomputing '92, pp.787-796, 1992 笠原,松澤,石川、「国語辞書を利用した日常語の類似性判別」、情報処理学会論文誌、Vol.38、No.7、pp.1272-1284、1997年 特開2006−215850号公報
Schuetze, H., "Dimensions of Meaning", in Proceedings of Supercomputing '92, pp.787-796, 1992 笠原,松澤,石川、「国語辞書を利用した日常語の類似性判別」、情報処理学会論文誌、Vol.38、No.7、pp.1272-1284、1997年
しかし、上記従来例では、以下の問題が生じている。
(1)上記非特許文献1や非特許文献2に記載されている従来例では、文法的・意味的な関係を考慮せずに共起頻度を算出するので、単語間の類似性判別や文書検索の高精度化で利用するには十分ではないという問題がある。
(2)上記特許文献1記載の従来例では、文法的・意味的な関係を捉えるために、単語n−gramを用いている。しかし、文法的・意味的な関係を表す重要な構文上のまとまりは、いわゆる文節(自立語と付属語からなる)であるので、無意味な単語n−gramでも、共起をカウントし、多次元ベクトルの要素とする。たとえば、「我々は検索システムの研究開発を進めている」において、2語連鎖「我々は」や「検索システムの」といういわゆる文節以外に、「は検索システム」、「の研究」等の語連鎖をも対象とする。すなわち、単純な語連鎖だけで文法的・意味的な関係を捉えることは難しいという問題がる。この結果、十分な精度を持つ概念情報データベースを得ることは難しいという問題がある。
(3)さらに、無意味なn−gramは、いわゆる文節に比して、出現することが稀であるので、多次元ベクトルが非常に大きくなり、また、スパース(0要素が非常に多い)になり、計算量が非常に大きくなり、現実的なリソース(メモリ量、CPU、パワー等)で計算することが困難であるという問題がある。
本発明は、構文解析をせずに、間接的に文法的・意味的な関係を捉え、単語間の類似性を判別する場合や文書検索を高精度化する場合に、十分な精度で概念情報データベースを作成することができる概念情報データベース作成装置を提供することを目的とする。
本発明は、与えられた文書集合を解析する文書解析手段と、上記与えられた文書集合中に存在している語の並びを抽出し、記憶装置に記憶する語の並び抽出手段と、一定の文書範囲内に現れる上記語の並びと、上記一定の文書範囲内に現れる他の語の並びとの共起回数を計数し、記憶装置に記憶する共起回数計数手段と、上記共起回数を上記文書集合の全体にわたって集計することによって、共起度を算出し、上記算出された共起度に基づいて、上記語の並びの概念情報を定量化し、記憶装置に記憶する概念情報定量化手段と、上記概念情報定量化手段が得た上記語の並びの概念情報を、データベースに格納する概念情報データベース作成手段とを有することを特徴とする概念情報データベース作成装置である。
本発明によれば、語の並び同士の共起を用いるので、構文解析をせずに、間接的に文法的・意味的な関係を捉え、単語間の類似性を判別する場合や文書検索を高精度化する場合に、十分な精度で概念情報データベースを作成することができるという効果を奏する。
発明を実施するための最良の形態は、以下の実施例である。
図1は、本発明の実施例1である概念情報データベース作成装置10の基本構成を示すブロック図である。
概念情報データベース作成装置10は、概念情報データベースを作成する元となる大量の文書集合20を入力し、概念情報データベース30を出力し、文書解析手段11と、語の並び抽出手段12と、共起回数計数手段13と、概念情報定量化手段14と、概念情報データベース作成手段15とを有する。
文書解析手段11は、文書集合20に含まれている全ての文に対して形態素解析を行い、単語に分割し、また、各単語に品詞を付与する。
語の並び抽出手段12は、文書集合20に含まれている語の並びを抽出し、記憶装置に記憶する。
共起回数計数手段13は、文書解析手段11が行った解析結果を使用し、一定の文書範囲内に現れる語の並びについて、上記一定の文書範囲内に現れる語の並びを抽出し、共起回数をカウントし、記憶装置に記憶する。さらに、上記共起回数を文書集合20の全体にわたって集計し、記憶装置に記憶する。
概念情報定量化手段14は、共起回数計数手段13が文書集合20の全体にわたって集計した共起回数に基づいて、着目している語の並びと他の語の並びとの共起度を計算し、上記着目している語の並びに対する概念情報を定量化する。なお、上記「共起度」は、共起する度合いである。
概念情報データベース作成手段15は、自立語または語の並びをキーとして、概念情報定量化手段14が定量化した概念情報を検索するためにデータベース化する。
次に、概念情報データベース作成装置10の概略動作について説明する。
図2は、概念情報データベース作成装置10の概略動作を示すフローチャートである。
S1では、文書解析手段11が文書集合20から1つの文書を抜き出して処理対象とする。S2では、文書解析手段11が、S1で取り出した文書から、1つの文を抜き出して処理対象とする。S3では、文書解析手段11が、S2で取り出した1文に対して、形態素解析を行い、単語単位に分割し、各単語に品詞を付与する。
S4では、語の並び抽出手段12が、形態素解析結果から全ての語の並びを抽出し、記憶装置に記憶する。S5では、共起回数計数手段13が、抽出された語の並びのそれぞれに対して、一定の文書範囲内(実施例1では、同一文内)に共起する語の並びを抽出し、出現回数をカウントする。
S6では、取り出された文書中の全文を処理したか否かを判断する。未処理の文が存在すれば、S7に進み、未処理の文が存在しなければ(全文を処理済であれば)、S8に進む。S7では、次の文を対象として、S2〜S7の処理を繰り返す。
S8では、文書集合20に含まれている全文書を処理したか否かを判断する。未処理の文書が存在すれば、S9に進み、未処理の文書が存在しなければ、文書集合20の全文書の形態素解析結果を、語の並び抽出手段12に送り、S10に進む。
S9では、文書集合20中の次の文書を処理対象とし、S1〜S9の処理を繰り返す。S10では、共起回数計数手段13が全文書にわたってカウントした結果を、概念情報定量化手段14に送り、概念情報定量化手段14では、送られてきたカウント結果に基づいて、抽出された語の並びのそれぞれについて、他の語の並びとの共起度を計算する。
共起度を計算する場合、共起回数をそのまま共起度としてもよく、また、共起回数を正規化するようにしてもよい。共起回数を正規化する場合、所定の語の並びの出現回数で、共起する語の並びの回数を除すことによって正規化してもよく、また、全ての語の並びの出現回数で、各語の並びの回数を除すことによって正規化するようにしてもよい。上記実施例において、共起度を計算する方法については限定しない。
S11で、上記計算された共起度に基づいて、概念情報定量化手段14が、それぞれの語の並びの概念情報を定量化し、この定量化した結果を、概念情報データベース作成手段15に送る。
概念情報を定量化する場合、語の並びの全てを要素とする行ベクトルを用いて概念情報を定量化する方法、語の並びの要素が0のものを削除した要素のみを行ベクトルとして概念情報を定量化する方法、特異値分解等の数値計算によって行ベクトルの次元を圧縮した行ベクトルを用いて概念情報を定量化する方法が考えられる。上記実施例では、概念情報を定量化する方法については限定しない。
S12では、概念情報データベース作成手段15が、語の並びをキーとして、上記語の並びの概念情報を検索するために、概念情報データベース30を作成する。そして、概念情報作成処理を終了する。
次に、具体例を用いて概念情報データベース作成装置10の動作を説明する。
図3は、実施例1で使用する文書集合20の内容の例を示す図である。
文書集合20は、n個(nは整数)の文書によって構成されているとする。第1文書21、第2文書22、…、第n文書2nは、文書集合20に含まれている文書であり、この順で、文書集合20を構成しているとし、第n文書2nを文書集合20の最終文書とする。
具体例では、図3に示す文書集合20を対象として、概念情報データベース30を作成する。また、上記具体例では、抽出する語の並びは、文節であり、1つ以上の自立語と0個以上の付属語とによって、抽出する語の並びが構成されている。
上記一定の文書範囲は同一文であるとする。また、共起度として、共起回数そのままを用い、語の並びの概念情報を定量化する場合、共起する語の並びを要素とするベクトルとして、概念情報を定量化する。
文書解析手段11が、図3に示す文書集合20から、第1文書21を抽出する(S1)。次に文書解析手段11が、S1で取り出された第1文書21中から、第1文を抽出する(S2)。図3に示す第1文書21から、第1文として、「我々は検索技術の研究開発を進めている。」が抽出される。文書解析手段11が、この第1文について、形態素解析を行うことによって、上記第1文を単語単位に分割し、分割された各単語に、品詞を表す識別子を付与し、記憶装置に記憶する(S3)。上記第1文に対する形態素解析結果は、次に示すようである。なお、「/」は、単語境界を示し、「[ ]」は、品詞等を示す。
第1文書21の第1文の形態素解析結果例は、「我々[代名詞]/は[副助詞]/検索技術[複合名詞]/の[格助詞]/研究[サ変名詞]/開発[サ変名詞]/を[格助詞]/進め[動詞・連用]/て[接続助詞]/いる[補助動詞・終止]/。[句点]/」である。
語の並び抽出手段12が、上記形態素解析結果から、全ての語の並びを取り出し、記憶装置に記憶する(S4)。具体例では、抽出する語の並びは、文節であり、この文節は、1つ以上の自立語と0個以上の付属語とによって構成されている。したがって、第1文書21の第1文の形態素解析結果から、「我々は」、「検索技術の」、「研究開発を」、「進めている」の4つの「語の並び」が抽出される。
共起回数計数手段13が、抽出された「語の並び」のそれぞれに対して、同一文書内において共起する「語の並び」の共起回数をカウントする(S5)。第1文書21の第1文に関して、それぞれの「語の並び」について、共起している「語の並び」と、その共起回数とを括弧書きで表すと、次のようになる。
「我々は」:(「検索技術の」、1)、(「研究開発を」、1)、(「進めている」、1)
「検索技術の」:(「研究開発を」、1)、(「進めている」、1)
「研究開発を」:(「進めている」、1)。
「検索技術の」:(「研究開発を」、1)、(「進めている」、1)
「研究開発を」:(「進めている」、1)。
つまり、上記記載は、語の並び「我々は」に着目すると、語の並び「我々は」と語の並び「検索技術の」との共起回数は「1」であることを示し、また、語の並び「我々は」と語の並び「研究開発を」との共起回数は「1」であることを示し、さらに、語の並び「我々は」と語の並び「進めている」との共起回数は「1」であることを示している。語の並び、「検索技術の」、「研究開発を」に着目した場合の共起回数も、上記と同様である。
次に、取り出された第1文書21中の全文を処理したか否かを判断する(S6)。未処理の文が残っているので、次の第2文「我々は検索技術の利用目的は人によって様々だと考えている。」を処理対象とする(S7)。上記第2文についても、上記第1文における処理と同様に、S2〜S5の処理を行い、形態素解析と識別子付与(S3)、語の並びの抽出(S4)と共起回数のカウント(S5)を行い、記憶装置に記憶する。
第1文書21の第2文の形態素解析結果例は、「我々[代名詞]/は[副助詞]/検索技術[複合名詞]/の[格助詞]/利用[サ変名詞]/目的[名詞]/は[副助詞]/様々だ[形容動詞・終止]/と[格助詞]/考え[動詞・連用]/て[接続助詞]/いる[補助動詞・終止]/。[句点]/」である。
第1文書の第2文における語の並びは、「我々は」、「検索技術の」、「利用目的は」、「様々だと」、「考えている」の5つである。
第1文書21の第2文に関して、それぞれの語の並びについて、共起している語の並びと、その共起回数とを括弧書きで表すと、次のようになる。
「我々は」:(「検索技術の」、1)、(「利用目的は」、1)、(「様々だと」、1)、(「考えている」、1)
「検索技術の」:(「利用目的は」、1)、(「様々だと」、1)、(「考えている」、1)
「利用目的は」:(「様々だ」と、1)、(「考えている」、1)
「様々だと」 :(「考えている」、1)。
「検索技術の」:(「利用目的は」、1)、(「様々だと」、1)、(「考えている」、1)
「利用目的は」:(「様々だ」と、1)、(「考えている」、1)
「様々だと」 :(「考えている」、1)。
第1文書21の第1文と第2文との処理が終わった時点で、共起回数のカウント結果は、次のようになる。なお、「我々は」と「検索技術の」との共起回数が2となっていることに注意を要する。
「我々は」:(「検索技術の」、2)、(「研究開発を」、1)、(「進めている」、1)、(「利用目的は」、1)、(「様々だと」、1)、(「考えている」、1)
「検索技術の」:(「研究開発を」、1)、(「進めている」、1)、(「利用目的は」、1」、(「様々だと、1」、(「考えている」1)
「研究開発を」:(「進めている」、1)
「利用目的は」:(「様々だと」、1)、(「考えている」、1)
「様々だと」:(「考えている」、1)。
「検索技術の」:(「研究開発を」、1)、(「進めている」、1)、(「利用目的は」、1」、(「様々だと、1」、(「考えている」1)
「研究開発を」:(「進めている」、1)
「利用目的は」:(「様々だと」、1)、(「考えている」、1)
「様々だと」:(「考えている」、1)。
第1文書21に含まれている全文が処理されると、文書集合20に含まれている全文書を処理したか否かを判断する(S8)。第2文書22以降が残っているので、文書集合20は、第2文書22を、次の処理対象とする(S9)。
図4は、上記具体例において、文書集合20から抽出した語の並びのそれぞれと、他の語の並びのそれぞれとの共起回数の例を示す図である。
図4において、たとえば、語の並び「我々は」と、語の並び「検索技術の」とが同一文内で共起する回数である共起回数をカウントし、全文書の処理が終わったときのカウントの合計値が、図4に示すように、29回である。
次に、共起回数計数手段13がカウントした結果に基づいて、第1文書21から抽出した語の並びのそれぞれについて、概念情報定量化手段14が共起度を計算する(S10)。具体例では、共起度として共起回数をそのまま用いるので、図4が、語の並びの共起度を示す。
概念情報定量化手段14は、共起度に基づいて、それぞれの語の並びに対する概念情報を定量化した後に、この定量化した結果を、概念情報データベース作成手段15に送る(S11)。
具体例では、共起する語の並びを要素とするベクトルを、概念情報として定量化するので、図4に示す各行ベクトルが、対応する語の並びに対する定量化後の概念情報である。
概念情報の定量化結果を受け取った概念情報データベース作成手段15は、語の並びをキーとして、この語の並びの概念情報を検索するために、概念情報データベース30を作成し、概念情報データベース作成処理を終了する(S12)。
上記動作によって、文書集合20から、語の並びの共起度を要素とする行ベクトルによって、語の並びの概念情報が表現された概念情報データベース30を作成することができる。
図5は、本発明の実施例2の説明図である。
本発明の実施例2は、語の並びのうち、自立語をもキーとして検索することができる概念情報データベースを作成する実施例である。
つまり、実施例2は、図4に示す例において、語の並びを構成する自立語毎に、共起回数を集計した実施例である。この集計した値を用いることによって、共起する語の並びの行ベクトルとして、自立語の概念情報を表すことができる。
つまり、共起回数計数手段13は、一定の文書範囲内に現れる語の並びの一部と、上記一定の文書範囲内に現れる他の語の並びの一部との共起回数をも計数する手段である。たとえば、語の並び「我々は、」における「語の並びの一部」は、「我々」であり、他の語の並び「考えている」における「語の並びの一部」は、「考え」であり、上記「我々」と、上記「考え」との共起回数をカウントし、共起回数702回を得る。
すなわち、上記実施例は、与えられた文書集合を解析する文書解析手段と、上記与えられた文書集合中に存在している語の並びを抽出し、記憶装置に記憶する語の並び抽出手段と、一定の文書範囲内に現れる上記語の並びと、上記一定の文書範囲内に現れる他の語の並びとの共起回数を計数し、記憶装置に記憶する共起回数計数手段と、上記共起回数を上記文書集合の全体にわたって集計することによって、共起する度合いを示す共起度を算出し、上記算出された共起度に基づいて、上記語の並びの概念情報を定量化し、記憶装置に記憶する概念情報定量化手段と、上記概念情報定量化手段が得た上記語の並びの概念情報を、データベースに格納する概念情報データベース作成手段とを有する概念情報データベース作成装置の例である。
この場合、上記一定の文書範囲は、段落である。なお、上記一定の文書の範囲が、文または文書であってもよい。そして、上記語の並びは、文節である。さらに、上記共起回数計数手段は、上記一定の文書範囲内に現れる語の並びの一部と、上記一定の文書範囲内に現れる他の語の並びの一部との共起回数をも計数する手段であり、この場合、上記語の並びの一部は、少なくとも1つの自立語である。
そして、上記実施例を方法の発明として把握することができる。つまり、上記実施例は、与えられた文書集合を、文書解析手段が解析する文書解析工程と、上記与えられた文書集合中に存在している語の並びを、語の並び抽出手段が、抽出し、記憶装置に記憶する語の並び抽出工程と、一定の文書範囲内に現れる上記語の並びと、上記一定の文書範囲内に現れる他の語の並びとの共起回数を、共起回数計数手段が、計数し、記憶装置に記憶する共起回数計数工程と、概念情報定量化手段が、上記共起回数を上記文書集合の全体にわたって集計することによって、共起度を算出し、上記算出された共起度に基づいて、上記語の並びの概念情報を定量化し、記憶装置に記憶する概念情報定量化工程と、上記概念情報定量化工程で得た上記語の並びの概念情報を、概念情報データベース作成手段が、データベースに格納する概念情報データベース作成工程とを有する概念情報データベース作成方法の例である。
本発明の実施例3は、実施例1、実施例2において、概念情報定量化手段14を削除した実施例である。この場合、概念情報データベース作成手段15は、共起回数計数手段13が得た上記共起回数の計数結果を語の並びの概念情報として、データベースに格納する手段である。
つまり、実施例3は、与えられた文書集合を解析する文書解析手段と、上記与えられた文書集合中に存在している語の並びを抽出し、記憶装置に記憶する語の並び抽出手段と、一定の文書範囲内に現れる上記語の並びと、上記一定の文書範囲内に現れる他の語の並びとの共起回数を計数し、記憶装置に記憶する共起回数計数手段と、上記共起回数計数手段が得た上記共起回数の計数結果を語の並びの概念情報として、データベースに格納する概念情報データベース作成手段とを有する概念情報データベース作成装置の例である。
また、実施例3を方法の発明として把握することができる。つまり、実施例3は、与えられた文書集合を、文書解析手段が解析する文書解析工程と、上記与えられた文書集合中に存在している語の並びを、語の並び抽出手段が、抽出し、記憶装置に記憶する語の並び抽出工程と、一定の文書範囲内に現れる上記語の並びと、上記一定の文書範囲内に現れる他の語の並びとの共起回数を、共起回数計数手段が、計数し、記憶装置に記憶する共起回数計数工程と、上記共起回数計数工程で得た上記共起回数の計数結果を語の並びの概念情報として、概念情報データベース作成手段が、データベースに格納する概念情報データベース作成工程とを有する概念情報データベース作成方法の例である。
上記各実施例は、語の並びとして、文節を使用するので、文法的な関係を考慮して共起度を算出している。したがって、上記各実施例によれば、単語間の類似性判別や文書検索の高度化に利用することができる。また、上記各実施例は、自立語に連接する助詞を区別して扱うことによって、主語、目的語等を考慮しているので、意味的な関係を考慮して共起度を算出している。したがって、上記各実施例を、単語間の類似性判別や文書検索の高度化に利用することができる。
また、上記各実施例をプログラムの発明として把握することができる.すなわち、上記各実施例である概念情報データベース作成装置を構成する各手段としてコンピュータを機能させるプログラムを考えることができる。
さらに、上記プログラムを記録したコンピュータ読取可能な記録媒体を考えることができる。上記記録媒体として、CD、DVD、ハードディスク、光ディスク、光磁気ディスク、半導体メモリなどを想定することができる。
10…概念情報データベース作成装置、
11…文書解析手段、
12…語の並び抽出手段、
13…共起回数計数手段、
14…概念情報定量化手段、
15…概念情報データベース作成手段、
20…文書集合、
21…第1文書、
22…第2文書、
2n…第n文書(最終文書)、
30…概念情報データベース。
11…文書解析手段、
12…語の並び抽出手段、
13…共起回数計数手段、
14…概念情報定量化手段、
15…概念情報データベース作成手段、
20…文書集合、
21…第1文書、
22…第2文書、
2n…第n文書(最終文書)、
30…概念情報データベース。
Claims (10)
- 与えられた文書集合を解析する文書解析手段と;
上記与えられた文書集合中に存在している語の並びを抽出し、記憶装置に記憶する語の並び抽出手段と;
一定の文書範囲内に現れる上記語の並びと、上記一定の文書範囲内に現れる他の語の並びとの共起回数を計数し、記憶装置に記憶する共起回数計数手段と;
上記共起回数計数手段が得た上記共起回数の計数結果を語の並びの概念情報として、データベースに格納する概念情報データベース作成手段と;
を有することを特徴とする概念情報データベース作成装置。 - 与えられた文書集合を解析する文書解析手段と;
上記与えられた文書集合中に存在している語の並びを抽出し、記憶装置に記憶する語の並び抽出手段と;
一定の文書範囲内に現れる上記語の並びと、上記一定の文書範囲内に現れる他の語の並びとの共起回数を計数し、記憶装置に記憶する共起回数計数手段と;
上記共起回数を上記文書集合の全体にわたって集計することによって、共起する度合いを示す共起度を算出し、上記算出された共起度に基づいて、上記語の並びの概念情報を定量化し、記憶装置に記憶する概念情報定量化手段と;
上記概念情報定量化手段が得た上記語の並びの概念情報を、データベースに格納する概念情報データベース作成手段と;
を有することを特徴とする概念情報データベース作成装置。 - 請求項1または請求項2において、
上記一定の文書範囲は、文であることを特徴とする概念情報データベース作成装置。 - 請求項1〜請求項3のいずれか1項において、
上記語の並びは、文節であることを特徴とする概念情報データベース作成装置。 - 請求項1〜請求項4のいずれか1項において、
上記共起回数計数手段は、上記一定の文書範囲内に現れる語の並びの一部と、上記一定の文書範囲内に現れる他の語の並びの一部との共起回数をも計数する手段であることを特徴とする概念情報データベース作成装置。 - 請求項1〜請求項5いずれか1項において、
上記語の並びの一部は、少なくとも1つの自立語であることを特徴とする概念情報データベース作成装置。 - 与えられた文書集合を、文書解析手段が解析する文書解析工程と;
上記与えられた文書集合中に存在している語の並びを、語の並び抽出手段が、抽出し、記憶装置に記憶する語の並び抽出工程と;
一定の文書範囲内に現れる上記語の並びと、上記一定の文書範囲内に現れる他の語の並びとの共起回数を、共起回数計数手段が、計数し、記憶装置に記憶する共起回数計数工程と;
上記共起回数計数工程で得た上記共起回数の計数結果を語の並びの概念情報として、概念情報データベース作成手段が、データベースに格納する概念情報データベース作成工程と;
を有することを特徴とする概念情報データベース作成方法。 - 与えられた文書集合を、文書解析手段が解析する文書解析工程と;
上記与えられた文書集合中に存在している語の並びを、語の並び抽出手段が、抽出し、記憶装置に記憶する語の並び抽出工程と;
一定の文書範囲内に現れる上記語の並びと、上記一定の文書範囲内に現れる他の語の並びとの共起回数を、共起回数計数手段が、計数し、記憶装置に記憶する共起回数計数工程と;
概念情報定量化手段が、上記共起回数を上記文書集合の全体にわたって集計することによって、共起度を算出し、上記算出された共起度に基づいて、上記語の並びの概念情報を定量化し、記憶装置に記憶する概念情報定量化工程と;
上記概念情報定量化工程で得た上記語の並びの概念情報を、概念情報データベース作成手段が、データベースに格納する概念情報データベース作成工程と;
を有することを特徴とする概念情報データベース作成方法。 - 請求項1〜請求項6記載の概念情報データベース作成装置を構成する各手段としてコンピュータを機能させるプログラム。
- 請求項9記載のプログラムを記録したコンピュータ読取可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007285578A JP2009116415A (ja) | 2007-11-01 | 2007-11-01 | 概念情報データベース作成装置、概念情報データベース作成方法、プログラムおよび記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007285578A JP2009116415A (ja) | 2007-11-01 | 2007-11-01 | 概念情報データベース作成装置、概念情報データベース作成方法、プログラムおよび記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009116415A true JP2009116415A (ja) | 2009-05-28 |
Family
ID=40783527
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007285578A Pending JP2009116415A (ja) | 2007-11-01 | 2007-11-01 | 概念情報データベース作成装置、概念情報データベース作成方法、プログラムおよび記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009116415A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012003603A (ja) * | 2010-06-18 | 2012-01-05 | Hitachi Systems & Services Ltd | 情報検索システム |
JP2013140499A (ja) * | 2012-01-05 | 2013-07-18 | Nippon Telegr & Teleph Corp <Ntt> | 単語抽出方法及び装置及びプログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006072483A (ja) * | 2004-08-31 | 2006-03-16 | Toshiba Corp | プログラム及び文書処理装置並びに文書処理方法 |
JP2006215850A (ja) * | 2005-02-04 | 2006-08-17 | Nippon Telegr & Teleph Corp <Ntt> | 概念情報データベース作成装置、概念情報データベース作成方法、プログラムおよび記録媒体 |
-
2007
- 2007-11-01 JP JP2007285578A patent/JP2009116415A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006072483A (ja) * | 2004-08-31 | 2006-03-16 | Toshiba Corp | プログラム及び文書処理装置並びに文書処理方法 |
JP2006215850A (ja) * | 2005-02-04 | 2006-08-17 | Nippon Telegr & Teleph Corp <Ntt> | 概念情報データベース作成装置、概念情報データベース作成方法、プログラムおよび記録媒体 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012003603A (ja) * | 2010-06-18 | 2012-01-05 | Hitachi Systems & Services Ltd | 情報検索システム |
JP2013140499A (ja) * | 2012-01-05 | 2013-07-18 | Nippon Telegr & Teleph Corp <Ntt> | 単語抽出方法及び装置及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106570171B (zh) | 一种基于语义的科技情报处理方法及系统 | |
Al‐Sughaiyer et al. | Arabic morphological analysis techniques: A comprehensive survey | |
JP3906356B2 (ja) | 構文解析方法及び装置 | |
Gelbukh et al. | Automatic term extraction using log-likelihood based comparison with general reference corpus | |
Schopf et al. | Patternrank: Leveraging pretrained language models and part of speech for unsupervised keyphrase extraction | |
Aras et al. | Applications and Challenges of Text Mining with Patents. | |
JP2006065387A (ja) | テキスト文検索装置、テキスト文検索方法、及びテキスト文検索プログラム | |
Momtaz et al. | Graph-based Approach to Text Alignment for Plagiarism Detection in Persian Documents. | |
Chizhikova et al. | Multilingual case-insensitive named entity recognition | |
Krishna et al. | A hybrid method for query based automatic summarization system | |
Kaur et al. | N-gram based approach for opinion mining of Punjabi text | |
JP4005343B2 (ja) | 情報検索システム | |
Rajasekar et al. | Comparison of Machine Learning Methods for Tamil Morphological Analyzer | |
Kim et al. | Extracting clinical relations in electronic health records using enriched parse trees | |
JP2006215850A (ja) | 概念情報データベース作成装置、概念情報データベース作成方法、プログラムおよび記録媒体 | |
JP2009116415A (ja) | 概念情報データベース作成装置、概念情報データベース作成方法、プログラムおよび記録媒体 | |
Korobkin et al. | Prior art candidate search on base of statistical and semantic patent analysis | |
TWI636370B (zh) | Establishing chart indexing method and computer program product by text information | |
Klang et al. | Linking, searching, and visualizing entities in wikipedia | |
Mohd et al. | Sumdoc: a unified approach for automatic text summarization | |
kumar et al. | AMRITA_CEN@ FIRE-2014: morpheme extraction and lemmatization for tamil using machine learning | |
Ashqar et al. | A Comparative Assessment of Various Embeddings for Keyword Extraction | |
Razzaqe et al. | Text mining in unstructured text: techniques, methods and analysis | |
Alshammari et al. | Evaluation of Arabic Named Entity Recognition Models on Sahih Al-Bukhari Text | |
JP2812511B2 (ja) | キーワード抽出装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100108 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120123 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120127 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120525 |