JP5856905B2 - 主題抽出装置およびそのプログラム - Google Patents

主題抽出装置およびそのプログラム Download PDF

Info

Publication number
JP5856905B2
JP5856905B2 JP2012116759A JP2012116759A JP5856905B2 JP 5856905 B2 JP5856905 B2 JP 5856905B2 JP 2012116759 A JP2012116759 A JP 2012116759A JP 2012116759 A JP2012116759 A JP 2012116759A JP 5856905 B2 JP5856905 B2 JP 5856905B2
Authority
JP
Japan
Prior art keywords
word
importance
relationship
expression
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012116759A
Other languages
English (en)
Other versions
JP2013242791A (ja
Inventor
山田 一郎
一郎 山田
宮崎 勝
勝 宮崎
田中 英輝
英輝 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2012116759A priority Critical patent/JP5856905B2/ja
Publication of JP2013242791A publication Critical patent/JP2013242791A/ja
Application granted granted Critical
Publication of JP5856905B2 publication Critical patent/JP5856905B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、言語処理技術に関する。特に、本発明は、文書に含まれる主題を抽出する主題抽出装置およびそのプログラムに関する。
文書に含まれる単語に対して、重要度の重み付けを行ない、重要な単語を抽出する技術が求められている。そのように抽出された単語は、文書の主題を表わす。従来の技術において、文書に含まれる単語に対する重要度の重み付けを行う手法としては、文書に含まれる単語の出現頻度情報や、他の文書での出現頻度の逆数などを指標とするものが提案されている。例えば、非特許文献1では、単語の出現頻度情報と文書における当該単語の逆出現頻度情報とを用いるtf−idfの重み付けについて記載されている。
また、特許文献1では、単語の共起や係り受け関係などの関係を考慮して単語の重要度の算出する手法が記載されている。
特開2004−102397号公報
「tf−idf」、[online]、Wikepedia、[平成24年5月15日検索]、インターネット〈URL:http://ja.wikipedia.org/wiki/Tf-idf〉
しかしながら、非特許文献1に記載されたtf−idfを用いる手法では、文脈が考慮されず、単語の統計的な出現頻度に関する情報のみで重要度を算出している。このため、対象の文書における個々の単語の重要性が考慮されないという問題がある。
また、特許文献1に記載された、単語の共起や係り受け関係などの関係を考慮する手法では、部分的な構造上の関係を利用しているのみであり、文書に基づいて人が捉えるような意味的な関係が考慮されないという問題がある。
本発明は、上記の課題認識に基づいて行なわれたものであり、単語が出現する状況や、単語間の意味的関係を用いて、より精度良く単語の重み付けをすることの出来る主題抽出装置を提供するものである。
[1]上記の課題を解決するため、本発明の一態様による主題抽出装置は、読み込んだ文書データから表現を抽出する表現抽出部と、表現と表現との意味的な関係を表わす関係データを取得する関係獲得部と、抽出された前記表現の前記文書データにおける出現頻度に基づく第1重要度を算出する第1重要度評価部と、前記文書データに含まれる2個の表現をそれぞれ始点表現および終点表現として、前記関係獲得部が取得した関係データを用いて前記始点表現と前記終点表現とを1段階以上の前記関係で接続したときの前記始点表現から前記終点表現に至る関係密度の総和に基づき前記終点表現の第2重要度を算出するとともに、前記文書データに含まれる前記表現に関して前記第1重要度と前記第2重要度とに基づく総合重要度を算出する第2重要度評価部と、算出された前記総合重要度に基づいて前記表現を前記文書データの主題として出力する主題出力部と、を具備することを特徴とする。
ここで、表現とは、言語表現におけるまとまった単位である。表現の例は、単語や、熟語や、複数の単語または熟語の組などである。そして、第1重要度評価部が算出する第1重要度は、表現の出現頻度や場合に応じて他の要素に基づいて計算されるものである。第1重要度は、関係獲得部が取得した意味的関係に依存しない値である。第2重要度は、関係獲得部が取得した意味的関係に基づいて算出される値である。始点表現から終点表現に至る関係密度とは、始点表現から終点表現に至る経路における1個以上の関係の各々における密度(遷移確率)を推移的に連結して得られる値である。一例としては、直列な多段の関係における関係密度は、各段の関係における関係密度の積により計算される。また、上記「関係密度の総和」とは、ある終点表現に接続される始点表現が複数存在するときに、各々の始点表現から当該終点表現までの関係密度を全てたし合わせた値である。
[2]また、本発明の一態様は、上記の主題抽出装置において、前記第2重要度評価部は、前記関係を成す2個の表現間の遷移確率に基づき、前記始点表現から前記終点表現に至るまでの全ての段階の関係に対応する前記遷移確率の積による遷移確率を、当該始点表現から当該終点表現に至る関係密度として計算する、ことを特徴とする。
[3]また、本発明の一態様は、上記の主題抽出装置において、前記第2重要度評価部は、前記関係を第1表現から第2表現への遷移の関係として、前記第1表現からの全ての関係の数のうちの、前記第1表現から前記第2表現への関係の数の割合を、当該第1表現および第2表現の間の前記遷移確率として計算する、ことを特徴とする。
[4]また、本発明の一態様は、上記の主題抽出装置において、前記第2重要度評価部は、前記始点表現と前記終点表現とを接続する前記関係の段階数が所定の上限値以下である経路のみに基づいて前記第2重要度を算出する、ことを特徴とする。
[5]また、本発明の一態様は、コンピューターを、上記の主題抽出装置として機能させるためのプログラムである。
本発明によれば、既存の言語リソースから獲得可能な単語間の関係(具体的には、例えば、類似関係、因果関係、上位下位関係、属性関係など)を利用して、文書中に出現した他の関連単語についての情報に基づいて単語の重要度を付与できる。このような単語の重要度により、文書から主題を抽出することができる。
本発明の実施形態による主題抽出装置の機能構成を示したブロック図である。 同実施形態による主題抽出装置の全体的な処理の手順を示すフローチャートである。 同実施形態による第1重要度評価部が各単語に付与した重要度のデータ例を示す概略図である。 同実施形態による第2重要度評価部の処理手順を詳細に示すフローチャートである。
次に、図面を参照しながら、本発明の実施形態について説明する。
[第1の実施形態]
図1は、本実施形態による主題抽出装置の機能構成を示すブロック図である。図示するように、主題抽出装置1は、文書記憶部11と、単語抽出部12(表現抽出部)と、第1重要度評価部13と、第2重要度評価部14と、主題抽出結果出力部15(主題出力部)と、単語関係獲得部18(関係獲得部)とを含んで構成される。
文書記憶部11は、多数の文書のデータを記憶する。これらの文書の各々は、自然言語で書かれたテキストを含んでいる。文書記憶部11が記憶する文書の内容は、例えば、テレビやラジオの放送番組の概要を表わした概要文である。文書記憶部11は、例えば、磁気ディスク装置や半導体メモリなどの記憶手段を用いて実現される。
単語抽出部12は、文書記憶部11に記憶されている文書のうち、指定された文書に含まれる文の形態素解析処理を行い、文に含まれる単語(表現。名詞や動詞など。)を抽出する。形態素解析の処理自体は、既存の技術を用いて行なうことが出来る。例えば、下記のウェブページに記載されているMeCabは、利用可能な形態素解析器の一つである。「MeCab: Yet Another Part-of-Speech and Morphological Analyzer」 URL http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html
第1重要度評価部13は、単語抽出部12によって抽出された単語の文書データにおける出現頻度に基づく重要度(第1重要度)を算出する。第1重要度評価部13は、出現頻度に加えて、単語の共起や係り受け関係などの関係を考慮して単語の重要度を算出するようにしても良い。
単語関係獲得部18は、ある単語と他の単語との関係を獲得する。ここで、単語間の関係とは、類似関係や、因果関係や、上位下位関係や、属性関係や、あるものとその材料との関係や、ある場所とその場所の名物との関係や、作者(作家、著者、作詞または作曲者等)と作品名との関係などである。単語間の関係を予め獲得しておくためには、例えば、ウェブから得られるテキストなどを元として、単語間関係獲得ツールなどを利用する。単語間関係獲得ツール自体は既存技術を利用して実現できる。一例として、上位下位関係は、日本語で「XはYである」あるいは「XはYの一種である」などと言えるときにXとYとの間で成り立つ関係であり、この場合にXは下位概念であり、Yは上位概念である。上位下位関係の単語を獲得するには、参考URL[http://alaginrc.nict.go.jp/hyponymy/]にも記載された手法を利用することができる。この手法では、インターネットを介して、ウェブ上の事典等からXML(Extensible Markup Language)形式のデータを取得し、予め機械学習した結果を用いて、上位概念の単語と下位概念の単語とのペアを獲得する。この手法により数百万組の関係を獲得できる。また、意味的関係抽出ツールを利用して、因果関係や、場所と名物との関係や、音楽家と曲名との関係など、様々な意味的関係を獲得する。意味的関係抽出ツール自体は、参考URL[http://alaginrc.nict.go.jp/resources/nictmastar/resource-info/abstract.html]などにも記載されているように、既存技術を利用して獲得できる。なお、これらのツールを使わず、手作業で単語間の関係を獲得した上で記憶装置(磁気ディスク装置や、半導体メモリ等)に蓄積しておき、単語関係獲得部18がその記憶装置から読み出すようにしても良い。
第2重要度評価部14は、単語間の関連性を評価することにより、第1重要度評価部13の処理で得られた各単語に対する重要度の重みを、対象文における文脈を考慮した重みに更新する。言い換えれば、第2重要度評価部14は、単語関係獲得部18が取得した単語間の意味的な関係に基づく単語の重要度(第2重要度)を算出し、第1重要度と第2重要度とに基づく総合重要度を算出する。より具体的には、第2重要度評価部14は、処理対象の文書データに含まれる2個の単語(表現)をそれぞれ始点表現および終点表現として、単語関係獲得部18が取得した関係データを用いて始点表現と終点表現とを1段階以上の関係で接続したときの始点表現から終点表現に至る関係密度の総和に基づき終点表現の第2重要度を算出する。また、処理対象の文書データに含まれる単語に関して第1重要度と第2重要度とに基づく総合重要度を算出する。
主題抽出結果出力部15は、算出された前記総合重要度に基づいて重要度の高い単語を、文書データの主題として出力する。
次に主題抽出装置1の動作手順について説明する。
図2は、主題抽出装置1による処理の手順を示すフローチャートである。以下、このフローチャートに沿って説明する。
まずステップS1において、単語抽出部12は、文書記憶部11に記憶されている文書データのうち、処理対象として指定された文書データについて、単語抽出の処理を行なう。具体的には、単語抽出部12は、指定された文書データに含まれる文の形態素解析処理を行い、含まれる単語を抽出する。
ここで、単語抽出処理の実例を表わすデータについて説明する。処理対象として指定された文書データが表わす概要文の一例は、表1に示す通りである。
Figure 0005856905
また、表1に示したデータを元に単語抽出部12が処理した結果、抽出された単語のリストは、表2に示す通りである。
Figure 0005856905
本例では、単語抽出部12が抽出の対象とする品詞は、名詞のみである。なお、抽出対象の品詞は、名詞のみとしても良く、名詞と動詞としても良く、名詞と動詞と形容詞としても良い。この他にも、複数の品詞の組合せを抽出対象としても良い。
次にステップS2において、単語関係獲得部18が、単語間の関係を表わすデータを取得する。単語間の関係を獲得するための方法は、前述の通りである。単語関係獲得部18が獲得する関係は、処理対象の文書に依存するものではなく一般的なものである。
単語関係獲得部18が取得する関係のうち、表2に示した単語に関係するものを例示すると、次の通りである。
例えば、単語「井上○彦」は、「作者と著書の関係」によって単語「リアル」に直接関連付けられている。
また、単語「リアル」は、「下位概念と上位概念の関係」(「リアル」の方が下位概念)によって単語「漫画」に直接関連付けられている。
また、単語「漫画」は、「下位概念と上位概念の関係」(「漫画」の方が下位概念)によって単語「本」に直接関連付けられている。
また、単語「本」は、「下位概念と上位概念の関係」(「本」の方が上位概念)によって単語「小説」に関連付けられている。
なお、同一の単語ペア間で、複数の関係が成立することもあり得る。この場合、それらの2単語は、複数の関係によって関連付けられている。
次にステップS3において、第1重要度評価部13は、単語抽出部12によって抽出された各単語について、重要度を評価する。なお、ここで第1重要度評価部13はが算出する重要度は、ステップS2で獲得した単語間の関係に依存しない値である。第1重要度評価部13は、例えば、既存技術によるtf−idf(term frequency - inverse document frequency)値を計算することにより、各単語の重要度を評価する。単語wのtf−idf値は、下の式(1)および式(2)により計算される。
Figure 0005856905
Figure 0005856905
ここで、tf(w)は、処理対象の文書における単語wの出現頻度である。また、|D|は、処理対象の文書を含む、大量の文書全体の文書数である。また、df(w)は前記の大量の文書全体において、単語wを含む文書数である。そして、TFIDF(w)が、第1重要度評価部13によって算出される
なお、処理対象の文書に関してtf−idf値を求めるために、単語抽出部12は、文書記憶部11に記憶されている全文書の各々から単語を抽出する処理を行なう。処理対象の文書以外の文書については、予め単語抽出の処理を行なっておいても良いし、処理対象文書が指定される都度単語抽出の処理を行なうようにしても良い。
図3は、第1重要度評価部13が各単語に付与した重要度のデータ例を示す概略図である。図示する例では、第1重要度評価部13が各単語について算出したtf−idf値を示している。例えば、作品のタイトルを構成する単語であって、他の文書においては比較的出現しにくいと考えられる「DUNK」や「SHOOT」といった単語が、tf−idf値における上位にランクされている。また、処理対象の文書にも出現しているが、他の文書に置いても出現し易いと考えられる「成長」や「撮影」といった単語が、tf−idf値における下位にランクされている。
図2に戻って、次にステップS4において、第2重要度評価部14は、ステップS3において求められた各単語の重要度に対して、補正係数を乗じることにより、重要度の評価を更新する。なお、ここで用いる補正係数とは、ステップS2で獲得されている単語間の関係を加味した重要度である。第2重要度評価部14による計算を式で表わすと、下の式(3)の通りである。
Figure 0005856905
ここで、TFIDF(w)は、第1重要度評価部13によって算出された単語wの重要度であり、本例ではtf−idf値である。第1重要度評価部13がtf−idf値以外で単語の重要度を評価する場合には、適宜、このTFIDF(w)を置き換える。また、r(w,d)は、単語wの文書dにおける重要度であり、上記の補正係数に当たる。このr(w,d)を算出するために、第2重要度評価部14は、単語関係獲得部18が獲得した単語間の関係を利用する。なお、r(w,d)を算出する方法の詳細については、後述する。
そして、ステップS5において、主題抽出結果出力部15が、算出されたweight2(w)の値に応じて、処理対象文書の主題を表わす単語を出力する。一例としては、算出されたweight2(w)の値が最も高い単語を、その文書の主題として出力する。他の例としては、算出されたweight2(w)の値が上位である複数個の単語を、その文書の主題として、または主題候補として、出力する。
図4は、第2重要度評価部14による処理の詳細な手順を示すフローチャートである。以下、このフローチャートに沿って説明する。
まずステップS41において、第2重要度評価部14は、与えられた単語集合間の関係を全て抽出する。ここで、与えられた単語集合とは、処理対象の文書から抽出された全ての単語を要素とする集合である。言い換えれば、表2に列挙した単語の集合である。また、第2重要度評価部14がここで抽出する全ての関係とは、当該単語集合の要素である単語相互間の関係であって、単語関係獲得部18が獲得する単語間の関係を用いて、直接ないしは間接に対応付けすることの出来る関係である。
単語間の間接的な関係の例は、次の通りである。即ち、処理対象の文書から抽出された単語には、単語「井上○彦」と単語「小説」とが含まれている。そして、単語「井上○彦」は、「作者と著書の関係」によって単語「リアル」に直接関連付けられている。そして、単語「リアル」は、「下位概念と上位概念の関係」(「リアル」の方が下位概念)によって単語「漫画」に直接関連付けられている。そして、単語「漫画」は、「下位概念と上位概念の関係」(「漫画」の方が下位概念)によって単語「本」に直接関連付けられている。そして、単語「本」は、「下位概念と上位概念の関係」(「本」の方が上位概念)によって単語「小説」に関連付けられている。つまり、単語関係獲得部18が獲得した単語間の複数の関係を推移的に適用することによって、単語「井上○彦」と単語「小説」とは間接的に関連付けられている。つまり、「井上○彦−リアル−漫画−本−小説」という関係が抽出される。このように、第2重要度評価部14は、単語関係獲得部18が獲得した全ての単語間関係を用いて、与えられた単語集合内での単語間の関係を抽出する。
なお、単語間の間接的な関係を抽出する際に、中間単語数の上限値を設けるようにしても良い。例えば、中間単語数の上限値を4とした場合、第2重要度評価部14は、5個以上の中間単語を経由して関連付けられる関係を抽出しないようにする。このように中間単語数に上限を設けることは、単語間の関係を探索する際に探索空間が広くなりすぎて計算が困難になることを防ぐ。
また、単語間の間接的な関係を抽出する際に、循環を禁止するようにする。例えば、「漫画−本−小説−本−・・・・・・」という関係で単語間の関連付けを行なうことも形式的には可能であるが、このように同一の中間単語(ここでは、単語「本」)が複数回出現することは、単に冗長であるため、避けるようにする。
次にステップS42において、第2重要度評価部14は、他の単語からの遷移確率を計算する。本ステップの処理では、ステップS41で抽出した単語間の関係を利用して、関係の連鎖における最初の単語から最後の単語に対する遷移確率を計算する。具体例では、関係の連鎖が「井上○彦−リアル−漫画−本−小説」であり、この場合に、最初の単語は「井上○彦」であり、最後の単語は「小説」である。一般に、(n−1)個の関係(つまり、(n−2)個の中間単語)により関連付けられる単語間の遷移確率は、下の式(4)で計算される。
Figure 0005856905
ここで、P(w)は最初の単語wの生起確率である。P(w)の値は、便宜的に1としても良いし、テキスト集合全体における単語wの出現頻度から計算される確率値を用いても良い。便宜上、wを始点表現と呼び、wを終点表現と呼んでも良い。また、P(wj+1|w)は、下の式(5)で定義される。
Figure 0005856905
つまり、単語関係獲得部18が既に獲得している関係としてw(第1表現)からwj+1(第2表現)への関係を有しており、このwからの全ての関係の数のうちの、wからwj+1への関係の数の割合を、当該wとwj+1の間の遷移確率とする。この値を、wからwj+1への関係密度と捉えることもできる。これは、各々の関係が均等な重みを有する場合の、ランダムウォークによるwからwj+1への遷移の可能性を表わす。なお、wからwj+1への関係数が複数の場合もあり得る(例えば、上位下位関係であり且つ類似関係である場合など)ため、式(5)の右辺の分子は2以上の値にもなり得る。なお、式(5)の他にも、単語間の関係に基づく遷移の可能性を表わす値を他の計算方法で算出し、その値をP(wj+1|w)としても良い。
式(4)に示した遷移確率を、前記の具体例「井上○彦−リアル−漫画−本−小説」に適用すると、次の通りである。即ち、
P(小説)=P(井上○彦)×P(リアル|井上○彦)×P(漫画|リアル)×P(本|漫画)×P(小説|本)
次にステップS43において、第2重要度評価部14は、式(4)で計算される遷移確率を用いて、単語の重要度(第2重要度、補正係数)を計算する。式(4)に示した生起確率は、単語の連鎖として、w−w−・・・−wと遷移する場合の単語wの生起確率である。与えられた単語集合内から開始して、この単語wに至る単語の連鎖としては、上記以外の単語の列もあり得る。従って、第2重要度評価部14は、まず下の式(6)により、単語wに至る遷移確率の総和を求める。
Figure 0005856905
ここで、Prel(w)は、文書d内に含まれる単語集合による関係relで単語wに至る遷移確率であり、式(3)で定義されたものである。
そして、第2重要度評価部14は、式(6)で定義される値に関して、さらに文書dに含まれる全ての単語での総和を算出する。その値Zは、式(7)で与えられる。
Figure 0005856905
ここで、iは、文書dに含まれる単語についてのサフィックスである。
そして、第2重要度評価部14は、上記のZを用いた下の式(8)により、式(6)で求められた値のスケーリングを行なう。
Figure 0005856905
式(8)における(1/Z)は、全ての単語wに関するPall(w,d)の値の総和を1に調整するための係数である。そして、式(8)で求められたPall(w,d)を用いて、下の式(9)により、r(w,d)を計算する。
Figure 0005856905
但し、ここで、関数z(x)の定義は、下の式(10)の通りである。
Figure 0005856905
ここで、μは変数xの平均値であり、σは変数xの標準偏差である。つまり、式(9)における「z(Pall(w,d))」は、Pall(w,d)の値を、単語ごとのPall(w,d)の値の分布に基づく分散度合いを表わす値に写像する作用を有する。
式(9)の右辺にはシグモイド関数を用いている。式(9)から明らかなように、0<r(w,d)<1である。
そして、既に式(3)で示したように、第1重要度評価部13が算出した重要度(第1重要度)を、第2重要度評価部14がこの第2重要度(補正係数)r(w、d)を用いて更新する。
以上を整理すると、第2重要度評価部14は、単語関係獲得部18が獲得した関係データにおいて関係を成す2個の単語間の遷移確率に基づき、文書内の2つの単語を接続する1段階または多段階の関係(始点表現から終点表現に至るまでの全ての段階の関係)に対応する遷移確率の積により、両単語間の遷移確率を計算する。この遷移確率を、これら2単語間の関係密度とする。そして、第2重要度評価部14は、文書データに含まれる2個の表現をそれぞれ始点表現および終点表現として、単語関係獲得部18が取得した関係データを用いて始点表現と終点表現とを1段階以上の関係で接続したときの始点表現から終点表現に至る関係密度(式(4)で算出するP(w))の総和(式(6)で算出する総和)に基づき終点表現の第2重要度を算出する。つまり、与えられた文書内において、外部から獲得した意味の関係に基づく、関係の密度を多く(濃く)集める単語(表現)ほど、第2重要度評価部14が算出する第2重要度の値が大きくなるような計算を行なう。また、第2重要度評価部14は、単語に関する第1重要度(tf−idf値等)と第2重要度(式(3)におけるr(w,d))とに基づく総合重要度(式(3)におけるweight2(w))を算出する。
なお、計算方法から明らかなように、第1重要度評価部13が算出する重要度は、単語の出現頻度(文書逆頻度(idf)も含む)等のみに基づいて算出される値である。つまり、単語間の意味的な関係からは一切独立した値である。これは、tf−idfによらずに、単語の出現頻度を用いた他の計算方法や、単語同士の共起状況や、文における文法構造を加味して重要度を算出する場合にも同様であり、第1重要度評価部13は、単語の意味から独立な重要度を算出する。これに対して、第2重要度評価部14は、単語間の意味的関係に基づく重要度を算出し、これを補正係数として用いる。このような、単語間の意味的関係を取得して利用しながらも、自動的な数値計算のみによって、文書の主題を抽出することが本実施形態による主題抽出装置1の特徴である。
また、前述のように、単語間の間接的な関係を抽出する際に中間単語数の上限値を設ける場合には、第2重要度評価部14が、文書内の2つの単語(始点表現と終点表現)を接続する関係の段階数が所定の上限値以下である経路のみに基づいて重要度の補正係数(第2重要度)を算出することとなる。段階数に上限を設ける場合には、第2重要度評価部14、その上限よりも多い段階数で接続される経路による遷移確率を考慮せずに計算を行なう。式(4)からわかるように段階数(n−1)が増えるにつれて、算出されるP(w)の値は比較的急激に小さくなる。従って、式(6)において総和を取ることを考慮してもなお、段階数に上限を設けることによって計算に入れられなくなる遷移確率の影響は、限定的なものである。つまり、段階数に上限を設けることによって重要度の値としての適切さが損なわれる度合いは限定的であり、且つ段階数に上限を設けることによる計算量削減のメリットを得られる。
[第2の実施形態]
次に、第2の実施形態について説明する。なお、第1の実施形態と共通の事項については記載を省略し、本実施形態に特有の事項のみを以下に記載する。
第1の実施形態においては、第1重要度評価部13は、tf−idf値を計算することによって単語の重要度の評価を行なった(図2のフローチャートでのステップS3の処理)。これに対して、本実施形態では、第1重要度評価部13は、単語間の共起や、単語を含む文節間の係り受け関係を加味した重要度を算出する。しかしながら、本実施形態においても、第1重要度評価部13が算出する重要度は、ステップS2で獲得した単語間の関係に依存しない値である。
本実施形態における第1重要度評価部13は、次の手順で、重要度を算出する(図2のステップS3の処理の代替)。
第1重要度評価部13は、複数の文書からなる文書集合のデータを順次読み込む。そして、各文書に含まれる各文について、概念表現を抽出する処理を行なう。ここで、概念表現とは、1)単語(但し、ここで単語とは自立語に限定。本実施形態の以下の説明において同様。)、2)単語1−単語2の2つ組、3)単語1−単語2−単語3の3つ組、の3種類である。
1)単語: 第1重要度評価部13は、各文に含まれる各単語を、ひとつの概念表現として抽出する。
2)単語1−単語2の2つ組: 第1重要度評価部13は、各文に含まれる単語の2つ組を抽出する。ここで第1重要度評価部13が抽出する2つ組には、次の2通りのパターンがある。2A)単語1と単語2とが同一文節内に連続して出現する場合の、単語1と単語2の組。2B)ある文節が他の文節に係る係り受け関係がある場合において、係り元となる文節に含まれる単語1と、係り先となる文節に含まれる単語2との組。
3)単語1−単語2−単語3の3つ組: 第1重要度評価部13は、各文に含まれる単語の3つ組を抽出する。ここで第1重要度評価部13が抽出する3つ組には、次の4通りのパターンがある。3A)単語1と単語2と単語3とが同一文節内に連続して出現する場合の、それらの3単語の組。3B)文節1が文節2に係り、さらにその文節2が他の文節3に係る場合において、文節1に含まれる単語1と、文節2に含まれる単語2と、文節3に含まれる単語3との組。3C)文節1が文節2に係る場合において、文節1内で連続して出現する単語1および単語2と、文節2内に含まれる単語3との、3単語の組。3D)文節1が文節2に係る場合において、文節1内に含まれる単語1と、文節2内で連続して出現する単語2および単語3との、3単語の組。
与えられた文書集合からの上記の1)、2)、および3)の概念表現の抽出を完了すると、第1重要度評価部13は、抽出した各々の概念表現の重要度を、次の式により算出する。即ち、(概念表現の重要度)=(その概念表現の文書集合内における出現回数)/(その文書集合に含まれる文書数)。
[第3の実施形態]
次に、第3の実施形態について説明する。なお、第1の実施形態や第2の実施形態と共通の事項については記載を省略し、本実施形態に特有の事項のみを以下に記載する。
前述の第2の実施形態では、第1重要度評価部13が概念表現(単語、単語の2つ組、単語の3つ組)を抽出するための処理を列記した。第2の実施形態で記載した抽出方法に代わり、本実施形態による第1重要度評価部13は、下記の方法で概念表現を抽出する。
1)単語: 第2の実施形態における方法と同様に、第1重要度評価部13は、各文に含まれる各単語を、ひとつの概念表現として抽出する。
2)単語1−単語2の2つ組: 第1重要度評価部13は、第2の実施形態において記載した2B)の方法のみを用いて、単語1−単語2の2つ組を抽出する。
3)単語1−単語2−単語3の3つ組: 第1重要度評価部13は、第2の実施形態において記載した3B)の方法のみを用いて、単語1−単語2−単語3の3つ組を抽出する。
そして、第1重要度評価部13は、抽出した各々の概念表現の重要度を、次の式により算出する。即ち、(概念表現の重要度)=(その概念表現の文書集合内における出現回数)/(その文書集合に含まれる文書数)。
なお、上述した各実施形態における主題抽出装置の機能をコンピューターで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
例えば、単語を表現の単位として扱う代わりに、複数の単語からなる組を表現の単位として扱い、重要度の算出および主題の抽出を行なうようにしても良い。
本発明は、文書から主題を抽出できるため、情報検索や情報理解の手段として利用可能である。また、例えば番組概要文に適用することにより、テレビやラジオ等の放送番組の推薦等のために利用することが出来る。
1 主題抽出装置
11 文書記憶部
12 単語抽出部(表現抽出部)
13 第1重要度評価部
14 第2重要度評価部
15 主題抽出結果出力部(主題出力部)
18 単語関係獲得部(関係獲得部)

Claims (5)

  1. 読み込んだ文書データから表現を抽出する表現抽出部と、
    表現と表現との意味的な関係を表わす関係データを取得する関係獲得部と、
    抽出された前記表現の前記文書データにおける出現頻度に基づく第1重要度を算出する第1重要度評価部と、
    前記文書データに含まれる2個の表現をそれぞれ始点表現および終点表現として、前記関係獲得部が取得した関係データを用いて前記始点表現と前記終点表現とを1段階以上の前記関係で接続したときの前記始点表現から前記終点表現に至る関係密度の総和に基づき前記終点表現の第2重要度を算出するとともに、前記文書データに含まれる前記表現に関して前記第1重要度と前記第2重要度とに基づく総合重要度を算出する第2重要度評価部と、
    算出された前記総合重要度に基づいて前記表現を前記文書データの主題として出力する主題出力部と、
    を具備することを特徴とする主題抽出装置。
  2. 前記第2重要度評価部は、前記関係を成す2個の表現間の遷移確率に基づき、前記始点表現から前記終点表現に至るまでの全ての段階の関係に対応する前記遷移確率の積による遷移確率を、当該始点表現から当該終点表現に至る関係密度として計算する、
    ことを特徴とする請求項1に記載の主題抽出装置。
  3. 前記第2重要度評価部は、前記関係を第1表現から第2表現への遷移の関係として、前記第1表現からの全ての関係の数のうちの、前記第1表現から前記第2表現への関係の数の割合を、当該第1表現および第2表現の間の前記遷移確率として計算する、
    ことを特徴とする請求項2に記載の主題抽出装置。
  4. 前記第2重要度評価部は、前記始点表現と前記終点表現とを接続する前記関係の段階数が所定の上限値以下である経路のみに基づいて前記第2重要度を算出する、
    ことを特徴とする請求項1から3までのいずれか一項に記載の主題抽出装置。
  5. コンピューターを、請求項1乃至4のいずれか1項に記載の主題抽出装置として機能させるためのプログラム。
JP2012116759A 2012-05-22 2012-05-22 主題抽出装置およびそのプログラム Expired - Fee Related JP5856905B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012116759A JP5856905B2 (ja) 2012-05-22 2012-05-22 主題抽出装置およびそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012116759A JP5856905B2 (ja) 2012-05-22 2012-05-22 主題抽出装置およびそのプログラム

Publications (2)

Publication Number Publication Date
JP2013242791A JP2013242791A (ja) 2013-12-05
JP5856905B2 true JP5856905B2 (ja) 2016-02-10

Family

ID=49843604

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012116759A Expired - Fee Related JP5856905B2 (ja) 2012-05-22 2012-05-22 主題抽出装置およびそのプログラム

Country Status (1)

Country Link
JP (1) JP5856905B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6448128B2 (ja) * 2014-12-25 2019-01-09 日本放送協会 主題語抽出装置、及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5424393B2 (ja) * 2009-10-14 2014-02-26 Kddi株式会社 単語テーマ関連度算出装置、単語テーマ関連度算出用プログラムおよび情報検索装置

Also Published As

Publication number Publication date
JP2013242791A (ja) 2013-12-05

Similar Documents

Publication Publication Date Title
US8849649B2 (en) System and method for determining sentiment expressed in documents
CN107797991B (zh) 一种基于依存句法树的知识图谱扩充方法及系统
US11762926B2 (en) Recommending web API's and associated endpoints
JP6466952B2 (ja) 文章生成システム
US9785704B2 (en) Extracting query dimensions from search results
EP2182447A1 (en) Real-time semantic annotation system and the method of creating ontology documents on the fly from natural language string entered by user
WO2010038540A1 (ja) テキストセグメントを有する文書から用語を抽出するためのシステム
JP2015506515A (ja) タグをドキュメントに自動的に追加するための方法、装置およびコンピュータ記憶媒体
US11531692B2 (en) Title rating and improvement process and system
US10546065B2 (en) Information extraction apparatus and method
CN112581327B (zh) 基于知识图谱的法律推荐方法、装置和电子设备
AU2011293718B2 (en) Systems and methods for lexicon generation
JP5718405B2 (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
US9058328B2 (en) Search device, search method, search program, and computer-readable memory medium for recording search program
CN115470328A (zh) 基于知识图谱的开放领域问答方法及相关设备
Mangairkarasi et al. Semantic based text summarization using universal networking language
JP5856905B2 (ja) 主題抽出装置およびそのプログラム
KR101662399B1 (ko) 키워드 입력 기반의 사용자 관심정보를 이용한 질의응답 장치 및 방법
JP5094835B2 (ja) 意味属性推定装置、方法及びプログラム
JP2010244341A (ja) 属性表現獲得方法及び装置及びプログラム
JP5982174B2 (ja) 類似度算出装置、類似番組検索装置、およびそのプログラム
English An extensible schema for building large weakly-labeled semantic corpora
JP2009217367A (ja) 関連語辞書作成方法及び装置、並びに関連語辞書作成プログラム
JP6533496B2 (ja) 説明表現出力装置、説明表現出力方法、及びプログラム
Nguyen et al. Automatic creation of semantic data about football transfer in sport news

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150401

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150915

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151016

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151214

R150 Certificate of patent or registration of utility model

Ref document number: 5856905

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees