JP5178357B2 - 単語スコア算出装置、文書ラベル判定システム、および単語スコア算出プログラム - Google Patents

単語スコア算出装置、文書ラベル判定システム、および単語スコア算出プログラム Download PDF

Info

Publication number
JP5178357B2
JP5178357B2 JP2008174835A JP2008174835A JP5178357B2 JP 5178357 B2 JP5178357 B2 JP 5178357B2 JP 2008174835 A JP2008174835 A JP 2008174835A JP 2008174835 A JP2008174835 A JP 2008174835A JP 5178357 B2 JP5178357 B2 JP 5178357B2
Authority
JP
Japan
Prior art keywords
word
electronic document
electronic
electronic documents
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008174835A
Other languages
English (en)
Other versions
JP2010015395A (ja
Inventor
正 柳原
一則 松本
智弘 小野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2008174835A priority Critical patent/JP5178357B2/ja
Publication of JP2010015395A publication Critical patent/JP2010015395A/ja
Application granted granted Critical
Publication of JP5178357B2 publication Critical patent/JP5178357B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、電子文書に含まれるテキスト情報の内容が、任意のラベルに該当するか否かを判定するために最適な単語を判定する単語スコア算出装置、文書ラベル判定システム、および単語スコア算出プログラムに関する。
従来、ブログ等のテキストベースのウェブコンテンツや、ワープロソフトなどによって生成される文書ファイルなどの電子文書に対して、その電子文書に含まれるテキスト情報の内容がどのような性質をもつものであるかを判定し、その内容に応じたラベルを付与して電子文書を分類する文書ラベル判定システムが利用されている。ラベルには、例えば、スポーツ、経済などの電子文書のトピックを示すラベルがある。このようなラベルのうち、任意のラベルにラベル判定対象の電子文書が該当するか否かを判定する際には、そのラベルに関連性の高い複数の索引語が対応付けられた辞書データが用いられる。例えば、ラベルが「経済」である場合には、索引語として「財務省」、「為替」などの単語が対応付けられた辞書データが予め記憶される。文書ラベル判定システムは、辞書データに含まれる索引語に一致する単語をラベル判定対象の電子文書から検出し、その一致の度合いに応じて、その電子文書が任意のラベルに該当するか否かを判定する。
特許文献1には、電子文書中に出現する単語を評価して、その電子文書の内容を示す特徴的な単語を検出して電子文書の要約をする技術が示されている。ここでは、電子文書中に出現する複数の単語の組み合わせに応じてその電子文書に出現する単語にスコア付けを行い、スコアに応じて単語を評価することにより、信頼性の高い単語重要度を算出している。
また、特許文献2には、情報基準量に基づくモデル検定を行って単語重要度を算出する技術が提案されている。ここでは、独立モデルにより算出するスコアから、従属モデルにより算出するスコアを差し引いて算出された値が0よりも大きな単語を、重要な単語として選び出している。
また、非特許文献1には、情報量基準に基づくモデル検定を行い、トピックに該当するかを判定する上で重要な単語のみを選出する技術が提案されている。
特開2005−141428号公報 特開2005−284209号公報 Kazunori Matsumoto, Kazuo Hashimoto, "Schema Design for Causal Law Mining from Incomplete Database", Discovery Science, Second International Conference, DS '99, Tokyo, Japan, December, 1999,Proceedings. Lecture Notes in Computer Science 1721 Springer, pp.92-102,1999.
しかしながら、ある電子文書が特定のラベルに該当するか否かを判定する際に参照する辞書データは、ユーザにより任意に作成された辞書データが用いられる場合がある。このような辞書データでは、そのラベルに最適な索引語が対応付けられているとは限らず、また索引語が固定されるため、時事的に変化する電子文書の内容の変化に応じて柔軟に索引語を変化させるのは困難である。
そこで、特定のラベルに該当すると判定された複数の電子文書から、その電子文書に含まれる単語を事後的に解析して、その電子文書に含まれる単語に応じて辞書データの内容を再帰的に更新する方法が考えられる。例えば、電子文書中に索引語の候補となる任意の単語が出現する割合と、その他の単語との割合とに応じて候補単語にスコア付けを行い、そのスコアに応じて索引語として採用するかどうかを決定することが考えられる。ただし、この方法は、電子文書中に出現する単語がそれぞれに独立して出現する回数に応じてスコア付けを行うものであるが、電子文書中の単語は、他の単語との対応関係や関連性により意味内容や重要度が異なる場合があり、必ずしも精度の良い索引語を検出できるとはいえない。ここで、特許文献1に示される技術を応用し、索引語検出の精度を上げるために、複数の単語の組み合わせによりその単語のスコア付けを行って辞書データを生成する方法も考えられるが、これでは、索引語候補が多くなるとその組み合わせ数が爆発的に増加し、計算量が多くなるという問題がある。
また、特許文献1に示される技術は、スコアの計算にx2検定の手法を使用するものであるが、x2検定による解析では、解析するデータの資質によってパラメータを調整する必要がある。また、特許文献2に示される技術では、トピックに該当するか否かを判定する上で重要である単語を検出することはできない。また、特許文献2、特許文献3は、特許文献1と同様に、複数の単語の組み合わせの重要度を求める際には組み合わせ数が爆発的に増大するという問題がある。
本発明は、このような状況に鑑みてなされたもので、電子文書中に出現する単語のうち、その内容を特徴的に表し、特定の性質に関連する単語を、その電子文書中に出現する他の単語との関連性を考慮し、かつ少ない計算量で検出する単語スコア算出装置、文書ラベル判定システム、および単語スコア算出プログラムを提供する。
上述した課題を解決するために、本発明は、複数の電子文書のうち、定められた性質に関連すると判定された電子文書の集合である第1の電子文書集合と、定められた性質に関連しないと判定された電子文書の集合である第2の電子文書集合とが記憶される第1の記憶部と、定められた性質との関連度を示すスコアの算出対象となる複数の単語が含まれる単語集が記憶される第2の記憶部と、第1の電子文書集合のうち単語集に含まれる特定の単語が含まれる電子文書の第1の電子文書数と、第2の電子文書集合のうち特定の単語が含まれる電子文書の第2の電子文書数と、第1の電子文書集合のうち特定の単語が含まれない電子文書の第3の電子文書数と、第2の電子文書集合のうち特定の単語が含まれない電子文書の第4の電子文書数とが含まれる第1の分割表を算出する第1の分割表算出部と、第1の電子文書数と、第2の電子文書数と、第3の電子文書数と、第4の電子文書数との間に因果関係有りと仮定した場合の第1の情報量基準量と、因果関係無しと仮定した場合の第2の情報量基準量とを算出し、第1の情報量基準量と第2の情報量基準量との差を、特定の単語と定められた性質との関連度を示す第1のスコアとして算出する第1のスコア算出部と、単語集に含まれる複数の単語のそれぞれについて第1のスコア算出部により第1のスコアが算出された複数の単語の集合を判定対象の集合とし、判定対象の集合に含まれる単語のうち最も第1のスコアが大きい第1の単語と、判定対象の集合に含まれる第2の単語との組み合わせについて、第1の電子文書集合のうち第1の単語と第2の単語との組み合わせが含まれる電子文書の第1の電子文書数と、第2の電子文書集合のうち第1の単語と第2の単語との組み合わせが含まれる電子文書の第2の電子文書数と、第1の電子文書集合のうち第1の単語と第2の単語との組み合わせが含まれない電子文書の第3の電子文書数と、第2の電子文書集合のうち第1の単語と第2の単語との組み合わせが含まれない電子文書の第4の電子文書数とが含まれる第2の分割表を算出する第2の分割表算出部と、第2の分割表算出部により算出された第2の分割表に含まれる第1の電子文書数と、第2の電子文書数と、第3の電子文書数と、第4の電子文書数との間に因果関係有りと仮定した場合の第1の情報量基準量と、因果関係無しと仮定した場合の第2の情報量基準量とを算出し、第1の情報量基準量と、第2の情報量基準量との差を、第1の単語と第2の単語との組み合わせと定められた性質との関連度を示す第2のスコアとして算出する第2のスコア算出部と、を備えることを特徴とする。
また、本発明は、単語集に含まれる複数の単語の組み合わせのそれぞれについて第2のスコア算出部により第2のスコアが算出された複数の単語の組み合わせの集合を判定対象の集合とし、判定対象の集合に含まれる単語の組み合わせのうち最も第2のスコアが大きい第1の単語の組み合わせを求め、判定対象の集合に含まれる第2の単語の組み合わせについて第2の分割表算出部で算出された第2の分割表に含まれる第1の電子文書数から第1の電子文書集合のうち第1の単語の組み合わせと第2の単語の組み合わせとが含まれる電子文書数を減算し、第2の分割表に含まれる第2の電子文書数から第2の電子文書集合のうち第1の単語の組み合わせと第2の単語の組み合わせとが含まれる電子文書数を減算し、第2の分割表に含まれる第1の電子文書数から第1の電子文書集合のうち第1の単語の組み合わせと第2の単語の組み合わせとが含まれない電子文書数を減算し、第2の分割表に含まれる第4の電子文書数から第2の電子文書集合のうち第1の単語の組み合わせと第2の単語の組み合わせとが含まれない電子文書数を減算した第3の分割表を算出する第3の分割表算出部と、第3の分割表算出部により算出された第3の分割表に含まれる第1の電子文書数と、第2の電子文書数と、第3の電子文書数と、第4の電子文書数との間に因果関係有りと仮定した場合の第1の情報量基準量と、因果関係無しと仮定した場合の第2の情報量基準量とを算出し、第1の情報量基準量と、第2の情報量基準量との差を、第1の単語の組み合わせと定められた性質との関連度を示す第3のスコアとして算出する第3のスコア算出部と、を備えることを特徴とする。
また、本発明は、複数の電子文書のうち、定められた性質に関連すると判定された電子文書の集合である第1の電子文書集合と、定められた性質に関連しないと判定された電子文書の集合である第2の電子文書集合とが記憶される第1の記憶部と、定められた性質との関連度を示すスコアの算出対象となる複数の単語が含まれる単語集が記憶される第2の記憶部と、第1の電子文書集合のうち単語集に含まれる特定の単語が含まれる電子文書の第1の電子文書数と、第2の電子文書集合のうち特定の単語が含まれる電子文書の第2の電子文書数と、第1の電子文書集合のうち特定の単語が含まれない電子文書の第3の電子文書数と、第2の電子文書集合のうち特定の単語が含まれない電子文書の第4の電子文書数とが含まれる第1の分割表を算出する第1の分割表算出部と、第1の電子文書数と、第2の電子文書数と、第3の電子文書数と、第4の電子文書数との間に因果関係有りと仮定した場合の第1の情報量基準量と、因果関係無しと仮定した場合の第2の情報量基準量とを算出し、第1の情報量基準量と第2の情報量基準量との差を、特定の単語と定められた性質との関連度を示す第1のスコアとして算出する第1のスコア算出部と、単語集に含まれる複数の単語のそれぞれについて第1のスコア算出部により第1のスコアが算出された複数の単語の集合を判定対象の集合とし、判定対象の集合に含まれる単語のうち最も第1のスコアが大きい第1の単語を求め、判定対象の集合に含まれる第2の単語について第1の分割表算出部で算出された第1の分割表に含まれる第1の電子文書数から第1の電子文書集合のうち第1の単語と第2の単語とが含まれる電子文書数を減算し、第1の分割表に含まれる第2の電子文書数から第2の電子文書集合のうち第1の単語と第2の単語とが含まれる電子文書数を減算し、第1の分割表に含まれる第1の電子文書数から第1の電子文書集合のうち第1の単語と第2の単語とが含まれない電子文書数を減算し、第1の分割表に含まれる第4の電子文書数から第2の電子文書集合のうち第1の単語と第2の単語とが含まれない電子文書数を減算した第4の分割表を算出する第4の分割表算出部と、第4の分割表算出部により算出された第4の分割表に含まれる第1の電子文書数と、第2の電子文書数と、第3の電子文書数と、第4の電子文書数との間に因果関係有りと仮定した場合の第1の情報量基準量と、因果関係無しと仮定した場合の第2の情報量基準量とを算出し、第1の情報量基準量と、第2の情報量基準量との差を、特定の単語と定められた性質との関連度を示す第4のスコアとして算出する第4のスコア算出部と、を備えることを特徴とする。
また、本発明は、上述の単語スコア算出装置のうちいずれかの単語スコア算出装置と、第2の記憶部に記憶される単語集に含まれる複数の単語のそれぞれについて、定められた性質を表すラベルと、単語スコア算出装置によってスコアが算出された単語のうち、ラベルが表す定められた性質との関連度を示すスコアが大きい単語から定められた数の単語とが対応付けられた辞書データが記憶される辞書データベースと、入力される電子文書に含まれる単語と、辞書データベースに記憶された辞書データに含まれる単語とに基づいて、電子文書がラベルに該当するか否かを判定するラベル判定装置と、を備えることを特徴とする。
また、本発明は、複数の電子文書のうち、定められた性質に関連すると判定された電子文書の集合である第1の電子文書集合と、定められた性質に関連しないと判定された電子文書の集合である第2の電子文書集合とが記憶される第1の記憶部と、定められた性質との関連度を示すスコアの算出対象となる複数の単語が含まれる単語集が記憶される第2の記憶部とを備える単語スコア算出装置のコンピュータに、第1の電子文書集合のうち単語集に含まれる特定の単語が含まれる電子文書の第1の電子文書数と、第2の電子文書集合のうち特定の単語が含まれる電子文書の第2の電子文書数と、第1の電子文書集合のうち特定の単語が含まれない電子文書の第3の電子文書数と、第2の電子文書集合のうち特定の単語が含まれない電子文書の第4の電子文書数とが含まれる第1の分割表を算出するステップと、第1の電子文書数と、第2の電子文書数と、第3の電子文書数と、第4の電子文書数との間に因果関係有りと仮定した場合の第1の情報量基準量と、因果関係無しと仮定した場合の第2の情報量基準量とを算出し、第1の情報量基準量と第2の情報量基準量との差を、特定の単語と定められた性質との関連度を示す第1のスコアとして算出するステップと、単語集に含まれる複数の単語のそれぞれについて第1のスコアが算出された複数の単語の集合を判定対象の集合とし、判定対象の集合に含まれる単語のうち最も第1のスコアが大きい第1の単語と、判定対象の集合に含まれる第2の単語との組み合わせについて、第1の電子文書集合のうち第1の単語と第2の単語との組み合わせが含まれる電子文書の第1の電子文書数と、第2の電子文書集合のうち第1の単語と第2の単語との組み合わせが含まれる電子文書の第2の電子文書数と、第1の電子文書集合のうち第1の単語と第2の単語との組み合わせが含まれない電子文書の第3の電子文書数と、第2の電子文書集合のうち第1の単語と第2の単語との組み合わせが含まれない電子文書の第4の電子文書数とが含まれる第2の分割表を算出するステップと、第2の分割表に含まれる第1の電子文書数と、第2の電子文書数と、第3の電子文書数と、第4の電子文書数との間に因果関係有りと仮定した場合の第1の情報量基準量と、因果関係無しと仮定した場合の第2の情報量基準量とを算出し、第1の情報量基準量と、第2の情報量基準量との差を、第1の単語と第2の単語との組み合わせと定められた性質との関連度を示す第2のスコアとして算出するステップと、を実行させる単語スコア算出プログラムである。
以上説明したように、本発明によれば、定められた性質に関連すると判定された第1の電子文書集合と、関連しないと判定された第2の電子文書集合と、複数の単語が含まれる単語集とについて、第1の電子文書集合のうち単語集に含まれる特定の単語が含まれる第1の電子文書数と、第2の電子文書集合のうち特定の単語が含まれる第2の電子文書数と、第1の電子文書集合のうち特定の単語が含まれない第3の電子文書数と、第2の電子文書集合のうち特定の単語が含まれない第4の電子文書数とが含まれる第1の分割表を算出し、第1の電子文書数と、第2の電子文書数と、第3の電子文書数と、第4の電子文書数との間に因果関係有りと仮定した場合の第1の情報量基準量と、因果関係無しと仮定した場合の第2の情報量基準量とを算出し、第1の情報量基準量と第2の情報量基準量との差を、特定の単語と定められた性質との関連度を示す第1のスコアとして算出し、単語集に含まれる複数の単語のそれぞれについて第1のスコアが算出された複数の単語の集合を判定対象の集合とし、判定対象の集合に含まれる単語のうち最も第1のスコアが大きい第1の単語と、判定対象の集合に含まれる第2の単語との組み合わせについて第2の分割表を算出し、因果関係有りと仮定した場合の第1の情報量基準量と、因果関係無しと仮定した場合の第2の情報量基準量との差を、第1の単語と第2の単語との組み合わせと定められた性質との関連度を示す第2のスコアとして算出するようにしたので、複数の電子文書の集合のうち、特定の単語と他の単語との組み合わせが含まれる電子文書と、特定の単語と他の単語との組み合わせが含まれない電子文書との因果関係に基づいて、定められた性質と電子文書中に出現する特定の単語と他の単語との組み合わせとの関連度を求める単語スコア算出装置を提供することが可能となる。また、これによれば、第1のスコア算出部により算出された第1のスコアに応じて算出された分割表を用いて関連度を算出するため、特定の単語の組み合わせと他の単語の組み合わせとの関連度を総当りで算出するよりも少ない演算量で、関連度を求めることが可能となる。
また、本発明によれば、単語集に含まれる複数の単語の組み合わせのそれぞれについて第3のスコアが算出された複数の単語の組み合わせの集合を判定対象の集合とし、判定対象の集合に含まれる単語の組み合わせのうち最も第2のスコアが大きい第1の単語の組み合わせと、判定対象の集合に含まれる第2の単語の組み合わせとのそれぞれの第3の分割表に基づいて第3の分割表を算出し、因果関係有りと仮定した場合の第1の情報量基準量と、因果関係無しと仮定した場合の第2の情報量基準量との差を、第1の単語の組み合わせと定められた性質との関連度を示す第3のスコアとして算出するようにしたので、複数の電子文書の集合のうち、特定の単語の組み合わせが含まれる電子文書と、特定の単語の組み合わせが含まれない電子文書との因果関係を、特定の単語の組み合わせと他の単語の組み合わせとのそれぞれの第2のスコアの大きさに応じて算出する第3の分割表に基づいて、定められた性質と電子文書中に出現する特定の単語の組み合わせとの関連度を求める単語スコア算出装置を提供することが可能となる。
また、本発明によれば、第1のスコア算出部により第1のスコアが算出された複数の単語の集合を判定対象の集合に含まれる単語のうち、最も第1のスコアが大きい第1の単語と、判定対象の集合に含まれる第2の単語とのそれぞれの第1の分割表に基づいて第4の分割表を算出し、因果関係有りと仮定した場合の第1の情報量基準量と、因果関係無しと仮定した場合の第2の情報量基準量との差を、特定の単語と定められた性質との関連度を示す第4のスコアとして算出するようにしたので、複数の電子文書の集合のうち、特定の単語が含まれる電子文書と、特定の単語が含まれない電子文書との因果関係を、特定の単語と他の単語とのそれぞれの第1のスコアの大きさに応じて算出する第4の分割表に基づいて、定められた性質と電子文書中に出現する特定の単語との関連度を求める単語スコア算出装置を提供することが可能となる。また、これによれば、第1のスコア算出部により算出された第1のスコアに応じて算出された分割表を用いて関連度を算出するため、特定の単語と他の単語との関連度を総当りで算出するよりも少ない演算量で、関連度を求めることが可能となる。
また、本発明によれば、単語集に含まれる複数の単語のそれぞれについて、定められた性質を表すラベルと、上述した単語スコア算出装置のうちいずれかの単語スコア算出装置によって算出されたスコアの大きい単語から定められた数の単語とが対応付けられた辞書データが辞書データベースに記憶され、入力される電子文書に含まれる単語と、辞書データに含まれる前記単語とに基づいて、電子文書がラベルに該当するか否かを判定するようにしたので、複数の電子文書に出現する特定の単語と他の単語との関連性に応じて算出されたスコアに基づいて、定められた性質を表すラベルに電子文書が該当するか否かを判定することが可能となる。
以下、本発明の一実施形態について、図面を参照して説明する。
図1は、本実施形態による文書ラベル判定システム1のシステム構成を示す図である。文書ラベル判定システム1は、ラベル判定装置200と、辞書データベース300と、索引語スコア算出装置100とを備えている。
辞書データベース300は、辞書データが記憶される記憶装置である。辞書データは、定められた単語等のラベルと、そのラベルに関連性の高い複数の索引語とが対応付けられた情報である。例えば、ラベルが「経済」であれば、その索引語として「財務省」、「為替」、「相場」、「動向」、「ドル」・・・などの単語が対応付けられる。辞書データは、「政治」、「スポーツ」などのトピックを示すそれぞれのラベルに対応付けられた複数の索引語を含むこととして良い。さらに、「スポーツ」のなかでも「サッカー」、「野球」などに階層化されたトピックをラベルとして索引語が対応付けられた辞書データを含むこととしても良い。また、辞書データには、例えば「有害」のラベルに、18歳未満には適切でないと思われる単語を索引語として対応付けたものを含んでも良い。辞書データベース300に記憶される辞書データは、ラベル判定装置200が電子文書のラベル判定処理を行う際に読み出される。辞書データベース300は、独立したコンピュータ装置を適用しても良いし、ラベル判定装置200にインストールされたデータベースアプリケーションなどを適用しても良い。
ラベル判定装置200は、辞書データベース300に記憶されている辞書データを読み出し、読み出した辞書データと、入力される電子文書とを比較、解析して電子文書に対応するラベルを判定するコンピュータ装置である。ここで、入力される電子文書とは、例えば、ブログ等のテキストベースのウェブコンテンツや、ワープロソフトなどによって生成される文書ファイルなどの電子文書である。ラベル判定装置200は、ラベル判定対象となる電子文書の入力を受付け、辞書データベース300から読み出した辞書データに含まれるラベル毎に、そのラベルに対応する索引語に一致する単語が電子文書に含まれるか否かを判定し、その電子文書が任意のラベルに該当するか否かを判定するラベル判定処理を行う。例えば、ラベル判定装置200は、辞書データのラベルに対応する単語を、判定対象とする電子文書に含まれるテキストデータのうちから定められた閾値を超えて検出した場合には、そのラベルをその電子文書のラベルと判定する。また、例えば、ラベル判定装置200は、ひとつの電子文書が複数のラベルに該当するか否かをそれぞれに判定し、ひとつの電子文書に該当する複数のラベルを割り当てるようにしても良い。
索引語スコア算出装置100は、ラベル判定装置200がラベル判定を行った電子文書とそのラベルに基づいて、そのラベルに対応する最適な索引語を再帰的に算出し、辞書データベース300に記憶される辞書データを更新して記憶させるコンピュータ装置である。すなわち、辞書データベース300に記憶された辞書データが、初期状態ではラベルに対して例えばユーザによって任意に定められた索引語の群が対応付けられたものであるとしても、その辞書データによりラベルに対応すると判定された電子文書から、最適な索引語を再帰的に検出して辞書データを生成することにより、例えば時事的に重要単語が変化するウェブ上のブログサイトやニュースサイトに対しても、その変化に合わせた最適なラベルを判定するための辞書データを生成することが可能となる。
索引語スコア算出装置100は、ラベル判定結果記憶部110と、正規化処理部120と、形態素解析部130と、形態素解析用辞書記憶部140と、単語分布算出部150と、単語分布表記憶部160と、索引語スコア算出部170と、辞書登録部180とを備えている。
ラベル判定結果記憶部110には、ラベル判定装置200によりラベル判定が行われた電子文書と、その電子文書が特定のラベルに該当すると判定されたか否かを示すラベル判定結果が記憶される。ここで、ラベル判定結果記憶部110に記憶される電子文書には、その電子文書がブログデータである場合には、ブログ記事のテキスト本文、絵文字、HTML(HyperText Markup Language)タグなどが含まれるが、画像データは含まれない。
正規化処理部120は、ラベル判定結果記憶部110に記憶されているラベル判定済みの電子文書とラベル判定結果とを入力とし、正規化処理を行って正規化済電子文書を出力する。正規化処理部120が行う正規化処理は、例えば、以下の処理を含む。まず、ハイフン、マイナス記号、長音記号などの類似する記号を、定められたルールセットに従って正規化する。ここでは、例えばこれら全てをハイフンに変換することにより正規化する。また、半角文字を全て全角文字に変換する。また、タブ文字を全て空白文字に変換する。また、絵文字を特定の文字記号(例えば、0xA2A2)に変換する。また、電子文書がブログ記事等のウェブデータである場合には、ウェブデータからHTMLタグを取り除く。また、日本語の小文字は大文字に変換する。ここでは、例えば、小文字である「ィ」を大文字の「イ」に変換する。ただし、後述する形態素解析用辞書記憶部140に記憶される単語で、形態素解析用辞書記憶部140には小文字が含まれる状態で記憶されている場合には、小文字から大文字への変換は行わない。また、ここでは、英文字の小文字は小文字のままとし、大文字へは変換しない。
形態素解析部130は、正規化処理部120により出力される正規化済電子文書と、その電子文書に対するラベル判定結果と、形態素解析用辞書記憶部140から読み出す形態素解析用辞書とを入力とし、正規化済電子文書の形態素解析処理を行って、ドキュメントベクトルテーブルを出力する。ここで、ドキュメントベクトルテーブルとは、例えば、電子文書に「私の名前は中村です」というテキストが含まれる場合に、これらを形態素解析し、「私」、「の」、「名前」、「は」、「中村」、「です」、などのように、テキストデータを形態素(意味のある最小単位)に分割し、またそれぞれの品詞を判定して品詞情報が対応付けられたデータである。
単語分布算出部150は、形態素解析部130による形態素解析処理で生成されるドキュメントベクトルテーブルに基づいて、単語分布表を生成して出力する。単語分布表は、形態素解析部130によってテキストデータが形態素に分割されたドキュメントベクトルテーブルから、例えば助詞や助動詞などの特定の品詞を取り除き、索引語の対象とする名詞等の単語のみを抽出した単語リストのそれぞれの単語に、電子文書中での出現頻度を示す度数が対応付けられた表である。ここで、単語分布算出部150は、電子文書から抽出した単語の正規化処理を行う。例えば、英単語の正規化処理を行い、英単語の小文字を大文字へ変換する。また、カタカナ単語の表記揺れの変換を行い、例えば、「タイヤモンド」なとの単語があれば、「ダイヤモンド」の文字データに変換する。このように、形態素解析処理の後に単語レベルでの正規化処理を行うことにより、例えば「西日本」などの表記がある場合、この語が「西日本」の一単語であるか、「西日」と「本」との二単語により構成される語であるのかを的確に検出することができる。
ここで、単語分布算出部150は、複数の電子文書に対してひとつの単語分布表を生成することとし、正規化後の文字列が単語分布表に含まれていなければ、その正規化済み単語を単語分布表に新たに追加する。単語分布算出部150が生成する単語分布表において、正規化済み単語のそれぞれに対応付けられる出現回数の度数の計算方式には、特定の単語が同一の電子文書中に出現した回数に応じて度数を加算する方式(tf:term frequency)と、同一の電子文書中に出現した回数に関わらず、特定の単語がひとつの電子文書中に出現したか否かにより度数を算出する方式(df:document frequency)とのいずれかを適用することができる。本実施形態では、複数の電子文書中のそれぞれに単語が出現したか否かにより度数を算出するdfの方式を適用する。単語分布算出部150は、生成した単語分布表を単語分布表記憶部160に記憶させる。
単語分布表記憶部160には、単語分布算出部150により生成される単語分布表が記憶される。単語分布表は、上述したように、索引語の候補となる単語ごとに、その単語の電子文書中での出現頻度を示す度数が対応付けられたデータ表である。
索引語スコア算出部170は、ラベル判定結果記憶部110に記憶されるラベル判定結果と、単語分布表記憶部160に記憶される単語分布表とに基づいて、電子文書中に任意の単語が含まれるか否かについての2×2分割表を生成し、単語分布表に含まれる各単語のスコアを算出する。索引語スコア算出部170は、SSS算出部171と、MSS算出部172と、MDS算出部173と、SDS算出部174とを備えている。
SSS算出部171は、ラベル判定結果記憶部110に記憶されるラベル判定結果と、単語分布表記憶部160に記憶される単語分布表とを読み出し、電子文書中に任意の単語が含まれるか否かについての2×2分割表を生成し、生成した2×2分割表に基づいたシングルスタティックスコアの単語リストSSS(W)を算出する。
図2は、SSS算出部171が生成する2×2分割表の概念を示す図である。ここでは、ラベル判定装置200により任意のラベルについてラベル判定対象となった全ての全電子文書の数をNALLとし、NALLのうち任意のラベルに該当すると判定された電子文書の数をNOKとし、NALLのうち任意のラベルに該当しないと判定された電子文書の数をNNGとする。また、単語分布表に含まれる全ての単語の集合を単語集合Wとし、単語集合Wに含まれるそれぞれの単語をwとする。ここで、任意のラベルに該当すると判定されたNOK個の電子文書のうち、任意の単語wが含まれる文書の数をN11(w)とする。また、任意のラベルに該当しないと判定されたNNG個の電子文書のうち、任意の単語wが含まれる文書の数をN12(w)とする。また、任意のラベルに該当すると判定されたNOK個の電子文書のうち、任意の単語wが含まれない文書の数をN21(w)とする。また、任意のラベルに該当しないと判定されたNNG個の電子文書のうち、任意の単語wが含まれない文書の数をN22(w)とする。
このとき、以下の式が成り立つ。
・N11(w)+N12(w)=df(w)(NALLのうち、単語wを含む文書の数)
・N21(w)+N22(w)=NALL−df(w)
・N11(w)+N21(w)=NOK
・N11(w)+N22(w)=NNG
以下の説明において、N11(w)+N12(w)を、qと表す。また、N11(w)+N21(w)を、rと表す。また、N11(w)+N12(w)+N21(w)+N22(w)を、zと表す。
SSS算出部171は、生成した2×2分割表に基づいて、以下式(1)により、因果関係有りと仮定した場合の対数尤度値MLLを求め、情報量基準量であるAIC(IM)値を算出する。以下、logの底である10は省略して表記する。
Figure 0005178357
さらに、以下式(2)により、因果関係無しと仮定した場合の対数尤度値MLLを求め、情報量基準量であるAIC(DM)値を算出する。
Figure 0005178357
ここで、上記式(1)と式(2)とによって算出されたAIC(IM)値とAIC(DM)値とに基づいて、単語重要度E(w)を以下式(3)または以下式(4)により算出する。
Figure 0005178357
Figure 0005178357
そして、単語集合Wに含まれる全ての単語wについての単語重要度E(w)を算出した後、単語重要度E(w)の値を降順に並べ替えた単語リストSSS(W)を生成する。このとき、単語リストSSS(W)の単語wの並びは、w、w、・・・wNALLとなり、i番目の単語wに対するシングルスタティックスコアsss(w)はE(w)となる。このようにして、sss(w)を降順に並べた単語リストSSS(W)を生成する。
SDS算出部174は、SSS算出部171が算出した単語リストSSS(W)と、単語集合Wに含まれるそれぞれの単語wに対応する2×2分割表とを入力として、単語集合Wに含まれるそれぞれの単語wについてのシングルダイナミックスコアsds(w)の単語リストSDS(W)を算出する。ここで、SSS算出部171によってシングルススタティックスコアsss(w)が降順に並べられた単語リストであるSSS(W)を、集合C(C={w、w、・・・wNALL})とする。また、単語集合Wに含まれるそれぞれの単語wをsds(w)の値により降順に並べる単語の集合をLとする。初期状態では、L={}(空集合)である。
SDS算出部174は、集合Cの中から、sss(w)が最大となるwを求める。そして、Cからwを除き(C=C−{w})、sss(w)を仮のsds(w)とする(sds(w)=sss(w))。ここで、任意のラベルに該当すると判定されたNOK個の電子文書のうち、単語wと他の任意の単語wとが含まれる文書の数をn11ij)とする。また、任意のラベルに該当しないと判定されたNNG個の電子文書のうち、単語wと他の任意の単語wとが含まれる文書の数をn12ij)とする。また、任意のラベルに該当すると判定されたNOK個の電子文書のうち、単語wと他の任意の単語wとが含まれない文書の数をn21ij)とする。また、任意のラベルに該当しないと判定されたNNG個の電子文書のうち、単語wと他の任意の単語wとが含まれない文書の数をn22ij)とする。そして、Cのうちの他の単語wについて、SSS算出部171が生成した2×2分割表の各値を、以下のように更新する。
・N11(w)=N11(w)−n11ij
・N12(w)=N12(w)−n12ij
・N21(w)=N21(w)−n21ij
・N22(w)=N22(w)−n22ij
そして、単語wについての2×2分割表から、上記式(1)、上記式(2)、上記式(3)、上記式(4)に倣って単語重要度E(w)を算出する。SDS算出部174は、Cに含まれる単語のうち、単語重要度E(w)の値が最も大きくなるwを求め、単語重要度E(w)を、sds(w)として集合Lに追加する(L=L+{w})。
SDS算出部174は、集合Cが空集合になるまで、集合Cの中からsss(w)が最大となるwを求める処理から、最もsds(w)の値が大きくなるwを集合Lに追加するまでの処理を繰り返す。これにより、sds(w)を降順に並べた単語リストSDS(W)を求めることができる。この単語リストSDS(W)は、全ての単語wについて、その単語wより上位の単語の影響を除いた状態でのスコア順に並べられたリストとなる。
MSS算出部172は、SSS算出部171が算出したSSS(W)と、単語集合Wに含まれるそれぞれの単語wに対応する2×2分割表とを入力として、単語集合Wに含まれるそれぞれの単語wについてのマルチスタティックスコアの単語リストMSS(W)を算出する。ここで、単語集合Wに含まれる任意の単語の組み合わせωの集合をGとする。初期状態では、G={}(空集合)である。また、Gに追加した組み合わせωの数を示す変数をuとする。初期状態では、u=0である。
MSS算出部172は、単語集合Wのうち、sss(w)が最も大きい単語wを求める。また、単語w以外に、シングルスタティックスコアが大きいm個の単語w〜wを求める(mは、定められた任意の数)。そして、単語wと任意の単語w(1≦j≦m)との組み合わせωに対するそれぞれの2×2分割表を算出する。ここでは、任意のラベルに該当すると判定されたNOK個の電子文書のうち、単語wと任意の単語wとの組み合わせωが含まれる文書の数をN11(ω)とする。また、任意のラベルに該当しないと判定されたNNG個の電子文書のうち、単語wと任意の単語wとの組み合わせωが含まれる文書の数をN12(ω)とする。また、任意のラベルに該当すると判定されたNOK個の電子文書のうち、単語wと任意の単語wとの組み合わせωが含まれない文書の数をN21(ω)とする。また、任意のラベルに該当しないと判定されたNNG個の電子文書のうち、単語wと任意の単語wとの組み合わせωが含まれない文書の数をN22(ω)とする。
このとき、以下の式が成り立つ。
・N11(ω)+N12(ω)=df(ω)(NALLのうち、組み合わせωを含む文書の数)
・N21(ω)+N22(ω)=NALL−df(ω
・N11(ω)+N21(ω)=NOK
・N11(ω)+N22(ω)=NNG
ここで、単語wごとに繰り返して組み合わせωについての2×2分割表を算出する処理中に、既にwとwとの組み合わせωに対する2×2分割表についての算出を行っている場合には、再算出しない。このように同一の組み合わせについて重複して2×2分割表を算出しないようにすれば、演算量を減らすことができる。そして、上記式(1)、上記式(2)、上記式(3)、上記式(4)に倣って算出する重要度E(ω)を、MSS(ω)とし、単語wと単語w(1≦j≦m)の組み合わせωのうち、最もMSS(ω)の値が大きくなるωを求める。ここで、ωを、組み合わせ集合Gに追加する(G=G+{ω})。また、変数uをインクリメントする(u=u+1)。ここで、単語wを除く単語集合Wに含まれる単語wのうち、sss(w)が最も大きい単語wを、重要度判定対象の単語wとして、単語w以外にシングルスタティックスコアsss(w)が大きいm個の単語w〜wを求める処理から、最もMSS(ω)の値が大きくなる単語の組み合わせを求めて組み合わせ集合Gに追加する処理を繰り返す。これにより、mss(w)をスコアの降順に並べた単語リストMSS(W)を求めることができる。
MDS算出部173は、MSS算出部172が算出した単語リストMSS(W)と、Wに含まれる単語wと単語wとの組み合わせωに対する2×2分割表とを入力として、単語集合Wに含まれるそれぞれの単語wと他の単語との組み合わせωについてのマルチダイナミックスコアmds(ω)の単語リストMDS(W)を算出する。ここで、MSS算出部172によってマルチスタティックスコアsss(w)が降順に並べられた単語リストであるMSS(W)を、集合C(C={ω、ω、・・・ωNALL})とする。また、単語の組み合わせωについてのmds(ω)の値により降順に並べる単語の集合をLとする。初期状態では、L={}(空集合)である。
MDS算出部173は、集合Cの中から、mds(ω)が最大となるωを求める。そして、Cからωを除き(C=C−{ω})、mss(ω)を仮のmds(ω)とする(mds(ω)=mss(ω))。ここで、任意のラベルに該当すると判定されたNOK個の電子文書のうち、単語の組み合わせωと他の任意の単語の組み合わせωとが含まれる文書の数をn11ij)とする。また、任意のラベルに該当しないと判定されたNNG個の電子文書のうち、単語の組み合わせωと他の任意の単語の組み合わせωとが含まれる文書の数をn12ij)とする。また、任意のラベルに該当すると判定されたNOK個の電子文書のうち、単語の組み合わせωと他の任意の単語の組み合わせωとが含まれない文書の数をn21ij)とする。また、任意のラベルに該当しないと判定されたNNG個の電子文書のうち、単語の組み合わせωと他の任意の単語の組み合わせωとが含まれない文書の数をn22ij)とする。そして、Cのうちの他の単語の組み合わせwについて、MSS算出部172が生成した2×2分割表の各値を、以下のように更新する。
・N11(w)=N11(w)−n11ij
・N12(w)=N12(w)−n12ij
・N21(w)=N21(w)−n21ij
・N22(w)=N22(w)−n22ij
そして、更新した単語の組み合わせwについての2×2分割表から、上記式(1)、上記式(2)、上記式(3)、上記式(4)に倣って単語重要度E(ω)を算出する。SDS算出部174は、Cに含まれる単語の組み合わせのうち、単語重要度E(ω)の値が最も大きくなるwを求め、単語重要度E(ω)を、mds(ω)として集合Lに追加する(L=L+{ω})。
MDS算出部173は、集合Cが空集合になるまで、集合Cの中からmss(ω)が最大となるωを求める処理から、最もmds(ω)の値が大きくなるωを集合Lに追加するまでの処理を繰り返す。これにより、mds(ω)を降順に並べた単語リストMDS(W)を求めることができる。この単語リストMDS(W)は、全ての単語の組み合わせωについて、その単語の組み合わせωより上位の単語の影響を除いた状態でのスコア順に並べられたリストとなる。
辞書登録部180は、索引語スコア算出部170により算出された単語リストSSS(W)、SDS(W)、MSS(W)、MDS(S)のうちいずれかまたは複数の単語リストのうち、スコアの大きい定められた複数の単語を、辞書データベース300に辞書データとして記憶させる。
次に、図3を参照して、本発明による索引語スコア算出装置100が、ラベル判定結果に基づいて辞書データベース300に記憶された辞書データを更新する動作例を説明する。
ラベル判定装置200は、例えば、インターネットを介して取得し記憶した複数のテキストベースのウェブコンテンツを、ラベル判定対象の電子文書として読み出す。そして、ラベル判定装置200は、辞書データベース300から読み出した辞書データに含まれるラベルに対応する一定数以上の単語が、ラベル判定対象のウェブコンテンツに含まれるか否かを判定し、そのラベルにそのウェブコンテンツが該当するか否かを判定する。ラベル判定装置200は、ラベル判定処理を行ったウェブコンテンツと、その判定結果を示す情報とを、ラベル判定結果記憶部110に記憶させる。
正規化処理部120は、ラベル判定結果記憶部110に記憶されているラベル判定済みのウェブコンテンツとラベル判定結果とを読み出し(ステップS1)、ウェブコンテンツの正規化処理を行う(ステップS2)。形態素解析部130は、ステップS2でウェブコンテンツが正規化された電子文書と、形態素解析用辞書記憶部140から読み出す形態素解析用辞書とに基づいて、正規化済電子文書の形態素解析処理を行い、ドキュメントベクトルテーブルを生成する(ステップS3)。
単語分布算出部150は、ステップS3で形態素解析部130により生成されたドキュメントベクトルテーブルに基づいて、単語分布表を生成する(ステップS4)。ここで、索引語スコア算出装置100は、ラベル判定結果記憶部110に単語分布表の更新の対象としていないウェブコンテンツと判定結果とがラベル判定結果記憶部110に存在すれば(ステップS5:YES)、ステップS1からステップS4までの処理を繰り返す。
単語分布算出部150が、ラベル判定結果記憶部110に記憶されたウェブコンテンツと判定結果との全てに基づいて、単語分布表の更新を行った場合には(ステップS5:NO)、索引語スコア算出部170のSSS算出部171は、上述したSSS算出処理を行う。SDS算出部174は、SSS算出部171が算出したSSS(W)に基づいて、SDS算出処理を行い、各単語のSDSを求めた単語リストSDS(W)を算出する(ステップS7)。一方、MSS算出部172は、SSS算出部171が算出したSSS(W)に基づいて、MSS算出処理を行い、各単語のMSSを求めた単語リストMSS(W)を算出する(ステップS8)。そして、MDS算出部173は、MSS算出部172が算出したMSS(W)に基づいて、MDS算出処理を行い、各単語のMDSを求めた単語リストMDS(W)を算出する(ステップS9)。辞書登録部180は、算出された単語リストSSS(W)、SDS(W)、MSS(W)、MDS(S)のうちいずれかまたは複数の単語リストのうち、スコアの大きい定められた複数の単語を、辞書データベース300に辞書データとして記憶させる(ステップS10)。
このように、本実施形態によれば、定められたラベルに関する辞書データを用いて、ラベル判定対象の電子文書がそのラベルに該当するか否かを判定する際に、単一の単語を用いて判定処理を行ってフィルタリングを行うよりも、トピック抽出の精度を向上させることが可能となる。さらに、2×2分割表を用いた情報量基準量を算出することで、単語の組み合わせを総当りで判定するよりも少ない計算量で、最適な複数単語の組み合わせを検出することが可能となる。
なお、本発明における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより索引語スコアの算出を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
本発明の一実施形態による文書ラベル判定システムのシステム構成を示す図である。 本発明の一実施形態により作成される分割表の概念を示す図である。 本発明の一実施形態による文書ラベル判定システムの動作例を示すフローチャートである。
符号の説明
1 文書ラベル判定システム
100 索引語スコア算出装置
110 ラベル判定結果記憶部
120 正規化処理部
130 形態素解析部
140 形態素解析用辞書記憶部
150 単語分布算出部
160 単語分布表記憶部
170 索引語スコア算出部
171 SSS算出部
172 MSS算出部
173 MDS算出部
174 SDS算出部
180 辞書登録部
200 ラベル判定装置
300 辞書データベース

Claims (5)

  1. 複数の電子文書のうち、定められた性質に関連すると判定された電子文書の集合である第1の電子文書集合と、前記定められた性質に関連しないと判定された電子文書の集合である第2の電子文書集合とが記憶される第1の記憶部と、
    前記定められた性質との関連度を示すスコアの算出対象となる複数の単語が含まれる単語集が記憶される第2の記憶部と、
    前記第1の電子文書集合のうち前記単語集に含まれる特定の単語が含まれる電子文書の第1の電子文書数と、前記第2の電子文書集合のうち前記特定の単語が含まれる電子文書の第2の電子文書数と、前記第1の電子文書集合のうち前記特定の単語が含まれない電子文書の第3の電子文書数と、前記第2の電子文書集合のうち前記特定の単語が含まれない電子文書の第4の電子文書数とが含まれる第1の分割表を算出する第1の分割表算出部と、
    前記第1の電子文書数と、前記第2の電子文書数と、前記第3の電子文書数と、前記第4の電子文書数との間に因果関係有りと仮定した場合の第1の情報量基準量と、因果関係無しと仮定した場合の第2の情報量基準量とを算出し、前記第1の情報量基準量と前記第2の情報量基準量との差を、前記特定の単語と前記定められた性質との関連度を示す第1のスコアとして算出する第1のスコア算出部と、
    前記単語集に含まれる複数の単語のそれぞれについて前記第1のスコア算出部により前記第1のスコアが算出された当該複数の単語の集合を判定対象の集合とし、当該判定対象の集合に含まれる単語のうち最も前記第1のスコアが大きい第1の単語と、前記判定対象の集合に含まれる第2の単語との組み合わせについて、前記第1の電子文書集合のうち前記第1の単語と前記第2の単語との組み合わせが含まれる電子文書の第1の電子文書数と、前記第2の電子文書集合のうち前記第1の単語と前記第2の単語との組み合わせが含まれる電子文書の第2の電子文書数と、前記第1の電子文書集合のうち前記第1の単語と前記第2の単語との組み合わせが含まれない電子文書の第3の電子文書数と、前記第2の電子文書集合のうち前記第1の単語と前記第2の単語との組み合わせが含まれない電子文書の第4の電子文書数とが含まれる第2の分割表を算出する第2の分割表算出部と、
    当該第2の分割表算出部により算出された前記第2の分割表に含まれる前記第1の電子文書数と、前記第2の電子文書数と、前記第3の電子文書数と、前記第4の電子文書数との間に因果関係有りと仮定した場合の第1の情報量基準量と、因果関係無しと仮定した場合の第2の情報量基準量とを算出し、前記第1の情報量基準量と、前記第2の情報量基準量との差を、前記第1の単語と前記第2の単語との組み合わせと前記定められた性質との関連度を示す第2のスコアとして算出する第2のスコア算出部と、
    を備えることを特徴とする単語スコア算出装置。
  2. 前記単語集に含まれる複数の単語の組み合わせのそれぞれについて前記第2のスコア算出部により前記第2のスコアが算出された当該複数の単語の組み合わせの集合を判定対象の集合とし、当該判定対象の集合に含まれる単語の組み合わせのうち最も前記第2のスコアが大きい第1の単語の組み合わせを求め、前記判定対象の集合に含まれる第2の単語の組み合わせについて前記第2の分割表算出部で算出された前記第2の分割表に含まれる前記第1の電子文書数から前記第1の電子文書集合のうち前記第1の単語の組み合わせと前記第2の単語の組み合わせとが含まれる電子文書数を減算し、前記第2の分割表に含まれる前記第2の電子文書数から前記第2の電子文書集合のうち前記第1の単語の組み合わせと前記第2の単語の組み合わせとが含まれる電子文書数を減算し、前記第2の分割表に含まれる前記第1の電子文書数から前記第1の電子文書集合のうち前記第1の単語の組み合わせと前記第2の単語の組み合わせとが含まれない電子文書数を減算し、前記第2の分割表に含まれる前記第4の電子文書数から前記第2の電子文書集合のうち前記第1の単語の組み合わせと前記第2の単語の組み合わせとが含まれない電子文書数を減算した第3の分割表を算出する第3の分割表算出部と、
    当該第3の分割表算出部により算出された前記第3の分割表に含まれる前記第1の電子文書数と、前記第2の電子文書数と、前記第3の電子文書数と、前記第4の電子文書数との間に因果関係有りと仮定した場合の第1の情報量基準量と、因果関係無しと仮定した場合の第2の情報量基準量とを算出し、前記第1の情報量基準量と、前記第2の情報量基準量との差を、前記第1の単語の組み合わせと前記定められた性質との関連度を示す第3のスコアとして算出する第3のスコア算出部と、
    を備えることを特徴とする請求項1に記載の単語スコア算出装置。
  3. 複数の電子文書のうち、定められた性質に関連すると判定された電子文書の集合である第1の電子文書集合と、前記定められた性質に関連しないと判定された電子文書の集合である第2の電子文書集合とが記憶される第1の記憶部と、
    前記定められた性質との関連度を示すスコアの算出対象となる複数の単語が含まれる単語集が記憶される第2の記憶部と、
    前記第1の電子文書集合のうち前記単語集に含まれる特定の単語が含まれる電子文書の第1の電子文書数と、前記第2の電子文書集合のうち前記特定の単語が含まれる電子文書の第2の電子文書数と、前記第1の電子文書集合のうち前記特定の単語が含まれない電子文書の第3の電子文書数と、前記第2の電子文書集合のうち前記特定の単語が含まれない電子文書の第4の電子文書数とが含まれる第1の分割表を算出する第1の分割表算出部と、
    前記第1の電子文書数と、前記第2の電子文書数と、前記第3の電子文書数と、前記第4の電子文書数との間に因果関係有りと仮定した場合の第1の情報量基準量と、因果関係無しと仮定した場合の第2の情報量基準量とを算出し、前記第1の情報量基準量と前記第2の情報量基準量との差を、前記特定の単語と前記定められた性質との関連度を示す第1のスコアとして算出する第1のスコア算出部と、
    前記単語集に含まれる複数の単語のそれぞれについて前記第1のスコア算出部により前記第1のスコアが算出された当該複数の単語の集合を判定対象の集合とし、当該判定対象の集合に含まれる単語のうち最も前記第1のスコアが大きい第1の単語を求め、前記判定対象の集合に含まれる第2の単語について前記第1の分割表算出部で算出された前記第1の分割表に含まれる前記第1の電子文書数から前記第1の電子文書集合のうち前記第1の単語と前記第2の単語とが含まれる電子文書数を減算し、前記第1の分割表に含まれる前記第2の電子文書数から前記第2の電子文書集合のうち前記第1の単語と前記第2の単語とが含まれる電子文書数を減算し、前記第1の分割表に含まれる前記第1の電子文書数から前記第1の電子文書集合のうち前記第1の単語と前記第2の単語とが含まれない電子文書数を減算し、前記第1の分割表に含まれる前記第4の電子文書数から前記第2の電子文書集合のうち前記第1の単語と前記第2の単語とが含まれない電子文書数を減算した第4の分割表を算出する第4の分割表算出部と、
    当該第4の分割表算出部により算出された前記第4の分割表に含まれる前記第1の電子文書数と、前記第2の電子文書数と、前記第3の電子文書数と、前記第4の電子文書数との間に因果関係有りと仮定した場合の第1の情報量基準量と、因果関係無しと仮定した場合の第2の情報量基準量とを算出し、前記第1の情報量基準量と、前記第2の情報量基準量との差を、前記特定の単語と前記定められた性質との関連度を示す第4のスコアとして算出する第4のスコア算出部と、
    を備えることを特徴とする単語スコア算出装置。
  4. 請求項1から請求項3までのいずれか1項に記載の単語スコア算出装置と、
    前記第2の記憶部に記憶される前記単語集に含まれる前記複数の単語のそれぞれについて、前記定められた性質を表すラベルと、前記単語スコア算出装置によってスコアが算出された前記単語のうち、前記ラベルが表す定められた性質との関連度を示す前記スコアが大きい単語から定められた数の単語とが対応付けられた辞書データが記憶される辞書データベースと、
    入力される電子文書に含まれる単語と、前記辞書データベースに記憶された前記辞書データに含まれる前記単語とに基づいて、当該電子文書が前記ラベルに該当するか否かを判定するラベル判定装置と、
    を備えることを特徴とする文書ラベル判定システム。
  5. 複数の電子文書のうち、定められた性質に関連すると判定された電子文書の集合である第1の電子文書集合と、前記定められた性質に関連しないと判定された電子文書の集合である第2の電子文書集合とが記憶される第1の記憶部と、前記定められた性質との関連度を示すスコアの算出対象となる複数の単語が含まれる単語集が記憶される第2の記憶部とを備える単語スコア算出装置のコンピュータに、
    前記第1の電子文書集合のうち前記単語集に含まれる特定の単語が含まれる電子文書の第1の電子文書数と、前記第2の電子文書集合のうち前記特定の単語が含まれる電子文書の第2の電子文書数と、前記第1の電子文書集合のうち前記特定の単語が含まれない電子文書の第3の電子文書数と、前記第2の電子文書集合のうち前記特定の単語が含まれない電子文書の第4の電子文書数とが含まれる第1の分割表を算出するステップと、
    前記第1の電子文書数と、前記第2の電子文書数と、前記第3の電子文書数と、前記第4の電子文書数との間に因果関係有りと仮定した場合の第1の情報量基準量と、因果関係無しと仮定した場合の第2の情報量基準量とを算出し、前記第1の情報量基準量と前記第2の情報量基準量との差を、前記特定の単語と前記定められた性質との関連度を示す第1のスコアとして算出するステップと、
    前記単語集に含まれる複数の単語のそれぞれについて前記第1のスコアが算出された当該複数の単語の集合を判定対象の集合とし、当該判定対象の集合に含まれる単語のうち最も前記第1のスコアが大きい第1の単語と、前記判定対象の集合に含まれる第2の単語との組み合わせについて、前記第1の電子文書集合のうち前記第1の単語と前記第2の単語との組み合わせが含まれる電子文書の第1の電子文書数と、前記第2の電子文書集合のうち前記第1の単語と前記第2の単語との組み合わせが含まれる電子文書の第2の電子文書数と、前記第1の電子文書集合のうち前記第1の単語と前記第2の単語との組み合わせが含まれない電子文書の第3の電子文書数と、前記第2の電子文書集合のうち前記第1の単語と前記第2の単語との組み合わせが含まれない電子文書の第4の電子文書数とが含まれる第2の分割表を算出するステップと、
    前記第2の分割表に含まれる前記第1の電子文書数と、前記第2の電子文書数と、前記第3の電子文書数と、前記第4の電子文書数との間に因果関係有りと仮定した場合の第1の情報量基準量と、因果関係無しと仮定した場合の第2の情報量基準量とを算出し、前記第1の情報量基準量と、前記第2の情報量基準量との差を、前記第1の単語と前記第2の単語との組み合わせと前記定められた性質との関連度を示す第2のスコアとして算出するステップと、
    を実行させる単語スコア算出プログラム。
JP2008174835A 2008-07-03 2008-07-03 単語スコア算出装置、文書ラベル判定システム、および単語スコア算出プログラム Active JP5178357B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008174835A JP5178357B2 (ja) 2008-07-03 2008-07-03 単語スコア算出装置、文書ラベル判定システム、および単語スコア算出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008174835A JP5178357B2 (ja) 2008-07-03 2008-07-03 単語スコア算出装置、文書ラベル判定システム、および単語スコア算出プログラム

Publications (2)

Publication Number Publication Date
JP2010015395A JP2010015395A (ja) 2010-01-21
JP5178357B2 true JP5178357B2 (ja) 2013-04-10

Family

ID=41701457

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008174835A Active JP5178357B2 (ja) 2008-07-03 2008-07-03 単語スコア算出装置、文書ラベル判定システム、および単語スコア算出プログラム

Country Status (1)

Country Link
JP (1) JP5178357B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014178965A (ja) * 2013-03-15 2014-09-25 Ntt Docomo Inc 意味属性推定装置、意味属性推定方法及び意味属性推定プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2836521B2 (ja) * 1995-03-24 1998-12-14 日本電気株式会社 文章自動分類システム
JP3721735B2 (ja) * 1996-08-30 2005-11-30 Kddi株式会社 因果関係検出装置
JPH11143875A (ja) * 1997-11-10 1999-05-28 Nec Corp 単語自動分類装置及び単語自動分類方法
JP4888677B2 (ja) * 2001-07-06 2012-02-29 独立行政法人情報通信研究機構 文書検索システム
JP2005141428A (ja) * 2003-11-05 2005-06-02 Nippon Telegr & Teleph Corp <Ntt> 単語列抽出方法、装置及び単語列抽出プログラムを記録した記録媒体
JP2005284209A (ja) * 2004-03-31 2005-10-13 Kddi Corp 音声認識方式
US7539653B2 (en) * 2005-10-07 2009-05-26 Xerox Corporation Document clustering

Also Published As

Publication number Publication date
JP2010015395A (ja) 2010-01-21

Similar Documents

Publication Publication Date Title
Amjad et al. “Bend the truth”: Benchmark dataset for fake news detection in Urdu language and its evaluation
US7346487B2 (en) Method and apparatus for identifying translations
US7269544B2 (en) System and method for identifying special word usage in a document
US8386240B2 (en) Domain dictionary creation by detection of new topic words using divergence value comparison
JP2014120053A (ja) 質問応答装置、方法、及びプログラム
JP6145059B2 (ja) モデル学習装置、形態素解析装置、及び方法
CN112185361A (zh) 一种语音识别模型训练方法、装置、电子设备及存储介质
JP6433937B2 (ja) キーワード評価装置、類似度評価装置、検索装置、評価方法、検索方法、及びプログラム
JP6867963B2 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
JP5193798B2 (ja) 辞書作成装置、辞書作成方法および辞書作成プログラム並びに辞書作成プログラムを記録した記録媒体
JP5364529B2 (ja) 辞書登録装置、文書ラベル判定システムおよび辞書登録プログラム
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP5178357B2 (ja) 単語スコア算出装置、文書ラベル判定システム、および単語スコア算出プログラム
JP2008204399A (ja) 略語抽出方法、略語抽出装置およびプログラム
US20110106849A1 (en) New case generation device, new case generation method, and new case generation program
KR102519955B1 (ko) 토픽 키워드의 추출 장치 및 방법
JP5184195B2 (ja) 言語処理装置およびプログラム
JP5739352B2 (ja) 辞書生成装置、文書ラベル判定システム及びコンピュータプログラム
JP2015075952A (ja) 発話生成装置、方法、及びプログラム
JP5506482B2 (ja) 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム
JP5277090B2 (ja) リンク作成支援装置、リンク作成支援方法およびプログラム
KR101092355B1 (ko) 대용어 복원 방법
JP5363178B2 (ja) 修正候補取得装置、修正候補取得システム、修正候補取得方法、修正候補取得プログラム
JP5769648B2 (ja) 関連語取得装置及び関連語取得方法
Kadam Develop a Marathi Lemmatizer for Common Nouns and Simple Tenses of Verbs

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110131

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110201

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121211

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130108

R150 Certificate of patent or registration of utility model

Ref document number: 5178357

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150