JP5178357B2 - 単語スコア算出装置、文書ラベル判定システム、および単語スコア算出プログラム - Google Patents
単語スコア算出装置、文書ラベル判定システム、および単語スコア算出プログラム Download PDFInfo
- Publication number
- JP5178357B2 JP5178357B2 JP2008174835A JP2008174835A JP5178357B2 JP 5178357 B2 JP5178357 B2 JP 5178357B2 JP 2008174835 A JP2008174835 A JP 2008174835A JP 2008174835 A JP2008174835 A JP 2008174835A JP 5178357 B2 JP5178357 B2 JP 5178357B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- electronic document
- electronic
- electronic documents
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
また、特許文献2には、情報基準量に基づくモデル検定を行って単語重要度を算出する技術が提案されている。ここでは、独立モデルにより算出するスコアから、従属モデルにより算出するスコアを差し引いて算出された値が0よりも大きな単語を、重要な単語として選び出している。
また、非特許文献1には、情報量基準に基づくモデル検定を行い、トピックに該当するかを判定する上で重要な単語のみを選出する技術が提案されている。
そこで、特定のラベルに該当すると判定された複数の電子文書から、その電子文書に含まれる単語を事後的に解析して、その電子文書に含まれる単語に応じて辞書データの内容を再帰的に更新する方法が考えられる。例えば、電子文書中に索引語の候補となる任意の単語が出現する割合と、その他の単語との割合とに応じて候補単語にスコア付けを行い、そのスコアに応じて索引語として採用するかどうかを決定することが考えられる。ただし、この方法は、電子文書中に出現する単語がそれぞれに独立して出現する回数に応じてスコア付けを行うものであるが、電子文書中の単語は、他の単語との対応関係や関連性により意味内容や重要度が異なる場合があり、必ずしも精度の良い索引語を検出できるとはいえない。ここで、特許文献1に示される技術を応用し、索引語検出の精度を上げるために、複数の単語の組み合わせによりその単語のスコア付けを行って辞書データを生成する方法も考えられるが、これでは、索引語候補が多くなるとその組み合わせ数が爆発的に増加し、計算量が多くなるという問題がある。
図1は、本実施形態による文書ラベル判定システム1のシステム構成を示す図である。文書ラベル判定システム1は、ラベル判定装置200と、辞書データベース300と、索引語スコア算出装置100とを備えている。
ラベル判定結果記憶部110には、ラベル判定装置200によりラベル判定が行われた電子文書と、その電子文書が特定のラベルに該当すると判定されたか否かを示すラベル判定結果が記憶される。ここで、ラベル判定結果記憶部110に記憶される電子文書には、その電子文書がブログデータである場合には、ブログ記事のテキスト本文、絵文字、HTML(HyperText Markup Language)タグなどが含まれるが、画像データは含まれない。
単語分布表記憶部160には、単語分布算出部150により生成される単語分布表が記憶される。単語分布表は、上述したように、索引語の候補となる単語ごとに、その単語の電子文書中での出現頻度を示す度数が対応付けられたデータ表である。
・N11(w)+N12(w)=df(w)(NALLのうち、単語wを含む文書の数)
・N21(w)+N22(w)=NALL−df(w)
・N11(w)+N21(w)=NOK
・N11(w)+N22(w)=NNG
以下の説明において、N11(w)+N12(w)を、qと表す。また、N11(w)+N21(w)を、rと表す。また、N11(w)+N12(w)+N21(w)+N22(w)を、zと表す。
・N12(wj)=N12(wj)−n12(ij)
・N21(wj)=N21(wj)−n21(ij)
・N22(wj)=N22(wj)−n22(ij)
SDS算出部174は、集合Cが空集合になるまで、集合Cの中からsss(wi)が最大となるwiを求める処理から、最もsds(wj)の値が大きくなるwjを集合Lに追加するまでの処理を繰り返す。これにより、sds(w)を降順に並べた単語リストSDS(W)を求めることができる。この単語リストSDS(W)は、全ての単語wについて、その単語wより上位の単語の影響を除いた状態でのスコア順に並べられたリストとなる。
・N11(ωj)+N12(ωj)=df(ωj)(NALLのうち、組み合わせωjを含む文書の数)
・N21(ωj)+N22(ωj)=NALL−df(ωj)
・N11(ωj)+N21(ωj)=NOK
・N11(ωj)+N22(ωj)=NNG
・N12(wj)=N12(wj)−n12(ij)
・N21(wj)=N21(wj)−n21(ij)
・N22(wj)=N22(wj)−n22(ij)
ラベル判定装置200は、例えば、インターネットを介して取得し記憶した複数のテキストベースのウェブコンテンツを、ラベル判定対象の電子文書として読み出す。そして、ラベル判定装置200は、辞書データベース300から読み出した辞書データに含まれるラベルに対応する一定数以上の単語が、ラベル判定対象のウェブコンテンツに含まれるか否かを判定し、そのラベルにそのウェブコンテンツが該当するか否かを判定する。ラベル判定装置200は、ラベル判定処理を行ったウェブコンテンツと、その判定結果を示す情報とを、ラベル判定結果記憶部110に記憶させる。
100 索引語スコア算出装置
110 ラベル判定結果記憶部
120 正規化処理部
130 形態素解析部
140 形態素解析用辞書記憶部
150 単語分布算出部
160 単語分布表記憶部
170 索引語スコア算出部
171 SSS算出部
172 MSS算出部
173 MDS算出部
174 SDS算出部
180 辞書登録部
200 ラベル判定装置
300 辞書データベース
Claims (5)
- 複数の電子文書のうち、定められた性質に関連すると判定された電子文書の集合である第1の電子文書集合と、前記定められた性質に関連しないと判定された電子文書の集合である第2の電子文書集合とが記憶される第1の記憶部と、
前記定められた性質との関連度を示すスコアの算出対象となる複数の単語が含まれる単語集が記憶される第2の記憶部と、
前記第1の電子文書集合のうち前記単語集に含まれる特定の単語が含まれる電子文書の第1の電子文書数と、前記第2の電子文書集合のうち前記特定の単語が含まれる電子文書の第2の電子文書数と、前記第1の電子文書集合のうち前記特定の単語が含まれない電子文書の第3の電子文書数と、前記第2の電子文書集合のうち前記特定の単語が含まれない電子文書の第4の電子文書数とが含まれる第1の分割表を算出する第1の分割表算出部と、
前記第1の電子文書数と、前記第2の電子文書数と、前記第3の電子文書数と、前記第4の電子文書数との間に因果関係有りと仮定した場合の第1の情報量基準量と、因果関係無しと仮定した場合の第2の情報量基準量とを算出し、前記第1の情報量基準量と前記第2の情報量基準量との差を、前記特定の単語と前記定められた性質との関連度を示す第1のスコアとして算出する第1のスコア算出部と、
前記単語集に含まれる複数の単語のそれぞれについて前記第1のスコア算出部により前記第1のスコアが算出された当該複数の単語の集合を判定対象の集合とし、当該判定対象の集合に含まれる単語のうち最も前記第1のスコアが大きい第1の単語と、前記判定対象の集合に含まれる第2の単語との組み合わせについて、前記第1の電子文書集合のうち前記第1の単語と前記第2の単語との組み合わせが含まれる電子文書の第1の電子文書数と、前記第2の電子文書集合のうち前記第1の単語と前記第2の単語との組み合わせが含まれる電子文書の第2の電子文書数と、前記第1の電子文書集合のうち前記第1の単語と前記第2の単語との組み合わせが含まれない電子文書の第3の電子文書数と、前記第2の電子文書集合のうち前記第1の単語と前記第2の単語との組み合わせが含まれない電子文書の第4の電子文書数とが含まれる第2の分割表を算出する第2の分割表算出部と、
当該第2の分割表算出部により算出された前記第2の分割表に含まれる前記第1の電子文書数と、前記第2の電子文書数と、前記第3の電子文書数と、前記第4の電子文書数との間に因果関係有りと仮定した場合の第1の情報量基準量と、因果関係無しと仮定した場合の第2の情報量基準量とを算出し、前記第1の情報量基準量と、前記第2の情報量基準量との差を、前記第1の単語と前記第2の単語との組み合わせと前記定められた性質との関連度を示す第2のスコアとして算出する第2のスコア算出部と、
を備えることを特徴とする単語スコア算出装置。 - 前記単語集に含まれる複数の単語の組み合わせのそれぞれについて前記第2のスコア算出部により前記第2のスコアが算出された当該複数の単語の組み合わせの集合を判定対象の集合とし、当該判定対象の集合に含まれる単語の組み合わせのうち最も前記第2のスコアが大きい第1の単語の組み合わせを求め、前記判定対象の集合に含まれる第2の単語の組み合わせについて前記第2の分割表算出部で算出された前記第2の分割表に含まれる前記第1の電子文書数から前記第1の電子文書集合のうち前記第1の単語の組み合わせと前記第2の単語の組み合わせとが含まれる電子文書数を減算し、前記第2の分割表に含まれる前記第2の電子文書数から前記第2の電子文書集合のうち前記第1の単語の組み合わせと前記第2の単語の組み合わせとが含まれる電子文書数を減算し、前記第2の分割表に含まれる前記第1の電子文書数から前記第1の電子文書集合のうち前記第1の単語の組み合わせと前記第2の単語の組み合わせとが含まれない電子文書数を減算し、前記第2の分割表に含まれる前記第4の電子文書数から前記第2の電子文書集合のうち前記第1の単語の組み合わせと前記第2の単語の組み合わせとが含まれない電子文書数を減算した第3の分割表を算出する第3の分割表算出部と、
当該第3の分割表算出部により算出された前記第3の分割表に含まれる前記第1の電子文書数と、前記第2の電子文書数と、前記第3の電子文書数と、前記第4の電子文書数との間に因果関係有りと仮定した場合の第1の情報量基準量と、因果関係無しと仮定した場合の第2の情報量基準量とを算出し、前記第1の情報量基準量と、前記第2の情報量基準量との差を、前記第1の単語の組み合わせと前記定められた性質との関連度を示す第3のスコアとして算出する第3のスコア算出部と、
を備えることを特徴とする請求項1に記載の単語スコア算出装置。 - 複数の電子文書のうち、定められた性質に関連すると判定された電子文書の集合である第1の電子文書集合と、前記定められた性質に関連しないと判定された電子文書の集合である第2の電子文書集合とが記憶される第1の記憶部と、
前記定められた性質との関連度を示すスコアの算出対象となる複数の単語が含まれる単語集が記憶される第2の記憶部と、
前記第1の電子文書集合のうち前記単語集に含まれる特定の単語が含まれる電子文書の第1の電子文書数と、前記第2の電子文書集合のうち前記特定の単語が含まれる電子文書の第2の電子文書数と、前記第1の電子文書集合のうち前記特定の単語が含まれない電子文書の第3の電子文書数と、前記第2の電子文書集合のうち前記特定の単語が含まれない電子文書の第4の電子文書数とが含まれる第1の分割表を算出する第1の分割表算出部と、
前記第1の電子文書数と、前記第2の電子文書数と、前記第3の電子文書数と、前記第4の電子文書数との間に因果関係有りと仮定した場合の第1の情報量基準量と、因果関係無しと仮定した場合の第2の情報量基準量とを算出し、前記第1の情報量基準量と前記第2の情報量基準量との差を、前記特定の単語と前記定められた性質との関連度を示す第1のスコアとして算出する第1のスコア算出部と、
前記単語集に含まれる複数の単語のそれぞれについて前記第1のスコア算出部により前記第1のスコアが算出された当該複数の単語の集合を判定対象の集合とし、当該判定対象の集合に含まれる単語のうち最も前記第1のスコアが大きい第1の単語を求め、前記判定対象の集合に含まれる第2の単語について前記第1の分割表算出部で算出された前記第1の分割表に含まれる前記第1の電子文書数から前記第1の電子文書集合のうち前記第1の単語と前記第2の単語とが含まれる電子文書数を減算し、前記第1の分割表に含まれる前記第2の電子文書数から前記第2の電子文書集合のうち前記第1の単語と前記第2の単語とが含まれる電子文書数を減算し、前記第1の分割表に含まれる前記第1の電子文書数から前記第1の電子文書集合のうち前記第1の単語と前記第2の単語とが含まれない電子文書数を減算し、前記第1の分割表に含まれる前記第4の電子文書数から前記第2の電子文書集合のうち前記第1の単語と前記第2の単語とが含まれない電子文書数を減算した第4の分割表を算出する第4の分割表算出部と、
当該第4の分割表算出部により算出された前記第4の分割表に含まれる前記第1の電子文書数と、前記第2の電子文書数と、前記第3の電子文書数と、前記第4の電子文書数との間に因果関係有りと仮定した場合の第1の情報量基準量と、因果関係無しと仮定した場合の第2の情報量基準量とを算出し、前記第1の情報量基準量と、前記第2の情報量基準量との差を、前記特定の単語と前記定められた性質との関連度を示す第4のスコアとして算出する第4のスコア算出部と、
を備えることを特徴とする単語スコア算出装置。 - 請求項1から請求項3までのいずれか1項に記載の単語スコア算出装置と、
前記第2の記憶部に記憶される前記単語集に含まれる前記複数の単語のそれぞれについて、前記定められた性質を表すラベルと、前記単語スコア算出装置によってスコアが算出された前記単語のうち、前記ラベルが表す定められた性質との関連度を示す前記スコアが大きい単語から定められた数の単語とが対応付けられた辞書データが記憶される辞書データベースと、
入力される電子文書に含まれる単語と、前記辞書データベースに記憶された前記辞書データに含まれる前記単語とに基づいて、当該電子文書が前記ラベルに該当するか否かを判定するラベル判定装置と、
を備えることを特徴とする文書ラベル判定システム。 - 複数の電子文書のうち、定められた性質に関連すると判定された電子文書の集合である第1の電子文書集合と、前記定められた性質に関連しないと判定された電子文書の集合である第2の電子文書集合とが記憶される第1の記憶部と、前記定められた性質との関連度を示すスコアの算出対象となる複数の単語が含まれる単語集が記憶される第2の記憶部とを備える単語スコア算出装置のコンピュータに、
前記第1の電子文書集合のうち前記単語集に含まれる特定の単語が含まれる電子文書の第1の電子文書数と、前記第2の電子文書集合のうち前記特定の単語が含まれる電子文書の第2の電子文書数と、前記第1の電子文書集合のうち前記特定の単語が含まれない電子文書の第3の電子文書数と、前記第2の電子文書集合のうち前記特定の単語が含まれない電子文書の第4の電子文書数とが含まれる第1の分割表を算出するステップと、
前記第1の電子文書数と、前記第2の電子文書数と、前記第3の電子文書数と、前記第4の電子文書数との間に因果関係有りと仮定した場合の第1の情報量基準量と、因果関係無しと仮定した場合の第2の情報量基準量とを算出し、前記第1の情報量基準量と前記第2の情報量基準量との差を、前記特定の単語と前記定められた性質との関連度を示す第1のスコアとして算出するステップと、
前記単語集に含まれる複数の単語のそれぞれについて前記第1のスコアが算出された当該複数の単語の集合を判定対象の集合とし、当該判定対象の集合に含まれる単語のうち最も前記第1のスコアが大きい第1の単語と、前記判定対象の集合に含まれる第2の単語との組み合わせについて、前記第1の電子文書集合のうち前記第1の単語と前記第2の単語との組み合わせが含まれる電子文書の第1の電子文書数と、前記第2の電子文書集合のうち前記第1の単語と前記第2の単語との組み合わせが含まれる電子文書の第2の電子文書数と、前記第1の電子文書集合のうち前記第1の単語と前記第2の単語との組み合わせが含まれない電子文書の第3の電子文書数と、前記第2の電子文書集合のうち前記第1の単語と前記第2の単語との組み合わせが含まれない電子文書の第4の電子文書数とが含まれる第2の分割表を算出するステップと、
前記第2の分割表に含まれる前記第1の電子文書数と、前記第2の電子文書数と、前記第3の電子文書数と、前記第4の電子文書数との間に因果関係有りと仮定した場合の第1の情報量基準量と、因果関係無しと仮定した場合の第2の情報量基準量とを算出し、前記第1の情報量基準量と、前記第2の情報量基準量との差を、前記第1の単語と前記第2の単語との組み合わせと前記定められた性質との関連度を示す第2のスコアとして算出するステップと、
を実行させる単語スコア算出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008174835A JP5178357B2 (ja) | 2008-07-03 | 2008-07-03 | 単語スコア算出装置、文書ラベル判定システム、および単語スコア算出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008174835A JP5178357B2 (ja) | 2008-07-03 | 2008-07-03 | 単語スコア算出装置、文書ラベル判定システム、および単語スコア算出プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010015395A JP2010015395A (ja) | 2010-01-21 |
JP5178357B2 true JP5178357B2 (ja) | 2013-04-10 |
Family
ID=41701457
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008174835A Active JP5178357B2 (ja) | 2008-07-03 | 2008-07-03 | 単語スコア算出装置、文書ラベル判定システム、および単語スコア算出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5178357B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014178965A (ja) * | 2013-03-15 | 2014-09-25 | Ntt Docomo Inc | 意味属性推定装置、意味属性推定方法及び意味属性推定プログラム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2836521B2 (ja) * | 1995-03-24 | 1998-12-14 | 日本電気株式会社 | 文章自動分類システム |
JP3721735B2 (ja) * | 1996-08-30 | 2005-11-30 | Kddi株式会社 | 因果関係検出装置 |
JPH11143875A (ja) * | 1997-11-10 | 1999-05-28 | Nec Corp | 単語自動分類装置及び単語自動分類方法 |
JP4888677B2 (ja) * | 2001-07-06 | 2012-02-29 | 独立行政法人情報通信研究機構 | 文書検索システム |
JP2005141428A (ja) * | 2003-11-05 | 2005-06-02 | Nippon Telegr & Teleph Corp <Ntt> | 単語列抽出方法、装置及び単語列抽出プログラムを記録した記録媒体 |
JP2005284209A (ja) * | 2004-03-31 | 2005-10-13 | Kddi Corp | 音声認識方式 |
US7539653B2 (en) * | 2005-10-07 | 2009-05-26 | Xerox Corporation | Document clustering |
-
2008
- 2008-07-03 JP JP2008174835A patent/JP5178357B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010015395A (ja) | 2010-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Amjad et al. | “Bend the truth”: Benchmark dataset for fake news detection in Urdu language and its evaluation | |
US7346487B2 (en) | Method and apparatus for identifying translations | |
US7269544B2 (en) | System and method for identifying special word usage in a document | |
US8386240B2 (en) | Domain dictionary creation by detection of new topic words using divergence value comparison | |
JP2014120053A (ja) | 質問応答装置、方法、及びプログラム | |
JP6145059B2 (ja) | モデル学習装置、形態素解析装置、及び方法 | |
CN112185361A (zh) | 一种语音识别模型训练方法、装置、电子设备及存储介质 | |
JP6433937B2 (ja) | キーワード評価装置、類似度評価装置、検索装置、評価方法、検索方法、及びプログラム | |
JP6867963B2 (ja) | 要約評価装置、方法、プログラム、及び記憶媒体 | |
JP5193798B2 (ja) | 辞書作成装置、辞書作成方法および辞書作成プログラム並びに辞書作成プログラムを記録した記録媒体 | |
JP5364529B2 (ja) | 辞書登録装置、文書ラベル判定システムおよび辞書登録プログラム | |
JP4143085B2 (ja) | 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP5178357B2 (ja) | 単語スコア算出装置、文書ラベル判定システム、および単語スコア算出プログラム | |
JP2008204399A (ja) | 略語抽出方法、略語抽出装置およびプログラム | |
US20110106849A1 (en) | New case generation device, new case generation method, and new case generation program | |
KR102519955B1 (ko) | 토픽 키워드의 추출 장치 및 방법 | |
JP5184195B2 (ja) | 言語処理装置およびプログラム | |
JP5739352B2 (ja) | 辞書生成装置、文書ラベル判定システム及びコンピュータプログラム | |
JP2015075952A (ja) | 発話生成装置、方法、及びプログラム | |
JP5506482B2 (ja) | 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム | |
JP5277090B2 (ja) | リンク作成支援装置、リンク作成支援方法およびプログラム | |
KR101092355B1 (ko) | 대용어 복원 방법 | |
JP5363178B2 (ja) | 修正候補取得装置、修正候補取得システム、修正候補取得方法、修正候補取得プログラム | |
JP5769648B2 (ja) | 関連語取得装置及び関連語取得方法 | |
Kadam | Develop a Marathi Lemmatizer for Common Nouns and Simple Tenses of Verbs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110131 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110201 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121130 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121211 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130108 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5178357 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |