JP2007241636A - 文書データ解析装置および文書データ解析プログラム - Google Patents
文書データ解析装置および文書データ解析プログラム Download PDFInfo
- Publication number
- JP2007241636A JP2007241636A JP2006062903A JP2006062903A JP2007241636A JP 2007241636 A JP2007241636 A JP 2007241636A JP 2006062903 A JP2006062903 A JP 2006062903A JP 2006062903 A JP2006062903 A JP 2006062903A JP 2007241636 A JP2007241636 A JP 2007241636A
- Authority
- JP
- Japan
- Prior art keywords
- document data
- word
- category
- document
- data belonging
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】専門的な知識を要することなく文書データの各カテゴリへの分類のためのキーワードを決定する。
【解決手段】入力部1はカテゴリ情報を含む複数の文書データを入力する。文書解析部2は入力部1から入力した文書データに含まれるカテゴリ情報を認識する。文書解析部2は入力部1が入力した文書データに含まれる文章の各単語を切り出す。文書解析部2は文書データに含まれる単語をその頻度をそれぞれの文書データについて計算して単語頻度データを生成し、これを単語頻度記憶部3に記憶させる。単語重要度算出部4は単語頻度記憶部3に記憶された単語頻度データをもとに、共通のカテゴリに属する文書データにおける各単語の重要度の値をそれぞれのカテゴリについて計算する。出力部5は単語重要度算出部4による計算結果をもとに、各カテゴリについて単語重要度の値が大きい単語をカテゴリごとに抽出する。
【選択図】 図1
【解決手段】入力部1はカテゴリ情報を含む複数の文書データを入力する。文書解析部2は入力部1から入力した文書データに含まれるカテゴリ情報を認識する。文書解析部2は入力部1が入力した文書データに含まれる文章の各単語を切り出す。文書解析部2は文書データに含まれる単語をその頻度をそれぞれの文書データについて計算して単語頻度データを生成し、これを単語頻度記憶部3に記憶させる。単語重要度算出部4は単語頻度記憶部3に記憶された単語頻度データをもとに、共通のカテゴリに属する文書データにおける各単語の重要度の値をそれぞれのカテゴリについて計算する。出力部5は単語重要度算出部4による計算結果をもとに、各カテゴリについて単語重要度の値が大きい単語をカテゴリごとに抽出する。
【選択図】 図1
Description
本発明は、文書データに含まれる単語を解析する文書データ解析装置および文書データ解析プログラムに関する。
従来、記憶装置に蓄積されている文書データから所望の文書データを検索するために用いる文書データ検索システムがある。このシステムは1つあるいは2つ以上の検索キーワードを入力するとこの入力したキーワードを含む文書データを記憶装置から検索する。
また、このような文書データ検索システムには文書データを分類する機能を有するものがある。具体的には、このシステムは予め設定された検索用キーワードを含む文書データを記憶装置から検索し、この検索した文書データを当該キーワードの属するカテゴリに分類する。このようなシステムとして例えば電子メールのフィルタリングシステムがある。
このようなフィルタリングシステムは各カテゴリの文書データに一般的に含まれるキーワードをユーザがカテゴリごとに予め設定した後に当該キーワードを含んだ文書データを検索する。
このキーワードを決定するための技術として、例えば特許文献1に開示されるように抽出用知識データベースと入力文書データとを照合することで当該入力文書データに含まれるキーワードをインデックスとして抽出するインデックス抽出支援システムがある。
特公平7−69918号公報
しかし、前述したインデックス抽出支援システムではデータベースを構築して文書データからキーワードを精度良く抽出するためには当該文書データのカテゴリに関する専門的な知識が必要となるので手間とコストがかかる。
また、前述したようなフィルタリングシステムにおいて、ユーザは文書データのカテゴリ毎に適切な検索用キーワードをカテゴリ分類済の文書データの内容を参照するなどして予め決定する必要がある。
ユーザはこの検索用キーワードを決定する際、単一のカテゴリに属する文書データに含まれる可能性が高く他のカテゴリに属する文書データに含まれる可能性の低いキーワードをカテゴリごとに把握する必要がある。つまりユーザはフィルタリングの対象となる文書データのあらゆるカテゴリの内容を熟知する必要がある。以上のように検索用キーワードを決定するには時間と手間がかかり、適切なキーワードを短時間に用意することは非常に困難である。
そこで、本発明の目的は、専門的な知識を要することなく文書データの各カテゴリへの分類のためのキーワードを決定することが可能になる文書データ解析装置および文書データ解析プログラムを提供することにある。
すなわち、本発明に係わる文書データ解析装置は、複数種類のうちいずれかの種類のカテゴリに属する複数の文書データを取得し、この取得した文書データに含まれる単語を認識し、この取得した文書データのうち共通のカテゴリに属して単一種類の単語を共通して含む文書データの数を前述のように認識した単語のそれぞれおよび複数種類のカテゴリのそれぞれについて計算し、前述のように取得した文書データのうち共通のカテゴリに属する文書データの数を複数種類のカテゴリのそれぞれについて計算し、前述のように取得した文書データのうち単一種類の単語を共通して含む文書データの数を前述のように認識した単語のそれぞれについて計算し、これらの計算結果にもとづいて、前記複数種類のうち共通のカテゴリに属する文書データに含まれる前記認識した単語のうち他のカテゴリに属する文書データ中の同一単語と比較して偏って出現する単語を複数種類のカテゴリのそれぞれについて解析することを特徴とする。
本発明に係わる文書データ解析装置では、複数種類のうちいずれかの種類のカテゴリに属する複数の文書データを取得し、この取得した文書データに含まれる単語を認識し、この取得した文書データのうち共通のカテゴリに属して単一種類の単語を共通して含む文書データの数を前述のように認識した単語のそれぞれおよび複数種類のカテゴリのそれぞれについて計算し、前述のように取得した文書データのうち共通のカテゴリに属する文書データの数を複数種類のカテゴリのそれぞれについて計算し、前述のように取得した文書データのうち単一種類の単語を共通して含む文書データの数を前述のように認識した単語のそれぞれについて計算し、これらの計算結果にもとづいて、前記複数種類のうち共通のカテゴリに属する文書データに含まれる前記認識した単語のうち他のカテゴリに属する文書データ中の同一単語と比較して偏って出現する単語を複数種類のカテゴリのそれぞれについて解析するので、専門的な知識を要することなく文書データの各カテゴリへの分類のためのキーワードを決定することができる。
以下図面により本発明の実施形態について説明する。
図1は、本発明の実施形態にしたがった文書データ解析装置の構成例を示すブロック図である。
この文書データ解析装置は、属するカテゴリが既に判明している文書データをもとに、それぞれのカテゴリに属する文書データに関する重要単語を導出する装置である。
図1は、本発明の実施形態にしたがった文書データ解析装置の構成例を示すブロック図である。
この文書データ解析装置は、属するカテゴリが既に判明している文書データをもとに、それぞれのカテゴリに属する文書データに関する重要単語を導出する装置である。
本発明の実施形態にしたがった文書データ解析装置は入力部1、文書解析部2、単語頻度記憶部3、単語重要度算出部4および出力部5を備える。
入力部1は既に属するカテゴリが判明している複数の文書データを入力し、これらを文書解析部2に出力する。
入力部1は既に属するカテゴリが判明している複数の文書データを入力し、これらを文書解析部2に出力する。
文書解析部2は入力部1からの各文書データに含まれる各文章を単語に切り分け、単語頻度データを生成する。この単語頻度データについては後述する。
単語頻度記憶部3は例えばハードディスクドライブや不揮発性メモリなどの記憶媒体であり、文書解析部2が生成した単語頻度データを記憶する。
単語頻度記憶部3は例えばハードディスクドライブや不揮発性メモリなどの記憶媒体であり、文書解析部2が生成した単語頻度データを記憶する。
単語重要度算出部4は単語頻度記憶部3に記憶された単語頻度データをもとに各カテゴリにおける各単語の単語重要度を算出する。単語重要度とは、複数種類のうち共通のカテゴリに属する文書データに含まれる単一種類の単語の出現度合と他のカテゴリに属する文書データ中の当該単一種類の単語と同一の単語の出現度合との関連を示す値である。
出力部5は単語重要度算出部4が算出した単語重要度をもとに各カテゴリに属する文書データに含まれる重要単語を出力する。重要単語とは、複数種類のうち共通のカテゴリに属する文書データに含まれる単語のうち他のカテゴリに属する文書データ中の同一単語と比較して偏って出現する単語である。
次に、図1に示した構成の文書データ解析装置の動作について説明する。
図2は本発明の実施形態にしたがった文書データ解析装置の動作の一例を示すフローチャートである。
図2は本発明の実施形態にしたがった文書データ解析装置の動作の一例を示すフローチャートである。
まず、入力部1は前述したようにカテゴリ情報を含む複数の文書データを入力し(ステップS1)、これら入力した文書データを文書解析部2に順次出力する。この文書データはカテゴリ情報を含む。このカテゴリ情報は当該文書データが属するカテゴリの名称を示す情報である。カテゴリの名称とは例えば「会議用」、「連絡用」、「その他」などである。
以後、カテゴリは“A”、“B”および“C”の3種類であるとして説明する。
文書解析部2は入力部1から入力した文書データに含まれるカテゴリ情報をもとに文書カテゴリデータベースを生成してこれを内部メモリに記憶する(ステップS2)。
文書解析部2は入力部1から入力した文書データに含まれるカテゴリ情報をもとに文書カテゴリデータベースを生成してこれを内部メモリに記憶する(ステップS2)。
図3は、本発明の実施形態にしたがった文書データ解析装置の文書解析部2に記憶された文書カテゴリデータベースの一例を表形式で示す図である。
図3に示した文書カテゴリデータベースでは、文書解析部2が入力部1から入力した各文書データの文書ナンバ名の情報および当該文書データが属するカテゴリ名の情報が対応付けられて管理される。
図3に示した文書カテゴリデータベースでは、文書解析部2が入力部1から入力した各文書データの文書ナンバ名の情報および当該文書データが属するカテゴリ名の情報が対応付けられて管理される。
図3に示した例では、文書カテゴリデータベースは文書ナンバ“1”がファイル名として付された文書データおよび文書ナンバ“2”がファイル名として付された文書データが属するカテゴリが“A”であることを示す。
また、この文書カテゴリデータベースは文書ナンバ“3”がファイル名として付された文書データおよび文書ナンバ“4”がファイル名として付された文書データが属するカテゴリが“B”であることを示す。また、文書カテゴリデータベースは文書ナンバ“5”がファイル名として付された文書データおよび文書ナンバ“6”がファイル名として付された文書データが属するカテゴリが“C”であることを示す。
この例では1つの文書データが属するカテゴリは1つであるが、1つの文書データが属するカテゴリが複数種類であってもよい。
この例では1つの文書データが属するカテゴリは1つであるが、1つの文書データが属するカテゴリが複数種類であってもよい。
文書解析部2は入力部1が入力した各文書データに含まれる文章に対して必要に応じて形態素解析を行ない、この文章の各単語を切り出す(ステップS3)。
なお、文書解析部2は入力部1からの文書データに含まれる文章が英語の場合にはこの文章の空白や句読点をもとに各単語を切り出す。つまりこの場合には文書解析部2は形態素解析を行なう必要はない。
なお、文書解析部2は入力部1からの文書データに含まれる文章が英語の場合にはこの文章の空白や句読点をもとに各単語を切り出す。つまりこの場合には文書解析部2は形態素解析を行なう必要はない。
ここでは文書解析部2が切り出した単語は“Wa”、“Wb”、“Wc”、“Wd”、“We”、“Wf”、“Wg”、“Wh”、“Wi”、“Wj”、“Wk”、“Wl”、“Wm”、…であるとする。
文書解析部2は、文書データに含まれる単語をその頻度をそれぞれの文書データについて計算して単語頻度データを生成する(ステップS4)。
単語頻度データは単語頻度第1テーブル、単語頻度第2テーブルおよび単語頻度第3テーブルでなる。
単語頻度データは単語頻度第1テーブル、単語頻度第2テーブルおよび単語頻度第3テーブルでなる。
図4は本発明の実施形態にしたがった文書データ解析装置の単語頻度記憶部に記憶された単語頻度第1テーブルの構成例を表形式で示す図である。
図5は本発明の実施形態にしたがった文書データ解析装置の単語頻度記憶部に記憶された単語頻度第2テーブルの構成例を表形式で示す図である。
図6は本発明の実施形態にしたがった文書データ解析装置の単語頻度記憶部に記憶された単語頻度第3テーブルの構成例を表形式で示す図である。
図5は本発明の実施形態にしたがった文書データ解析装置の単語頻度記憶部に記憶された単語頻度第2テーブルの構成例を表形式で示す図である。
図6は本発明の実施形態にしたがった文書データ解析装置の単語頻度記憶部に記憶された単語頻度第3テーブルの構成例を表形式で示す図である。
具体的には文書解析部2は第1の計算として、各文書データのうち共通のカテゴリに属して単一種類の単語を共通して含む文書データの数を前述のように切り出した単語のそれぞれおよび各カテゴリのそれぞれについて計算する。文書解析部2はこれらの計算結果をもとに単語頻度第1テーブルを生成し、これを単語頻度記憶部3に記憶させる。
図4に示した単語頻度第1テーブルでは、カテゴリ“A”に属して単一種類の単語を共通して含む文書データの数、カテゴリ“B”に属して単一種類の単語を共通して含む文書データの数およびカテゴリ“C”に属して単一種類の単語を共通して含む文書データの数が“Wa”〜“Wm”を含む各単語のそれぞれについて示される。
また、文書解析部2は第2の計算として、各文書データのうち共通のカテゴリに属する文書データの数を各カテゴリのそれぞれについて計算する。文書解析部2はこれらの計算結果をもとに単語頻度第2テーブルを生成し、これを単語頻度記憶部3に記憶させる。
図5に示した単語頻度第2テーブルでは、カテゴリ“A”に属する文書データの数、カテゴリ“B”に属する文書データの数およびカテゴリ“C”に属する文書データの数が示される。
また、文書解析部2は第3の計算として、各文書データのうち単一種類の単語を共通して含む文書データの数を前述のように切り出した単語のそれぞれについて計算する。文書解析部2はこれらの計算結果をもとに単語頻度第3テーブルを生成し、これを単語頻度記憶部3に記憶させる。
図6に示した単語頻度第3テーブルでは、全文書データのうち単一種類の単語を共通して含む文書データの数が“Wa”〜“Wm”を含む各単語のそれぞれについて示される。
図4乃至図6に示した各テーブルによれば、カテゴリ“A”に属して単語“Wa”を含む文書データの数は10であり、カテゴリ“A”に属する文書データの数は10であり、単語“Wa”を含む文書データの数は30である。
図6に示した単語頻度第3テーブルでは、全文書データのうち単一種類の単語を共通して含む文書データの数が“Wa”〜“Wm”を含む各単語のそれぞれについて示される。
図4乃至図6に示した各テーブルによれば、カテゴリ“A”に属して単語“Wa”を含む文書データの数は10であり、カテゴリ“A”に属する文書データの数は10であり、単語“Wa”を含む文書データの数は30である。
単語重要度算出部4は、単語頻度記憶部3に記憶される第1乃至第3単語頻度テーブルを参照し、この参照した内容をもとに共通のカテゴリに属する文書データにおける各単語の重要度の値をそれぞれのカテゴリについて計算する(ステップS5)。
式(1)においてP(t,c)=0の場合には単語重要度は0とする。また、式(2)によればP(Wa,A)=10/30=1/3であり、式(3)によればP(Wa)=30/30=1であり、式(4)によればP(A)=10/30=1/3であるので、カテゴリ“A”に属する文書データにおける単語“Wa”の単語重要度は1/3×In(1/3/1×3)=0となる。
また、P(Wb,A)=10/30=1/3であり、P(Wb)=10/30=1/3であり、P(A)=1/3であるので、カテゴリ“A”に属する文書データにおける単語“Wb”の単語重要度は1/3×In(1/3×3×3)≒0.3662となる。
単語重要度算出部4は、このような計算を前述のように切り出した単語のそれぞれおよび各カテゴリのそれぞれについて行なって単語重要度テーブルを生成し、これを出力部5に出力する。
図7は本発明の実施形態にしたがった文書データ解析装置の単語重要度算出部4が生成した単語重要度テーブルの構成例を表形式で示す図である。
この計算により得られた単語重要度の値が大きいほど、当該単語重要度と関わる単語は、当該単語重要度と関わるカテゴリと同一カテゴリに属する文書データに含まれる他の単語および当該単語重要度と関わるカテゴリと異なるカテゴリに属する文書データに含まれる同一単語に対する偏った出現度合が高いことを示す。
この計算により得られた単語重要度の値が大きいほど、当該単語重要度と関わる単語は、当該単語重要度と関わるカテゴリと同一カテゴリに属する文書データに含まれる他の単語および当該単語重要度と関わるカテゴリと異なるカテゴリに属する文書データに含まれる同一単語に対する偏った出現度合が高いことを示す。
図7に示すように、カテゴリ“B”に属する文書データにおける単語“Wb”の単語重要度およびカテゴリ“C”に属する文書データにおける単語“Wb”の単語重要度は0である。よって、カテゴリ“A”に属する文書データにおける単語“Wb”の単語重要度はカテゴリ“B”に属する文書データにおける単語“Wb”の単語重要度およびカテゴリ“C”に属する文書データにおける単語“Wb”の単語重要度と比較して大きい。
これはカテゴリ“A”に属する文書データが単語“Wb”を含む確率がカテゴリ“B”に属する文書データが単語“Wb”を含む確率およびカテゴリ“C”に属する文書データが単語“Wb”を含む確率と比較して高いことを意味する。
また、単語重要度算出部4は前述した式(1)にしたがって単語重要度を算出すると説明したが、これに限らず、単語重要度算出部4は当該単語重要度と関わるカテゴリに属する文書データへの単一種類の単語の1文書あたりの平均出現頻度と他のカテゴリに属する文書データへの同一単語の1文書あたりの平均出現頻度との差を示す値であれば例えばχ2乗値やその他の値を単語重要度として算出してもよい。
また、単語頻度第1テーブル、単語頻度第2テーブルおよび単語頻度第3テーブルで管理する文書データの数を単語の出現頻度としてもよい。この場合には、図4に示した単語頻度第1テーブルのエリア11で管理される値はカテゴリ“C”に属する文書データ中の単語“Wa”の出現頻度となる。
また、図5に示した単語頻度第2テーブルのエリア12で管理される値はカテゴリ“A”に属する文書データ中の各単語の出現頻度となり、図6に示した単語頻度第3テーブルのエリア13で管理される値は全文書データ中の単語“Wa”の出現頻度となる。ここで説明した各単語とは文書解析部2が切り出したそれぞれの単語である。
そして、式(2)、式(3)および式(4)の右辺の分母は“全文書中の各単語の出現頻度”となり、式(2)の右辺の分子は“カテゴリcに属する文書中の単語tの出現頻度”となり、式(3)の右辺の分子は“全文書中の単語tの出現頻度”となり、式(4)の右辺の分子は“カテゴリcに属する文書中の各単語の出現頻度”となる。
また、単語頻度第1テーブル、単語頻度第2テーブルおよび単語頻度第3テーブルで管理する文書データの数は単語の出現頻度と各文書データのサイズとの比であってもよい。この場合には、単語頻度第1テーブルのエリア11で管理される値はカテゴリ“C”に属する文書データ中の単語“Wa”の出現頻度とカテゴリ“C”に属する各文書データのサイズの合計との比となる。
また、単語頻度第2テーブルのエリア12で管理される値はカテゴリ“A”に属する文書データ中の各単語の出現頻度とカテゴリ“A”に属する各文書データのサイズの合計との比となり、単語頻度第3テーブルのエリア13で管理される値は全文書データ中の単語“Wa”の出現頻度と全文書データのサイズの合計との比となる。
そして、式(2)の右辺の分子は“カテゴリcに属する文書中の単語tの出現頻度/カテゴリcに属する各文書のデータサイズの合計”となり、式(3)の右辺の分子は“全文書中の単語tの出現頻度/全文書のデータサイズの合計”となり、式(4)の右辺の分子は“カテゴリcに属する文書中の各単語の出現頻度/全文書のデータサイズの合計”となり、式(2)、式(3)および式(4)の右辺の分母は“全文書中の各単語の出現頻度/全文書のデータサイズの合計”となる。
出力部5は単語重要度算出部4からの単語頻度テーブルで示される単語重要度のうち値が大きい複数の単語重要度と関わる単語をカテゴリごとに抽出する。ただし、抽出対象となる単語は、これと関わる単語重要度の値が他のカテゴリに属する同一単語に関する単語重要度の値より高い単語である。あるいは、単語重要度の値が他のカテゴリに属する同一単語より高くない単語も出力するとしてもよい。
出力部5が抽出する単語数はユーザがシステム設定により任意に指定することができる。ここでは、カテゴリごとの抽出単語数が4と指定されたと仮定する。ここでは出力部5は単語“Wb”、単語“Wc”、単語“Wh”および単語“Wm”をカテゴリ“A”に属する文書データにおける重要単語として抽出する。
また、出力部5は単語“Wd”、単語“We”、単語“Wj”および単語“Wk”をカテゴリ“B”に属する文書データにおける重要単語として抽出する。
また、出力部5は単語“Wd”、単語“We”、単語“Wj”および単語“Wk”をカテゴリ“B”に属する文書データにおける重要単語として抽出する。
また、出力部5は単語“Wf”、単語“Wg”、単語“Wi”および単語“Wl”をカテゴリ“C”に属する文書データにおける重要単語として抽出する。
出力部5はこれらの抽出結果をもとに重要単語テーブルを生成してこれを別途設ける図示しない文書データ分類システムに出力する(ステップS6)。
出力部5はこれらの抽出結果をもとに重要単語テーブルを生成してこれを別途設ける図示しない文書データ分類システムに出力する(ステップS6)。
図8は本発明の実施形態にしたがった文書データ解析装置の出力部5が生成した重要単語テーブルの一例を表形式で示す図である。このテーブルでは各カテゴリに属する文書データの重要単語が管理される。
また、出力部5は各カテゴリについて単語重要度の値が大きい単語を予め定めた数だけカテゴリごとに抽出すると説明したが、これに代えて単語重要度が予め定められた基準値を超える単語をカテゴリごとに抽出するようにしてもよいし、単語重要度の値が大きい単語のうち予め定められた基準値を超える単語をカテゴリごとに抽出するようにしてもよい。
前述した文書データ分類システムは出力部5からの重要単語テーブルを入力した後にカテゴリが未知である文書データを入力した場合には、この文書データに含まれる単語を解析し、この単語と前述した重要単語テーブルとを照合することで、当該文書データが属するカテゴリを判別する。
以上説明したように、本発明の実施形態にしたがった文書データ解析システムでは、カテゴリ分類が済んでいる複数の文書データを取得し、この取得した文書データに含まれる単語とその頻度を解析し、この頻度に基づいて共通のカテゴリに属する文書データにおける各単語の重要度をカテゴリごとに算出し、この算出結果に基づいて各カテゴリに属する文書データにおける重要単語を出力するので、幾つかのカテゴリ分類済の文書データを用意すれば、これらの文書データに含まれる文章や各カテゴリに関する専門的な知識を要することなくカテゴリを特徴づけるキーワードを効率良く且つ精度よく抽出することができる。
なお、この発明は前記実施形態そのままに限定されるものではなく実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を省略してもよい。更に、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
1…入力部、2…文書解析部、3…単語頻度記憶部、4…単語重要度算出部、5…出力部。
Claims (4)
- 複数種類のうちいずれかの種類のカテゴリに属する複数の文書データを取得する取得手段と、
この取得手段により取得した文書データに含まれる単語を認識する認識手段と、
前記取得手段により取得した文書データのうち共通のカテゴリに属して単一種類の単語を共通して含む文書データの数を前記認識手段により認識した単語のそれぞれおよび前記複数種類のカテゴリのそれぞれについて計算する第1の計算手段と、
前記取得手段により取得した文書データのうち共通のカテゴリに属する文書データの数を前記複数種類のカテゴリのそれぞれについて計算する第2の計算手段と、
前記取得手段により取得した文書データのうち単一種類の単語を共通して含む文書データの数を前記認識手段により認識した単語のそれぞれについて計算する第3の計算手段と、
前記第1乃至第3の計算手段による計算結果にもとづいて、前記複数種類のうち共通のカテゴリに属する文書データに含まれる前記認識した単語のうち他のカテゴリに属する文書データ中の同一単語と比較して偏って出現する単語を前記複数種類のカテゴリのそれぞれについて解析する単語解析手段と
を備えたことを特徴とする文書データ解析装置。 - 前記単語解析手段は、
前記第1乃至第3の計算手段による計算結果にもとづいて、前記複数種類のうち共通のカテゴリに属する文書データにおける単一種類の単語の出現度合と他のカテゴリに属する文書データ中の前記単一種類の単語と同一の単語の出現度合との関連を示す値を前記認識した単語のそれぞれおよび前記複数種類のカテゴリのそれぞれについて計算し、前記共通のカテゴリに属する文書データにおける出現度合が他の各カテゴリに属する文書データにおける同一単語の出現度合より高い単語を前記計算した値をもとに前記複数種類のカテゴリのそれぞれについて解析する
ことを特徴とする請求項1に記載の文書データ解析装置。 - コンピュータを、
複数種類のうちいずれかの種類のカテゴリに属する複数の文書データを取得する取得手段、
この取得手段により取得した文書データに含まれる単語を認識する認識手段、
前記取得手段により取得した文書データのうち共通のカテゴリに属して単一種類の単語を共通して含む文書データの数を前記認識手段により認識した単語のそれぞれおよび前記複数種類のカテゴリのそれぞれについて計算する第1の計算手段、
前記取得手段により取得した文書データのうち共通のカテゴリに属する文書データの数を前記複数種類のカテゴリのそれぞれについて計算する第2の計算手段、
前記取得手段により取得した文書データのうち単一種類の単語を共通して含む文書データの数を前記認識手段により認識した単語のそれぞれについて計算する第3の計算手段、
前記第1乃至第3の計算手段による計算結果にもとづいて、前記複数種類のうち共通のカテゴリに属する文書データに含まれる前記認識した単語のうち他のカテゴリに属する文書データ中の同一単語と比較して偏って出現する単語を前記複数種類のカテゴリのそれぞれについて解析する単語解析手段として機能させるようにした、コンピュータ読み取り可能な文書データ解析プログラム。 - 前記単語解析手段は、
前記第1乃至第3の計算手段による計算結果にもとづいて、前記複数種類のうち共通のカテゴリに属する文書データにおける単一種類の単語の出現度合と他のカテゴリに属する文書データ中の前記単一種類の単語と同一の単語の出現度合との関連を示す値を前記認識した単語のそれぞれおよび前記複数種類のカテゴリのそれぞれについて計算し、前記共通のカテゴリに属する文書データにおける出現度合が他の各カテゴリに属する文書データにおける同一単語の出現度合より高い単語を前記計算した値をもとに前記複数種類のカテゴリのそれぞれについて解析する
ことを特徴とする請求項3に記載の文書データ解析プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006062903A JP2007241636A (ja) | 2006-03-08 | 2006-03-08 | 文書データ解析装置および文書データ解析プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006062903A JP2007241636A (ja) | 2006-03-08 | 2006-03-08 | 文書データ解析装置および文書データ解析プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007241636A true JP2007241636A (ja) | 2007-09-20 |
Family
ID=38587121
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006062903A Withdrawn JP2007241636A (ja) | 2006-03-08 | 2006-03-08 | 文書データ解析装置および文書データ解析プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007241636A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017073070A (ja) * | 2015-10-09 | 2017-04-13 | Necパーソナルコンピュータ株式会社 | コンテンツ推薦装置、コンテンツ推薦システム、コンテンツ推薦方法、及び、プログラム |
JP2019149102A (ja) * | 2018-02-28 | 2019-09-05 | ヤフー株式会社 | 情報処理装置、キーワード抽出装置、情報処理方法、およびプログラム |
JP2022029461A (ja) * | 2018-02-28 | 2022-02-17 | ヤフー株式会社 | キーワード抽出装置、キーワード抽出方法、およびプログラム |
-
2006
- 2006-03-08 JP JP2006062903A patent/JP2007241636A/ja not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017073070A (ja) * | 2015-10-09 | 2017-04-13 | Necパーソナルコンピュータ株式会社 | コンテンツ推薦装置、コンテンツ推薦システム、コンテンツ推薦方法、及び、プログラム |
JP2019149102A (ja) * | 2018-02-28 | 2019-09-05 | ヤフー株式会社 | 情報処理装置、キーワード抽出装置、情報処理方法、およびプログラム |
JP2022029461A (ja) * | 2018-02-28 | 2022-02-17 | ヤフー株式会社 | キーワード抽出装置、キーワード抽出方法、およびプログラム |
JP7297855B2 (ja) | 2018-02-28 | 2023-06-26 | ヤフー株式会社 | キーワード抽出装置、キーワード抽出方法、およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107463548B (zh) | 短语挖掘方法及装置 | |
KR20190062413A (ko) | 인과 관계 인식 장치 및 그것을 위한 컴퓨터 프로그램 | |
KR101565759B1 (ko) | 토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 시스템, 탐지 방법 및 탐지 장치 | |
TW201638803A (zh) | 文本挖掘系統和工具 | |
US20080126920A1 (en) | Method for creating FMEA sheet and device for automatically creating FMEA sheet | |
JP5900367B2 (ja) | 検索装置、検索方法及びプログラム | |
US20090276411A1 (en) | Issue trend analysis system | |
CN112347271A (zh) | 基于文字语义识别的配电物联网设备缺陷辅助录入方法 | |
US20060210171A1 (en) | Image processing apparatus | |
JP4924091B2 (ja) | Fmeaシート作成装置 | |
JP2007241636A (ja) | 文書データ解析装置および文書データ解析プログラム | |
US11182561B2 (en) | Data analyzer and data analysis method | |
WO2014170965A1 (ja) | 文書処理方法、文書処理装置および文書処理プログラム | |
JP4389102B2 (ja) | 技術文献検索システム | |
JP4813312B2 (ja) | 電子文書検索方法、電子文書検索装置及びプログラム | |
JP2009295101A (ja) | 音声データ検索システム | |
JP2009134378A (ja) | 文書群提示装置および文書群提示プログラム | |
JP4148247B2 (ja) | 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP6375367B2 (ja) | 反論生成方法,反論生成システム | |
CN113779983A (zh) | 文本数据处理方法以及装置、存储介质、电子装置 | |
JP2006119697A (ja) | 質問応答システム、質疑応答方法および質疑応答プログラム | |
JP5164876B2 (ja) | 代表語抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 | |
JP4573358B2 (ja) | 評判情報検索装置、その方法およびプログラム | |
JP2005050239A (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
KR101684442B1 (ko) | 정보분석 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20090512 |