JP5547030B2 - 情報分析装置及び方法及びプログラム - Google Patents

情報分析装置及び方法及びプログラム Download PDF

Info

Publication number
JP5547030B2
JP5547030B2 JP2010233789A JP2010233789A JP5547030B2 JP 5547030 B2 JP5547030 B2 JP 5547030B2 JP 2010233789 A JP2010233789 A JP 2010233789A JP 2010233789 A JP2010233789 A JP 2010233789A JP 5547030 B2 JP5547030 B2 JP 5547030B2
Authority
JP
Japan
Prior art keywords
word
data
list
words
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010233789A
Other languages
English (en)
Other versions
JP2012088854A (ja
Inventor
貴行 足立
俊郎 内山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010233789A priority Critical patent/JP5547030B2/ja
Publication of JP2012088854A publication Critical patent/JP2012088854A/ja
Application granted granted Critical
Publication of JP5547030B2 publication Critical patent/JP5547030B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報分析装置及び方法及びプログラムに係り、特に、特定分野に関する情報分析を行う情報分析装置及び方法及びプログラムに関するものである。
現在、インターネット上には多種多様で膨大な情報があり、その中から効率的に情報を探すため、情報検索システムが利用されている。その情報検索システムへ入力された単語には、不特定多数のユーザの要求が反映されているため、入力された単語の特徴が明らかになれば、その特徴をもとに情報検索システムの精度改善や、検索絞り込み支援のための関連単語の提示などに利用できる。さらに、入力は不特定多数の人々の関心事が反映されていると考えれば、ユーザ行動を支援する上で役立つ有益な情報となりうる。
従来技術として、情報検索システムにおいて、所定期間内に使用された検索語同士の関連度の強さを求めて、互いに強い関連を持つ語は同一の情報を得るために使用された語であるとみなすことで、例えば、年始における"年賀状"と"当選番号"のように一時的に関連の強くなった検索語同士の関連付けを行う情報関連づけ装置が開示されている(例えば、特許文献1参照)。
また、クエリ内の単語の共起頻度を基に関連付けを行う従来技術がある。例えば、"銀座"との共起頻度の高い順に単語を並べると "ランチ"、"○越"、"△屋"、"松◎屋"、"映画館"などの関連語を得ることができる。
さらに、例えば、"銀座"と共起する関連語は膨大であるため、その関連語を意味的にまとめ上げた方が全体的な特徴把握が行いやすい。なお、まとめ上げは、クエリ内の単語共起頻度を用いて各対象単語と共起する単語を要素とするベクトルを作成し、各対象単語に対するベクトルの類似度によりクラスタリングすることで求めることができる。
特許第3547069号公報
しかしながら、特定分野に関する特徴を掴みたい場面では、特定分野を端的に表わす単語が存在しない可能性や、特定分野を表わす単語が得られたとしてもクエリとして入力されにくい可能性がある。例えば、特定分野を「東京都内の各場所」としてその特徴を掴みたい場合、単語である"東京都"の共起語の特徴を調べることが考えられるが、東京都内の一場所である"銀座"の共起語には現れる"松◎屋"が"東京都"の共起単語には出現しないといったように、"東京都"が必ずしも「東京都内の各場所」を表わす単語とはなっていない。
本発明は上記のような課題を解決するものであり、特定分野に対する特徴把握のため、特定分野に関連する1つ以上の分野限定単語を準備し、その単語との共起する関連語を求めて、その関連語を対象単語として意味的にまとめ上げた結果を出力する情報分析装置及び方法及びプログラムを提供することを目的とする。
上記の課題を解決するために、本発明(請求項1)は、特定分野の関連語をグループ化する情報分析装置であって、
クエリログからクエリリストを作成するクエリリスト作成手段と、
クエリリストから分野限定単語リストに記載の全ての単語と共起する単語およびその共起頻度を求めた後で、前記分野限定単語リスト内に含まれる1つ以上の単語における共起頻度の高い順から一定の上位単語数または共起頻度が一定値以上の前記共起する単語を対象単語として対象単語リストを作成する対象単語リスト作成手段と、
前記クエリリストから1単語の頻度の高い順に並べた結果を単語データとして作成し、単語データベースに格納する単語データ作成手段と、
前記クエリリストから任意の2単語とその共起頻度を並べた結果を単語共起頻度データとして、単語共起頻度データベースに格納する単語共起頻度データ作成手段と、
前記対象単語リストの単語と前記単語データベースの単語データの単語との共起頻度を前記単語共起頻度データベースの前記単語共起頻度データから求めて、対象単語に対し、単語データの各単語を要素とする統計量のベクトルを作成し、単語ベクトルデータベースに格納する単語ベクトル作成手段と、
前記単語ベクトルデータベースから読み込んだ単語ベクトルデータから、各対象単語のベクトルの類似度を基に所定の条件を満たすまでクラスタリングを実施して、単語グループを作成する単語グループデータ作成手段と、を備える。
また、本発明(請求項2)は、前記単語データ作成手段において、
前記対象単語作成手段で、対象単語と共起する単語について共起頻度の高い順に並べたものを単語データとして作成した結果を用いる。
また、本発明(請求項3)は、特定分野の関連語をグループ化する情報分析方法であって、
単語データベース、単語共起頻度データベース、単語ベクトルデータベースを有する装置において、
クエリリスト作成手段が、クエリログからクエリリストを作成するクエリリスト作成ステップと、
対象単語リスト作成手段が、クエリリストから分野限定単語リストに記載の全ての単語と共起する単語およびその共起頻度を求めた後で、前記分野限定単語リスト内に含まれる1つ以上の単語における共起頻度の高い順から一定の上位単語数または共起頻度が一定値以上の前記共起する単語を対象単語として対象単語リストを作成する対象単語リスト作成ステップと、
単語データ作成手段が、前記クエリリストから1単語の頻度の高い順に並べた結果を単語データとして作成し、前記単語データベースに格納する単語データ作成ステップと、
単語共起頻度データ作成手段が、前記クエリリストから任意の2単語とその共起頻度を並べた結果を単語共起頻度データとして、前記単語共起頻度データベースに格納する単語共起頻度データ作成ステップと、
単語ベクトル作成手段が、前記対象単語リストの単語と前記単語データベースの単語データの単語との共起頻度を前記単語共起頻度データベースの前記単語共起頻度データから求めて、対象単語に対し、単語データの各単語を要素とする統計量のベクトルを作成し、前記単語ベクトルデータベースに格納する単語ベクトル作成ステップと、
単語グループデータ作成手段が、前記単語ベクトルデータベースから読み込んだ単語ベクトルデータから、各対象単語のベクトルの類似度を基に所定の条件を満たすまでクラスタリングを実施して、単語グループを作成する単語グループデータ作成ステップと、を行う。
また、本発明(請求項4)は、前記単語データ作成ステップにおいて、
前記対象単語作成ステップで、対象単語と共起する単語について共起頻度の高い順に並べたものを単語データとして作成した結果を用いる。
また、本発明(請求項5)は、請求項1または2に記載の情報分析装置を構成する各手段としてコンピュータを機能させるための情報分析プログラムである。
本発明によれば、特定分野に対する特徴把握のため、特定分野に関連する1つ以上の分野限定単語を準備し、その単語との共起する関連語を求めて、その関連語を対象単語として意味的にまとめ上げた結果を出力することで、特定分野の全体的な特徴が容易に把握可能となる。
本発明の一実施の形態における情報分析装置の構成図である。 本発明の一実施の形態における情報分析装置の処理の流れを表すフローチャートである。 本発明の一実施の形態における各種データの一例である。 本発明の一実施の形態におけるクラスタリング処理のデータの一例である。 本発明の一実施の形態におけるクラスタリング処理の説明図である。
以下図面と共に、本発明の実施の形態を説明する。
なお、本発明は下記の実施形態例に限定されるものではない。
図1は本発明の一実施形態の情報分析装置の構成図である。
本実施形態の情報分析装置100は、クエリリスト作成部110、対象単語リスト作成部120、単語データ作成部130、単語共起頻度データ作成部140、単語ベクトル作成部150、単語グループデータ作成部160、クエリリスト170、対象単語リスト180、単語データベース190、単語共起頻度データベース200、単語ベクトルデータベース210、分野限定単語リスト300、クエリログ400、単語グループデータベース500で構成される。
単語データベース190には、入力されたクエリログ400から抽出された単語と当該単語頻度が格納される。
単語共起頻度データベース200には、入力されたクエリログ400から抽出された任意の2つの単語の共起頻度が格納される。
単語ベクトルデータベース210には、入力された分野限定単語リスト300から抽出された対象単語と単語データベース190の頻度上位M件の特徴単語との共起頻度ベクトルが格納される。
単語グループデータベース500には、クラスタリングされた単語グループデータが格納される。
また、同図におけるクエリリスト170、対象単語リスト180は当該情報分析装置100内のメモリに格納されるものとする。
情報分析装置100内の各部の、後述する各機能は例えばコンピュータによって達成される。
図2は図1の情報分析装置の処理の流れを表すフローチャートである。図2のS100〜S150は各処理のステップを各々示している。
クエリリスト作成部110は、クエリログ400を入力し、メモリにクエリリスト170を出力する(S100)。対象単語リスト作成部120は、分野限定単語リスト300を入力し、クエリリスト170から分野限定単語リストに記載の単語との共起語の頻度を計数し、高頻度順に並び変えて、上位N位の単語もしくは出現頻度の閾値T以上の単語をメモリの対象単語リスト180へ出力する(S110)。単語データ作成部130は、クエリリスト170を入力し、各単語の頻度を計算し、高頻度順に並べ変えて、単語データベース190へ出力する(S120)。単語共起頻度データ作成部140は、クエリリスト170を入力し、2つ以上の単語を含むクエリから、任意の2単語の共起頻度を計数し、単語共起頻度データベース200へ出力する(S130)。単語ベクトル作成部150は、対象単語リスト180を入力し、単語データベース190の頻度上位M件の単語を特徴単語とし、対象単語と特徴単語の共起頻度を単語共起頻度データベース200から求めて、対象単語と特徴単語との共起頻度ベクトルを各対象単語について作成し、データを単語ベクトルデータベース210へ出力する(S140)。単語グループデータ作成部160は、単語ベクトルデータベース210を入力し、対象単語の単語ベクトルを用いてベクトルの類似性に基づいてクラスタリングし、単語グループデータベース500へ単語グループデータを出力する(S150)。
次に、本実施形態の動作を具体例により説明する。図3は、本発明の一実施の形態における各データの例であり、図4は、本発明の一実施の形態におけるクラスタリング処理の説明図を示す。
クエリリスト作成部110は、クエリログ400を入力し、メモリにクエリリスト170を出力する。例えば、所定の期間のクエリログが入力される。図3の(A)クエリログでは書式が
"日付時刻<tab>ユーザ識別子<tab>入力クエリ"
のようになっており、同じユーザ識別子であれば同一ユーザを意味する。また、複数の単語を含む入力クエリは空白によって各単語が区切られている。必要ならば、ある期間において、ユーザ識別子が同一で入力クエリも同一である場合は、誤って重複入力されたと考えて、重複分を除去しても構わない。最後にクエリ部分を、メモリに図3の(B)に示すようにクエリリスト170として出力する。
対象単語リスト作成部120は、分野限定単語リスト300を入力し、クエリリスト170から分野限定単語リスト300に記載の単語との共起語の頻度を計数し、高頻度順に並び替えて、上位N位もしくは出現頻度の閾値T以上とった所定の条件を満たす単語をメモリの対象単語リスト180へ出力する。例えば、特定分野として「東京都の各場所」に関する単語に限定すると仮定した場合、予め準備されている図3の(C)分野限定単語リスト300を読み込む。次に、図3(C)分野限定単語リスト300に記載の単語との共起語を図3(B)のクエリリスト170から探し出すと、図3の(C)の 単語"銀座"を含む共起単語として、図3の(B)の"銀座 ランチ"が見つかるので、"銀座"の共起語である"ランチ"の共起頻度が1加算される。同様の処理によって全ての分野限定単語ごとに各単語の共起語と頻度を求めた後、任意の分野限定単語における共起頻度を求めて、頻度の多い順に並べ、図3の(D)対象単語リスト180が出力される。
単語データ作成部130は、クエリリスト170を入力し、各単語の頻度を計算し、高頻度順に並べ変えて、単語データベース190へ出力する。例えば、図3の(B)クエリリスト170を入力すると、空白で区切られた各単語に対して、1単語ごとに計数し、高頻度順に並び替えて、図3の(E1)に示すデータが単語データベース190に出力される。
なお、クエリ全体から求めた単語ではなく、図1の対象単語リスト作成部120において得られる対象単語と共起する単語で代用しても構わない。
単語共起頻度データ作成部140は、クエリリスト170を入力し、2つ以上の単語を含むクエリから、任意の2組の単語について共起頻度を計数し、単語共起頻度データベース200へ出力する。例えば、図3の(B)クエリリスト170を入力すると、空白で区切られた各単語に対して、任意の2単語の共起単語の組合せを求めて計数し、単語共起頻度データとして単語共起頻度データベース200に出力する。図3の(F)に示す単語共起頻度データでは書式が"単語1<tab>単語2<tab>共起頻度"であるので、"○×新聞"と"英語版"の共起頻度は240000である。
単語ベクトル作成部150は、対象単語リスト180を入力し、単語データベース190の頻度上位M件の単語との共起頻度を単語共起頻度データベース200から求めて、対象単語と特徴単語との共起頻度ベクトルを各対象単語について作成し、データを単語ベクトルデータベース210へ出力する。例えば、単語データベース190から図3のE1の単語データを読み込み、頻度情報を除き(図3の(E2))、例えば、地名といったように事前準備した除外単語リスト(未記載)を利用して、除外単語リストに記載のない単語(図3の(E3))から上位M件の単語を準備する。次に、図3の(D)対象単語リスト180の"ラーメン"と図3の(E3)単語データの上位M件の単語との共起頻度を求めると、図3の(G)単語ベクトルデータの"ラーメン"に対するM個の要素からなる行ベクトルができる。なお、図3の(G)単語ベクトルデータの値は共起頻度となっているが、各行の要素値の総和が1となるように正規化しても構わない。これを全ての対象単語について処理した後、図3(G)の単語ベクトルデータが出力される。
単語グループデータ作成部160は、単語ベクトルデータベース210を入力し、対象単語の単語ベクトルを用いてベクトルの類似性に基づいてクラスタリングし、単語グループデータベース500へ単語グループデータを出力する。
なお、以下の説明では、クラスタリングは既存の階層的クラスタリング手法を用いるが、ベクトルの類似性を元に対象単語がクラスタリングできれば良いため、上記手法に限定されない。また、ベクトル間の類似度計算はコサイン類似度を用いて説明するが、ベクトル間の類似度を求めることができれば、この計算方法に限定されない。例えば、図4の単語ベクトルデータは、対象単語に対して特徴単語の統計量からなるベクトル群である。図4の単語ベクトルデータの列には対象単語"もつ鍋"、…、"商店街"が、行には特徴単語"レシピ"、…、"ランキング"が並んでおり、対象単語と特徴単語との共起頻度が格納され、さらに各行の和が1となるように正規化されている。また、初期段階では1単語が1クラスタに対応している。
図4の正規化済み単語特徴ベクトルデータで説明すると、対象単語Aのベクトル要素値をAj、対象単語Bのベクトル要素値をBjとした場合(この例では、j=1,…,M(=5)とする)、コサイン類似度は、
Figure 0005547030
で求まる。図4の類似度データを格納するメモリには、各クラスタ間の類似度データが格納されており、図4の各表の書式は、1列目、2列目がクラスタ番号であり3列目が1列目と2列目のクラスタ間の類似度である。また、順に行われるクラスタリング処理に従って、類似度データはAからDのように変化する。図4のA:類似度(初期状態)では、全ての組の中で4番と5番の類似度が1.0で最大となるので、クラスタ番号4番の"地下"とクラスタ番号5番の"商店街"を統合する。統合処理は、統合対象の単語ベクトルデータの更新と、類似度データの更新が実施される。例えば、統合対象の更新結果をメモリ内のクラスタ番号が小さい方のデータへ格納し、クラスタ番号の大きな方のデータを除去する。
具体的には、単語ベクトルデータのクラスタ番号4番の行のクラスタの単語を"地下"から"地下 商店街"とし、クラスタ番号4と5を1つのクラスタと考えてベクトル値を再計算し、格納する。また、クラスタ番号5番のクラスタの単語を除去する。一方、ベクトル値の更新の影響のある4番との間で計算された類似度についても再計算すると図4のBの1と4、2と4、3と4のように類似度が更新される。なお、クラスタ番号のうち大きい方である5番については、4番に統合されて不要となるので、図4のBの1と5、2と5、3と5、4と5を空とする。次に図4のBの類似度データに対して同様に処理すると、図4のBの1番と2番が最大の類似度0.89であるので統合処理が施され、正規化済み単語ベクトルを更新し、図4のCの類似度データに更新される。さらに続けると、図4のCの類似度データの1番と3番が最大の類似度0.72であるので統合処理を行われる。最終的に図4のDの類似度データのように1番と4番が類似するので全ての対象単語が1つのクラスタに統合される。しかしながら、実際には全てをまとめずに所定のクラスタ数Pもしくは所定の類似度Qの閾値を設け、クラスタ数がPに達した場合もしくは類似度がQ未満になる時点でクラスタリングを停止する。例えば、P=2の場合は、1〜3番、4〜5番の2つのクラスタができた時点で終了する。また、閾値Q=0.7の場合は、1〜3番、4〜5番の2つのクラスタに統合された後に、次に全てを統合すると閾値未満となるで、この時点で終了する。いずれの停止条件を用いるかは、事前に定めた上で実施する。例えば、クラスタ数P=2で停止する場合は、図4の単語グループデータが単語グループデータベース500に出力される。なお、先頭番号はクラスタ番号である。
次に、特定分野の関連語について意味的にまとめ上げを行う際に、まとめ上げの対象となる単語を、特定分野を表わす1つ以上の分野限定単語との関連語に限定して実施しているが、その効果について説明する。
例えば、特定分野を「東京都の各場所」として、図3の(C)分野限定単語リストのように"銀座"、"六本木"、"渋谷"などの地名と共起する関連語がまとめ上げの対象の単語とする。本発明では、対象の単語である"もつ鍋"と同一クラスタの単語を調べると、図5の(A)対象単語を限定する場合のように、「食」に関する単語がまとまっている。
一方、別の方法として、クエリの任意の単語をまとめ上げの対象の単語として実施し、その後、特定分野の関連語のみを残すことが考えられる。この方法では、対象の単語である"もつ鍋"と同一クラスタの単語を調べると、図5の(B)対象単語を限定しない場合のように、ボックスで囲まれていない「東京都の各場所」と共起しない単語もまとめあげに用いられて影響を与えるため、ボックスで囲まれた「東京都の各場所」と共起する単語のみ残したとしても、食以外の"地下鉄"、"地下"、"商店街"といった単語も同一クラスタに含まれるという問題がある。
次に、単語間の共起頻度は、クエリログ全体から計算することで高精度の単語分類が可能な例を説明する。本発明では、単語共起頻度をクエリログ全体から求めている。一方、別の方法として、分野限定単語リスト300を用いて、クエリログ中に分野限定単語リストを含んでいるデータから単語共起頻度を求めることも考えられるが、その場合、単語共起頻度は全体的に低頻度となってしまうため、図5の(C)単語共起頻度を限定した場合のように、対象の単語である"もつ鍋"と同一のクラスタの単語として、食以外の"岩盤浴"といった単語も含まるという問題がある。
また、本実施形態の情報分析装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の関連語計算方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばフレキシブルディスクや、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)-ROM、DVD(Digital Versatile Disk)-ROM、CD-R、CD-RW、HDD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
100 情報分析装置
110 クエリリスト作成部
120 対象単語リスト作成部
130 単語データ作成部
140 単語共起頻度データ作成部
150 単語ベクトル作成部
160 単語グループデータ作成部
170 クエリリスト
180 対象単語リスト
190 単語データベース
200 単語共起頻度データベース
210 単語ベクトルデータベース
300 分野限定単語リスト
400 クエリログ
500 単語グループデータベース

Claims (5)

  1. 特定分野の関連語をグループ化する情報分析装置であって、
    クエリログからクエリリストを作成するクエリリスト作成手段と、
    クエリリストから分野限定単語リストに記載の全ての単語と共起する単語およびその共起頻度を求めた後で、前記分野限定単語リスト内に含まれる1つ以上の単語における共起頻度の高い順から一定の上位単語数または共起頻度が一定値以上の前記共起する単語を対象単語として対象単語リストを作成する対象単語リスト作成手段と、
    前記クエリリストから1単語の頻度の高い順に並べた結果を単語データとして作成し、単語データベースに格納する単語データ作成手段と、
    前記クエリリストから任意の2単語とその共起頻度を並べた結果を単語共起頻度データとして、単語共起頻度データベースに格納する単語共起頻度データ作成手段と、
    前記対象単語リストの単語と前記単語データベースの単語データの単語との共起頻度を前記単語共起頻度データベースの前記単語共起頻度データから求めて、対象単語に対し、単語データの各単語を要素とする統計量のベクトルを作成し、単語ベクトルデータベースに格納する単語ベクトル作成手段と、
    前記単語ベクトルデータベースから読み込んだ単語ベクトルデータから、各対象単語のベクトルの類似度を基に所定の条件を満たすまでクラスタリングを実施して、単語グループを作成する単語グループデータ作成手段と
    を備えたことを特徴とする情報分析装置。
  2. 前記単語データ作成手段は、
    前記対象単語作成手段で、対象単語と共起する単語について共起頻度の高い順に並べたものを単語データとして作成した結果を用いる
    請求項1記載の情報分析装置。
  3. 特定分野の関連語をグループ化する情報分析方法であって、
    単語データベース、単語共起頻度データベース、単語ベクトルデータベースを有する装置において、
    クエリリスト作成手段が、クエリログからクエリリストを作成するクエリリスト作成ステップと、
    対象単語リスト作成手段が、クエリリストから分野限定単語リストに記載の全ての単語と共起する単語およびその共起頻度を求めた後で、前記分野限定単語リスト内に含まれる1つ以上の単語における共起頻度の高い順から一定の上位単語数または共起頻度が一定値以上の前記共起する単語を対象単語として対象単語リストを作成する対象単語リスト作成ステップと、
    単語データ作成手段が、前記クエリリストから1単語の頻度の高い順に並べた結果を単語データとして作成し、前記単語データベースに格納する単語データ作成ステップと、
    単語共起頻度データ作成手段が、前記クエリリストから任意の2単語とその共起頻度を並べた結果を単語共起頻度データとして、前記単語共起頻度データベースに格納する単語共起頻度データ作成ステップと、
    単語ベクトル作成手段が、前記対象単語リストの単語と前記単語データベースの単語データの単語との共起頻度を前記単語共起頻度データベースの前記単語共起頻度データから求めて、対象単語に対し、単語データの各単語を要素とする統計量のベクトルを作成し、前記単語ベクトルデータベースに格納する単語ベクトル作成ステップと、
    単語グループデータ作成手段が、前記単語ベクトルデータベースから読み込んだ単語ベクトルデータから、各対象単語のベクトルの類似度を基に所定の条件を満たすまでクラスタリングを実施して、単語グループを作成する単語グループデータ作成ステップと、
    を行うことを特徴とする情報分析方法。
  4. 前記単語データ作成ステップにおいて、
    前記対象単語作成ステップで、対象単語と共起する単語について共起頻度の高い順に並べたものを単語データとして作成した結果を用いる
    請求項3記載の情報分析方法。
  5. 請求項1または2に記載の情報分析装置を構成する各手段としてコンピュータを機能させるための情報分析プログラム。
JP2010233789A 2010-10-18 2010-10-18 情報分析装置及び方法及びプログラム Active JP5547030B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010233789A JP5547030B2 (ja) 2010-10-18 2010-10-18 情報分析装置及び方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010233789A JP5547030B2 (ja) 2010-10-18 2010-10-18 情報分析装置及び方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2012088854A JP2012088854A (ja) 2012-05-10
JP5547030B2 true JP5547030B2 (ja) 2014-07-09

Family

ID=46260426

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010233789A Active JP5547030B2 (ja) 2010-10-18 2010-10-18 情報分析装置及び方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5547030B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6434954B2 (ja) * 2016-11-28 2018-12-05 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム
US10831752B2 (en) * 2018-04-25 2020-11-10 International Business Machines Corporation Semantic relational database operations

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3614765B2 (ja) * 2000-09-13 2005-01-26 日本電信電話株式会社 概念辞書拡張装置
JP2009031931A (ja) * 2007-07-25 2009-02-12 Univ Waseda 検索語クラスタリング装置、検索語クラスタリング方法、検索語クラスタリングプログラム及び記録媒体

Also Published As

Publication number Publication date
JP2012088854A (ja) 2012-05-10

Similar Documents

Publication Publication Date Title
KR101479040B1 (ko) 태그들을 문서에 자동으로 추가하는 방법, 장치 및 컴퓨터 저장 매체
KR20080068825A (ko) 디스플레이를 위한 고품질 리뷰 선택
JP2005128873A (ja) 質問応答型文書検索システム及び質問応答型文書検索プログラム
JP2011529600A (ja) 意味ベクトルおよびキーワード解析を使用することによるデータセットを関係付けるための方法および装置
JP5547669B2 (ja) 関連語抽出装置、関連語抽出方法、関連語抽出プログラム
JP2011070291A (ja) トピックワード抽出装置、トピックワード抽出システム、トピックワード抽出方法、及びプログラム
JP2004362451A (ja) 検索キーワード情報表示方法及びシステム及び検索キーワード情報表示プログラム
JP5547030B2 (ja) 情報分析装置及び方法及びプログラム
JP5271863B2 (ja) 情報分析装置、情報分析方法および情報分析プログラム
JP5321258B2 (ja) 情報収集システムおよび情報収集方法ならびにそのプログラム
JP4525433B2 (ja) 文書集約装置及びプログラム
JP5068358B2 (ja) 回答者抽出装置及びその方法
JP5102883B2 (ja) ユーザ発言抽出装置とその方法と、プログラム
JP2004157649A (ja) 階層化されたユーザプロファイル作成方法およびシステム並びに階層化されたユーザプロファイル作成プログラムおよびそれを記録した記録媒体
JP5180894B2 (ja) 属性表現獲得方法及び装置及びプログラム
CN104778247B (zh) 一种基于给定数据资源的信息检索方法及装置
JP6115487B2 (ja) 情報収集方法、対話システム及び情報収集装置
KR20050109106A (ko) 통합 검색 결과를 효율적으로 제공하는 검색 서비스 제공방법 및 시스템
JP2007188134A (ja) 索引ファイルを用いた文書検索の方法
JP2009070210A (ja) カテゴリ別ランキング作成装置
JP5199968B2 (ja) キーワードタイプ判定装置、キーワードタイプ判定方法およびキーワードタイプ判定プログラム
WO2012124213A1 (ja) 要約作成装置、要約作成方法、およびコンピュータ読み取り可能な記録媒体
JP2015022723A (ja) 文書を検索する装置及び方法
JP5761033B2 (ja) 文書分析装置、文書分析方法、およびプログラム
JP5557791B2 (ja) マイクロブログテキスト分類装置、マイクロブログテキスト分類方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121212

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20131001

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131029

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140514

R150 Certificate of patent or registration of utility model

Ref document number: 5547030

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150