JP2002251590A - 文書分析装置 - Google Patents

文書分析装置

Info

Publication number
JP2002251590A
JP2002251590A JP2001048482A JP2001048482A JP2002251590A JP 2002251590 A JP2002251590 A JP 2002251590A JP 2001048482 A JP2001048482 A JP 2001048482A JP 2001048482 A JP2001048482 A JP 2001048482A JP 2002251590 A JP2002251590 A JP 2002251590A
Authority
JP
Japan
Prior art keywords
document
time
analysis
series data
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001048482A
Other languages
English (en)
Inventor
Tomoya Ogawa
知也 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2001048482A priority Critical patent/JP2002251590A/ja
Publication of JP2002251590A publication Critical patent/JP2002251590A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】 【課題】 時系列データと、文書セットの各文書に付与
されたテーマ情報を利用することで文書の効率的な分析
を行うこと。 【解決手段】 分析手段3は、テーマ情報が付与された
時間データを有する例えば新聞、論文等からなる文書セ
ット1と、株価、金利等の時系列データセット2に基づ
き分析処理を行う。分析処理としては、時系列データセ
ット2と対応付けられた文書群について、文書中にテー
マ情報が出現する時点を基準とした予め定めた単位期間
における時系列データの変動量(例えば株価変動)を求
め、該変動量を統計処理したり、あるいは、予め定めた
単位期間において生ずる事象(例えば株価変動)に属す
る時系列データと文書とを対応付け、対応付けられた各
文書群の特徴的テーマ情報を抽出する。なお、上記単位
期間を変更して、異なる視点での分析結果を求めてもよ
い。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書を時系列デー
タと対応付け、文書に付与されたテーマ情報を利用して
文書の分析を行う文書分析装置に関する。
【0002】
【従来の技術】従来、文書に含まれる情報を分析する手
法としては、テキスト中の単語や複合語に注目し、これ
らを用いた分析処理が行われている程度であった。
【0003】
【発明が解決しようとする課題】近年、インターネット
の普及や全文データベースの増加に伴い、我々の身の回
りの文書情報は飛躍的に増加している。それらの文書に
含まれる情報を効率的に活用するためには、文書情報の
整理、分類、分析技術が重要となる。しかし、現状の分
析システムは上記したように文書セットに含まれる情報
を必ずしも十分に活用しているとは言えず、必要な情報
が効率よく入手できる文書分析技術が望まれていた。本
発明は上記事情を考慮してなされたものであって、本発
明の目的は、時系列データと、文書セットの各文書に付
与されたテーマ情報を利用することで文書の効率的な分
析を行うことである。
【0004】
【課題を解決するための手段】図1は本発明の概要を説
明する図である。同図において、1はテーマ情報が付与
された時間データを有する例えば新聞、雑誌、論文、特
許情報等からなる文書セット、2は株価、金利等の時系
列データセット、3の分析手段であり、分析手段3は、
上記文書セット1と時系列データセット2に基づき、文
書の分析処理を行う。4は入出力手段であり、分析処理
に関連するデータ入力を行うとともに、上記分析手段に
よる分析結果を出力する。図1において、本発明では、
以下のようにして文書の時間データに基づき、文書セッ
トの各文書と時系列データを対応付け、対応付けられた
各文書に付与されたテーマ情報および時系列データを用
いて分析処理を行う。 (1)分析手段3は、時系列データセット2と対応付け
られた文書群について、文書中にテーマ情報が出現する
時期を基準とした予め定めた単位期間における時系列デ
ータの変動量を求め、該変動量を統計処理することによ
り分析結果を求める。例えば、上記時系列データが株価
であるとすると、文書中にテーマ情報が出現する時期を
基準とした単位期間における株価の変動を求め、該変動
を統計処理し、上記文書中のテーマ情報と統計量とを対
応付ける。 (2)分析手段3は、予め定めた単位期間において生ず
る事象に属する時系列データと文書とを対応付け、対応
付けられた各文書群の特徴的テーマ情報を抽出して分析
結果を求める。例えば、時系列データを株価とし、上記
事象が株価の上昇、下降であるとすると、単位期間にお
いて株価が上昇したか下降したかを調べ、株価の上昇、
下降と、上記単位期間の最初の時期に発行された文書群
とを対応付け、該文書群から特徴テーマ情報を抽出し、
特徴素選択の手法などを用いて、株価の上昇、下降に特
徴的なテーマ情報を抽出する。 (3)上記(1)(2)において、分析手段3は、時系
列データの上記単位期間を変更して、異なる視点での分
析結果を求める。本発明においては、上記のように、テ
ーマが付与された新聞記事のように時間データを持つ文
書と、時系列データを対応付け、対応付けられた各文書
に付与されたテーマ情報および時系列データを用いて分
析処理を行っているので、従来のように文書中の単語や
複合語を用いる場合と比べ、効率的な分析を行うことが
できる。
【0005】
【発明の実施の形態】図2は本発明の実施例のシステム
構成図である。同図において、11はテーマが予め付与
された時間情報(発行年月日等)を持つ文書セットであ
り、例えば、新聞、雑誌、論文、特許情報等からなる文
書群である。各文書には、予めテーマ情報が付与されて
いる。文書セットの各文書へのテーマ付与は、既存の技
術である文書分類手法を用いることができる。例えば、
naive bayesや決定木のような機械学習の手
法を用いても良いし、人手で作成したルールを用いても
良い。12は時系列データセットであり、例えば株価、
金利、1ドル当たりの円価格等、時間とともに変動する
データ群である。14は検索モジュールであり、文書セ
ットの中から分析対象となる文書等を検索する。13は
分析モジュールであり、上記文書セットと時系列データ
を対応付け、対応付けられた各文書に付与されたテーマ
情報および時系列データを用いて分析処理を行う。15
はユーザとシステムの間のインタフェースをとるための
GUIモジュールであ。
【0006】図2において、分析処理は次のように行わ
れる。まず分析処理の準備として、予め、ユーザの指示
等に応じて文書セットの各文書へのテーマ付与を行って
おく。分析処理を行う場合、ユーザは分析対象となる文
書群や時系列データや分析内容をGUIモジュール5か
ら指示する。これに応じて、検索モジュールは、文書セ
ット11と時系列データセット12から分析対象となる
文書や時系列データを取り出し、分析モジュール13は
ユーザからの指示に応じた分析処理を行う。GUIモジ
ュールは、分析モジュール13から分析結果を受け取る
と、その結果をユーザへ提示する。
【0007】次に本発明による分析処理の実施例につい
て説明する。 (1)実施例1 本実施例では、文書セットに付与されたテーマと時系列
データセットを対応付け、各テーマについて、上記時系
列データセットから統計量を求めることにより、文書セ
ットの特徴を把握する場合の処理について説明する。図
3は本実施例における分析処理を説明する図である。以
下、同図を参照しながら本実施例について説明する。こ
こでは、例として、新聞記事が株価変動に及ぼす影響の
分析を考える。この場合、時間情報を有する文書セット
11は新聞記事であり、時系列データセット12は株価
データとなる。新聞記事にはあらかじめ、<提携>や<
新製品開発>のようなテーマが付与されているとする。
また、株価変動としては、単位期間(例えば1日、1週
間、1か月等)当たりの株価変動を用いる。例えば、y
を当日の株価、yoを単位期間前の株価とすると、株価
変動を次の式に示す株価変動の比rとする。 r=(y−yo)/yo また、複数の銘柄の比較による株価変動の抽出を行う場
合には、2つの株価変動の差等を用いることもできる。
【0008】本実施例においては、以下の(i) 〜(iv)に
より分析処理を行う。 (i) 文書セットから分析対象関連の文書を検索する。検
索モジュール14により文書セット11(この場合は新
聞記事)から分析対象関連(例えば、企業、業務等)の
新聞記事を検索する。例えばA社の株価変動を分析する
場合には、その企業の銘柄に関連する新聞記事を検索す
る。 (ii)その文書集合について、各文書に付与されているテ
ーマの集合と、各テーマが属する文書の発行時期を求め
る。これにより、例えば図3に示すように各テーマとそ
のテーマが付与された文書の発行時期(以下、単に時期
という)が抽出される。上記テーマの集合と時期は分析
モジュール13に渡される。 (iii) 各テーマについて、そのテーマに属する文書と同
じ時系列的属性を有する時系列データを求め、統計量を
計算する。すなわち、分析モジュール13により、上記
時期と時系列データセット(この場合は株価)12を対
応付け、各テーマが属する新聞記事が発行された時期か
ら前記単位期間における時系列データの変動量を求め
る。
【0009】例えば、図4(a)に示すように株価が変
動しており、抽出されたテーマA〜Cが属する新聞記事
の発行時期(以下、テーマA〜Cが出現する時期とい
う)が同図に示す時期であったとする。また、ここでは
単位期間が1週間であるとする。同図において、時期t
2でテーマCが出現したとすると、分岐モジュール13
は、テーマが出現した日と、その日から1週間後の株価
を調べ、その1週間における株価の上昇率または下降率
を求める。また、翌日のt2+1の時期でテーマAが出
現したとすると、同様にその日と、その日から1週間後
の株価を調べ、その一週間における株価の変動を調べ
る。以下同様に各テーマについて、そのテーマが出現し
た日から1週間における株価の変動を調べる。以上のよ
うにして各テーマについて、1週間における株価変動が
求まったら、分析モジュール13の統計処理部13a
は、各テーマについて、株価変動の統計量(例えば平均
と標準偏差)を求める。 (iv)テーマを統計量順にソートする。統計処理部13a
は上記のようにして求めた統計量順にテーマをソートす
る。例えば、統計量が平均と標準偏差の場合には、平均
値が高い順に上記テーマをソートする等の方法を採るこ
とができる。
【0010】ここでは統計量として、平均と標準偏差を
求めた場合について一例を示す。図5は、上記単位期間
を1日単位として、ある企業(A社)の新聞記事および
株価データを用いて、株価上昇および株価下降と関連の
あるテーマを抽出した例である。各テーマの縦線の中央
の点が株価変動の平均値を、線の長さは標準偏差を示
す。例えば、株価変動の平均値の高い順にソートし、平
均値の高い(図の左側の)テーマに注目することで、<
高齢者>、<ライセンス・特許>、<新株発行・社債発
行>などのテーマの株価上昇との関連が読みとれる。単
位期間を1日から1週間、1ヶ月のように変更すること
により、それぞれの期間における重要なテーマを抽出す
ることができる。図6に上記分析において、単位期間を
一週間とした場合、図7に単位期間を1か月とした場合
を示す。また、各期間に共通して出現するテーマに注目
することで、あまり時間に依存せずに重要なテーマを知
ることもできる。
【0011】以上のように、本実施例によれば、テーマ
と、時系列データセットを対応付けることで、文書セッ
トの特徴を効率的に把握することが可能となる。なお、
上記実施例では、テーマが出現した時期を開始時期とし
てその時期から単位期間における株価変動の統計量を求
める場合について説明したが、最近では、インターネッ
トからの情報入手等により新聞記事等より早く情報を入
手し、それを元に投資行動を起こすことも考えられる。
この場合には、株価変動の開始時期周辺より遅い時期の
新聞記事とも対応付けた方がより適切であると考えられ
る。このように、テーマの出現した時期と株価変動時期
との対応付けは状況に応じて適宜選定してもよい。
【0012】上記説明では、平均値μi と標準偏差σi
を求めてソートしているが、各テーマti (新聞記事件
数n件)の株価変動の平均値μi と標準偏差σi を比較
する方法としては、その外、下記(1)式に示すよう
に、株価変動の全体の平均μおよび標準偏差σとの検定
統計量Zを求め、その順にソートする等の方法を用いて
もよい。
【0013】
【数1】
【0014】図8に、上記実施例において単位期間が一
週間、一ヵ月の場合の平均値と標準偏差σおよび上記
(1)式により求めた検定統計量Zを示す。同図(a)
は単位期間が一週間の場合、(b)は一ヵ月の場合であ
り、この例では、平均値順にソートした場合と、Z値順
にソートした場合とでほぼ同じ結果が得られている。
【0015】(2)実施例2 本実施例では、分析対象となる事象が時系列データセッ
トに発生した時期に発行された文書に付与されたテーマ
を求めることで、文書セットの特徴を把握する場合の処
理について説明する。図9は本実施例における分析処理
を説明する図である。以下、同図を参照しながら本実施
例について説明する。ここでは、株価変動の外部要因分
析を新聞記事に基づいて行う例について説明する。この
例でも、先の実施例と同様、時間情報を有する文書セッ
ト11は新聞記事であり、時系列データセット12は株
価データとなる。また、新聞記事にはあらかじめ、<提
携>や<新製品開発>のようなテーマが付与されている
とする。先の例では、テーマに属する記事全体と株価変
動との関連を分析したが、この例では、大きな株価変動
時におけるその要因としてのテーマを知ることを考え
る。
【0016】本実施例においては、以下の(i) 〜(iv)に
より分析処理を行う。 (i) 分析対象となる事象が発生した時期を時系列データ
セットから抽出する。分析モジュール13は、時系列デ
ータセット12から分析対象事象である株価の変動が発
生した時期を抽出する。 (ii)時系列データに現れる事象が発生した時期に発行さ
れた文書集合を求める。時系列データセット12から株
価変動が発生した時期が抽出されると、検索モジュール
14は文書セット11からその時期に発行された分析対
象関連の新聞記事群を検索する。 (iii) 各事象について、その事象に属する文書集合のテ
ーマ情報を取得する。分析モジュール13は、検索モジ
ュール14により検索された新聞記事群の各記事からテ
ーマ情報を取得する。例えば、図4(b)に示すように
株価が変動しており、ここでは単位期間が1週間である
とする。また、テーマA〜Cが属する新聞記事の発行時
期(以下、テーマA〜Cが出現する時期という)が同図
に示す時期であったとする。分析モジュール13は、時
系列データセット12における1週間単位での株価変動
を調べる。そして、検索モジュール14は株価の上昇、
下降時に発行された文書群を検索し、その文書に付与さ
れたテーマ情報を取得する。
【0017】例えば図4(b)に示すようにt2の時期
から、単位期間である1週間の間に株価が上昇した場合
には、その一週間が始まる最初の日であるt2の時期に
出現するテーマCを、株価上昇に対応したテーマとして
取得する。また、同様に、翌日のt2+1の時期から1
週間の間に株価が上昇した場合には、t2+1の時期に
出現するテーマAを、株価上昇に対応したテーマとして
取得する。同様に、t4の時期から1週間の間に株価が
下降した場合には、t4の時期に出現するテーマBを、
株価下降に対応したテーマとして取得する。 (iv)テーマ情報を元に、各カテゴリーの特徴テーマを、
特徴抽出の手法に基づき抽出する。分析モジュール13
は上記のようにして抽出されたテーマ情報に基に、特徴
素抽出部13bにおいて、特徴素選択の手法などを用い
て、それぞれの時期に発行された新聞記事に特徴的なテ
ーマを抽出する。上記特徴的なテーマの抽出は、例えば
次のように行うことができる。 (a) 特徴素選択の手法に基づき、各クラス(株価上昇、
株価下降等)の特徴テーマの候補を抽出する。 (b) 最大エントロピー法に基づき、抽出された特徴テー
マ候補が適切であるかどうかを確認する。特徴素選択の
手法には幾つかの手法があるが、ここでは、比較的良好
な結果が得られるχ2 法に基づく方法を用いた。すなわ
ち、各クラス(株価上昇、株価下降等)における特徴テ
ーマを求めるため、以下の(2)(3)式に示すクラス
j におけるテーマti の出現頻度のx ij の理論度数
ijからのずれをテーマの評価点score(i,j)として、あ
るクラスにおける評価点の大きい順に特徴テーマとして
選択する。
【0018】
【数2】
【0019】ここで、上記(3)式のmはテーマの異な
り数を、nはクラスの数を、xijはクラスcj における
テーマti の出現頻度をmijはクラスCj におけるテー
マt i の理論度数を、それぞれ現す。なお、上記χ2
に変えて、Kullback−Leibler情報量に
基づく方法など他の方法を用いてもかまわない。上記特
徴素選択に基づく手法では、各クラスを特徴付けるテー
マを抽出できるが、クラス間でのテーマの比較を行うこ
とは単純にはできない。そこで、特徴テーマの候補が適
切であるかどうかを確認するため、上記のように最大エ
ントロピーを用いて確認することが考えられる。本実施
例により、ある企業(A社)の新聞記事および株価デー
タを用いて、株価上昇および株価下降と関連のあるテー
マを抽出した例(単位期間:1週間)を図10に示す。
株価上昇と関連の深いテーマとして<合弁・提携>、<
ライセンス・認可>などがあることが分かる。上記テー
マを用いず文書中の単語を用いて株価上昇および株価下
降と関連のある特徴語を抽出した例(単位期間:1週
間)を図11に示す。図11と比較すると図10では株
価上昇や株価下降時の特徴が明確に表れており、本手法
を用いることで株価上昇および株価下降の要因を従来手
法よりも的確に分析できることが分かる。なお、本実施
例においても、前記実施例1と同様、テーマの出現した
時期と株価変動時期との対応付けを状況に応じて適宜選
定してもよい。
【0020】
【発明の効果】以上説明したように、本発明において
は、テーマが付与された新聞記事のように時間データを
持つ文書と、時系列データを対応付け、対応付けられた
各文書に付与されたテーマ情報および時系列データを用
いて分析処理を行っているので、従来のように文書中の
単語や複合語を用いる場合と比べ、効率的な分析を行う
ことができる。
【図面の簡単な説明】
【図1】本発明の概要を説明する図である。
【図2】本発明の実施例のシステム構成図である。
【図3】実施例1における分析処理を示す図である。
【図4】実施例1および実施例2を説明する図である。
【図5】A社のテーマ毎の株価の変動値(単位期間1
日)を示す図である。
【図6】A社のテーマ毎の株価の変動値(単位期間一週
間)を示す図である。
【図7】A社のテーマ毎の株価の変動値(単位期間一ヵ
月)を示す図である。
【図8】平均値と標準偏差σおよび検定統計量Z(単位
期間が一週間、一ヵ月)を示す図である。
【図9】実施例2における分析処理を示す図である。
【図10】A社の株価の上昇/下降時の特徴テーマ(1
週間単位)を示す図である。
【図11】文書中の単語を用いて抽出した場合のA社の
株価の上昇/下降時の特徴語(1週間単位)を示す図で
ある。
【符号の説明】
1 文書セット 2 時系列データセット 3 分析手段 4 入出力手段 11 文書セット 12 時系列データセット 13 分析モジュール 14 検索モジュール 15 GUIモジュール

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 テーマ情報が付与された時間データを有
    する文書セットと、時系列データセットに基づき、文書
    を分析する装置であって、 上記文書の時間データに基づき、文書セットの各文書と
    時系列データを対応付け、対応付けられた各文書に付与
    されたテーマ情報および時系列データを用いて分析処理
    を行って分析結果を求める分析手段と、 分析処理に関連するデータ入力を行うとともに、上記分
    析手段による分析結果を出力する入出力手段とを備えた
    ことを特徴とする文書分析装置。
  2. 【請求項2】 上記分析手段は、時系列データと対応付
    けられた文書群について、文書中にテーマ情報が出現す
    る時期を基準とした予め定めた単位期間における時系列
    データの変動量を求め、該変動量を統計処理して分析結
    果を求めることを特徴とする請求項1の文書分析装置。
  3. 【請求項3】 上記分析手段は、予め定めた単位期間に
    おいて生ずる事象に属する時系列データと文書とを対応
    付け、対応付けられた各文書群の特徴的テーマ情報を抽
    出して分析結果を求めることを特徴とする請求項1の文
    書分析装置。
  4. 【請求項4】 上記分析手段は、時系列データの上記単
    位期間を変更して、異なる視点での分析結果を求めるこ
    とを特徴とする請求項2または請求項3の文書分析装
    置。
  5. 【請求項5】 テーマ情報が付与された時間データを有
    する文書セットと、時系列データセットに基づき、文書
    を分析するプログラムであって、 上記プログラムは、コンピュータに、 上記文書の時間データに基づき、文書と時系列データを
    対応付ける手順と、対応付けられた各文書に付与された
    テーマ情報および時系列データを統計処理する手順と、 上記統計処理結果を出力する手順を実行させることを特
    徴とする文書分析プログラム。
JP2001048482A 2001-02-23 2001-02-23 文書分析装置 Pending JP2002251590A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001048482A JP2002251590A (ja) 2001-02-23 2001-02-23 文書分析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001048482A JP2002251590A (ja) 2001-02-23 2001-02-23 文書分析装置

Publications (1)

Publication Number Publication Date
JP2002251590A true JP2002251590A (ja) 2002-09-06

Family

ID=18909742

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001048482A Pending JP2002251590A (ja) 2001-02-23 2001-02-23 文書分析装置

Country Status (1)

Country Link
JP (1) JP2002251590A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010035455A1 (ja) * 2008-09-24 2010-04-01 日本電気株式会社 情報分析装置、情報分析方法、及びプログラム
WO2012169432A1 (ja) * 2011-06-07 2012-12-13 株式会社 東芝 注目評価対象抽出装置及びプログラム
WO2013124949A1 (ja) * 2012-02-20 2013-08-29 株式会社アイ・エヌ情報センター 情報表示装置、プログラム
WO2013179346A1 (ja) * 2012-05-31 2013-12-05 株式会社 東芝 知見抽出装置、知見更新装置、及びプログラム
JPWO2013124949A1 (ja) * 2012-02-20 2015-05-21 株式会社アイ・エヌ情報センター 情報表示装置、プログラム
WO2023157149A1 (ja) * 2022-02-16 2023-08-24 日本電信電話株式会社 情報生成装置、情報生成方法およびプログラム

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010035455A1 (ja) * 2008-09-24 2010-04-01 日本電気株式会社 情報分析装置、情報分析方法、及びプログラム
JPWO2010035455A1 (ja) * 2008-09-24 2012-02-16 日本電気株式会社 情報分析装置、情報分析方法、及びプログラム
JP5387578B2 (ja) * 2008-09-24 2014-01-15 日本電気株式会社 情報分析装置、情報分析方法、及びプログラム
JP2012256108A (ja) * 2011-06-07 2012-12-27 Toshiba Corp 注目評価対象抽出装置及びプログラム
WO2012169432A1 (ja) * 2011-06-07 2012-12-13 株式会社 東芝 注目評価対象抽出装置及びプログラム
US10769534B2 (en) 2011-06-07 2020-09-08 Kabushiki Kaisha Toshiba Evaluation target of interest extraction apparatus and program
WO2013124949A1 (ja) * 2012-02-20 2013-08-29 株式会社アイ・エヌ情報センター 情報表示装置、プログラム
JPWO2013124949A1 (ja) * 2012-02-20 2015-05-21 株式会社アイ・エヌ情報センター 情報表示装置、プログラム
WO2013179346A1 (ja) * 2012-05-31 2013-12-05 株式会社 東芝 知見抽出装置、知見更新装置、及びプログラム
CN103582881A (zh) * 2012-05-31 2014-02-12 株式会社东芝 见解抽出装置、见解更新装置及程序
JP5559352B2 (ja) * 2012-05-31 2014-07-23 株式会社東芝 知見抽出装置、知見更新装置、及びプログラム
CN103582881B (zh) * 2012-05-31 2017-05-03 株式会社东芝 见解抽出装置、见解更新装置及程序
US10002122B2 (en) 2012-05-31 2018-06-19 Kabushiki Kaisha Toshiba Forming knowledge information based on a predetermined threshold of a concept and a predetermined threshold of a target word extracted from a document
WO2023157149A1 (ja) * 2022-02-16 2023-08-24 日本電信電話株式会社 情報生成装置、情報生成方法およびプログラム

Similar Documents

Publication Publication Date Title
CN109189901B (zh) 一种智能客服系统中自动发现新分类以及对应语料的方法
CN107633007B (zh) 一种基于层次化ap聚类的商品评论数据标签化系统和方法
CN107844559A (zh) 一种文件分类方法、装置及电子设备
CN104077407B (zh) 一种智能数据搜索系统及方法
US7162413B1 (en) Rule induction for summarizing documents in a classified document collection
CN108804421A (zh) 文本相似性分析方法、装置、电子设备及计算机存储介质
CA3166094A1 (en) Commodity short title generation method and apparatus
CN106649849A (zh) 文本信息库建立方法和装置、以及搜索方法、装置和系统
CN107609023A (zh) 一种基于大数据的文字商标可注册性判断方法及装置
US20160170993A1 (en) System and method for ranking news feeds
JP2006350656A (ja) 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体
CN112527958A (zh) 用户行为倾向识别方法、装置、设备及存储介质
US20090276411A1 (en) Issue trend analysis system
CN112465596B (zh) 一种基于电子商务直播的图像信息处理云计算平台
CN108549723A (zh) 一种文本概念分类方法、装置及服务器
CN112541077A (zh) 一种用于电网用户服务评价的处理方法及系统
Rill et al. A phrase-based opinion list for the German language.
JP3333998B2 (ja) 自動分類付与装置および方法
JP2002251590A (ja) 文書分析装置
KR20200064490A (ko) 프로필 자동생성서버 및 방법
CN106294689B (zh) 一种基于文本类特征选择进行降维的方法和装置
CN107291952B (zh) 一种提取有意义串的方法及装置
CN111325562A (zh) 粮食安全追溯系统及方法
JP2002157262A (ja) 分類ルール定義支援方法
CN108717637B (zh) 一种电商安全相关实体的自动挖掘方法及系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080715

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080911

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090210

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090409

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090707