JP2001075966A - データ分析システム - Google Patents

データ分析システム

Info

Publication number
JP2001075966A
JP2001075966A JP24105799A JP24105799A JP2001075966A JP 2001075966 A JP2001075966 A JP 2001075966A JP 24105799 A JP24105799 A JP 24105799A JP 24105799 A JP24105799 A JP 24105799A JP 2001075966 A JP2001075966 A JP 2001075966A
Authority
JP
Japan
Prior art keywords
concept
category
extracting
data
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP24105799A
Other languages
English (en)
Other versions
JP3266586B2 (ja
Inventor
Tetsuya Nasukawa
哲哉 那須川
Toru Nagano
徹 長野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP24105799A priority Critical patent/JP3266586B2/ja
Priority to US09/612,136 priority patent/US7493252B1/en
Publication of JP2001075966A publication Critical patent/JP2001075966A/ja
Application granted granted Critical
Publication of JP3266586B2 publication Critical patent/JP3266586B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Abstract

(57)【要約】 【課題】 大量データから有効な知識を獲得する方法
およびシステムを提供することである。 【解決手段】本発明は文書を含む大量のデータから特異
な特徴を有する概念を抽出することにより、有効な知識
を獲得する方法およびシステムを提供する。本発明は概
念抽出装置と特徴的概念抽出装置と有する。前記概念抽
出は文書データを含むデータからカテゴリ別の概念を抽
出する。前記特徴的概念抽出装置は前記抽出した概念の
中から特徴的な概念を抽出する装置であって、前記カテ
ゴリ別の概念において、同一カテゴリに属する概念のう
ち、対応する別のカテゴリに属する概念の中で占める割
合が既定値を超えている概念を抽出する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、大量のデータから特徴
的な概念を抽出する技術に関し、特に同一カテゴリを付
加したの概念の比較により、大量のデータから注目に値
する有効な知識を獲得する方法およびシステムに関する
発明である。
【0002】
【従来の技術】ある製品に関して製造元の会社によせら
れる顧客からの苦情、問題、意見などの情報は従来何ら
かの形で文書データとして記憶されている。この文書デ
ータは異なる顧客から寄せられるのでその内容も異な
る。この文書データが少ない場合には人手により解析す
ることは容易であった。現在は製品の電話サポートなど
のように多くの不特定の顧客からのコメントが容易に電
子化されて記憶されるので集められる文書データは莫大
なものとなり人手で解析できる範囲をはるかに超えてい
る。そこで大量の文書の内容を様々な形で視覚化し分析
に役立てようという試みが次第に増えてきている。しか
し、従来の方法では、名詞句を中心としたキーワードを
抽出し、キーワードの分布を表示(例えば、キーワード
間の相関関係を計算し、その結果に基づいて相関の強い
キーワードをクラスタ化して表示)する程度の処理しか
行っていない。その程度の処理の結果を用いた場合に
は、ユーザーが様々な観点からデータを絞り込みなが
ら、主観的に注目に値すると思える部分を発見するまで
手探りで分析するしかなく、分析過程におけるユーザー
の負担が大きい。また、多種多様なキーワードを混合し
て、まとまりの無いままの状態で扱うため、有効な結果
にたどり着くのは難しい。つまり、テキストをデータマ
イニングの手法(クラスタリングや相関ルールの分析な
ど)で解析してみようという試みは、データマイニング
が注目され始めた頃から存在するものの、従来の手法で
は、テキストから抽出した分析単位が、単なる文字列と
してのキーワードに過ぎなかった為、有効な結果を得ら
れずに終わってしまうケースが多い。
【0003】
【発明が解決しようとする課題】従って、本発明が解決
しようとする課題は、大量データから特徴的な概念を獲
得する方法およびシステムを提供することである。また
別の課題は、大量データから注目に値する概念を自動的
に見つけ出す方法およびシステムを提供することであ
る。また別の課題は、大量のデータから有効な特徴的な
概念を獲得するにあたり、ユーザビリティに優れた分析
方法およびシステムを提供することである。
【0004】
【課題を解決するための手段】上記課題を解決するため
に、本発明は文書を含む大量のデータから特異な特徴を
有する概念を抽出することにより、有効な知識を獲得す
る方法およびシステムを提供する。本発明は、概念抽出
装置と特徴的概念抽出装置と有する。前記概念抽出は文
書データを含むデータからカテゴリ別の概念を抽出す
る。前記特徴的概念抽出装置は前記抽出した概念の中か
ら特徴的な概念を抽出する装置であって、前記カテゴリ
別の概念において、同一カテゴリに属する概念のうち、
対応する別のカテゴリに属する概念の中で占める割合が
既定値を超えている概念を抽出する。
【0005】前記概念抽出装置では、語彙辞書や文法知
識を利用した形態素解析やカテゴリ辞書を用いた曖昧性
解消手法を用いて、非定型テキストから、カテゴリ別の
概念を抽出する。前記特徴的概念抽出装置では、カテゴ
リとカテゴリの各組み合わせにおいて、同じカテゴリの
概念のうち、対応する別のカテゴリの概念の占める割合
の比や差が既定値(しきい値)を超えているものを見つ
け出す。さらにカテゴリとカテゴリの各組み合わせを表
形式で表示し、該表中において注目すべき項目を他と異
なる属性で表示したり、リストアップして提示するなど
の処理を行う。
【請求項7】より詳細には、前記概念抽出装置は、デー
タ中の前記文書データを形態素解析する手段と、前記形
態素解析の結果に基づき、前記文書データの文節を生成
する手段と、前記文節内のキーワードを概念として抽出
する手段であって、前記文節に対してカテゴリ辞書を適
用して、文節内のキーワードに対して概念(該キーワー
ドの代表的意味を表現した置き換え表現)とカテゴリを
付加する手段と、前記文節を有する文を構文木生成規則
に従い構文を解析する、構文解析手段と、前記文節内の
概念およびカテゴリを付加されたキーワードに関し、同
一文中でのキーワードの係り受け関係を抽出する、係り
受け抽出手段と、前記カテゴリ別の概念を抽出する手段
であって、前記キーワード間の係り受け関係に基づき、
係り受けの関係にある各概念のカテゴリの組み合わせを
抽出する手段から構成される。前記特徴的概念抽出装置
は、ユーザの命令を受け取る入力手段と、前記ユーザの
命令を解析する、命令解析手段と、前記解析された命令
に従い、前記カテゴリ別の概念を提示し、同一カテゴリ
に属する概念のうち、対応する別のカテゴリに属する概
念の中で占める割合が既定値を超えている概念を他の概
念と異なる属性で表示する手段から構成される。
【0006】
【発明の実施の形態】図1は、本発明のデータ分析シス
テム概要を示すブロック図である。なお実施例としてコ
ンピュータ製品に関して電話により問い合わせされたデ
ータを例にして、これを解析し、特徴ある概念を抽出す
るデータ分析システムについて説明する。このデータ分
析システムは顧客から寄せられた大量の問い合わせデー
タ150を機械的に解析できるように予めデータ変換部
110で解析できる状態に変換する。この変換されたデ
ータからカテゴリ辞書170を用いて概念付きデータを
抽出し、抽出された概念付きデータから特徴的な概念を
検索・検出する手段を提供する。
【0007】より詳細には、図1のブロック110は問
い合わせデータ150を入力としてラベル付きデータ1
60を出力するデータ変換部である。問合せデータ15
0に含まれる非定型のデータと、同じく含まれる定型の
データを同一に保持する形式のデータ(ラベル付きデー
タ)を作成する。ここで定型データとは、主に複数の項
目情報などからなり、各項目情報がどの位置から開始さ
れ、何文字まで許されるかなど予め決められており、解
析の容易なデータ形式である。逆に非定型データは主に
文章などのようにその長さがまちまちな情報であり解析
の難しい形式である。またブロック120は、入力され
たラベル付きデータのキーワードに対してカテゴリ辞書
170を用いてカテゴリを付加し、カテゴリが付加され
たキーワードのうち、同じ文中で係り受け関係のあるも
のを、より具体的な意味を表現する概念(ラベル・概念
付きデータ180)として抽出する、概念抽出部であ
る。
【0008】ここで概念とは「キーワード」に「カテゴ
リ」を付加したもの意味し、さらに該概念の係り受けに
よる組み合わせを複合概念(さらに上位の「概念」)と
して抽出する。また「ラベル」は「カテゴリ」とデータ
の属性を含む。
【0009】ブロック130は、ラベル・概念付きデー
タ180を入力として、特徴のある概念を検索・抽出す
る検索・特徴検出部130である。このブロックは検索
・特徴抽出を効率良く行えるようにするため、データ全
体もしくは部分集合における頻度分布などの統計情報を
作成・保持する。同じカテゴリに属する概念は同じよう
な振る舞いをする(同じような出現傾向を持ち、同じよ
うな概念と共起する)傾向があると想定し、各概念の振
る舞いを全体、もしくは部分集合の値と比較すること
で、効率良く、注目すべき情報を検索・検出する。さら
にこの検索・特徴検出部130は、統計情報を視覚的に
表示する機能を有し、特徴ある概念の分布差異の提示を
行う。
【0010】上記各ブロック110、120、130に
ついて以下に詳細に説明する。 [データ変換部110]まずブロック110に入力され
る問い合わせデータの例は以下のようなものである。
【0011】 --------- 問い合わせデータ例 ---------- 1999/01/01 0000001 タイトル:ノートで日本語が使えない マシンタイプ:製品A 問題種別:総合案内 CALL種別:案内 回答・対応種別:窓口対応 解決期間:1日 通話時間:21分 ご質問:ノートパソコンで日本語が使えないので、OS
を再インストールしたのですが、それ以降、MODEM とイ
ーサネットカードが使えなくなってしまいました。 --------- 問い合わせデータ例 --終わり--------
【0012】このように、問合せデータは日付や問い合
わせ番号、項目名、項目の内容(予め既定された選択肢
からの選択、連続値や離散値、自由に記入できるタイト
ルなど)、文章からなる質問内容など、さまざまな形式
の項目から構成された定型データ、非定型データの混在
からなる。
【0013】ブロック110は上記のような問い合わせ
データ150を入力とし、下記のようなラベル付きデー
タに変換する。
【0014】--------- ラベル付きデータ ---------- ID199901010000001 TIノートで日本語が使えない KWM1MT:製品A KWQ3TC:総合案内 KWQ4TD:案内 KWQ2PT:窓口対応 KWP3SD:1日 KWP4CM:21分 CTQ:ノートパソコンで日本語が使えないので、OSを
再インストールしたのですが、それ以降、MODEM とイー
サネットカードが使えなくなってしまいました。 --------- ラベル付きデータ --終わり---
【0015】このように、非定形データを含む問い合わ
せデータを上記のようなラベル付きデータに変換するこ
とにより、さまざまな型のデータを同じ形式に変換す
る。上の例ではTIはタイトル、CTは元の問合せ内容を示
し、KW+2byteは項目の種類を示す。この2バイトがカテ
ゴリを表わし、Q3は問題種別、Q4はCALL種別、Q2が
回答・対応種別、P3は解決期間、P4は通話時間を示す。
ここでラベルとは項目内容のカテゴリを示す情報で”KW
M1MT:”のようにカテゴリを含む長さ固定の情報であ
る。図2にデータ変換部のフローチャートを示す。ステ
ップ210で問い合わせデータ150を読み込み、ステ
ップ220でデータの終了であるかを判断し、そうでな
ければステップ230で形式を変換する。データが終了
した場合はステップ240で変換を終了する。例えば問
い合わせデータの”タイトル:”を発見した場合にはそ
れを”TI”に変換し、その横に項目内容”ノートで日本
語が使えない”を記録するという具合である。このよう
にデータ変換部では、問い合わせデータを概念抽出の前
処理としてデータを解析しやすいようにラベルを付加し
て形を整える。当業者であればこのような変換は変換規
則を変更することによりあらゆるデータに対して変換可
能であることが容易に推察されるであろう。
【0016】[概念抽出部120]次にブロック330
は、ブロック320で生成された文節に対してカテゴリ
辞書340を適用し文節内のキーワードに対してカテゴ
リを付加する辞書適用装置である。キーワードは文節内
の一纏りの文字列である。上記カテゴリ辞書340の構
造の例を以下に示す。
【0017】 --------- カテゴリ辞書の例 ---------- 元表現 品詞 概念(置き換え表現) カテゴリ ------------------------------------------------------------------- ノートパソコン 固有名詞 ノートパソコン N1 OS 固有名詞 オペレーティングシステム N2 壊れる 動詞 故障する VC --------- カテゴリ辞書の例 -終わり---
【0018】カテゴリ辞書340は[元表現 品詞 概念
カテゴリ]の組み合わせから構成されている。ここで
元表現は文書データ中のキーワードに相当し、品詞はそ
のキーワードの種別、概念はそのキーワードの置き換え
表現であり、上記でいえばキーワード”OS”は該キー
ワードの代表的意味を表現した置き換え表現として”オ
ペレーティングシステム”として統一される。最後にカ
テゴリはそのキーワードの性質を有するより大きなグル
ープを意味する。上記辞書においてカテゴリは、N1=ハ
ードウェアを意味する、N2=ソフトウェアを意味する、
VC=問題を意味する、というように対応付けられてい
る。キーワードにカテゴリを付加することで単なる文字
列ではなく意味を持った概念として扱うことができる。
(例えば、「ワシントン」という文字列を単なるキーワ
ードとして扱えば人名か地名か区別できず有効な分析が
行えないが、[人名][地名]といったカテゴリを付加する
ことで、意味を持つことが出来る)。体言(名詞類の
語)に関しては上記カテゴリ辞書を参照してカテゴリを
付加する。述語に関しては体言と同様にカテゴリ辞書を
用いると共に、付属語の情報から[問題][要望][疑問]と
いったカテゴリ付けを行う。例えば、「壊れる」という
動詞は(壊れる [動詞] 故障する [問題])というデー
タがカテゴリ辞書にあれば、[問題]というカテゴリに属
する「故障する」という概念として抽出されるが、「…
できない」「…したい」という表現は、製品に関して電
話により問い合わせされたデータである事を考えれば、
それぞれ問題であること、要望であることが自明である
ので、カテゴリ辞書を参照せずに[問題][要望]として解
釈することができる。
【0019】ブロック350はブロック330でキーワ
ードに対してカテゴリが付加された文節を有する文を簡
単な構文木生成規則で構文木を生成する構文木解析装置
である。
【0020】ブロック360は文節内のカテゴリを付加
されたキーワードのうち同じ文中で係り受け関係のある
ものを、より具体的な意味を表現する概念として抽出す
る係り受け抽出装置である。このブロック360では構
文解析装置350の構文解析結果により得られるキーワ
ード間の係り受け関係に基づき、係り受けの関係にある
各キーワードのカテゴリの組合せを概念(ラベル・概念
付きデータ370)として抽出する。ラベル・概念付き
データ370の例を以下に示す。
【0021】 --------- ラベル・概念付きデータの例 ---------- ID199901010000001 TIノートで日本語が使えない KWM1MT:製品A KWQ3TC:総合案内 KWQ4TD:案内 KWQ2PT:窓口対応 KWP3SD:1日 KWP4CM:21分 CTQ:ノートパソコンで日本語が使えないので、OSを
再インストールしたのですが、それ以降、MODEM とイー
サネットカードが使えなくなってしまいました。 KWN1ノートパソコン KWN0日本語 KWV2使えない KWW6ノートパソコン…使えない KWN2OS KWV6再インストールする KWWDOS…再インストールする KWN1MODEM KWN1イーサネットカード KWV2使えない KWW6モデム…使えない KWW6イーサネットカード…使えない --------- ラベル・概念付きデータの例 --終わり---
【0022】上記のようにラベル・概念付きデータ37
0は、データ変換部で得られたラベル付きデータ160
に、概念抽出部120で抽出されたデータを追加した形
を取り、ラベル付きデータ160と同一形式のデータと
なる。
【0023】図12に本発明の概念抽出部の流れを実際
の文に基づき説明する。まずステップ1210におい
て、”MODEMとイーサネットカードが使えない。”とい
う入力文が入力された場合、ステップ1220におい
て、形態素解析装置310により、文が単語に区切ら
れ、各単語に品詞番号が付加される。これにより”MODE
Mとイーサネットカードが使えない。”という入力文
は、以下のように変換される。 [MODEM, 104][と, 81][イーサネット, 104][カード, 10
4][が, 75][使, 10][え,44][ない, 51][。, 100] 上の例では、104…固有名詞、 81…格助詞「と」、 75
…格助詞「が」、 10…動詞語幹、 44…形容詞仮定形活
用語尾、 51…打ち消しの助動詞「ない」、100…句読
点、を表わしている。
【0024】次にステップ1230、およびステップ1
240で文節生成が行われる。ステップ1230の文節
生成1では、形態素解析された文の単語列を文節にまと
める操作を行う。あらかじめ”{81, 75, 100, …}で文
節を区切る”というルールを用意しておき、このルール
を文頭から適用して、文頭から文節ごとに区切っていく
操作を行う。上記入力文の場合、先頭から3文節ある
が、各文節の先頭の単語がそれぞれ、名詞・名詞・動詞
であることから、それぞれ順に、体言句・体言句・用言
句であると判断される。その結果、入力文は以下のよう
に変換される。
【0025】{[MODEM, 104][と, 81]} {[イーサネット, 104][カード, 104][が, 75]} {[使, 10][え, 44][ない, 51][。,100]}
【0026】次にステップ1240の文節生成2は、文
節生成1で区切られた文節に対して、すべての文節を自
立語と付属語の組にする。体言句は、名詞が複数含まれ
る場合は先頭から名詞を結合するようにする。例えば、
{[イーサネット, 104][カード,104]→[イーサネットカ
ード, 104])のようにする。その後自立語の品詞コード
を、一般名詞句を示すN1に書き換える。用言句は、付属
語列([え, 44][ない, 51][。,100])を解析し、否定の
情報を示す[ない, 51]を取り出し、動詞の語幹[使, 10]
は[え, 44]と結合して、終止形「使える」にする。品詞
コードを一般動詞を示すV1にし、否定の情報を付加して
-V1とする。その結果、入力文は以下のように変換され
る。
【0027】{[MODEM, N1][と, 81]} {[イーサネットカード, N1][が, 75]} {[使える, -V1][。, 100]}
【0028】次にステップ1250で、カテゴリ辞書を
用いて、自立語と付属語の組に分解された文節に対して
カテゴリ付を行う。ここで適用される辞書は、以下の3
つである。
【0029】 (MODEM N1 モデム NA) (イーサネットカード N1 イーサネットカード NA) (使える -V1 使えない VC)
【0030】なおNAはハードウェアを意味し、VCは問題
を意味する。 その結果、入力文は以下のように変換さ
れてカテゴリが付された3つの文節が生成される。
【0031】{[モデム, NA][と, 81]} {[イーサネットカード, NA][が, 75]} {[使えない, VC][。, 100]}
【0032】次にステップ1260で、カテゴリ付され
た文節からなる文に基づき構文木を生成する。この時の
係り受けルールの形式は(係り受け元文節の自立語, 係
り受け元文節の付属語 , 係り受け先文節の自立語 , 係
り受け先文節の付属語)となっている。このルールを文
頭の文節1 {[モデム, NA][と, 81]} から適用する。一
般にn番目の文節に対してn+1番目から最終N番目までの
文節に係り受けのルールを適用する(n = 1 〜 N-1)。係
り受けルール中に(NA, 81, VC, *)というルールがある
ので、{[モデム, NA][と, 81]}と{[使えない, VC][。,
100]}に係り受けの関係があると判断される。なおルー
ル中の*はすべての品詞またはカテゴリにマッチすると
いう意味である。これを(n = 1 〜 N-1)で行い、係り受
け情報を含む文節を有向グラフとして表し、(係り受け
元の文節番号, 係り受け先の文節番号, 自立語, カテゴ
リ, 付属語の品詞番号)という形式に変換する。その結
果、入力文は以下のように変換される。
【0033】(1, 3, "モデム", NA, 81) (2, 3, "イーサネットカード", NA, 75) (3, NULL, "使えない", VC, 100) なおNULLは係り受け先がないことを示す。
【0034】最後に、ステップ1270において、構文
解析された文を入力として、係り受け抽出ルールに従っ
て係り受けを抽出する。抽出ルールは任意の長さのカテ
ゴリの列からなる。例えば(カテゴリ1, カテゴリ2,
... , カテゴリn)という形式である。文節番号1からN
までの係り受けを見て、係り受け抽出ルールに(NA, VC)
というルールがあるので、「モデム…使えない」と「イ
ーサネットカード…使えない」という2つの係り受けが
抽出される。結局、元の文書である「MODEM とイーサネ
ットカードが使えない」という文章から
【0035】「モデム …使えない」[ハードウェア…問
題] 「イーサネットカード …使えない」[ハードウェア…問
題]
【0036】という概念情報が取り出されたことにな
る。このようにして取り出された概念情報は、ラベル・
概念付きデータベース180に登録される。
【0037】図4に、本発明の概念抽出部120の処理
のフローチャートを示す。ステップ420でラベル付き
データ160内の文章Tを形態素W0〜Wmに分割する。こ
こで形態素Wは、文字列wと品詞pで表される。すなわちW
= { w, p }である。(以上が形態解析装置の処理であ
る)
【0038】次にステップ430で全単語が文節に変換
されたかどうかを判断し、そうであれば処理はステップ
440へ移り、そうでなければステップ432で単語W
nが付属語または句読点かどうかを判断し、その結果が
Noであればステップ434で、文節Piに単語Wnを
追加する。ここで文節Pは、1つ以上の連続した単語Wの
集合で P = { W* } = { { w, p }* }である。そして処
理はステップ430に戻る。ステップ432の判断の結
果がYesであればステップ436で文節Piに単語W
nを追加した後、その次の文節を用意する。処理はその
後ステップ440に移る。ステップ440で全文節に対
して処理が行われたかどうかを判断し、処理が終了して
いれば処理はステップ450に移り、そうでなければス
テップ442において、文節をP = { { w, p }* }の形
式から P' = { {w1, p1} { w2, p2}}に変換する(ここ
で w1 は自立語 w2 は付属語である)。例えば P = {
[国際,名詞] [情勢, 名詞] [は, 助詞] }であれば、名
詞句はひとつにまとめ、 P' ={ [国際情勢, 名詞] [は,
助詞] } とする。そして処理はステップ440へ戻
る。(以上が文節生成装置320の処理である)
【0039】ステップ450では、自立語に対して辞書
引きが終了したかどうかを判定する。その判定結果がNo
であれば、ステップ452で、((w1, p1) == (wa, p
a))のエントリに対し (w1 = wb, p1 = pb) とする。同
時に用言の処理を行う。この時用いられる辞書454は
[wa pa wb pb]のエントリの集合からなり、それぞれ[元
表現, 品詞, 概念, カテゴリ]を表す。ここでの概念と
いうエントリは、置き換え表現を意味する。元表現が
「PC」であれば置き換え表現は「パソコン」となる。
また全エントリはハッシュ構造で格納されているので高
速にアクセスできる。例えばエントリ集合は、[マシン,
名詞, 機械, ハードウェア]、[壊れる, 動詞, 壊れる,
問題]等である。この辞書を用いて、名詞句 P' = {
[マシン, 名詞] [が, 助詞] }であれば、カテゴリ「問
題」を逆の意味を表わすカテゴリ「好評」に変換し P''
= { [機械, ハードウェア] [が, 助詞] } となる。用
言の句 P'= { [壊れる, 動詞] [ない, 助詞] }であれ
ば、動詞→問題となるはずだが、「ない」があるので、
P'' = { [壊れない, 好評] [NULL, NULL] }とする 。ま
た辞書に該当するエントリがなければ何もしない。ステ
ップ450の判定結果がYesであれば処理はステップ4
60へ進む。(以上が辞書適用装置330の処理であ
る)
【0040】ステップ460で、構文木が完成したかど
うかが判定される。構文木が完成した場合、処理はステ
ップ470へ進む。構文木が完成していない場合、処理
はステップ462で、一般的に行われる構文解析を行
い、結果として、PnとPkがリンクされる。(以上が構文
解析装置350の処理である。)
【0041】ステップ470で、係り受けの抽出が終了
したかどうかを判断する。もし終了していなければ処理
はステップ472へ進み、ルールに基づき、Pnに対して
リンクされた2項関係を抽出し、ラベル・概念付きデー
タベース180に登録する。この時、係り受けルール4
74を参照する。係り受けルール474のルールは[pxp
y]のエントリの集合からなり、それぞれ[係り受け元カ
テゴリ, 係り受け先カテゴリ]を表す。例えば、Pn = {
[機械, ハードウェア] [が, 助詞] } , Pk = { [壊れ
る, 問題] [NULL, NULL] }(nとkには係り受け関係があ
るものとする)であれば、上のルールを用いて、[ハー
ドウェア, 問題] → [機械, 壊れる] が抽出され、ラベ
ル・概念付きデータベース180に登録される。ステッ
プ470の判断がYesであれば処理はステップ480で
終了する。(以上が係り受け抽出装置360の処理であ
る。)
【0042】[検索・特徴検出部130]図5に検索・
特徴抽出部130のブロック図を示す。検索・特徴抽出
部130は入力(命令)装置570、表示部510、概
念検索装置540、命令解析装置520、カテゴリ別概
念頻度計算装置550、相対頻度計算装置530の各ブ
ロックから構成される。なお概念検索装置540及びカ
テゴリ別概念頻度計算装置550は、ラベル・概念付き
データベース560にアクセスして概念情報の検索を行
う。好適にはラベル・概念付きデータベース560にお
いては、ラベル・概念付きデータに対してインデックス
を生成し、高速な検索が可能な状態にしておく。
【0043】命令解析装置520は、入力(命令)装置
570から受け取る命令を解析して、各装置にパラメー
タとしての概念を送る。入力(命令)装置570は、図
14におけるキーボード6、マウス7などに相当し、ユ
ーザの指示に従い、データ分析システムに対して所望の
検索、表示を行わせるために使用される。相対頻度計算
装置530は、文書の全体、または部分集合に対して相
対頻度を計算する装置である。ここで相対頻度とは、全
体または任意の集合Xに対して含まれる各概念と、任意
の集合Yに含まれる概念の集合を比較することにより計
算される。
【0044】概念検索装置540は、命令解析装置52
0の出力である概念または概念の組を入力として、文書
の全体、または部分集合に含まれる概念の数と概念を含
む文書のIDを得る装置である。該装置により概念を含
む文書集合を絞り込むことが出来る。
【0045】カテゴリ別概念頻度計算装置550は、命
令解析装置520の出力に従い、文書全体、または部分
集合に含まれる概念の数をカテゴリ別に、頻度順に得る
装置である。以下に該装置の出力例を示す。(下の例で
INPUTではカテゴリを指定、N1は[ハードウェア]を表す
カテゴリであり、OUTPUTでは[キーワード 出現頻度]と
なっている。
【0046】 --------- カテゴリ別キーワード頻度計算装置の出力例 ---------- [INPUT ]CATEGORY N1 [OUTPUT]ハードディスク 2033 [OUTPUT]モニタ 1432 [OUTPUT]プリンタ 1001 [OUTPUT]モデム 420 [OUTPUT]スキャナ 212 [OUTPUT]イーサネットカード 143 [OUTPUT]マウス 3 --------- カテゴリ別キーワード頻度計算装置の出力例 --終わり--
【0047】表示部510は図6に示す表示領域(1)
と図7に示す表示領域(2)を含むGUI画面から構成
される。ユーザが表示部510中に表示された種々の項
目を入力(命令)装置570により適宜選択したり、検
索のためのパラメータなどを入力することにより、種々
の結果(頻度表示、検索結果表示など)を表示部510
に表示する。例えば図6は、カテゴリAを横軸、カテゴ
リBを縦軸にとった2次元の表である。カテゴリAの列
に対して特徴的なカテゴリBを表すセルが他のセルとは
異なる属性(高輝度表示、異色表示、点滅、網掛けな
ど)で表示されている(例えば概念A3の中で特徴的な概
念はB1である。また複数の概念が特徴的なこともあ
る)。上記異なる属性で表示されたセルをクリックする
ことで、概念Axと概念Byを含む集合の検索が行われ、そ
こで得られた集合に対しても再び検索を行うことができ
る。またはこの特徴概念の表示を行うことができる。表
示部510の図7に示す表示領域(2)では、カテゴリ
[ソフトウェア]に含まれる概念のリストを表示してあ
る。1つのキーワードに対して2つのグラフがあるが、
上は頻度、下は相対頻度を表している。さらに頻度・相
対頻度のどちらかで並び替えることができる。これらの
表示部510における特徴的な概念の抽出及び表示の流
れを以下により詳細に説明する。
【0048】図8に表示領域(1)における、特徴的な
概念の抽出及び表示のフローチャートを示す。ステップ
820でカテゴリAとカテゴリBを選択する。ここでカ
テゴリA, Bはそれぞれ表示領域(1)でのx, y軸にな
る。後の計算で、カテゴリAの要素Axに関して特徴的な
ものを表示するので、比較したいカテゴリをBにセット
する。ステップ840でカテゴリAを装置540に入力
し、カテゴリA中に含まれる概念が頻度順に取り出され
る。またカテゴリBを装置540に入力し、カテゴリB中
に含まれる概念が頻度順に取り出される。次にステップ
850で、AとBの組合せ(A&B)が終了したかどうか
が判断される。終了していなければステップ855で、
(Ai & Bj) を装置540に入力し、結果をPijに保存す
る。次にステップ860で、正規化が終了したかどうか
を判断する。正規化が終了していなければステップ86
5において、装置530でBNiを1として正規化する。す
なわち (P'ij = Pij / BNi)となる。図6における表示
例中の%表示がそれにあたる。ただし、1つの文章に複
数の種類の概念が表れるので、これらの値を全部足して
も1にはならない。次にステップ870で、相対頻度の
計算が終了したかどうかを判断する。計算が終了してい
なければステップ875で、P'ijをy軸方向に比較して
相対頻度を装置530で調べる。好適にはP'ij( 0 < i
< a)の分布の平均を調べ、各P'ijが平均の何倍になって
いるかを相対頻度とする。次に処理はステップ880へ
進み、相対頻度の値によって、表示領域(1)の表示色
を変え、2次元に表示する。次にステップ890で、目
立っているカテゴリA 中の概念 fa とカテゴリB 中の概
念 fb の交点をクリックする。最後にステップ898で
装置540により、カテゴリA の概念 faとカテゴリB
の概念 fbでデータ集合が絞り込まれる。
【0049】図9に表示領域(2)における、本発明の
別の特徴的な概念の抽出及び表示のフローチャートを示
す。まずステップ915で表示領域(2)の左側でカテ
ゴリAを選択する。次にステップ920で装置550に
より、カテゴリA中に含まれる概念が頻度順に取り出さ
れる。そしてステップ930で正規化が終了したかどう
か判断される。終了していなければステップ940で相
対頻度を計算する。ここでの相対頻度の計算は、ある概
念が全体または任意の部分集合Xの中に含まれる割合Sx
と、任意の部分集合Yに含まれる割合Syの比( Sy/Sx )
で求める。この値が大きいほど、部分集合Yに特徴的な
概念と考える。ステップ930において正規化が終了し
た場合ステップ950で、表示領域(2)の右側に頻度
と相対頻度を同時に表示し、頻度または相対頻度で並び
替えて表示する。次にステップ960で表示領域(2)
の右側で概念faを選択する。そして最後にステップ97
0で入力装置570を用いて選択(クリック)すること
で、装置540による絞込みが行える。
【0050】上記2つの検索・抽出方法を組み合わせる
ことにより、特徴的な概念を効果的に見つけることが可
能となる。例えば表示領域(2)において、カテゴリ
[月]について検索し「11月」を選択する(図示せ
ず)。次に図10に示すように、表示領域(1)におい
て[製品名(コンピュータの機種名)]を縦軸(比較し
たい対象)、[問題]を横軸にとる。すると「遅い」と
いう[問題]に関して、特徴的な[製品名]が2つマー
クされている。そして、より相対頻度の高い「製品A」
に注目し、「製品A」と「遅い」の交わっているところ
を選択(クリック)する。図11に示すように、絞り込
まれた状態で表示領域(2)において、カテゴリ[ハー
ドウェア]について見てみる。すると、頻度の上位2番
目には「ハードディスク」があり、相対頻度も高く(7.
18倍)、この製品Aに関しては「ハードディスク」が特
有の問題を持っていることを推測できる。なお上位1番
目は、本製品の製品番号などが該当するのでこれらは容
易に無視できる。
【0051】図13に上記操作手順を1つの画面内で行
う本発明で最も特徴的なGUIの例を示す。図13にお
いて表示領域(2)の左側でカテゴリ[月]を選ぶ(図示
せず)。すると装置550により、カテゴリ[月]中に含
まれる概念が頻度順に取り出される。そして装置530
により得られた概念の相対頻度が計算され、表示領域
(2)の右側に[月]に含まれる概念が表示される。次
に、表示領域(2)の右側で概念「11月」を選択する
(図示せず)。これにより装置540により、カテゴリ
[月]の「11月」でデータ集合が絞り込まれる。
【0052】次に表示領域(1)でカテゴリ[問題]をX
軸に設定し、カテゴリ[機種名]をY軸に設定する。する
と装置550でカテゴリ[問題]中に含まれる概念が頻度
順に取り出される。また装置550でカテゴリ[機種名]
中に含まれる概念が頻度順に取り出される。これらは検
索・正規化され2次元に表示される。そして目立ってい
るカテゴリ[問題]の「遅い」とカテゴリ[機種名]の「製
品A」の交点をクリックする。すると装置540によ
り、カテゴリ[問題]の「遅い」とカテゴリ[機種名]の
「製品A」でデータ集合が絞り込まれる。
【0053】次に表示領域(2)の左側でカテゴリ[ハ
ードウェア]を選ぶ。装置550により、カテゴリ[ハー
ドウェア]中に含まれる概念が頻度順に取り出される。
そして装置530により得られた概念の相対頻度が計算
される。表示領域(2)の右側に[ハードウェア]に含ま
れる概念が表示される。結局、上位2番目には「ハード
ディスク」があり相対頻度も高く、この製品に関しては
「ハードディスク」が特有の問題であることが判明す
る。このように表示領域(1)及び表示領域(2)を1
画面内で組み合わせて操作することにより、特徴的な概
念が容易に獲得でき、特定の製品に潜む根本的な問題な
どを簡単に見つけ出すことができる。
【0054】図14に本発明において使用されるデータ
分析システムのハードウェア構成例を示す。システム1
00は、中央処理装置(CPU)1とメモリ4とを含ん
でいる。CPU1とメモリ4は、バス2を介して、補助
記憶装置としてのハードディスク装置13(またはCD
−ROM26、DVD32等の記憶媒体駆動装置)とI
DEコントローラ25を介して接続してある。同様にC
PU1とメモリ4は、バス2を介して、補助記憶装置と
してのハードディスク装置30(またはMO28、CD
−ROM29、DVD31等の記憶媒体駆動装置)とS
CSIコントローラ27を介して接続してある。フロッ
ピーディスク装置20はフロッピーディスクコントロー
ラ19を介してバス2へ接続されている。好適にはラベ
ル付きデータ160、辞書340、ラベル・概念付きデ
ータ370はこれら補助記憶装置に記憶される。
【0055】フロッピーディスク装置20には、フロッ
ピーディスクが挿入され、このフロッピーディスク等や
ハードディスク装置13(またはCD−ROM26、D
VD32等の記憶媒体)、ROM14には、オペレーテ
ィングシステムと協働してCPU等に命令を与え、本発
明を実施するためのコンピュータプログラム、オペレー
ティングシステムのコード若しくはデータを記録するこ
とができ、メモリ4にロードされることによって実行さ
れる。これらコンピュータ・プログラムのコードは圧縮
し、または、複数に分割して、複数の記録媒体に記録す
ることもできる。
【0056】システム100は更に、ユーザ・インター
フェース・ハードウェアを備え、入力をするためのポイ
ンティング・デバイス(マウス、ジョイスティック等)
7またはキーボード6や、ディスプレイ12を有するこ
とができる。好適にはポインティング・デバイス7を用
いて、ディスプレイ12に表示された表示領域(1)、
表示領域(2)の項目の選択、変更や、パラメータの入
力をGUIで行う。また、パラレルポート16を介してプ
リンタを接続することや、シリアルポート15を介して
モデムを接続することが可能である。このシステム10
0は、シリアルポート15およびモデムまたは通信アダ
プタ18(イーサネットやトークンリング・カード)等を
介してネットワークに接続し、他のコンピュータ、サー
バ等と通信を行う。本発明にデータ分析システムは、必
要なデータベースを、通信回線を介して接続された外部
のサーバ、WAN、LAN内にあるローカルなサーバなどに記
憶してもよい。どちらにしても本発明の実施の制限とな
るものではない。またシリアルポート15若しくはパラ
レルポート16に、遠隔送受信機器を接続して、赤外線
若しくは電波によりデータの送受信を行ってもよい。
【0057】スピーカ23は、オーディオ・コントロー
ラ21によってD/A(デジタル/アナログ変換)変換
されたサウンド、音声信号を、アンプ22を介して受領
し、サウンド、音声として出力する。また、オーディオ
・コントローラ21は、マイクロフォン24から受領し
た音声情報をA/D(アナログ/デジタル)変換し、シ
ステム外部の音声情報をシステムにとり込むことを可能
にしている。ViaVoice(IBM商標)などのアプリケーシ
ョンを用いて、本発明のGUIコマンド部の操作を音声
コマンドによる操作で代用してもよい。さらにホームペ
ージ・リーダー(IBM商標)などアプリケーションを用い
て、表示された特徴的概念を有する検索結果などを音声
で読み上げるようにしてもよい。
【0058】このように、本発明のデータ分析システム
は、通常のパーソナルコンピュータ(PC)やワークス
テーション、ノートブックPC、パームトップPC、ネ
ットワークコンピュータ、コンピュータを内蔵したテレ
ビ等の各種家電製品、通信機能を有するゲーム機、電
話、FAX、携帯電話、PHS、電子手帳、等を含む通
信機能有する通信端末、または、これらの組合せによっ
て実施可能であることを容易に理解できるであろう。た
だし、これらの構成要素は例示であり、その全ての構成
要素が本発明の必須の構成要素となるわけではない。
【0059】
【発明の効果】本発明により、大量データから有効な知
識を獲得する方法およびシステムが提供される。また有
効な知識を獲得するための、ユーザビリティに優れたG
UIによる分析方法およびシステムが提供される。
【図面の簡単な説明】
【図1】本発明のデータ分析システム概要を示すブロッ
ク図である
【図2】データ変換部のフローチャートである。
【図3】概念抽出部のブロック図である。
【図4】概念抽出部のフローチャートである。
【図5】検索・特徴抽出部のブロック図である。
【図6】表示部における表示領域(1)の例である。
【図7】表示部における表示領域(2)の例である。
【図8】表示領域(1)における概念の抽出及び表示の
フローチャートである。
【図9】表示領域(2)における概念の抽出及び表示の
フローチャートである。
【図10】表示領域(1)の典型的な表示例である。
【図11】表示領域(2)の典型的な表示例である。
【図12】概念抽出部の処理を具体的な文を用いて説明
した図である
【図13】表示領域(1)と表示領域(2)を含むGU
I画面の例である。
【図14】本発明に用いるハードウェアの実施例であ
る。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 那須川 哲哉 神奈川県大和市下鶴間1623番地14 日本ア イ・ビー・エム株式会社 東京基礎研究所 内 (72)発明者 長野 徹 神奈川県大和市下鶴間1623番地14 日本ア イ・ビー・エム株式会社 東京基礎研究所 内 Fターム(参考) 5B075 ND03 ND04 NK06 NK32 NR03 NR12 NS01 NS03 PP02 PP03 PQ02 PQ15 PQ74 PR06 QM08 UU06 UU40

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】データから特徴的な概念を取り出す、デー
    タ分析システムであって、(1)文書データを含むデー
    タからカテゴリ別の概念を抽出する、概念抽出手段と、
    (2)前記カテゴリ別の概念において、同一カテゴリに
    属する概念のうち、対応する別のカテゴリに属する概念
    の中で占める割合が既定値を超えている概念を抽出す
    る、特徴的概念抽出手段、を有する、データ分析システ
    ム。
  2. 【請求項2】前記概念抽出手段(1)が、データ中の前
    記文書データを形態素解析する手段と、前記形態素解析
    の結果に基づき、前記文書データの文節を生成する手段
    と、前記文節内のキーワードを概念として抽出する手段
    であって、前記文節に対してカテゴリ辞書を適用して、
    文節内のキーワードに対して概念(該キーワードの代表
    的意味を表現した置き換え表現)とカテゴリを付加する
    手段と、前記文節を有する文を構文木生成規則に従い構
    文を解析する、構文解析手段と、前記文節内の概念およ
    びカテゴリを付加されたキーワードに関し、同一文中で
    のキーワードの係り受け関係を抽出する、係り受け抽出
    手段と、前記カテゴリ別の概念を抽出する手段であっ
    て、前記キーワード間の係り受け関係に基づき、係り受
    けの関係にある各概念のカテゴリの組み合わせを抽出す
    る手段と、を含む、請求項1記載のシステム。
  3. 【請求項3】前記特徴的概念抽出手段(2)が、ユーザ
    の命令を受け取る入力手段と、前記ユーザの命令を解析
    する、命令解析手段と、前記解析された命令に従い、前
    記カテゴリ別の概念を提示し、同一カテゴリに属する概
    念のうち、対応する別のカテゴリに属する概念の中で占
    める割合が既定値を超えている概念を他の概念と異なる
    属性で表示する手段とを有する、請求項1記載のシステ
    ム。
  4. 【請求項4】前記特徴的な概念を検出する手段(2)
    が、さらに、抽出された概念の相対頻度を計算する手段
    と、抽出された概念の集合から概念を検索する手段と、
    カテゴリ別概念の頻度を計算する手段と、得られた前記
    相対頻度、検索結果、概念の頻度を表示する手段と、を
    含む、請求項3記載のシステム。
  5. 【請求項5】データから特徴的な概念を取り出す、概念
    抽出方法であって、データ中の文書データに対して形態
    素解析を行う段階と、前記形態素解析の結果に基づき、
    前記文書データの文節を生成する段階と、前記文節に対
    してカテゴリ辞書を適用して、文節内のキーワードに対
    して概念(該キーワードの代表的意味を表現した置き換
    え表現)とカテゴリを付加する段階と、前記文節を有す
    る文を構文木生成規則に従い構文木を生成する段階と、
    前記文節内のカテゴリを付加されたキーワードに関し、
    同一文中でのキーワードの係り受け関係を抽出する段階
    と、前記キーワード間の係り受け関係に基づき、係り受
    けの関係にある各概念のカテゴリの組合せを抽出する段
    階と、を有する、概念抽出方法。
  6. 【請求項6】データから特徴的な概念を取り出すプログ
    ラムを記録したコンピュータ読み取り可能な記録媒体で
    あって、該プログラムが、コンピュータに、データ中の
    文書データに対して形態素解析を行う機能と、前記形態
    素解析の結果に基づき、前記文書データの文節を生成す
    る機能と、前記文節に対してカテゴリ辞書を適用して、
    文節内のキーワードに対して概念(該キーワードの代表
    的意味を表現した置き換え表現)カテゴリを付加する機
    能と、前記文節を有する文を構文木生成規則に従い構文
    木を生成する機能と、前記文節内のカテゴリを付加され
    たキーワードに関し、同一文中でのキーワードの係り受
    け関係を抽出する機能と、前記キーワード間の係り受け
    関係に基づき、係り受けの関係にある各概念のカテゴリ
    の組合せを抽出する機能と、を実現させる記録媒体。
JP24105799A 1999-07-07 1999-08-27 データ分析システム Expired - Fee Related JP3266586B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP24105799A JP3266586B2 (ja) 1999-07-07 1999-08-27 データ分析システム
US09/612,136 US7493252B1 (en) 1999-07-07 2000-07-07 Method and system to analyze data

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP11-192618 1999-07-07
JP19261899 1999-07-07
JP24105799A JP3266586B2 (ja) 1999-07-07 1999-08-27 データ分析システム

Publications (2)

Publication Number Publication Date
JP2001075966A true JP2001075966A (ja) 2001-03-23
JP3266586B2 JP3266586B2 (ja) 2002-03-18

Family

ID=26507429

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24105799A Expired - Fee Related JP3266586B2 (ja) 1999-07-07 1999-08-27 データ分析システム

Country Status (2)

Country Link
US (1) US7493252B1 (ja)
JP (1) JP3266586B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002297875A (ja) * 2001-03-30 2002-10-11 Tuka Cellular Tokai:Kk 顧客関係管理方法、システム及びプログラム
JP2006528390A (ja) * 2003-07-22 2006-12-14 オーバーチュア サービシズ インコーポレイテッド 用語に基づくコンセプト市場
JP2007257149A (ja) * 2006-03-22 2007-10-04 Ricoh Co Ltd 文書処理装置及び文書処理方法
JP2007293685A (ja) * 2006-04-26 2007-11-08 Mitsubishi Electric Corp テキストマイニング装置、テキストマイニングプログラム、及びテキストマイニング方法
JP2008027057A (ja) * 2006-07-19 2008-02-07 Fuji Xerox Co Ltd 分類情報管理装置、分類情報管理システムおよび分類情報管理プログラム
WO2014034557A1 (ja) * 2012-08-31 2014-03-06 日本電気株式会社 テキストマイニング装置、テキストマイニング方法及びコンピュータ読み取り可能な記録媒体
WO2016147220A1 (ja) * 2015-03-18 2016-09-22 日本電気株式会社 テキスト可視化システム、テキスト可視化方法、及び、記録媒体
WO2016189594A1 (ja) * 2015-05-22 2016-12-01 株式会社不満買取センター 不満情報処理装置及びシステム
US9626433B2 (en) 2013-04-23 2017-04-18 International Business Machines Corporation Supporting acquisition of information

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7725487B2 (en) * 2003-12-01 2010-05-25 National Institute Of Information And Communications Technology Content synchronization system and method of similar web pages
TWI237991B (en) * 2004-06-28 2005-08-11 Delta Electronics Inc Integrated dialogue system and method thereof
JP5390463B2 (ja) * 2010-04-27 2014-01-15 インターナショナル・ビジネス・マシーンズ・コーポレーション 不具合を示す述語表現を抽出するための不具合述語表現抽出装置、不具合述語表現抽出方法及び不具合述語表現抽出プログラム
WO2011153171A2 (en) * 2010-06-01 2011-12-08 Bridget K Osetinsky Data isolating research tool
JP5681041B2 (ja) * 2011-06-03 2015-03-04 富士通株式会社 名寄せ規則生成方法、装置、およびプログラム
EP2857985A4 (en) * 2012-05-31 2016-08-03 Toshiba Kk KNOWLEDGE EXTRACTION DEVICE, KNOWLEDGE UPGRADING DEVICE AND PROGRAM
US9361806B2 (en) 2013-01-14 2016-06-07 Hyperfine, Llc Comprehension normalization
US9727824B2 (en) * 2013-06-28 2017-08-08 D-Wave Systems Inc. Systems and methods for quantum processing of data
US10614912B2 (en) 2014-08-17 2020-04-07 Hyperfine, Llc Systems and methods for comparing networks, determining underlying forces between the networks, and forming new metaclusters when saturation is met
JP7134949B2 (ja) 2016-09-26 2022-09-12 ディー-ウェイブ システムズ インコーポレイテッド サンプリングサーバからサンプリングするためのシステム、方法、及び装置
US11531852B2 (en) 2016-11-28 2022-12-20 D-Wave Systems Inc. Machine learning systems and methods for training with noisy labels
JP7103763B2 (ja) * 2017-07-20 2022-07-20 株式会社日立製作所 情報処理システムおよび情報処理方法
US11586915B2 (en) 2017-12-14 2023-02-21 D-Wave Systems Inc. Systems and methods for collaborative filtering with variational autoencoders
US11386346B2 (en) 2018-07-10 2022-07-12 D-Wave Systems Inc. Systems and methods for quantum bayesian networks
US11461644B2 (en) 2018-11-15 2022-10-04 D-Wave Systems Inc. Systems and methods for semantic segmentation
US11468293B2 (en) 2018-12-14 2022-10-11 D-Wave Systems Inc. Simulating and post-processing using a generative adversarial network
US11900264B2 (en) 2019-02-08 2024-02-13 D-Wave Systems Inc. Systems and methods for hybrid quantum-classical computing
US11625612B2 (en) 2019-02-12 2023-04-11 D-Wave Systems Inc. Systems and methods for domain adaptation

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03131967A (ja) * 1989-10-18 1991-06-05 Ricoh Co Ltd 日本語の単語分類方法
JPH0997264A (ja) * 1995-09-29 1997-04-08 Nri & Ncc Co Ltd サンプル分類支援装置
JPH09218878A (ja) * 1996-02-14 1997-08-19 Fuji Xerox Co Ltd 情報提示装置
JPH1055367A (ja) * 1996-08-09 1998-02-24 Hitachi Ltd データ利用システム
US5799268A (en) * 1994-09-28 1998-08-25 Apple Computer, Inc. Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61105671A (ja) * 1984-10-29 1986-05-23 Hitachi Ltd 自然言語処理装置
US5371807A (en) * 1992-03-20 1994-12-06 Digital Equipment Corporation Method and apparatus for text classification
JPH06176081A (ja) * 1992-12-02 1994-06-24 Hitachi Ltd 階層構造ブラウジング方法およびその装置
US5794050A (en) * 1995-01-04 1998-08-11 Intelligent Text Processing, Inc. Natural language understanding system
US6061675A (en) * 1995-05-31 2000-05-09 Oracle Corporation Methods and apparatus for classifying terminology utilizing a knowledge catalog
EP0856175A4 (en) * 1995-08-16 2000-05-24 Univ Syracuse SYSTEM AND METHOD FOR RETURNING MULTI-LANGUAGE DOCUMENTS USING A SEMANTIC VECTOR COMPARISON
US6026388A (en) * 1995-08-16 2000-02-15 Textwise, Llc User interface and other enhancements for natural language information retrieval system and method
US6076088A (en) * 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
US5857179A (en) * 1996-09-09 1999-01-05 Digital Equipment Corporation Computer method and apparatus for clustering documents and automatic generation of cluster keywords
US6446061B1 (en) * 1998-07-31 2002-09-03 International Business Machines Corporation Taxonomy generation for document collections
US6243670B1 (en) * 1998-09-02 2001-06-05 Nippon Telegraph And Telephone Corporation Method, apparatus, and computer readable medium for performing semantic analysis and generating a semantic structure having linked frames
US6188976B1 (en) * 1998-10-23 2001-02-13 International Business Machines Corporation Apparatus and method for building domain-specific language models
US6411962B1 (en) * 1999-11-29 2002-06-25 Xerox Corporation Systems and methods for organizing text

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03131967A (ja) * 1989-10-18 1991-06-05 Ricoh Co Ltd 日本語の単語分類方法
US5799268A (en) * 1994-09-28 1998-08-25 Apple Computer, Inc. Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like
JPH0997264A (ja) * 1995-09-29 1997-04-08 Nri & Ncc Co Ltd サンプル分類支援装置
JPH09218878A (ja) * 1996-02-14 1997-08-19 Fuji Xerox Co Ltd 情報提示装置
JPH1055367A (ja) * 1996-08-09 1998-02-24 Hitachi Ltd データ利用システム

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002297875A (ja) * 2001-03-30 2002-10-11 Tuka Cellular Tokai:Kk 顧客関係管理方法、システム及びプログラム
JP2006528390A (ja) * 2003-07-22 2006-12-14 オーバーチュア サービシズ インコーポレイテッド 用語に基づくコンセプト市場
JP2007257149A (ja) * 2006-03-22 2007-10-04 Ricoh Co Ltd 文書処理装置及び文書処理方法
JP2007293685A (ja) * 2006-04-26 2007-11-08 Mitsubishi Electric Corp テキストマイニング装置、テキストマイニングプログラム、及びテキストマイニング方法
JP2008027057A (ja) * 2006-07-19 2008-02-07 Fuji Xerox Co Ltd 分類情報管理装置、分類情報管理システムおよび分類情報管理プログラム
CN104603779A (zh) * 2012-08-31 2015-05-06 日本电气株式会社 文本挖掘设备、文本挖掘方法和计算机可读记录介质
WO2014034557A1 (ja) * 2012-08-31 2014-03-06 日本電気株式会社 テキストマイニング装置、テキストマイニング方法及びコンピュータ読み取り可能な記録媒体
JPWO2014034557A1 (ja) * 2012-08-31 2016-08-08 日本電気株式会社 テキストマイニング装置、テキストマイニング方法及びプログラム
US10140361B2 (en) 2012-08-31 2018-11-27 Nec Corporation Text mining device, text mining method, and computer-readable recording medium
US9626433B2 (en) 2013-04-23 2017-04-18 International Business Machines Corporation Supporting acquisition of information
WO2016147220A1 (ja) * 2015-03-18 2016-09-22 日本電気株式会社 テキスト可視化システム、テキスト可視化方法、及び、記録媒体
JPWO2016147220A1 (ja) * 2015-03-18 2017-12-07 日本電気株式会社 テキスト可視化システム、テキスト可視化方法、及び、プログラム
WO2016189594A1 (ja) * 2015-05-22 2016-12-01 株式会社不満買取センター 不満情報処理装置及びシステム
JPWO2016189594A1 (ja) * 2015-05-22 2018-03-15 株式会社Insight Tech 不満情報処理装置及びシステム

Also Published As

Publication number Publication date
JP3266586B2 (ja) 2002-03-18
US7493252B1 (en) 2009-02-17

Similar Documents

Publication Publication Date Title
JP3266586B2 (ja) データ分析システム
US6442540B2 (en) Information retrieval apparatus and information retrieval method
KR101732342B1 (ko) 신뢰 질의 시스템 및 방법
JP4857333B2 (ja) 諸文書にわたる文脈要約情報の決定方法
US8346795B2 (en) System and method for guiding entity-based searching
US10552467B2 (en) System and method for language sensitive contextual searching
US20070118519A1 (en) Question answering system, data search method, and computer program
JP2001134575A (ja) 頻出パターン検出方法およびシステム
US20050203900A1 (en) Associative retrieval system and associative retrieval method
JP2005182280A (ja) 情報検索システム、検索結果加工システム及び情報検索方法並びにプログラム
Grobelnik et al. Automated knowledge discovery in advanced knowledge management
TWI735380B (zh) 自然語言處理方法與其計算裝置
JP3353829B2 (ja) 膨大な文書データからの知識抽出方法、その装置及び媒体
CN114462384B (zh) 一种面向数字对象建模的元数据自动生成装置
JP4499179B1 (ja) 端末装置
JP2008204133A (ja) 回答検索装置及びコンピュータプログラム
JPH11259524A (ja) 情報検索システム、情報検索システムにおける情報処理方法および記録媒体
JP2004220226A (ja) 検索文書のための文書分類方法及び装置
JP3455641B2 (ja) 知識情報検索システムおよび知識情報検索方法
Kirmani et al. Analysis of Abstractive and Extractive Summarization Methods.
JP2003099429A (ja) 用語集生成装置及び用語集生成プログラム並びに用語集検索装置
JP4248828B2 (ja) 文書処理装置、文書処理方法及び記録媒体
JP4300056B2 (ja) 概念表現生成方法、プログラム、記憶媒体及び概念表現生成装置
JPH1145269A (ja) 文書管理支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1145249A (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees