JP2001325104A - 言語事例推論方法、言語事例推論装置及び言語事例推論プログラムが記録された記録媒体 - Google Patents

言語事例推論方法、言語事例推論装置及び言語事例推論プログラムが記録された記録媒体

Info

Publication number
JP2001325104A
JP2001325104A JP2000140626A JP2000140626A JP2001325104A JP 2001325104 A JP2001325104 A JP 2001325104A JP 2000140626 A JP2000140626 A JP 2000140626A JP 2000140626 A JP2000140626 A JP 2000140626A JP 2001325104 A JP2001325104 A JP 2001325104A
Authority
JP
Japan
Prior art keywords
keyword
case
problem solving
inference method
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2000140626A
Other languages
English (en)
Inventor
泰博 ▲たか▼山
Yasuhiro Takayama
Katsushi Suzuki
克志 鈴木
Takeyuki Aikawa
勇之 相川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2000140626A priority Critical patent/JP2001325104A/ja
Publication of JP2001325104A publication Critical patent/JP2001325104A/ja
Abandoned legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 キーワードの重み付けによる索引を用いて、
新規の事例と過去の事例との類似度を計算し、単に類似
事例を順位づけて提示するのみである。したがって、更
に対話的に事例を絞り込んで解決策を特定するための支
援情報を提示することができない課題があった。 【解決手段】 キーワードの頻度を参照して、キーワー
ド集合による問題解決木26を生成し、その問題解決木
26から新規の事例28に類似する過去の事例21を検
索する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、新たな問題を解
決する際、過去に発生した問題と解決策が記録されたテ
キスト等を含む文書(例えば、コールセンタでの問合わ
せ記録などを基に作成された事例)を検索する言語事例
推論方法、言語事例推論装置及び言語事例推論プログラ
ムが記録された記録媒体に関するものである。
【0002】
【従来の技術】相談窓口(ヘルプデスク)における問い
合わせ対応業務や障害監視センターにおける障害対応業
務などでのやりとりを電子的な手段で蓄積し、そのやり
とりを再利用したいという要求がある。こうした要求に
対して、自然言語で表現された事例の文を事例データベ
ースに登録し、新規の入力文と類似した事例を検索する
言語事例推論装置が存在する。
【0003】図12は例えば特開平9−73464号公
報に示された従来の言語事例推論装置を示す構成図であ
り、図において、1は過去の事例、2は過去の事例1を
格納する事例データベース、3はキーワード番号を格納
するキーワード番号テーブル、4は過去の事例1の事例
番号と当該事例に現れるキーワードとの対応関係を格納
するキーワードテーブル、5は過去の事例1の事例番号
と当該事例の分類を表すカテゴリ番号との対応関係を格
納するカテゴリテーブル、6はカテゴリ番号に対応する
キーワード番号の個数とカテゴリ毎のキーワードの総数
を格納する事例数テーブルである。
【0004】7は事例番号,カテゴリ番号,キーワード
番号及び重みの組から構成される属性情報、8は属性情
報7を格納する属性データベース、9は事例データベー
ス2に格納されている過去の事例1からキーワードを抽
出して属性情報7を生成し、その属性情報7を属性デー
タベース8に格納する属性情報生成手段、10は新規の
事例に対する過去の事例1の類似度を計算し、類似度の
高い順に過去の事例1を出力する類似度生成手段であ
る。
【0005】次に動作について説明する。事例蓄積時に
おいては、属性情報生成手段9が事例データベース2に
格納されている過去の事例1の[問題]中からキーワー
ドを抽出する。そして、属性情報生成手段9は、事例数
テーブル6を参照して、事例の総数S、カテゴリCi
属する事例の総数Si 、属性番号jの属性が出現する事
例の総数tj 、及び属性番号jの属性が出現する事例数
ijから、カテゴリCi の属性番号jの属性に対する重
みωijを下記のように計算し、属性データーベース8に
格納する。 ωij=(tij/tj −Si /S)+(tij/Si −tj
/S)
【0006】検索時においては、類似度生成手段10が
新規の事例からキーワードを抽出し、キーワードテーブ
ル4からキーワード番号を求める。そして、類似度生成
手段10は、その抽出したキーワードのリストから属性
データベース8を検索し、一致するキーワードを含む属
性情報7を取り出し、類似度ωを下記のように計算す
る。ω=(重みの総和)×(一致したキーワード数/属
性データベース8から取り出したキーワードリストの長
さ)。そして、類似度ωの高い順に事例番号をソート
し、過去の事例1の内容を出力する。
【0007】上記の通り、従来の言語事例推論装置は、
分類カテゴリ毎の重み付きキーワードで索引付けた過去
の事例1を事例データベース2に格納し、新規の事例が
入力されたとき、索引付けされた重みにしたがって新規
の事例と同じキーワードを含む過去の事例1と新規の事
例との類似度を計算し、類似度の高い順に過去の事例1
の一覧を出力することによって、過去の事例1に与えら
れた分類カテゴリから新規の事例に対応する分類カテゴ
リを推論するものである。そのため、入力された新規の
事例の記述が少なかったり、多義性のある曖昧な単語が
使用された場合に生じた検索ごみが出力の一覧に含まれ
ていたとしても、更に事例を絞り込むための手段が存在
しない。
【0008】上記従来例の他に、分類決定木を用いてテ
キストデータを分類する装置や、その分類決定木を生成
する文書分類構築装置が特開平5−334726号公報
に開示されている。即ち、当該公報には、文書データが
与えられたときに、その文書データが属する分類カテゴ
リ(分類クラス)を特定する技術が開示されている。ヘ
ルプデスク支援システムなどにおいて、オペレータ支援
を目的とする本発明とは目的が異なるが、分類決定木を
用いてテキストデータを処理するという点では共通点が
あるため、当該公報の内容を説明する。
【0009】図13は当該公報に開示されている分類決
定木の構成を示す説明図である。当該分類決定木は、根
ノード11及び内部ノード12,13,14に対して、
各1つのキーワードをラベル付けし、葉ノード15,1
6,17,18,19に対して、文書データの分類カテ
ゴリをラベル付けしている。各リンクは上位ノードのキ
ーワードを含むか否かにより分岐し、キーワードは、文
書データから抽出した部分文字列による。この分類決定
木は、各キーワードのうちの1つを含むか否かにより木
を分割したとき、分類カテゴリを識別する情報量を減ら
す期待値が最も小さいキーワードを選択してノードを生
成することを再帰的に繰り返すことにより生成するよう
にしたものである。したがって、出来上がった分類決定
木の分かり易さを考慮して生成されたものではない。
【0010】なお、図13の分類決定木の構成では、ノ
ードに設定されたキーワードに重み付けが行われていな
いため、図12の従来例のような事例に対する一括検索
を実施して、類似した事例を順序付けて取り出す処理を
行うことができない。また、当該公報では、自然言語処
理技術が発展途上段階であるとして、自然言語処理によ
るキーワードの抽出を実施せず、ある長さの範囲の部分
文字列を抽出した文字列をキーワードとして採用してい
る。この方法では、単語として意味のない文字列を分類
決定木のノードのラベルとして設定してしまうことにな
り、分類決定木の理解のし易さを大きく損なうことにな
る。形態素解析や重要語抽出等の言語処理技術が発展し
てきた現在では、かなりの精度で意味のある単語を正確
に切り出し、本発明で行うように分類カテゴリを特定す
るために重要な単語をキーワードとして採用することが
できる。
【0011】
【発明が解決しようとする課題】従来の言語事例推論装
置は以上のように構成されているので、キーワードの重
み付けによる索引を用いて、新規の事例と過去の事例と
の類似度を計算し、単に類似事例を順位付けて提示する
のみである。したがって、更に対話的に事例を絞り込ん
で解決策を特定するための支援情報を提示することがで
きない課題があった。
【0012】なお、特開平5−334726号公報には
分類決定木を生成する技術が開示されているが、文書の
分類を目的とする分類決定木であるため、使用者の分か
り易さが考慮されていない。したがって、オペレータの
問題解決支援のような目的で、対話的な検索に用いる支
援情報を提示するための問題解決木の構成としては不十
分である。
【0013】この発明は上記のような課題を解決するた
めになされたもので、新規の事例に類似する過去の事例
を精度よく推論することができるとともに、ヘルプデス
ク業務を行うオペレータ等にとって分かり易い問題解決
木を提供して、対話的な事例の絞り込みを可能にするこ
とができる言語事例推論方法、言語事例推論装置及び言
語事例推論プログラムが記録された記録媒体を得ること
を目的とする。
【0014】
【課題を解決するための手段】この発明に係る言語事例
推論方法は、前処理ステップにより計算されたキーワー
ドの頻度を参照して、キーワード集合による問題解決木
を生成する問題解決木生成ステップと、その問題解決木
生成ステップにより生成された問題解決木から新規の事
例に類似する過去の事例を検索する検索ステップとを設
けたものである。
【0015】この発明に係る言語事例推論方法は、過去
の事例の文を分割するようにしたものである。
【0016】この発明に係る言語事例推論方法は、句点
の箇所で文を分割するようにしたものである。
【0017】この発明に係る言語事例推論方法は、用言
及び助動詞の連用形の後に読点が続いた箇所で文を分割
するようにしたものである。
【0018】この発明に係る言語事例推論方法は、接続
助詞の後に読点が続いた箇所で文を分割するようにした
ものである。
【0019】この発明に係る言語事例推論方法は、形態
素解析結果の品詞情報による選択的なキーワード抽出を
実施するようにしたものである。
【0020】この発明に係る言語事例推論方法は、キー
ワードとして、自立語を抽出するようにしたものであ
る。
【0021】この発明に係る言語事例推論方法は、キー
ワードとして、自立語及び付属語を抽出するようにした
ものである。
【0022】この発明に係る言語事例推論方法は、キー
ワードとして、自立語、付属語及び様相表現を抽出する
ようにしたものである。
【0023】この発明に係る言語事例推論方法は、抽出
するキーワードから数詞を除外するようにしたものであ
る。
【0024】この発明に係る言語事例推論方法は、抽出
するキーワードから数字を除外するようにしたものであ
る。
【0025】この発明に係る言語事例推論方法は、抽出
するキーワードから接頭語を除外するようにしたもので
ある。
【0026】この発明に係る言語事例推論方法は、抽出
するキーワードから接尾語を除外するようにしたもので
ある。
【0027】この発明に係る言語事例推論方法は、問題
解決木のノードにキーワード集合を設定するようにした
ものである。
【0028】この発明に係る言語事例推論方法は、各キ
ーワードに重みを設定するようにしたものである。
【0029】この発明に係る言語事例推論方法は、各キ
ーワードに重みを設定する際、分類カテゴリに特徴的な
キーワード程、重みの値を大きくするようにしたもので
ある。
【0030】この発明に係る言語事例推論方法は、キー
ワードに設定する重みの値として、χ2乗値を使用する
ようにしたものである。
【0031】この発明に係る言語事例推論方法は、問題
解決木のリンクに親ノードと子ノードの差にあたるキー
ワード集合を設定するようにしたものである。
【0032】この発明に係る言語事例推論方法は、前処
理ステップで計算されたキーワードの頻度を参照して、
キーワードベクトルによる問題解決木の雛形を生成する
雛形生成ステップと、その雛形生成ステップにより生成
された雛形のノードにキーワード索引を設定するキーワ
ード索引設定ステップとから問題解決木生成ステップを
構成するようにしたものである。
【0033】この発明に係る言語事例推論方法は、キー
ワードの統計情報を参照して、キーワードベクトルの要
素を選択するようにしたものである。
【0034】この発明に係る言語事例推論方法は、キー
ワードの統計情報として、単語の出現頻度がある閾値以
上の単語を使用するようにしたものである。
【0035】この発明に係る言語事例推論方法は、キー
ワードの統計情報として、単語の出現頻度がある閾値以
下の単語を使用するようにしたものである。
【0036】この発明に係る言語事例推論方法は、キー
ワードの統計情報として、単語の出現頻度が第1の閾値
以上、かつ、単語の出現頻度が第2の閾値以下の単語を
使用するようにしたものである。
【0037】この発明に係る言語事例推論方法は、キー
ワードの統計情報として、χ2乗値を使用するようにし
たものである。
【0038】この発明に係る言語事例推論方法は、クラ
スタリング時の距離をキーワードベクトルの余弦値で定
義して、問題解決木の雛形を生成するようにしたもので
ある。
【0039】この発明に係る言語事例推論方法は、各ノ
ードに含まれる事例の件数を考慮してクラスタリング時
の距離を計算して、問題解決木の雛形を生成するように
したものである。
【0040】この発明に係る言語事例推論方法は、キー
ワードの統計情報を参照して、キーワード索引の要素を
選択するようにしたものである。
【0041】この発明に係る言語事例推論方法は、キー
ワードの統計情報として、χ2乗値を使用するようにし
たものである。
【0042】この発明に係る言語事例推論方法は、文内
の共起の統計情報を参照してキーワードの組合せを選択
し、そのキーワードの組合せをキーワード索引の要素と
して使用するようにしたものである。
【0043】この発明に係る言語事例推論方法は、文内
の共起の統計情報として、χ2乗値を使用するようにし
たものである。
【0044】この発明に係る言語事例推論方法は、文内
の共起の統計情報として、相互情報量を使用するように
したものである。
【0045】この発明に係る言語事例推論方法は、分類
カテゴリへの到達を支援するガイダンス情報を出力する
ようにしたものである。
【0046】この発明に係る言語事例推論方法は、ガイ
ダンス情報として、問題解決木のリンクに設定されたキ
ーワード集合を使用するようにしたものである。
【0047】この発明に係る言語事例推論方法は、問題
解決木の葉ノードに対する検索を実行して、新規の事例
に類似する分類カテゴリを順位付けて出力するようにし
たものである。
【0048】この発明に係る言語事例推論方法は、キー
ワード索引ベクトルと入力キーワードベクトルの余弦値
による類似度を計算して、分類カテゴリの順位付けを行
うようにしたものである。
【0049】この発明に係る言語事例推論方法は、新規
の事例に類似する過去の事例を順位付けて出力するよう
にしたものである。
【0050】この発明に係る言語事例推論方法は、事例
のキーワードベクトルと入力キーワードベクトルの余弦
値による類似度を計算して、過去の事例の順位付けを行
うようにしたものである。
【0051】この発明に係る言語事例推論装置は、前処
理手段により計算されたキーワードの頻度を参照して、
キーワード集合による問題解決木を生成する問題解決木
生成手段と、その問題解決木生成手段により生成された
問題解決木から新規の事例に類似する過去の事例を検索
する検索手段とを設けたものである。
【0052】この発明に係る言語事例推論プログラムが
記録された記録媒体は、前処理手順により計算されたキ
ーワードの頻度を参照して、キーワード集合による問題
解決木を生成する問題解決木生成手順と、その問題解決
木生成手順により生成された問題解決木から新規の事例
に類似する過去の事例を検索する検索手順とを設けたも
のである。
【0053】
【発明の実施の形態】以下、この発明の実施の一形態を
説明する。 実施の形態1.図1はこの発明の実施の形態1による言
語事例推論装置を示す構成図であり、図において、21
は自然言語による記述を含む問合わせ記録等の電子化文
書である過去の事例である。なお、過去の事例21に
は、事例の問題等に対する解決策あるいは回答など、対
象領域や業務に依存して意味的に類似する事例の分類を
表す分類カテゴリが付与されているものとする。22は
過去の事例21からキーワード集合による問題解決木2
6を生成する事例構築部、23は過去の事例21からキ
ーワードを抽出するとともに、そのキーワードの頻度を
計算して、分類カテゴリ毎のキーワード頻度表24を生
成するテキスト前処理部(前処理手段)、24は分類カ
テゴリ毎のキーワード頻度表、25は過去の事例21と
分類カテゴリ毎のキーワード頻度表24を参照して、キ
ーワード集合による問題解決木26を生成する問題解決
木生成部(問題解決木生成手段)、26はキーワード集
合による問題解決木、27はキーワード集合による問題
解決木26を格納する事例データベースである。
【0054】28は新規の事例、29はキーワード集合
による問題解決木26を参照して新規の事例28に類似
する過去の事例21を検索する事例検索部(検索手
段)、30は新規の事例28を入力し、新規の事例28
からキーワードの抽出処理等を実施する新規事例入力
部、31は複数の過去の事例21と新規の事例28の類
似度を計算し、類似度による順位付き類似事例33、順
位付き分類カテゴリ34及び類似事例の候補の絞り込み
を支援するガイダンス情報32を出力する問題解決木検
索部である。32はガイダンス情報、33は順位付き類
似事例、34は順位付き分類カテゴリである。なお、上
記の構成要素はハードウェアを用いて実現してもよい
し、コンピュータプログラムであるソフトウェアを用い
て実現してもよい。ソフトウェアを用いて実現する場合
には、コンピュータプログラムを記録する記録媒体を用
意する。
【0055】図2はキーワード集合による問題解決木2
6を示す説明図であり、図において、41はキーワード
分類木層、42は分類カテゴリ層、43は根ノード、4
4は内部ノード、45〜47は葉ノード、48〜51は
各ノードを結ぶリンク、52〜55はリンク48〜51
に付けられたラベル、56〜58は分類カテゴリノー
ド、59〜61はカテゴリC1〜C3を持つ事例集合で
ある。
【0056】次に動作について説明する。キーワード分
類木層41における各ノードは、キーワードの集合によ
って索引付けられているものとする。以下の説明では、
事例から形態素解析等により抽出したキーワードをKW
i(iは整数)で表すものとする。
【0057】根ノード43のラベルは空集合とする。ま
た、リンクには、上位ノードの索引と下位ノードの索引
との差分のキーワード集合がラベルとして与えられる。
例えば、根ノード43の索引{}と内部ノード44の索
引{KW1,KW2}との差であるキーワード集合{K
W1,KW2}が、根ノード43と内部ノード44のリ
ンク48のラベル52となる。また、内部ノード44の
索引{KW1,KW2}と、葉ノード45の索引{KW
1,KW2,KW3}の差であるキーワード集合{KW
3}が、内部ノード44と葉ノード45とのリンク49
のラベル53となる。同様に、内部ノード44の索引と
葉ノード46の索引の差であるキーワード集合{KW
4,KW5}がラベル54となり、根ノード43の索引
と葉ノード47の索引の差であるキーワード集合{KW
6,KW7}がラベル55となる。
【0058】図2に示されたキーワード集合による問題
解決木26を用いて、例えば、新規の事例28より抽出
されたキーワード集合{KW1,KW2}の情報から内
部ノード44まで辿ることができたとすると、問題解決
木検索部31は、現在のノード(ノード44)の下位に
ある分類カテゴリC1又は分類カテゴリC2を、新規の
事例28に対する分類カテゴリの候補(推論結果)とし
て出力する。
【0059】また、問題解決木検索部31は、分類カテ
ゴリを絞り込むためのガイダンス情報32として、現在
のノードである内部ノード44と下位ノードである葉ノ
ード45を結ぶリンク49に付与されているラベル53
のキーワード集合{KW3}と、内部ノード44と葉ノ
ード46を結ぶリンク50に付与されているラベル54
のキーワード集合{KW4,KW5}とを出力する。こ
のとき、オペレータがキーワード集合{KW3}を選択
すると、新規の事例28の分類カテゴリとして分類カテ
ゴリC1が推論され、キーワード集合{KW4,KW
5}、あるいは、キーワードKW4又はKW5のいずれ
かを選択すると、新規の事例28の分類カテゴリとして
分類カテゴリC2が推論されることになる。
【0060】この実施の形態1で用いるキーワード集合
による問題解決木26では、キーワード分類木層41に
おける葉ノードの索引中の各キーワードには、対応する
分類カテゴリ毎の重みが設定されているものとする。従
って、問題解決木検索部31では、この重みを用いた入
力事例と各分類カテゴリとの類似度計算により一括検索
を行った結果を順位付き分類カテゴリ34として出力す
ることができる。同様に、入力された新規の事例28と
個々の過去の事例21との類似度を計算して、順位付け
られた個々の事例(順位付き類似事例33)も出力する
ことができる。それぞれの類似度計算方法については後
述する。
【0061】図3はこの発明の実施の形態1による言語
事例推論方法における事例構築処理を示すフローチャー
トである。まず、ステップST1において、蓄積の対象
とする過去の事例21(問い合わせ記録等の電子化文
書)から処理対象のテキストを抽出して、各事例毎にキ
ーワードを抽出する。なお、過去の事例21は以降の処
理よりも前もって事例データベース27に格納してお
き、以降のステップで求めた情報を後で追加して格納す
るという構成をとってもよい。
【0062】次に、ステップST1では、形態素解析結
果の品詞情報による選択的なキーワード抽出を行う。例
えば、「コード293が読み取れない」というテキスト
に対する品詞情報選択として自立語「コード」、「読み
取」のみを抽出することができる。あるいは、自立語に
加えて付属語「が」を抽出する構成としてもよい。ま
た、自立語、付属語に加えて、「ない」を「否定」とし
て抽出したり、自立語「可能」及び付属語「できる」を
共に「可能」とする等の様相表現として抽出する構成と
してもよい。このとき、キーワードからは「293」の
ような数字を品詞として持つ単語は重要な情報を担わな
いので除外する。同様に、数詞のような品詞を持つ単語
は重要な情報を担わないので除外する。
【0063】また、例えば、「お知らせを参照して実行
したが、サーバが起動できない」という入力に対して、
接頭語「お」を除外したり、同様に接尾語が含まれてい
たら、その接尾語を除外することによって、検索のゴミ
となるような単語をキーワードから除外する処理を行
う。
【0064】ステップST1の中に、テキスト中の自然
言語による表現において、重要な表現単位である文毎に
テキストを分割してキーワードを抽出する文分割ステッ
プを含める構成としてもよい。このとき、文の分割処理
は、日本語の句点「。」、用言及び助動詞の連用形に読
点が続いた箇所や、接続助詞の後ろに読点が続いた箇所
において行うものとする。ここで、抽出した文毎のキー
ワードの出現に関する情報は、キーワード集合による問
題解決木26におけるキーワード索引の選択時に、キー
ワードの文内の共起を計算する際に使用する。詳細は後
述する。
【0065】次に、ステップST2では、各事例毎にキ
ーワードの頻度を計算する。このとき、頻度の計算は、
各事例が属する分類カテゴリ毎に実施し、分類カテゴリ
毎のキーワード頻度表24を生成する。次に、ステップ
ST3では、分類カテゴリ毎のキーワード頻度表24か
ら、図2のキーワード集合による問題解決木26を生成
して、事例データベース27に格納する。
【0066】図4は問題解決木生成処理(図3のステッ
プST3)の具体的な処理内容を示すフローチャートで
ある。問題解決木の生成は、以下の2つのステップから
構成する。まず、ステップST11において、分類カテ
ゴリ毎のキーワード頻度表24を用いて、キーワードベ
クトルによる問題解決木の雛形71を生成する。次に、
ステップST12において、問題解決木の雛型71の各
ノードにキーワード索引を設定するとともに、リンクに
親ノードと子ノードの差分にあたるキーワードを設定す
る処理を実施し、キーワード集合による問題解決木26
を生成する。
【0067】図5は雛形生成処理(図4のステップST
11)の具体的な処理内容を示すフローチャートであ
る。まず、ステップST21において、過去の事例21
に出現した分類カテゴリ毎に葉ノードを生成し、各分類
カテゴリの特徴を表す情報として、各葉ノードにキーワ
ードを要素とするベクトルを設定する。ここで、分類カ
テゴリ毎のキーワード頻度表24から問題解決木の雛形
71の葉ノードに設定するベクトルの要素の選択を行
う。このベクトルの要素の選択は統計量によるものとす
る。
【0068】この統計量として、分類カテゴリ毎に重要
な要素を識別するのに好適な指標として知られているχ
2乗値を使用する。あるいは、一般に頻度が中程度の単
語が分類に寄与することが知られているため、キーワー
ド頻度表の値をそのまま用いて頻度がある一定の閾値以
上のキーワード、および、ある一定の閾値以下のキーワ
ードを不要語であるとしてベクトルの要素から除外して
もよい。
【0069】前記のχ2乗値は、下記のようにして計算
することができる。図11(a)に示すように、抽出し
たキーワードをKWi、事例の分類カテゴリをCjで表
すとき、キーワードKWiの分類カテゴリCjでの頻度
をfij、各分類カテゴリ毎の頻度の合計をXi、各キ
ーワード毎の頻度の合計をYj、すべてのキーワードの
頻度の総計をMとする。このとき、キーワードKWjが
カテゴリCiに対して、どれだけ分類に有効なキーワー
ドであるかを以下の式で計算する。 理論頻度:mij=Xi×Yj/M 重み(χ2乗値):Wij=(fij−mij)×|f
ij−mij|/mij
【0070】理論頻度は、上記分類カテゴリ毎のキーワ
ード頻度表24において、単語が均一に現れたと仮定し
た場合の頻度である。また、重み(χ2乗値)は実際の
出現回数と理論頻度との差による統計的な特徴量とな
る。上記の重み計算によって、カテゴリ毎のキーワード
重み表を生成する(図11(b)を参照)。このとき、
いずれかの分類カテゴリでのχ2乗値が大きいキーワー
ドをキーワードベクトルの要素として選択する。
【0071】次に、ステップST22では、キーワード
ベクトルが設定された葉ノードの集合72を受け取る
と、キーワードベクトル間の距離によって階層的に木を
纏め上げる処理を行う。このとき、階層的な木の纏め上
げは、よく知られているボトムアップ凝集型のクラスタ
リング処理によって、葉ノードに設定されたベクトル間
の距離が最も小さいノードから2つずつノードをマージ
して中間ノードを生成していく処理を行えばよい。距離
が一定値以下のときには、下位の中間ノードを削除して
3つ以上のノードが中間ノードの下に接続される構成と
してもよい。このようにして、分類カテゴリによる問題
解決木の雛形71が生成される。
【0072】ステップST22におけるキーワードベク
トル間の距離の計算としては、距離をベクトルの余弦値
(Vi・Vj)/(|Vi||Vj|)を用いて(1−
(Vi・Vj)/(|Vi||Vj|))で定義するこ
とができる。ここで、Vi、Vjは、比較対象の2つの
ノードのキーワードベクトルである。
【0073】また、各ノードに含まれる事例の件数を考
慮した式を用いることによって、事例件数の多い分類カ
テゴリが上位の方で分岐するような問題解決木を構成す
ることができる。この距離の定義の例として、例えば、
(log(Ni・Nj)+1)×(1−(Vi・Vj)
/(|Vi||Vj|))を用いる。ここで、Ni、N
jは、比較対象の2つのノードに対応する事例の件数で
ある。事例件数の多い分類カテゴリが上位の方で分岐す
るように問題解決木を生成することにより、検索時に新
規の事例28に対して分類カテゴリを特定するまでに木
を辿る平均的な回数を減らすことが期待できる。
【0074】図6はキーワード索引設定処理(図4のス
テップST12)の具体的な処理内容を示すフローチャ
ートである。まず、ステップST81において、ステッ
プST11から分類カテゴリによる問題解決木の雛形7
1を受け取ると、問題解決木の雛形71の各葉ノードに
対して、それぞれのノードに設定されているキーワード
ベクトルの要素であるキーワードから、更に統計量によ
り索引を選択する。
【0075】この索引の選択において、個々のキーワー
ドの統計量による足切りを、各カテゴリ毎のχ2乗値に
よって行うことができる。また、索引の要素をキーワー
ドの文内の共起の統計情報で足切りすることにより、意
味的にまとまりのあるキーワードの集合を索引として採
用することができる。このとき用いる統計情報として
も、あらかじめキーワードの共起集合に対しても、個々
のキーワードと同様に図11(b)のカテゴリ毎のキー
ワード重み表を作成しておいて、χ2乗値を使用するこ
とができる。
【0076】あるいは、索引の選択におけるキーワード
の文内の共起の統計情報による足切りとして、相互情報
量を用いて共起する確率の高いキーワードの組み合わせ
を索引として使用することもできる。ここでは、前記の
計算で求めたχ2乗値を使用するものとして、それぞれ
分類カテゴリでのχ2乗値が大きいキーワードを索引の
要素として選択する。このとき、各キーワード自身の重
みとしても、このχ2乗値の値を設定して問題解決木に
保持しておく構成とする。この重みは、少なくとも葉ノ
ードの各キーワードに対して保持しておき、更に内部ノ
ードに対しても下位ノードの重みから計算した値を保持
しておいてもよい。
【0077】また、前記相互情報量は、次のようにして
計算することができる。記号J(KWi∧KWj∧…∧
KWn)によってキーワードKWi〜KWnが同時に出
現する事例の集合を表すものとする。また、事例の集合
J(KWi∧KWj∧…∧KWn)の要素数を記号|J
(KWi∧KWj∧…∧KWn)|で表す。このとき、
キーワードKWi〜KWnの結合の強さを表す相互情報
量I(KWi,KWj,…,KWn)を下記の式で定義
する。
【数1】
【0078】次に、ステップST82では、問題解決木
のリンクに親ノードと子ノードの差分にあたるキーワー
ドを設定する処理を実施し、キーワード集合による問題
解決木26を生成する。ここでは、葉ノードから根ノー
ドに至るまで、問題解決木の雛形71をボトムアップに
辿って図7の索引設定副処理を呼び出すものとして説明
する。この処理は、根ノードから葉ノードに至るまで、
問題解決木の雛形71をトップダウンに辿ってもよい。
【0079】図7は索引設定副処理の処理内容を示すフ
ローチャート図である。まず、ステップST91におい
て、現在ノードの各子ノードのキーワードベクトルの要
素となっているキーワード集合から共通するキーワード
の集合を計算する。次に、ステップST92において、
ステップST91で求めた共通集合が空であるか否かを
判定する。共通集合が空であればステップST94に進
み、空でなければステップST93に進むものとする。
【0080】ステップST93では、共通キーワード集
合を索引として現在ノードに設定する処理を行う。ステ
ップST94では、各子ノードを根ノードの子ノードと
して設定し直し、現在ノードを削除する。次に、ステッ
プST95では、各子ノードと現在ノード(ステップS
T94を辿った場合は根ノード)の差分のキーワード集
合を各リンクに設定する。
【0081】図7の索引設定副処理を、図6のステップ
ST82において葉ノードから根ノードに至るまで繰り
返し呼び出すことにより、図8に示すようなキーワード
集合による問題解決木26を生成することができる。
【0082】図8はキーワード集合による問題解決木2
6の具体例である。各ノードはキーワードの集合で索引
付けられ、上位ノードと下位ノードの索引との差分のキ
ーワード集合が各リンクに設定されるように構成されて
いる。ここで、例えば、分類カテゴリC1は「REST
ART実行」、分類カテゴリC2は「コードリーダー交
換」といった、対象とする問題領域や業務に応じた意味
付けを持つ。また、図2に示したように、各分類カテゴ
リのノードには、それぞれの分類カテゴリを持つ事例集
合が対応付けられているものとする。
【0083】図9はこの発明の実施の形態1による言語
事例推論方法における事例検索処理を示すフローチャー
トである。まず、ステップST101において、新規事
例入力部30から、本方法の利用者が所望の事例を検索
するために、新たな問題の記述である新規の事例28を
入力する。このとき、新規事例入力部30は、キーボー
ドはもちろんのこと、文字認識装置または音声認識装置
等でもよい。
【0084】ステップST101では、入力された新規
の事例28の解析を行う。テキスト前処理部23で行っ
た処理と同様にキーワードの抽出を行う。このキーワー
ド抽出処理の詳細は、前記事例構築処理の場合と同様で
あるので、ここでは記述を割愛する。
【0085】次に、ステップST102では、事例デー
タベース27に格納されたキーワード集合による問題解
決木26に対して検索を行う。図8のキーワード集合に
よる問題解決木26に対して、例えば、図10(a)の
新規の事例中のテキスト「コードが読み取れない」から
抽出されたキーワード集合91{コード,読み取り}の
情報から、図8においてノード81が検索できたとす
る。このとき、問題解決木検索部31は、現在のノード
81の下位にある分類カテゴリC1〜C4が、新規の事
例28の分類カテゴリの候補であると推論して出力する
ことができる。
【0086】また、ステップST102では、分類カテ
ゴリの候補を絞り込むために、ノード81と下位を結ぶ
リンクに付与されているラベルのキーワード集合{ラン
プ}、{キー}、{印刷}を、ノード81に対するガイ
ダンス情報82として出力することができる。このと
き、オペレータがキーワード集合{コード}を選択する
と、ノード83が現在ノードとなり、同様に、ノード8
3に対するガイダンス情報84を出力する。このとき、
更にオペレータがキーワード集合{点灯}を選択する
と、新規の事例28の分類カテゴリとして、分類カテゴ
リC1が推論されることになり、キーワード集合{消
灯}を選択すると、新規の事例28の分類カテゴリとし
て、分類カテゴリC2が推論されることになる。
【0087】以上のように、この実施の形態1によれ
ば、キーワード集合による問題解決木26上で事例を絞
り込むための情報を推論してガイダンス情報32として
出力可能にする方法を提供するという、従来にない機能
を達成することができる。また、前記の説明にあるよう
に、問題解決木の葉ノードの各キーワードには、問題解
決木へのキーワード索引設定処理(図4のステップST
12)において、対応する分類カテゴリに応じた重みが
設定されている。従って、問題解決木検索処理(図9の
ステップST102)において、葉ノードに対して一括
検索を行うことにより、検索結果を類似度順にソートし
た結果を出力することができる(ステップST103,
ST104)。
【0088】問題解決木検索処理(図9のステップST
102)において、問題解決木の葉ノードに対して検索
し、検索結果として、入力に類似した分類カテゴリを順
位付けて出力する。この分類カテゴリの順位付けを、キ
ーワード索引ベクトルと入力キーワードベクトルとの余
弦値による類似度で行う。キーワード索引ベクトルは、
カテゴリ毎のキーワード重み表(図11(b))の列の
うちキーワード索引の要素を選択したχ2乗値によるベ
クトルになる。
【0089】問題解決木検索処理(図9のステップST
102)において、検索結果として、入力に類似した事
例を順位付けて出力する。この事例の順位付けは、入力
キーワードベクトル(各要素の重みは1)と各事例のキ
ーワードベクトル(各要素の重みはχ2乗値)との余弦
値による類似度で行う。
【0090】上述した従来例では、個々の事例を順位付
けて出力することができるのみであり、特開平5−33
4726号公報に開示されている文書分類構築装置で
は、一つの分類カテゴリのみを出力することができるの
みであった。本方式によれば、この検索結果は、図10
(c)のように、順位付き分類カテゴリ34のみを出力
することも可能であり、また、図10(b)のように、
順位付き類似事例33(順位付けた個々の事例)を出力
することも可能である。もちろん、本方式において、例
えば、類似度が閾値以下の分類カテゴリあるいは過去の
事例21を出力しないように設定することは容易に行え
る。
【0091】図10(a)は図8のキーワード集合によ
る問題解決木26に対する新規の事例28の入力例を示
し、図10(b)は順位付き類似事例33(順位付けた
個々の事例)の一例を示し、図10(c)は順位付き分
類カテゴリ34の一例を示している。
【0092】以上のように、この実施の形態1によれ
ば、予め対象領域や業務に依存して意味的に類似した分
類を表す分類カテゴリが付与されたテキストを含む事例
から構築されたキーワード集合による問題解決木26を
用いて、新規の事例28に該当する分類カテゴリを推論
して類似度による順位付きで出力したり、新規の事例2
8に対して類似した事例を推論して類似度による順位付
きで出力したりするとともに、上記キーワード集合によ
る問題解決木26上で対話的に事例を絞り込んで解決策
を特定していくための支援情報を推論して出力すること
ができる効果を奏する。
【0093】また、この実施の形態1によれば、コール
センターのオペレータ等の問題解決支援のような目的で
対話的な検索に用いる支援情報を提示したりするため
に、統計情報等により選択した理解容易なキーワード集
合による問題解決木26を提供可能にすることができ
る。
【0094】
【発明の効果】以上のように、この発明によれば、前処
理ステップにより計算されたキーワードの頻度を参照し
て、キーワード集合による問題解決木を生成する問題解
決木生成ステップと、その問題解決木生成ステップによ
り生成された問題解決木から新規の事例に類似する過去
の事例を検索する検索ステップとを設けるように構成し
たので、新規の事例に類似する過去の事例を精度よく推
論することができるとともに、ヘルプデスク業務を行う
オペレータ等にとって分かり易い問題解決木を提供し
て、対話的な事例の絞り込みを可能にすることができる
効果がある。
【0095】この発明によれば、過去の事例の文を分割
するように構成したので、文内で共起するキーワードの
組を抽出して、問題解決木の構築及び事例推論に利用で
きるようになり、その結果、ヘルプデスク業務を行うオ
ペレータ等にとって分かり易い問題解決木を提供するこ
とができるとともに、事例推論の精度を高めることがで
きる効果がある。
【0096】この発明によれば、句点の箇所で文を分割
するように構成したので、明確に文の分割を行えるた
め、文内で共起するキーワードの組を精度よく抽出し
て、問題解決木の構築及び事例推論に利用できるように
なり、その結果、ヘルプデスク業務を行うオペレータ等
にとって分かり易い問題解決木を提供することができる
とともに、事例推論の精度を高めることができる効果が
ある。
【0097】この発明によれば、用言及び助動詞の連用
形の後に読点が続いた箇所で文を分割するように構成し
たので、句点以外の箇所で意味的に一つの文を分割でき
るため、文内で共起するキーワードの組を精度よく抽出
して、問題解決木の構築及び事例推論に利用できるよう
になり、その結果、ヘルプデスク業務を行うオペレータ
等にとって分かり易い問題解決木を提供することができ
るとともに、事例推論の精度を高めることができる効果
がある。
【0098】この発明によれば、接続助詞の後に読点が
続いた箇所で文を分割するように構成したので、句点以
外の箇所で意味的に一つの文を分割できるため、文内で
共起するキーワードの組を精度よく抽出して、問題解決
木の構築及び事例推論に利用できるようになり、その結
果、ヘルプデスク業務を行うオペレータ等にとって分か
り易い問題解決木を提供することができるとともに、事
例推論の精度を高めることができる効果がある。
【0099】この発明によれば、形態素解析結果の品詞
情報による選択的なキーワード抽出を実施するように構
成したので、問題解決木の構築及び事例推論に重要な単
語をキーワードとして抽出することができる結果、ヘル
プデスク業務を行うオペレータ等にとって分かり易い問
題解決木を提供することができるとともに、事例推論の
精度を高めることができる効果がある。
【0100】この発明によれば、キーワードとして、自
立語を抽出するように構成したので、問題解決木の構築
及び事例推論に重要な単語をキーワードとして抽出する
ことができる結果、ヘルプデスク業務を行うオペレータ
等にとって分かり易い問題解決木を提供することができ
るとともに、事例推論の精度を高めることができる効果
がある。
【0101】この発明によれば、キーワードとして、自
立語及び付属語を抽出するように構成したので、問題解
決木の構築及び事例推論に重要な単語をキーワードとし
て抽出することができる結果、ヘルプデスク業務を行う
オペレータ等にとって分かり易い問題解決木を提供する
ことができるとともに、事例推論の精度を高めることが
できる効果がある。
【0102】この発明によれば、キーワードとして、自
立語、付属語及び様相表現を抽出するように構成したの
で、問題解決木の構築及び事例推論に重要な単語をキー
ワードとして抽出することができる結果、ヘルプデスク
業務を行うオペレータ等にとって分かり易い問題解決木
を提供することができるとともに、事例推論の精度を高
めることができる効果がある。
【0103】この発明によれば、抽出するキーワードか
ら数詞を除外するように構成したので、不要な語をキー
ワードとしないため、問題解決木の分かり易さを高める
ことができるとともに、事例推論の精度を高めることが
できる効果がある。
【0104】この発明によれば、抽出するキーワードか
ら数字を除外するように構成したので、不要な語をキー
ワードとしないため、問題解決木の分かり易さを高める
ことができるとともに、事例推論の精度を高めることが
できる効果がある。
【0105】この発明によれば、抽出するキーワードか
ら接頭語を除外するように構成したので、不要な語をキ
ーワードとしないため、問題解決木の分かり易さを高め
ることができるとともに、事例推論の精度を高めること
ができる効果がある。
【0106】この発明によれば、抽出するキーワードか
ら接尾語を除外するように構成したので、不要な語をキ
ーワードとしないため、問題解決木の分かり易さを高め
ることができるとともに、事例推論の精度を高めること
ができる効果がある。
【0107】この発明によれば、問題解決木のノードに
キーワード集合を設定するように構成したので、ヘルプ
デスク業務を行うオペレータ等にとって分かり易い問題
解決木を提供することができる効果がある。
【0108】この発明によれば、各キーワードに重みを
設定するように構成したので、キーワードの集合によっ
てノードの意味を説明できるため、ヘルプデスク業務を
行うオペレータ等にとって分かり易い問題解決木を提供
することができるとともに、重みにしたがって高精度な
事例推論を行うことができる効果がある。
【0109】この発明によれば、各キーワードに重みを
設定する際、分類カテゴリに特徴的なキーワード程、重
みの値を大きくするように構成したので、事例推論の精
度を高めることができる効果がある。
【0110】この発明によれば、キーワードに設定する
重みの値として、χ2乗値を使用するように構成したの
で、分類カテゴリ毎に特徴的なキーワードの重みが大き
くなり、その結果、事例推論の精度が高まる効果があ
る。
【0111】この発明によれば、問題解決木のリンクに
親ノードと子ノードの差にあたるキーワード集合を設定
するように構成したので、リンクに設定したキーワード
集合をオペレータの支援情報として提示することができ
る効果がある。
【0112】この発明によれば、前処理ステップで計算
されたキーワードの頻度を参照して、キーワードベクト
ルによる問題解決木の雛形を生成する雛形生成ステップ
と、その雛形生成ステップにより生成された雛形のノー
ドにキーワード索引を設定するキーワード索引設定ステ
ップとから問題解決木生成ステップを構成するように構
成したので、オペレータ等の支援に用いる情報の設定が
容易になるため、オペレータ等にとって分かり易い問題
解決木を提供することができる効果がある。
【0113】この発明によれば、キーワードの統計情報
を参照して、キーワードベクトルの要素を選択するよう
に構成したので、問題解決木の構築に有効な特徴的なキ
ーワードを選択できるため、オペレータ等にとって分か
り易い問題解決木を提供することができるとともに、事
例推論の精度を高めることができる効果がある。
【0114】この発明によれば、キーワードの統計情報
として、単語の出現頻度がある閾値以上の単語を使用す
るように構成したので、問題解決木の構築に有効な特徴
的なキーワードを選択できるため、オペレータ等にとっ
て分かり易い問題解決木を提供することができるととも
に、事例推論の精度を高めることができる効果がある。
【0115】この発明によれば、キーワードの統計情報
として、単語の出現頻度がある閾値以下の単語を使用す
るように構成したので、問題解決木の構築に有効な特徴
的なキーワードを選択できるため、オペレータ等にとっ
て分かり易い問題解決木を提供することができるととも
に、事例推論の精度を高めることができる効果がある。
【0116】この発明によれば、キーワードの統計情報
として、単語の出現頻度が第1の閾値以上、かつ、単語
の出現頻度が第2の閾値以下の単語を使用するように構
成したので、問題解決木の構築に有効な特徴的なキーワ
ードを選択できるため、オペレータ等にとって分かり易
い問題解決木を提供することができるとともに、事例推
論の精度を高めることができる効果がある。
【0117】この発明によれば、キーワードの統計情報
として、χ2乗値を使用するように構成したので、問題
解決木の構築において分類カテゴリ毎に特徴的なキーワ
ードを選択できるため、オペレータ等にとって分かり易
い問題解決木を提供することができるとともに、事例推
論の精度を高めることができる効果がある。
【0118】この発明によれば、クラスタリング時の距
離をキーワードベクトルの余弦値で定義して、問題解決
木の雛形を生成するように構成したので、距離の値の意
味を明確にして問題解決木を構築できるため、オペレー
タ等にとって分かり易い問題解決木を提供することがで
きるとともに、事例推論の精度を高めることができる効
果がある。
【0119】この発明によれば、各ノードに含まれる事
例の件数を考慮してクラスタリング時の距離を計算し
て、問題解決木の雛形を生成するように構成したので、
事例を多く含むノードが上位で分岐するような問題解決
木を生成できるため、オペレータ等にとって分かり易い
問題解決木を提供することができるとともに、平均的な
問題解決木の探索回数を削減することができる効果があ
る。
【0120】この発明によれば、キーワードの統計情報
を参照して、キーワード索引の要素を選択するように構
成したので、各ノードに重要なキーワード索引が設定さ
れるため、オペレータ等にとって分かり易い問題解決木
を提供することができるとともに、事例推論の精度を高
めることができる効果がある。
【0121】この発明によれば、キーワードの統計情報
として、χ2乗値を使用するように構成したので、分類
カテゴリ毎に特徴的なキーワードを選択して、各ノード
に重要なキーワード索引が設定されるため、オペレータ
等にとって分かり易い問題解決木を提供することができ
るとともに、事例推論の精度を高めることができる効果
がある。
【0122】この発明によれば、文内の共起の統計情報
を参照してキーワードの組合せを選択し、そのキーワー
ドの組合せをキーワード索引の要素として使用するよう
に構成したので、オペレータ等にとって分かり易い問題
解決木を提供することができるとともに、事例推論の精
度を高めることができる効果がある。
【0123】この発明によれば、文内の共起の統計情報
として、χ2乗値を使用するように構成したので、分類
カテゴリ毎に特徴的なキーワードの組みをキーワード索
引として設定できるため、オペレータ等にとって分かり
易い問題解決木を提供することができるとともに、事例
推論の精度を高めることができる効果がある。
【0124】この発明によれば、文内の共起の統計情報
として、相互情報量を使用するように構成したので、結
合の強いキーワードの組合せを選択できるため、オペレ
ータ等にとって分かり易い問題解決木を提供することが
できるとともに、事例推論の精度を高めることができる
効果がある。
【0125】この発明によれば、分類カテゴリへの到達
を支援するガイダンス情報を出力するように構成したの
で、オペレータ等の問題解決に役立つ支援情報を提供す
ることができる効果がある。
【0126】この発明によれば、ガイダンス情報とし
て、問題解決木のリンクに設定されたキーワード集合を
使用するように構成したので、オペレータ等の問題解決
に役立つ支援情報を提供することができる効果がある。
【0127】この発明によれば、問題解決木の葉ノード
に対する検索を実行して、新規の事例に類似する分類カ
テゴリを順位付けて出力するように構成したので、オペ
レータ等の問題解決に役立つ支援情報を効率よく提供す
ることができる効果がある。
【0128】この発明によれば、キーワード索引ベクト
ルと入力キーワードベクトルの余弦値による類似度を計
算して、分類カテゴリの順位付けを行うように構成した
ので、類似度の値の意味が明確になるため、事例推論の
結果として得られる分類カテゴリの順位付けが明確にな
る効果がある。
【0129】この発明によれば、新規の事例に類似する
過去の事例を順位付けて出力するように構成したので、
事例推論の結果として個別の事例が得られる効果があ
る。
【0130】この発明によれば、事例のキーワードベク
トルと入力キーワードベクトルの余弦値による類似度を
計算して、過去の事例の順位付けを行うように構成した
ので、事例推論の結果として得られる事例の順位付けの
意味が明確になる効果がある。
【0131】この発明によれば、前処理手段により計算
されたキーワードの頻度を参照して、キーワード集合に
よる問題解決木を生成する問題解決木生成手段と、その
問題解決木生成手段により生成された問題解決木から新
規の事例に類似する過去の事例を検索する検索手段とを
設けるように構成したので、新規の事例に類似する過去
の事例を精度よく推論することができるとともに、ヘル
プデスク業務を行うオペレータ等にとって分かり易い問
題解決木を提供して、対話的な事例の絞り込みを可能に
することができる効果がある。
【0132】この発明によれば、前処理手順により計算
されたキーワードの頻度を参照して、キーワード集合に
よる問題解決木を生成する問題解決木生成手順と、その
問題解決木生成手順により生成された問題解決木から新
規の事例に類似する過去の事例を検索する検索手順とを
設けるように構成したので、新規の事例に類似する過去
の事例を精度よく推論することができるとともに、ヘル
プデスク業務を行うオペレータ等にとって分かり易い問
題解決木を提供して、対話的な事例の絞り込みを可能に
することができる効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1による言語事例推論
装置を示す構成図である。
【図2】 キーワード集合による問題解決木を示す説明
図である。
【図3】 この発明の実施の形態1による言語事例推論
方法における事例構築処理を示すフローチャートであ
る。
【図4】 問題解決木生成処理の具体的な処理内容を示
すフローチャートである。
【図5】 雛形生成処理の具体的な処理内容を示すフロ
ーチャートである。
【図6】 キーワード索引設定処理の具体的な処理内容
を示すフローチャートである。
【図7】 索引設定副処理の処理内容を示すフローチャ
ート図である。
【図8】 キーワード集合による問題解決木の具体例を
示す説明図である。
【図9】 この発明の実施の形態1による言語事例推論
方法における事例検索処理を示すフローチャートであ
る。
【図10】 新規の事例等を示す説明図である。
【図11】 カテゴリ毎のキーワードの重み表等を示す
説明図である。
【図12】 従来の言語事例推論装置を示す構成図であ
る。
【図13】 分類決定木の構成を示す説明図である。
【符号の説明】
21 過去の事例、22 事例構築部、23 テキスト
前処理部(前処理手段)、24 分類カテゴリ毎のキー
ワード頻度表、25 問題解決木生成部(問題解決木生
成手段)、26 キーワード集合による問題解決木、2
7 事例データベース、28 新規の事例、29 事例
検索部(検索手段)、30 新規事例入力部、31 問
題解決木検索部、32 ガイダンス情報、33 順位付
き類似事例、34 順位付き分類カテゴリ、41 キー
ワード分類木層、42 分類カテゴリ層、43 根ノー
ド、44 内部ノード、45〜47 葉ノード、48〜
51 リンク、52〜55 ラベル、56〜58 分類
カテゴリノード、59〜61 事例集合、71 問題解
決木の雛型、72 葉ノードの集合、81 ノード、8
2 ガイダンス情報、83 ノード、84 ガイダンス
情報、91 キーワード集合。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 相川 勇之 東京都千代田区丸の内二丁目2番3号 三 菱電機株式会社内 Fターム(参考) 5B075 ND03 ND35 NK43 PR06 QM08

Claims (39)

    【特許請求の範囲】
  1. 【請求項1】 分類カテゴリが付与された過去の事例を
    解析して、その過去の事例からキーワードを抽出し、そ
    のキーワードの頻度を計算する前処理ステップと、上記
    前処理ステップにより計算されたキーワードの頻度を参
    照して、キーワード集合による問題解決木を生成する問
    題解決木生成ステップと、上記問題解決木生成ステップ
    により生成された問題解決木から新規の事例に類似する
    過去の事例を検索する検索ステップとを備えた言語事例
    推論方法。
  2. 【請求項2】 前処理ステップは、過去の事例の文を分
    割することを特徴とする請求項1記載の言語事例推論方
    法。
  3. 【請求項3】 前処理ステップは、句点の箇所で文を分
    割することを特徴とする請求項2記載の言語事例推論方
    法。
  4. 【請求項4】 前処理ステップは、用言及び助動詞の連
    用形の後に読点が続いた箇所で文を分割することを特徴
    とする請求項2記載の言語事例推論方法。
  5. 【請求項5】 前処理ステップは、接続助詞の後に読点
    が続いた箇所で文を分割することを特徴とする請求項2
    記載の言語事例推論方法。
  6. 【請求項6】 前処理ステップは、形態素解析結果の品
    詞情報による選択的なキーワード抽出を実施することを
    特徴とする請求項1から請求項5のうちのいずれか1項
    記載の言語事例推論方法。
  7. 【請求項7】 前処理ステップは、キーワードとして、
    自立語を抽出することを特徴とする請求項6記載の言語
    事例推論方法。
  8. 【請求項8】 前処理ステップは、キーワードとして、
    自立語及び付属語を抽出することを特徴とする請求項6
    記載の言語事例推論方法。
  9. 【請求項9】 前処理ステップは、キーワードとして、
    自立語、付属語及び様相表現を抽出することを特徴とす
    る請求項6記載の言語事例推論方法。
  10. 【請求項10】 前処理ステップは、抽出するキーワー
    ドから数詞を除外することを特徴とする請求項6記載の
    言語事例推論方法。
  11. 【請求項11】 前処理ステップは、抽出するキーワー
    ドから数字を除外することを特徴とする請求項6記載の
    言語事例推論方法。
  12. 【請求項12】 前処理ステップは、抽出するキーワー
    ドから接頭語を除外することを特徴とする請求項6記載
    の言語事例推論方法。
  13. 【請求項13】 前処理ステップは、抽出するキーワー
    ドから接尾語を除外することを特徴とする請求項6記載
    の言語事例推論方法。
  14. 【請求項14】 問題解決木生成ステップは、問題解決
    木のノードにキーワード集合を設定することを特徴とす
    る請求項1から請求項13のうちのいずれか1項記載の
    言語事例推論方法。
  15. 【請求項15】 問題解決木生成ステップは、各キーワ
    ードに重みを設定することを特徴とする請求項14記載
    の言語事例推論方法。
  16. 【請求項16】 問題解決木生成ステップは、各キーワ
    ードに重みを設定する際、分類カテゴリに特徴的なキー
    ワード程、重みの値を大きくすることを特徴とする請求
    項15記載の言語事例推論方法。
  17. 【請求項17】 問題解決木生成ステップは、キーワー
    ドに設定する重みの値として、χ2乗値を使用すること
    を特徴とする請求項16記載の言語事例推論方法。
  18. 【請求項18】 問題解決木生成ステップは、問題解決
    木のリンクに親ノードと子ノードの差にあたるキーワー
    ド集合を設定することを特徴とする請求項14記載の言
    語事例推論方法。
  19. 【請求項19】 前処理ステップで計算されたキーワー
    ドの頻度を参照して、キーワードベクトルによる問題解
    決木の雛形を生成する雛形生成ステップと、上記雛形生
    成ステップにより生成された雛形のノードにキーワード
    索引を設定するキーワード索引設定ステップとから問題
    解決木生成ステップを構成することを特徴とする請求項
    1から請求項13のうちのいずれか1項記載の言語事例
    推論方法。
  20. 【請求項20】 雛形生成ステップは、キーワードの統
    計情報を参照して、キーワードベクトルの要素を選択す
    ることを特徴とする請求項19記載の言語事例推論方
    法。
  21. 【請求項21】 雛形生成ステップは、キーワードの統
    計情報として、単語の出現頻度がある閾値以上の単語を
    使用することを特徴とする請求項20記載の言語事例推
    論方法。
  22. 【請求項22】 雛形生成ステップは、キーワードの統
    計情報として、単語の出現頻度がある閾値以下の単語を
    使用することを特徴とする請求項20記載の言語事例推
    論方法。
  23. 【請求項23】 雛形生成ステップは、キーワードの統
    計情報として、単語の出現頻度が第1の閾値以上、か
    つ、単語の出現頻度が第2の閾値以下の単語を使用する
    ことを特徴とする請求項20記載の言語事例推論方法。
  24. 【請求項24】 雛形生成ステップは、キーワードの統
    計情報として、χ2乗値を使用することを特徴とする請
    求項20記載の言語事例推論方法。
  25. 【請求項25】 雛形生成ステップは、クラスタリング
    時の距離をキーワードベクトルの余弦値で定義して、問
    題解決木の雛形を生成することを特徴とする請求項19
    記載の言語事例推論方法。
  26. 【請求項26】 雛形生成ステップは、各ノードに含ま
    れる事例の件数を考慮してクラスタリング時の距離を計
    算して、問題解決木の雛形を生成することを特徴とする
    請求項19記載の言語事例推論方法。
  27. 【請求項27】 キーワード索引設定ステップは、キー
    ワードの統計情報を参照して、キーワード索引の要素を
    選択することを特徴とする請求項19または請求項20
    記載の言語事例推論方法。
  28. 【請求項28】 キーワード索引設定ステップは、キー
    ワードの統計情報として、χ2乗値を使用することを特
    徴とする請求項27記載の言語事例推論方法。
  29. 【請求項29】 キーワード索引設定ステップは、文内
    の共起の統計情報を参照してキーワードの組合せを選択
    し、そのキーワードの組合せをキーワード索引の要素と
    して使用することを特徴とする請求項19または請求項
    20記載の言語事例推論方法。
  30. 【請求項30】 キーワード索引設定ステップは、文内
    の共起の統計情報として、χ2乗値を使用することを特
    徴とする請求項29記載の言語事例推論方法。
  31. 【請求項31】 キーワード索引設定ステップは、文内
    の共起の統計情報として、相互情報量を使用することを
    特徴とする請求項29記載の言語事例推論方法。
  32. 【請求項32】 検索ステップは、分類カテゴリへの到
    達を支援するガイダンス情報を出力することを特徴とす
    る請求項1記載の言語事例推論方法。
  33. 【請求項33】 検索ステップは、ガイダンス情報とし
    て、問題解決木のリンクに設定されたキーワード集合を
    使用することを特徴とする請求項32記載の言語事例推
    論方法。
  34. 【請求項34】 検索ステップは、問題解決木の葉ノー
    ドに対する検索を実行して、新規の事例に類似する分類
    カテゴリを順位付けて出力することを特徴とする請求項
    1記載の言語事例推論方法。
  35. 【請求項35】 検索ステップは、キーワード索引ベク
    トルと入力キーワードベクトルの余弦値による類似度を
    計算して、分類カテゴリの順位付けを行うことを特徴と
    する請求項34記載の言語事例推論方法。
  36. 【請求項36】 検索ステップは、新規の事例に類似す
    る過去の事例を順位付けて出力することを特徴とする請
    求項1記載の言語事例推論方法。
  37. 【請求項37】 検索ステップは、事例のキーワードベ
    クトルと入力キーワードベクトルの余弦値による類似度
    を計算して、過去の事例の順位付けを行うことを特徴と
    する請求項36記載の言語事例推論方法。
  38. 【請求項38】 分類カテゴリが付与された過去の事例
    を解析して、その過去の事例からキーワードを抽出し、
    そのキーワードの頻度を計算する前処理手段と、上記前
    処理手段により計算されたキーワードの頻度を参照し
    て、キーワード集合による問題解決木を生成する問題解
    決木生成手段と、上記問題解決木生成手段により生成さ
    れた問題解決木から新規の事例に類似する過去の事例を
    検索する検索手段とを備えた言語事例推論装置。
  39. 【請求項39】 分類カテゴリが付与された過去の事例
    を解析して、その過去の事例からキーワードを抽出し、
    そのキーワードの頻度を計算する前処理手順と、上記前
    処理手順により計算されたキーワードの頻度を参照し
    て、キーワード集合による問題解決木を生成する問題解
    決木生成手順と、上記問題解決木生成手順により生成さ
    れた問題解決木から新規の事例に類似する過去の事例を
    検索する検索手順とを備えた言語事例推論プログラムが
    記録された記録媒体。
JP2000140626A 2000-05-12 2000-05-12 言語事例推論方法、言語事例推論装置及び言語事例推論プログラムが記録された記録媒体 Abandoned JP2001325104A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000140626A JP2001325104A (ja) 2000-05-12 2000-05-12 言語事例推論方法、言語事例推論装置及び言語事例推論プログラムが記録された記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000140626A JP2001325104A (ja) 2000-05-12 2000-05-12 言語事例推論方法、言語事例推論装置及び言語事例推論プログラムが記録された記録媒体

Publications (1)

Publication Number Publication Date
JP2001325104A true JP2001325104A (ja) 2001-11-22

Family

ID=18647882

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000140626A Abandoned JP2001325104A (ja) 2000-05-12 2000-05-12 言語事例推論方法、言語事例推論装置及び言語事例推論プログラムが記録された記録媒体

Country Status (1)

Country Link
JP (1) JP2001325104A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007293491A (ja) * 2006-04-24 2007-11-08 Hitachi Ltd 知識情報管理および知識情報管理方法
EP3176717A2 (en) 2015-12-02 2017-06-07 Panasonic Intellectual Property Management Co., Ltd. Control method, processing apparatus, and non-transitory computer-readable recording medium
EP3176718A2 (en) 2015-12-02 2017-06-07 Panasonic Intellectual Property Management Co., Ltd. Control method, processing apparatus, and recording medium
WO2017171266A1 (ko) * 2016-04-01 2017-10-05 삼성전자 주식회사 진단 모델 생성 방법 및 이를 위한 진단 모델 생성 장치
CN107544982A (zh) * 2016-06-24 2018-01-05 中兴通讯股份有限公司 文本信息处理方法、装置及终端
JP2018501540A (ja) * 2015-12-01 2018-01-18 華為技術有限公司Huawei Technologies Co.,Ltd. ストップワード識別方法および装置
CN111914566A (zh) * 2020-07-30 2020-11-10 混沌时代(北京)教育科技有限公司 一种评论自动生成方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007293491A (ja) * 2006-04-24 2007-11-08 Hitachi Ltd 知識情報管理および知識情報管理方法
JP2018501540A (ja) * 2015-12-01 2018-01-18 華為技術有限公司Huawei Technologies Co.,Ltd. ストップワード識別方法および装置
US10019492B2 (en) 2015-12-01 2018-07-10 Huawei Technologies Co., Ltd. Stop word identification method and apparatus
US10747798B2 (en) 2015-12-02 2020-08-18 Panasonic Intellectual Property Management Co., Ltd. Control method, processing apparatus, and recording medium
EP3176718A2 (en) 2015-12-02 2017-06-07 Panasonic Intellectual Property Management Co., Ltd. Control method, processing apparatus, and recording medium
US10564795B2 (en) 2015-12-02 2020-02-18 Panasonic Intellectual Property Management Co., Ltd. Control method, processing apparatus, and non-transitory computer-readable recording medium
EP3176717A2 (en) 2015-12-02 2017-06-07 Panasonic Intellectual Property Management Co., Ltd. Control method, processing apparatus, and non-transitory computer-readable recording medium
KR20170112749A (ko) * 2016-04-01 2017-10-12 삼성전자주식회사 진단 모델 생성 방법 및 이를 위한 진단 모델 생성 장치
WO2017171266A1 (ko) * 2016-04-01 2017-10-05 삼성전자 주식회사 진단 모델 생성 방법 및 이를 위한 진단 모델 생성 장치
US11403368B2 (en) 2016-04-01 2022-08-02 Samsung Electronics Co., Ltd. Diagnostic model generating method and diagnostic model generating apparatus therefor
KR102607216B1 (ko) * 2016-04-01 2023-11-29 삼성전자주식회사 진단 모델 생성 방법 및 이를 위한 진단 모델 생성 장치
CN107544982A (zh) * 2016-06-24 2018-01-05 中兴通讯股份有限公司 文本信息处理方法、装置及终端
CN107544982B (zh) * 2016-06-24 2022-12-02 中兴通讯股份有限公司 文本信息处理方法、装置及终端
CN111914566A (zh) * 2020-07-30 2020-11-10 混沌时代(北京)教育科技有限公司 一种评论自动生成方法

Similar Documents

Publication Publication Date Title
Elmogy et al. Fake reviews detection using supervised machine learning
CN111353306B (zh) 基于实体关系和依存Tree-LSTM的联合事件抽取的方法
US20040073874A1 (en) Device for retrieving data from a knowledge-based text
CN111950285A (zh) 多模态数据融合的医疗知识图谱智能自动构建系统和方法
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
WO2002025479A1 (en) A document categorisation system
Kmail et al. An automatic online recruitment system based on exploiting multiple semantic resources and concept-relatedness measures
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN115796181A (zh) 一种针对化工领域的文本关系抽取方法
Banik et al. Gru based named entity recognition system for bangla online newspapers
CN111078835A (zh) 简历评估方法、装置、计算机设备及存储介质
CN111325018A (zh) 一种基于web检索和新词发现的领域词典构建方法
Lerman et al. Automatically labeling the inputs and outputs of web services
CN115292450A (zh) 一种基于信息抽取的数据分类分级领域知识库构建方法
JP2007047974A (ja) 情報抽出装置および情報抽出方法
CN110990003B (zh) 一种基于词嵌入技术的api推荐方法
Xiao et al. Information extraction from the web: System and techniques
CN114239828A (zh) 一种基于因果关系的供应链事理图谱构建方法
JP2001325104A (ja) 言語事例推論方法、言語事例推論装置及び言語事例推論プログラムが記録された記録媒体
CN114238735B (zh) 一种互联网数据智能采集方法
US11507593B2 (en) System and method for generating queryeable structured document from an unstructured document using machine learning
CN115577080A (zh) 一种问题回复匹配方法、系统、服务器及存储介质
Swadia A study of text mining framework for automated classification of software requirements in enterprise systems
Ajitha et al. EFFECTIVE FEATURE EXTRACTION FOR DOCUMENT CLUSTERING TO ENHANCE SEARCH ENGINE USING XML.
CN112949287B (zh) 热词挖掘方法、系统、计算机设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041008

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070605

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20070725