JP2003099442A - キー概念抽出規則作成方法、キー概念抽出方法、キー概念抽出規則作成装置、キー概念抽出装置、そのためのプログラム及び記録媒体 - Google Patents

キー概念抽出規則作成方法、キー概念抽出方法、キー概念抽出規則作成装置、キー概念抽出装置、そのためのプログラム及び記録媒体

Info

Publication number
JP2003099442A
JP2003099442A JP2001294373A JP2001294373A JP2003099442A JP 2003099442 A JP2003099442 A JP 2003099442A JP 2001294373 A JP2001294373 A JP 2001294373A JP 2001294373 A JP2001294373 A JP 2001294373A JP 2003099442 A JP2003099442 A JP 2003099442A
Authority
JP
Japan
Prior art keywords
key concept
document
key
data
extraction rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001294373A
Other languages
English (en)
Inventor
Shigeaki Sakurai
茂明 櫻井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2001294373A priority Critical patent/JP2003099442A/ja
Publication of JP2003099442A publication Critical patent/JP2003099442A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 ドキュメントの中からキー概念として抽出す
るための抽出ルールを作成することができるキー概念抽
出規則作成装置を実現する。 【解決手段】キー概念抽出規則作成装置は、ドキュメン
トデータを形態素解析し、形態素解析した結果を表示す
る。利用者は、その表示された結果の中からキー概念に
相当する部分を切り出し、キー概念と共に登録する。キ
ー概念抽出規則作成装置は、ドキュメントデータからド
キュメントデータの形態素データを含む事例データを生
成し、生成された事例データに基いてキー概念の候補を
抽出するためのキー概念抽出規則を獲得し、獲得した抽
出規則をメモリに格納する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、キー概念抽出規則
作成方法、キー概念抽出方法、キー概念抽出規則作成装
置、キー概念抽出装置、そのためのプログラム及び記録
媒体に関し、特に、ドキュメントを特徴付けるキー概念
の抽出を支援するためのキー概念抽出規則作成方法、キ
ー概念抽出方法、キー概念抽出規則作成装置、キー概念
抽出装置、そのためのプログラム及び記録媒体に関す
る。
【0002】
【従来の技術】従来より、種々のドキュメントがコンピ
ュータシステムのメモリ装置に電子化され、ストアされ
ている。
【0003】例えば、小売業務における販売員の営業活
動及び商品の売上動向を記載したドキュメント、ヘルプ
デスク業務における顧客からの様々な問い合わせと回答
内容を記載したドキュメント、等が、近年、電子的に蓄
えられるようになっている。
【0004】これらの電子化されたドキュメントをコン
ピュータに格納しているだけでは、利用者の事業上の意
思決定支援等に有効に利用することはできない。そこ
で、これらのドキュメントの内容を分析し、その分析結
果を利用者に提示する方式が提案されている。
【0005】その一つに、第14回人工知能学会全国大
会論文集p.532−534(2000)に記載の「営
業日報を対象としたテキストマイニング−成功事例及び
機会損失情報の抽出−」(著者:市村由美、中村康子、
赤羽俊男、三好みよ子、関口寿一、藤原庸介)に記載の
ものがある。そこでは、専門家がドキュメント内容を読
み、分析することにより、各ドキュメントを特徴付ける
表現をキー概念として抽出し、抽出したキー概念の組合
せにより発生する意味を定義し、このキー概念の組合せ
を用いて、ドキュメントを分類するシステムが提案され
ている。
【0006】このシステムを利用することにより、利用
者は、自分の興味にあったドキュメントを検索して読む
ことができるばかりか、各分類に含まれるドキュメント
の個数からドキュメント全体の傾向を知ることもでき
る。従って、利用者の意思決定を支援することができ
る。
【0007】
【発明が解決しようとする課題】しかしながら、その提
案されたシステムを利用する場合、キー概念及びキー概
念の組合せを、専門家が試行錯誤を通して作成しなけれ
ばならないため、種々のタスク向けのシステムを開発す
るには、多大なる時間と多くの専門家が必要であった。
【0008】この問題点を解決する一つの方法として、
利用者にドキュメントを予め分類してもらい、ドキュメ
ントから抽出されたキー概念の組合せとその分類から、
キー概念の組合わせが示す意味を獲得する方法が、第1
5回人工知能学会全国大会論文集2D2−03(200
1)記載の「テキストマイニングに適した帰納学習法」
(著者:櫻井茂明、市村由美、酢山明弘、折原良平)に
提案されている。
【0009】しかし、その帰納学習法を利用することに
より、キー概念の組合わせを自動的に獲得することがで
きるようになるものの、キー概念は依然として、専門家
が試行錯誤を通して抽出する必要があった。
【0010】一方、第6回自然言語処理研究会論文集
p.487−490(2000)に記載の「3つ組・4
つ組モデルによる日本語係り受け解析」(著者:金山
博、島澤健太郎、光石豊、辻井潤一)では、ドキュメン
トにおいて、係り元文節から係る文節を、その文節から
1番目から2番目(あるいは3番目)までに限定した確
率モデルを用いることにより、係り元文節が係る文節を
精度よく識別する方式を提案している。
【0011】しかし、その方式により抽出された係り受
け情報は、ドキュメントを特徴付けるキー概念と関係が
あると考えられるものの、その間の関係を明示的に記述
することは、非常に困難であり、その係り受け関係に基
づいて、キー概念を抽出することはできなかった。
【0012】
【課題を解決するための手段】本発明は、上記の事情を
考慮してなされたものであり、ドキュメントの中からキ
ー概念として抽出するための抽出規則を作成することが
できるキー概念抽出規則作成方法を提供することを目的
とする。
【0013】さらに、本発明は、抽出した抽出規則に基
いて、ドキュメントのキー概念を抽出することができる
キー概念抽出方法を提供することを目的とする。
【0014】本発明のキー概念抽出規則作成方法は、メ
モリ装置にストアされたドキュメントデータを形態素解
析する工程と、形態素解析した結果を表示装置に表示す
る工程と、表示装置に表示された結果の中からキー概念
に相当する部分を切り出し、キー概念と共にキー概念登
録部に登録する工程と、ドキュメントデータからドキュ
メントデータの形態素データを含む事例データを生成す
る工程と、生成された事例データに基いてキー概念を抽
出するためのキー概念抽出規則を獲得する工程とを有す
る。
【0015】本発明のキー概念抽出方法は、メモリ装置
にストアされたドキュメントデータを形態素解析する工
程と、形態素解析した結果を表示装置に表示する工程
と、表示装置に表示された結果の中からキー概念に相当
する部分を切り出し、キー概念と共にキー概念登録部に
登録する工程と、ドキュメントデータからドキュメント
データの形態素データを含む事例データを生成する工程
と、生成された事例データに基いてキー概念を抽出する
ためのキー概念抽出規則を獲得する工程と、形態素に分
解されたドキュメントに対して、獲得されたキー概念抽
出規則を適用することにより、キー概念を抽出するする
工程を有する。
【0016】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。
【0017】まず、第一の実施の形態につき、図1から
図8を参照しながら説明する。
【0018】図1は、本発明の第一の実施の形態に関わ
るキー概念抽出規則作成装置の構成を示すブロック図で
ある。図1において、1は、複数のドキュメントデータ
をストアするコンピュータシステムのメモリ装置(図示
せず)の一部であるドキュメント格納部である。2は、
ドキュメントの内容を、形態素解析機能により解析する
ドキュメント分析部である。3は、コンピュータシステ
ムの表示装置(図示せず)に分析結果を表示するための
分析結果表示部である。4は、キー概念を登録するため
のキー概念登録部である。5は、メモリ装置(図示せ
ず)の一部であって、キー概念のデータをストアするた
めのキー概念格納部である。6は、事例を生成する事例
収集部である。7は、メモリ装置(図示せず)の一部で
あって、事例データをストアする事例格納部である。8
は、キー概念を抽出するための規則(以下、ルールとも
いう)を獲得するためのキー概念抽出ルール獲得部であ
る。9は、メモリ装置(図示せず)の一部であって、獲
得された抽出ルールをストアするためのキー概念抽出ル
ール格納部である。
【0019】図2及び図3は、キー概念抽出規則作成装
置の処理の流れを示すフローチャートである。キー概念
抽出規則作成装置における処理の流れを図2及び図3の
フローチャートに従って説明する。
【0020】ドキュメント格納部1に、学習用データと
して、図4に示すドキュメントが格納されているとす
る。図4は、学習用データとして、ドキュメント格納部
に格納されたドキュメントデータの一例を示す図であ
る。図4において、15−1は、ドキュメント番号の欄
を、15−2は、ドキュメントの本文の欄を示す。
【0021】まず、ステップ(以下、Sと略す)1にお
いて、ドキュメント格納部1からドキュメントデータを
ひとつ読み込む。例えば、ドキュメント格納部1から、
図4のドキュメント番号t1のドキュメントが読み出さ
れる。図4の例では各ドキュメントデータは、一つの文
(センテンス)であるが、後述するようにキー概念を抽
出するための一つのまとまりのあるものであれば、一つ
のセンテンスに限られるものではない。
【0022】次に、S1において、ドキュメントが読み
込まれたかどうか、すなわち読み込むドキュメントがあ
るか否かを判定する(S2)。このとき、ドキュメント
が読み込まれていると判定した場合には、処理はS3に
進み、読み込まれていないと判断した場合には、S4に
進む。
【0023】例えば、図4のドキュメントがドキュメン
ト格納部に格納されている場合に、t1からt8のドキ
ュメントいずれかが読み込まれたときは、S3に進む
が、9度目の何も読み込まれないときは、S4に処理は
進む。
【0024】S3においては、ドキュメント分析部2の
形態素解析機能により、読み込んだドキュメントを形態
素解析する。その形態素解析した結果は、分析結果表示
部3へ供給し、処理はS1に戻る。
【0025】S4においては、分析結果表示部3に供給
された形態素解析結果のデータを、各ドキュメント番号
と各形態素解析結果を一つの組にして、利用者に提示す
るために表示装置(図示せず)にそのデータを表示す
る。例えば、図4のドキュメントの形態素解析結果とし
て、図5に示す結果が利用者に提示される。図5は、ド
キュメントをドキュメント分析部により解析した結果の
一例を示す図である。図5において、16−1は、ドキ
ュメント番号の欄を、16−2は、形態素解析結果の欄
を示す。図6は、利用者により登録されるキー概念の一
例を示す図である。ス6において、17−1は、表現番
号の欄を、17−2は、キー概念の欄を、17−3は、
登録表現の欄を示す。
【0026】利用者は、表示装置の画面に表示された図
5に示す解析結果を見て、キー概念として登録する表現
があるか否かを判断する。そして、キー概念として登録
するべき表現があれば、そのキー概念を登録する。
【0027】図3は、そのキー概念を登録するときの登
録処理の流れを示すフローチャートである。
【0028】利用者は、提示したドキュメント分析結果
の中に、キー概念として登録する表現が存在するかどう
かを判断し、登録処理を選択する。登録処理では、ま
ず、登録する表現が存在すれば、S11において、YE
Sとなって、処理はS12へ進む。登録する表現が存在
しないならば、S14に進む。
【0029】S12では、利用者は、キー概念として登
録する表現を取出し、その表現に対応するキー概念を付
して、キー概念格納部5に格納する。具体的には、マウ
ス等のポインティングデバイスを用いて、表示装置の画
面上に表示された図5の欄16−2のデータの一部を選
択し、登録すべき予め決められたデータ登録領域(図示
せず)に貼付けることによって、キー概念を登録する。
対象をいわゆるカットアンドペーストして、キー概念の
登録を行う。例えば、図5の形態素解析結果のドキュメ
ント番号t1における表現「/売上<名>+が<付>/
下が<五ら>+る<活尾>/」を選択(カット)して、
別なデータ登録領域(図示せず)に貼り付ける(ペース
ト)。選択した表現を別なデータ登録領域(図示せず)
に貼り付けることによって登録するとき、その表現に対
応するキー概念の言葉も一緒に入力する。例えば「売上
げ不振」というキー概念の言葉も一緒に入力する。その
結果、図6において、例えば、選択された表現は、表現
番号k1の登録表現となり、入力されたキー概念は「売
上げ不振」という言葉で、表現番号k1のキー概念とし
て登録される。
【0030】S13においては、登録した表現に基づい
て、学習事例を生成し、事例格納部7にその学習事例を
格納し、処理をS11に戻す。例えば、形態素解析の結
果として与えられる「/」で区切られた文字列をひとつ
の表現とし、説明を簡単にするため、登録表現を構成す
る表現が最大でも2である場合を考える。このとき、登
録表現の前後の表現及び登録表現を構成するふたつの表
現を学習事例の属性とし、登録表現に対応するキー概念
を分類クラスとすれば、図6の表現番号k1に対して、
図5のt1のデータに基いて、図7の学習事例番号s1
の学習事例が生成されて、事例格納部7に格納される。
図7は、事例格納部7に格納される学習事例の一例を示
す図である。図7において、18−1は、学習事例番号
の欄を、18−2は、分類クラスの欄を、18−3は、
属性の欄を示す。
【0031】S12、S13の処理を登録する表現がな
くなるまで繰り返すことにより、図5に示す形態素解析
結果に対応して、結果として、図6に示すキー概念と登
録表現の組がキー概念格納部5に格納されるとともに、
図7に示す学習事例が事例格納部7に格納される。
【0032】S14においては、事例格納部7に格納さ
れている学習事例の集合に基づいて、帰納学習法を適用
することにより、キー概念抽出ルール獲得部8がキー概
念抽出ルールの集合を学習し、キー概念抽出ルール格納
部9に格納し、処理を終了する。例えば、帰納学習法と
して、電気学会C部門論文誌No.115、vol.
9、p.1057−1063(1996年)記載の「フ
ァジイ帰納学習アルゴリズムの改良」(著者:櫻井茂
明、荒木大)を利用して、キー概念抽出ルールの集合を
学習する場合には、図8に示す決定木の木構造に記述さ
れるキー概念抽出ルールの集合を学習、すなわち獲得す
ることができ、キー概念抽出ルール格納部に格納され
る。図8は、決定木の木構造の例を説明するための図で
ある。図8においては、楕円B1からB3が分岐ノード
を表し、楕円E1からE8が末端ノードを表しており、
最上位の分岐ノードからひとつの末端ノードまでがひと
つのキー概念抽出ルールを表現している。
【0033】例えば、分岐ノードB1から末端ノードE
1までが、次のようなルールを表現している。
【0034】ルール:「表現1が「/売上げ<名>+が
<付>」かつ表現2が「/上が<五ら>+る<活尾>」
であるならば、キー概念は「売上げ良好」である。」 このように、S14において、図7の学習事例に基いて
帰納学習した結果、図8に示す決定木が生成され、キー
概念の抽出規則、ここでは、8つの規則が作成される。
以上のように、本実施の形態に関わるキー概念抽出規則
作成装置によれば、ドキュメントの中から専門家がキー
概念として抽出する表現の背後に存在する規則性を学習
し、専門家の知識をモデル化する。よって、本実施の形
態に関わるキー概念抽出規則作成装置によれば、ドキュ
メントのキー概念の抽出規則を作成することができる。
【0035】次に、本発明の第二の実施の形態に関わる
キー概念抽出装置の例について説明する。
【0036】第二の実施の形態に関わるキー概念抽出装
置は、キー概念抽出ルールの学習部分は、上述したキー
概念抽出規則作成装置と同様に構成することができるの
で、新たなドキュメントの中からキー概念として登録す
る必要のある表現を推論する部分を中心に説明する。
【0037】図9は、本発明の第二の実施の形態に関わ
るキー概念抽出装置の構成を示すブロック図である。第
一の実施の形態と同じ構成要素については、同一の符号
を付して説明は省略する。10は、ドキュメント分析部
2の分析結果と、キー概念抽出ルール格納部9のルール
を用いてキー概念を抽出するためのキー概念抽出部であ
る。
【0038】図10は、キー概念抽出装置の処理の流れ
の例を示すフローチャートである。キー概念抽出装置に
おける処理の流れを図10のフローチャートに従って説
明する。
【0039】なお、図10のフローにおいては、一つの
ドキュメントに対して実施される処理を記述している。
このため、複数のドキュメントを対象とする場合には、
図10の各処理が各ドキュメントに対して、繰り返し適
用されることになる。
【0040】また、本実施の形態の学習事例において
は、登録表現の長さは最大でも2であるとする。このた
め、評価事例においても。登録表現の長さは最大でも2
となる。また、学習事例の属性として、「前表現」、
「表現1」、「表現2」、「後表現」を採用しているの
で、評価事例の属性も、「前表現」、「表現1」、「表
現2」、「後表現」となる。
【0041】図11は、ドキュメント格納部1に格納さ
れているドキュメントの一例を示す図である。図11に
おいて、21−1は、ドキュメント番号の欄を、21−
2は、本文の欄を示す。図12は、ドキュメントを形態
素解析した結果の一例を示す図である。図12におい
て、22−1は、ドキュメント番号の欄を、22−2
は、形態素解析結果の欄を示す。図13は、評価事例の
一例を示す図である。23−1は、評価事例番号の欄
を、23−2は、属性の欄を示す。図14は、獲得され
たキー概念の候補の一例を示す図である。図14におい
て、24−1は、表現番号の欄を、24−2は、キー概
念の欄を、24−3は、登録表現の欄を示す。
【0042】以下、図11に示すドキュメントについ
て、キー概念の抽出の処理を行った場合について説明す
る。
【0043】本推論部分の例を説明するのに先立って、
図11に示すドキュメントがドキュメント格納部1に格
納されているとする。S21においては、ドキュメント
格納部1に格納されているドキュメントを読み出し、形
態素解析する。例えば、図11に示すドキュメントt1
1は、図12のように形態素解析される。
【0044】S22においては、形態素解析された結果
に基づいて、評価事例を生成するために、登録表現の候
補の開始位置及び終了位置を設定する。例えば、図12
の形態素解析結果を対象とする場合、開始位置として、
例えば、最初の「/」の位置が設定され、終了位置とし
て、2番目の「/」の位置が設定される。
【0045】S23においては、現在の開始位置がドキ
ュメントの終端に達しているかどうかの判断を行う。こ
のとき、開始位置が終端に達していれば、図10の処理
フローを終了し、開始位置が終端に達していなければ、
S24に進む。
【0046】S23でYESとなるのは、一つのドキュ
メントについてキー抽出処理が終了した場合である。
【0047】S24においては、開始位置及び終了位置
に基づいて評価事例を生成する。
【0048】ドキュメント番号t11に対する最初の処
理においては、開始位置が最初の「/」、終了位置が2
番目の「/」として与えられ、さらに、登録表現の長さ
は1となるので、図13の評価事例e1が、まず、評価
事例として生成される。このとき、属性中、表現1の値
は、「/明け方<名>+の<付>」となり、前表現に対
応する値が存在せず、さらに、表現2に対応する値も存
在しないので、それぞれに「nothing」という特
殊な属性値が与えられる。
【0049】S25においては、S24で生成した評価
事例e1を、キー概念抽出ルール格納部9に格納されて
いるキー概念抽出ルールの集合に適用して、登録する表
現かどうかを評価する。例えば、図8に示す決定木のル
ールに、評価事例e1を適用した場合を考えてみると、
表現1の値「/明け方<名>+の<付>」は、分岐ノー
ドB1に連結する枝に割り当てられている「/売上げ<
名>+が<付>」と「/気温<名>+が<付>」のどち
らの値にもあまり類似していない。
【0050】このため、等分した確信度0.5を持った
それぞれの評価事例として判断され、続いて分岐ノード
B2及び分岐ノードB3の表現のチェックが行われる。
各分岐ノードにおいて、同様な判断を行ってみると、評
価事例e1の表現2の値「nothing」は、各分岐
ノードのどの枝に割り当てられている値とも類似してい
ない。よって、すべての末端ノードにおいて、等分され
た確信度0.125として決定される。従って、同種の
分類クラスの確信度を合計することにより、評価事例e
1に対応するすべての分類クラスの確信度が0.25と
なる。
【0051】S26においては、S25における評価事
例の評価結果に基づいて、登録表現かどうかを判断す
る。この判断は、予め決められた閾値(例えば、0.7
5)と、得られた確信度を比較することによって行われ
る。すなわち、得られた確信度が、その閾値以上であれ
ば、登録表現と判断され、その閾値未満であれば、登録
表現とされない。
【0052】評価事例e1の例の場合、得られた確信度
は閾値よりも小さいので、登録表現でないと判断され、
S26でNOとなり、処理はS27へ進む。
【0053】S27では、登録表現候補の長さを伸ばせ
るかどうかの判断が行われる。すなわち、終了位置が変
更可能か否かが判断される。登録表現候補を伸ばせる場
合、すなわち終了位置が変更可能な場合は、S28に進
む。登録表現候補を伸ばせない場合、すなわち終了位置
が変更可能でない場合は、S30に進む。
【0054】登録表現の長さは最大でも2であるので、
評価事例e1の例の場合、登録表現候補の長さは1であ
り、まだ2に達していないので、S27でYESとな
り、処理はS28に進む。具体的には、評価事例e1の
場合においては、終了位置が2番目の「/」の位置であ
ったが、この終了位置を3番目の「/」の位置に変更し
て、処理は、S24の評価事例の生成に戻る。その結
果、評価事例e2が生成される。
【0055】次に、評価事例e2についても、上述した
処理が適用される。すなわち、S25においては、S2
4で生成した評価事例e2を、キー概念抽出ルール格納
部9に格納されているキー概念抽出ルールの集合に適用
して、登録する表現かどうかを評価する。図8に示す決
定木のルールに、評価事例e2を適用した場合を考えて
みると、表現1の値「/明け方<名>+の<付>」は、
分岐ノードB1に連結する枝に割り当てられている「/
売上げ<名>+が<付>」と「/気温<名>+が<付
>」のどちらの値にもあまり類似していない。
【0056】このため、等分した確信度0.5を持った
それぞれの評価事例として判断され、分岐ノードB2及
び分岐ノードB3の表現のチェックが行われる。各分岐
ノードにおいて、同様な判断を行ってみると、評価事例
e2の表現2の値「/気温<名>+が<付>」は、各分
岐ノードのどの枝に割り当てられている値とも類似して
いないので、すべての末端ノードにおいて、等分された
確信度0.125として決定される。従って、評価事例
e2においても、評価事例e1と同様に、すべての分類
クラスの確信度が0.25となる。
【0057】S26においては、S25における評価事
例e2の評価結果に基づいて、登録表現かどうかを判断
する。ここでは、評価事例e1と同様に、大きな確信度
を与える分類クラスは存在しないので、評価事例e2
は、登録表現でないと判断される。
【0058】評価事例e2が登録表現でないので、処理
はS27に進み、登録表現候補の長さを伸ばせるかどう
かの判断を行う。評価事例e2の場合、登録表現候補の
長さが2となっており、これ以上登録表現候補を伸ばす
ことができないので、S27でNOとなって、S30に
進む。
【0059】S30においては、最新の開始位置を、現
在の開始位置の次の「/」の位置とし、最新の終了位置
を、最新の開始位置の次の「/」の位置とするように更
新する。評価事例e2の場合は、開始位置は、1番目の
「/」の位置から次の2番目の「/」の位置とし、終了
位置が2番目の「/」の位置から3番目の「/」の位置
に更新される。そして、処理はS23に戻り、S24の
処理おいて、評価事例e3が生成される。
【0060】その評価事例e3について、評価事例が登
録表現か否かが評価される。S26では、評価事例e3
では、図13に示すように、前表現の値は、「/明け方
<名>+の<付>」で、表現1の値は「/気温<名>+
が<付>」で、表現2の値は「nothing」で、後
表現の値は「/下が<五ら>+っ<活尾>+て<付>」
となる。
【0061】図8に示す決定木のルールに、評価事例e
3を適用した場合を考えてみると、表現1の値「/気温
<名>+が<付>」は、分岐ノードB1に連結する枝の
一つ(分岐ノードB3に繋がる枝)の値に一致する。従
って、確信度1.0を持ったそれぞれの評価事例として
判断され、次に分岐ノードB3の表現のチェックが行わ
れる。分岐ノードB3において、同様な判断を行ってみ
ると、評価事例e3の表現2の値「nothing」
は、各分岐ノードのどの枝に割り当てられている値とも
類似していないので、すべての末端ノードにおいて、等
分された確信度0.25として決定される。従って、評
価事例e3においては、2種類の分類クラスの確信度が
0.5となる。
【0062】S26においては、S25における評価事
例e3の評価結果に基づいて、登録表現かどうかを判断
する。ここでは、評価事例e1、e2と同様に、大きな
確信度を与える分類クラスは存在しないので、評価事例
e3は、登録表現でないと判断される。その結果、S2
6でNOとなり、処理はS27に進み、登録表現候補の
長さを伸ばせるかどうかの判断を行う。登録表現の長さ
の最大は2であるので、評価事例e3の場合、登録表現
候補の長さは1であり、S27でYESとなって、S2
8に進み、終了位置が更新される。その更新後、処理
は、S24へ進み、評価事例e4が生成される。
【0063】その評価事例e4について、評価事例が登
録表現か否かが評価される(S25)。続いて、S26
では、評価事例e4が登録表現か否かが判断される。評
価事例e4は、図13に示すように、前表現の値は、
「/明け方<名>+の<付>」で、表現1の値は「/気
温<名>+が<付>」で、表現2の値は「/下が<五ら
>+っ<活尾>+て<付>」で、後表現の値は「/い<
上一>+る<活尾>」となる。
【0064】図8に示す決定木のルールに、評価事例e
4を適用した場合を考えてみると、表現1の値「/気温
<名>+が<付>」は、分岐ノードB1に連結する枝の
一つ(分岐ノードB3に繋がる枝)の値に一致する。従
って、確信度1.0を持ったそれぞれの評価事例として
判断され、次に分岐ノードB3の表現のチェックが行わ
れる。分岐ノードB3において、同様な判断を行ってみ
ると、分岐ノードB3の枝に割り当てられている値の中
で、「/下が<五ら>+る<活尾>」が、表現2の値
「/下が<五ら>+っ<活尾>+て<付>」に、最も類
似していおり、分類クラス「気温下降」に高い確信度が
与えられる。従って、末端ノードE7において、確信度
が、例えば、1.0(あるいは0.9等)として決定さ
れる。従って、評価事例e4は、一つの分類クラスが確
信度1.0となって、登録表現であると判定される。な
お、2つの表現が類似しているか否かは、例えば、文字
の一致割合で判定する。
【0065】その結果、S26でYESとなり、S29
においては、評価事例e4に対応する登録表現及びキー
概念のデータを一つの組にして、キー概念格納部5に格
納する。例えば、評価事例e4は、登録表現と判断され
るので、表現1と表現2を連結した「/気温<名>+が
<付>/下が<五ら>+っ<活尾>+て<付>」を登録
表現、抽出された分類クラス「気温下降」をキー概念と
して、図14の表現番号k11に示すようなデータが、
キー概念格納部5に格納される。
【0066】S29の後、処理は、S30に移行し、開
始位置および終了位置を更新する。すなわち、開始位置
を最新開始位置の次の「/」の位置とし、終了位置を更
新した開始位置の次の「/」の位置とする。以下同様に
して、評価事例を生成して、評価事例が登録表現か否か
の判断を行っていく。
【0067】なお、評価事例e5は、図13に示すよう
に、前表現の値は、「/気温<名>+が<付>」で、表
現1の値は「/下が<五ら>+っ<活尾>+て<付>」
で、表現2の値は「nothing」で、後表現の値は
「/い<上一>+る<活尾>」となる。
【0068】図8に示す決定木のルールに、評価事例e
5を適用した場合を考えてみると、大きな確信度を与え
る分類クラスは存在しないので、評価事例e5は、登録
表現でないと判断される。
【0069】同様に、評価事例e6、e7も、大きな確
信度を与える分類クラスは存在しないので、これらの評
価事例も、登録表現でないと判断される。
【0070】上記に説明したS23からS30の処理を
開始位置がドキュメントの終端に到達するまで繰り返す
ことにより、与えられたドキュメントに対して、登録表
現として判断された登録表現とキー概念が、自動的にキ
ー概念格納部5に格納されていく。従って、図11のド
キュメントの場合、図13に示すように評価事例が生成
され、図14のキー概念が抽出される。
【0071】なお、上述したように、図10のフローに
おいては、ひとつのドキュメントに対して実施される処
理を記述しているため、複数のドキュメントを対象とす
る場合には、図10の各処理が各ドキュメントに対し
て、繰り返し適用されることになる。
【0072】本実施の形態では、ドキュメントの中から
専門家がキー概念として抽出する表現の背後に存在する
規則性を学習し、専門家の知識をモデル化し、新たなド
キュメントに対して、当該モデルを適用することによ
り、ドキュメントの中に含まれるキー概念を抽出するこ
とができる。すなわち、本モデルを利用することによ
り、新たなドキュメントが与えられた場合に、その中か
らキー概念として登録すべき表現を自動的に抽出するこ
ともできる。
【0073】以上のように、本実施の形態のキー概念抽
出装置によれば、ドキュメントのキー概念を抽出するこ
とができる。よって、多くのタスク向けのキー概念辞書
を簡便に作成することができ、電子的に大量に蓄積され
ているドキュメントを容易に分析することができる。
【0074】なお、本発明は、上述した2つの実施の形
態に限定されるものではない。例えば、事例収集部にお
いて、登録表現の長さを2とし、抽出する属性を、「前
表現」、「表現1」、「表現2」、「後表現」とした
が、登録表現の長さを3、4と長くしてもよいし、前表
現より前の表現も属性に加えてもよい。
【0075】また、事例の収集部においては、登録表現
に対応する事例だけを生成していたが、登録表現とはな
らなかった表現に対しても学習事例を生成することが可
能である。このとき、分類クラスとしては、「不要概
念」といった特殊な分類クラスを自動的に与えることが
できる。
【0076】さらには、第二の実施の形態においては、
登録表現と判定された登録表現とそのキー概念をキー概
念格納部に自動的に格納していたが、登録の最終決定権
を利用者に与え、利用者が正しいと判断したものだけを
最終的に登録するようにしてもよい。
【0077】なお、以上説明した処理を実行するプログ
ラムコードは、フロッピー(R)ディスク、CD−RO
M等の可搬媒体や、ハードディスク等の記憶装置等に、
その全体あるいは一部が記録され、あるいは記憶されて
いる。そのプログラムコードがコンピュータにより読み
取られて、動作の全部あるいは一部が実行される。ある
いは、そのプログラムコードの全体あるいは一部を通信
ネットワークを介して流通または提供することができ
る。利用者は、通信ネットワークを介してそのプログラ
ムコードをダウンロードしてコンピュータにインストー
ルしたり、あるいは記録媒体からコンピュータにインス
トールすることで、容易に本発明のキー概念抽出規則作
成方法およびキー概念抽出方法を実現することができ
る。
【0078】本発明は、上述した実施の形態に限定され
るものではなく、本発明の要旨を変えない範囲におい
て、種々の変更、改変等が可能である。
【0079】
【発明の効果】以上説明したように、本発明によれば、
ドキュメントの中からキー概念として抽出するための抽
出ルールを作成することができるキー概念抽出規則作成
装置を実現することができる。さらに、本発明によれ
ば、抽出した抽出規則に基いて、ドキュメントのキー概
念を抽出することができるキー概念抽出装置を実現する
ことができる。
【図面の簡単な説明】
【図1】本発明の第一の実施の形態に関わるキー概念抽
出規則作成装置の構成を示すブロック図である
【図2】本発明の第一の実施の形態に関わるキー概念抽
出規則作成装置の処理の流れの例の一部を示すフローチ
ャートである。
【図3】本発明の第一の実施の形態に関わるキー概念抽
出規則作成装置の処理の中で、キー概念を登録するとき
の登録処理の流れの例を示すフローチャートである。
【図4】学習用データとして、ドキュメント格納部に格
納されたドキュメントデータの一例を示す図である。
【図5】ドキュメントをドキュメント分析部により解析
した結果の一例を示す図である。
【図6】利用者により登録されるキー概念の一例を示す
図である。
【図7】事例格納部に格納される学習事例の一例を示す
図である。
【図8】決定木の木構造の例を説明するための図であ
る。
【図9】本発明の第二の実施の形態に関わるキー概念抽
出装置の構成を示すブロック図である。
【図10】本発明の第二の実施の形態に関わるキー概念
抽出装置の処理の流れの例を示すフローチャートであ
る。
【図11】ドキュメント格納部に格納されているドキュ
メントの一例を示す図である。
【図12】ドキュメントを形態素解析した結果の一例を
示す図である。
【図13】評価事例の一例を示す図である。
【図14】獲得されたキー概念の一例を示す図である。
【符号の説明】
1・・・ドキュメント格納部 2・・・ドキュメント分析部 3・・・分析結果表示部 4・・・キー概念登録部 5・・・キー概念格納部 6・・・事例収集部 7・・・事例格納部 8・・・キー概念抽出ルール獲得部 9・・・キー概念抽出ルール格納部 10・・・キー概念抽出部

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】メモリ装置にストアされたドキュメントデ
    ータを形態素解析する工程と、 形態素解析した結果を表示装置に表示する工程と、 前記表示装置に表示された前記結果の中からキー概念に
    相当する部分を切り出し、キー概念と共にキー概念登録
    部に登録する工程と、 前記ドキュメントデータから前記ドキュメントデータの
    形態素データを含む事例データを生成する工程と、 生成された前記事例データに基いてキー概念を抽出する
    ためのキー概念抽出規則を獲得する工程とを有すること
    を特徴とするキー概念抽出規則作成方法。
  2. 【請求項2】メモリ装置のストアされたドキュメントデ
    ータを形態素解析する工程と、 形態素解析した結果を表示装置に表示する工程と、 前記表示装置に表示された前記結果の中からキー概念に
    相当する部分を切り出し、キー概念と共にキー概念登録
    部に登録する工程と、 前記ドキュメントデータから前記ドキュメントデータの
    形態素データを含む事例データを生成する工程と、 生成された前記事例データに基いてキー概念を抽出する
    ためのキー概念抽出規則を獲得する工程と、 形態素に分解されたドキュメントに対して、獲得された
    前記キー概念抽出規則を適用することにより、キー概念
    を抽出するする工程を有することを特徴とするキー概念
    抽出方法。
  3. 【請求項3】ドキュメントデータを形態素解析して形態
    素に分解するドキュメント分析部と、 該ドキュメント分析部の形態素解析結果を表示する分析
    結果表示部と、 該分析結果表示部に表示された前記形態素解析結果の中
    からキー概念に相当する部分を切り出し、キー概念と共
    に登録するキー概念登録部と、 前記ドキュメントデータから前記ドキュメントデータの
    形態素データを含む事例データを生成する事例生成部
    と、 生成された前記事例データに基いてキー概念を抽出する
    ためのキー概念抽出規則を獲得するキー概念抽出規則獲
    得部とを有することを特徴とするキー概念抽出規則作成
    装置。
  4. 【請求項4】ドキュメントデータを形態素解析して形態
    素に分解するドキュメント分析部と、 該ドキュメント分析部の形態素解析結果を表示する分析
    結果表示部と、 該分析結果表示部に表示された前記形態素解析結果の中
    からキー概念に相当する部分を切り出し、キー概念と共
    に登録するキー概念登録部と、 前記ドキュメントデータから前記ドキュメントデータの
    形態素データを含む事例データを生成する事例生成部
    と、 生成された前記事例データに基いてキー概念を抽出する
    ためのキー概念抽出規則を獲得するキー概念抽出規則獲
    得部、 前記ドキュメント分析部により形態素に分解されたドキ
    ュメントに対して、前記キー概念抽出規則獲得部で獲得
    された前記キー概念抽出規則を適用することにより、キ
    ー概念を抽出するキー概念抽出部を有することを特徴と
    するキー概念抽出装置。
  5. 【請求項5】コンピュータに、 ドキュメントデータを形態素解析して形態素に分解する
    ドキュメント分析機能と、 該ドキュメントの形態素解析結果を表示する分析結果表
    示機能と、 表示された前記形態素解析結果の中からキー概念に相当
    する部分を切り出し、キー概念と共に登録するキー概念
    登録機能と、 前記ドキュメントデータから前記ドキュメントデータの
    形態素データを含む事例データを生成する事例生成機能
    と、 生成された前記事例データに基いてキー概念を抽出する
    ためのキー概念抽出規則を獲得するキー概念抽出規則獲
    得機能とを実現させるためのキー概念抽出規則作成用プ
    ログラム。
  6. 【請求項6】請求項5のプログラムを記録したコンピュ
    ータ読み取り可能な記録媒体。
  7. 【請求項7】コンピュータに、 ドキュメントデータを形態素解析して形態素に分解する
    ドキュメント分析機能と、 ドキュメントの形態素解析結果を表示する分析結果表示
    機能と、 表示された前記形態素解析結果の中からキー概念に相当
    する部分を切り出し、キー概念と共に登録するキー概念
    登録機能と、 前記ドキュメントデータから前記ドキュメントデータの
    形態素データを含む事例データを生成する事例生成機能
    と、 生成された前記事例データに基いてキー概念を抽出する
    ためのキー概念抽出規則を獲得するキー概念抽出規則獲
    得機能と、 形態素に分解されたドキュメントに対して、獲得された
    キー概念抽出規則を適用することにより、キー概念を抽
    出するキー概念抽出機能とを実現させるためのキー概念
    抽出プログラム。
  8. 【請求項8】請求項7のプログラムを記録したコンピュ
    ータ読み取り可能な記録媒体。
JP2001294373A 2001-09-26 2001-09-26 キー概念抽出規則作成方法、キー概念抽出方法、キー概念抽出規則作成装置、キー概念抽出装置、そのためのプログラム及び記録媒体 Pending JP2003099442A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001294373A JP2003099442A (ja) 2001-09-26 2001-09-26 キー概念抽出規則作成方法、キー概念抽出方法、キー概念抽出規則作成装置、キー概念抽出装置、そのためのプログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001294373A JP2003099442A (ja) 2001-09-26 2001-09-26 キー概念抽出規則作成方法、キー概念抽出方法、キー概念抽出規則作成装置、キー概念抽出装置、そのためのプログラム及び記録媒体

Publications (1)

Publication Number Publication Date
JP2003099442A true JP2003099442A (ja) 2003-04-04

Family

ID=19115994

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001294373A Pending JP2003099442A (ja) 2001-09-26 2001-09-26 キー概念抽出規則作成方法、キー概念抽出方法、キー概念抽出規則作成装置、キー概念抽出装置、そのためのプログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP2003099442A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007264974A (ja) * 2006-03-28 2007-10-11 Nec Corp 情報抽出規則生成方法、装置、およびプログラム
US8115869B2 (en) 2007-02-28 2012-02-14 Samsung Electronics Co., Ltd. Method and system for extracting relevant information from content metadata
US8176068B2 (en) 2007-10-31 2012-05-08 Samsung Electronics Co., Ltd. Method and system for suggesting search queries on electronic devices
US8200688B2 (en) 2006-03-07 2012-06-12 Samsung Electronics Co., Ltd. Method and system for facilitating information searching on electronic devices
US8209724B2 (en) 2007-04-25 2012-06-26 Samsung Electronics Co., Ltd. Method and system for providing access to information of potential interest to a user
US8510453B2 (en) 2007-03-21 2013-08-13 Samsung Electronics Co., Ltd. Framework for correlating content on a local network with information on an external network
US8843467B2 (en) 2007-05-15 2014-09-23 Samsung Electronics Co., Ltd. Method and system for providing relevant information to a user of a device in a local network
US8863221B2 (en) 2006-03-07 2014-10-14 Samsung Electronics Co., Ltd. Method and system for integrating content and services among multiple networks
US8935269B2 (en) 2006-12-04 2015-01-13 Samsung Electronics Co., Ltd. Method and apparatus for contextual search and query refinement on consumer electronics devices
US8938465B2 (en) 2008-09-10 2015-01-20 Samsung Electronics Co., Ltd. Method and system for utilizing packaged content sources to identify and provide information based on contextual information
US9286385B2 (en) 2007-04-25 2016-03-15 Samsung Electronics Co., Ltd. Method and system for providing access to information of potential interest to a user
JP2021165366A (ja) * 2020-04-07 2021-10-14 鉅▲亦▼科技有限公司 ゴム‐プラスチック複合発泡材

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8200688B2 (en) 2006-03-07 2012-06-12 Samsung Electronics Co., Ltd. Method and system for facilitating information searching on electronic devices
US8863221B2 (en) 2006-03-07 2014-10-14 Samsung Electronics Co., Ltd. Method and system for integrating content and services among multiple networks
JP2007264974A (ja) * 2006-03-28 2007-10-11 Nec Corp 情報抽出規則生成方法、装置、およびプログラム
US8935269B2 (en) 2006-12-04 2015-01-13 Samsung Electronics Co., Ltd. Method and apparatus for contextual search and query refinement on consumer electronics devices
US8782056B2 (en) 2007-01-29 2014-07-15 Samsung Electronics Co., Ltd. Method and system for facilitating information searching on electronic devices
US8115869B2 (en) 2007-02-28 2012-02-14 Samsung Electronics Co., Ltd. Method and system for extracting relevant information from content metadata
US8510453B2 (en) 2007-03-21 2013-08-13 Samsung Electronics Co., Ltd. Framework for correlating content on a local network with information on an external network
US8209724B2 (en) 2007-04-25 2012-06-26 Samsung Electronics Co., Ltd. Method and system for providing access to information of potential interest to a user
US9286385B2 (en) 2007-04-25 2016-03-15 Samsung Electronics Co., Ltd. Method and system for providing access to information of potential interest to a user
US8843467B2 (en) 2007-05-15 2014-09-23 Samsung Electronics Co., Ltd. Method and system for providing relevant information to a user of a device in a local network
US8176068B2 (en) 2007-10-31 2012-05-08 Samsung Electronics Co., Ltd. Method and system for suggesting search queries on electronic devices
US8938465B2 (en) 2008-09-10 2015-01-20 Samsung Electronics Co., Ltd. Method and system for utilizing packaged content sources to identify and provide information based on contextual information
JP2021165366A (ja) * 2020-04-07 2021-10-14 鉅▲亦▼科技有限公司 ゴム‐プラスチック複合発泡材

Similar Documents

Publication Publication Date Title
US8484238B2 (en) Automatically generating regular expressions for relaxed matching of text patterns
JP3067966B2 (ja) 画像部品を検索する装置及びその方法
JP5154832B2 (ja) 文書検索システム及び文書検索方法
US8407261B2 (en) Defining a data structure for pattern matching
US7584189B2 (en) Sentence classification device and method
RU2610241C2 (ru) Способ и система синтеза текста на основе извлеченной информации в виде rdf-графа с использованием шаблонов
CN107491655B (zh) 基于机器学习的肝脏疾病信息智能咨询系统
US10409848B2 (en) Text mining system, text mining method, and program
US20190370274A1 (en) Analysis Method Using Graph Theory, Analysis Program, and Analysis System
CN107679036A (zh) 一种错别字监测方法及系统
CN109299219A (zh) 数据查询方法、装置、电子设备及计算机可读存储介质
JP2003099442A (ja) キー概念抽出規則作成方法、キー概念抽出方法、キー概念抽出規則作成装置、キー概念抽出装置、そのためのプログラム及び記録媒体
US8234570B2 (en) Harvesting assets for packaged software application configuration
CN113656590B (zh) 行业图谱的构建方法、装置、电子设备及存储介质
CN107004025A (zh) 图像检索装置及检索图像的方法
JP2022037955A (ja) 学習モデルを選択するシステム
Kamalabalan et al. Tool support for traceability of software artefacts
CN111428503A (zh) 同名人物的识别处理方法及处理装置
CN114186533A (zh) 模型训练方法及装置、知识抽取方法及装置、设备和介质
CN109960721A (zh) 基于源内容的多重压缩构造内容
JP3832693B2 (ja) 構造化文書検索表示方法及び装置
JP2002351899A (ja) データ分析装置及びデータ分析方法並びにプログラム
CN110347696A (zh) 数据转换方法、装置、计算机设备以及存储介质
JP7104390B2 (ja) 文書作成装置、文書作成方法、データベース構築装置、データベース構築方法、およびプログラム
CN116400910A (zh) 一种基于api替换的代码性能优化方法