JP2008250409A - 典型文分析装置、その方法及びそのプログラム - Google Patents

典型文分析装置、その方法及びそのプログラム Download PDF

Info

Publication number
JP2008250409A
JP2008250409A JP2007087751A JP2007087751A JP2008250409A JP 2008250409 A JP2008250409 A JP 2008250409A JP 2007087751 A JP2007087751 A JP 2007087751A JP 2007087751 A JP2007087751 A JP 2007087751A JP 2008250409 A JP2008250409 A JP 2008250409A
Authority
JP
Japan
Prior art keywords
text
weight value
analysis
word
typical sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2007087751A
Other languages
English (en)
Inventor
Kazuhiko Hirano
和彦 平野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007087751A priority Critical patent/JP2008250409A/ja
Publication of JP2008250409A publication Critical patent/JP2008250409A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】大量のテキストデータから意味や文脈などの情報を使用者が的確に得ることができるように、意味的な秩序性をもってテキストの抽出を可能とすること。かつ、使用者が主観的に新たな課題設定をおこなう必要のないようにすること。
【解決手段】典型文分析装置において、テキスト集合の分析をおこなう際に、テキスト集合の内的関係の分析から得られる各ワードの相対関係を表したカテゴリスコアを計算し、指定された分析ワードとその他のワードとの近接関係に基づいて、各テキストの分析ワードに対する典型度を計算する。
【選択図】図1

Description

本発明は典型文の分析に関し、より詳細には、指定された分析ワードとその他のワードとの近接関係に基づいて、各テキストの分析ワードに対する典型度を計算する典型文分析装置、その方法及びそのプログラムに関する。
従来、自由記述式のアンケート調査の回答の分析や、コールセンターでの顧客とオペレータのやり取りの記録、メーリングリストのログ等の、自然文に対してのテキスト分析において、ある分析ワード(キーワード)がどのような意味または文脈で使われているかの要約を知りたいというニーズがあった。
そして、要約を知るための方法として、分析対象のテキスト集合の各テキストに対して分析ワードが含まれているか否かを検索し、分析ワードが含まれているテキストのみを抽出するという方法が取られていた。
なお、以下で「ワード」という文言は、単位として、ひとつの単語または一つの形態素を指すものとする。
前記の分析ワードが含まれているテキストのみを抽出する方法では、抽出されるテキストの数が膨大になることが多かった。
そして、抽出されるテキストの数が膨大な場合には、新たに分析ワードを設定し、以前に設定した分析ワードと、新たに設定した分析ワードの積集合の要素を含むテキストを抽出する等の手段を用いることで、抽出されるテキストの数を絞り込んでいた。
その後、使用者は、その絞り込まれたテキストを参照し、分析ワードが使われている意味や文脈を判断していた(例えば特許文献1及び2参照)。
ここで、従来の分析ワードの文脈を知る方式の具体的手順について、図6のフローチャートを参照して説明する。
図6に示すように、まず分析対象のテキスト集合に対して、分析ワードの指定をする(S41)。
次に、各テキストに対して分析ワードが含まれているかを調べる。そして、分析ワードが含まれている該当文をのみを抽出するといった、該当文検索をすることで、テキストの抽出をおこなう(S42)。
ここで、抽出されたテキストの数が多い場合には、さらに抽出されるテキスト絞り込むかを判断する(S43)。
そして、更なる絞り込みが必要と判断した場合は、分析ワードの追加指定を行い(S44)、複数分析ワードの積集合によって検索をし、該当文抽出をするということでテキストの絞り込みをしていた(S45)。
特開2002−230006号公報 特開2006−146802号公報 林俊克著『Excelで学ぶテキストマイニング入門』オーム社、2002年、p.51〜74 朝野煕彦著『入門多変量解析の実際』講談社、1998年、p.27〜38
しかしながら、従来手法では、前記のように莫大な数のテキストが抽出される可能性が高いという問題があった。
更に、抽出されたテキストは、単に分析ワードが含まれているという共通項を持つに過ぎないため、抽出されたテキストの順序には、文脈による秩序性がないという問題もあった。
上記2つの問題点から、結果として使用者は分析ワードが使われている文脈を的確に把握するのが困難な場合が多かった。
また、複数の分析ワードを設定して積集合を含むテキストを抽出する方法では、どのような分析ワードを新たに加えたかによって、抽出されるテキストが大きく異なり、そのテキスト集合の代表性という観点からは偏ったものとなり、効率よく、かつ安定している分析結果を得るのは困難であった。
そこで本発明は、大量のテキストデータから意味や文脈などの情報を使用者が的確に得ることができるように、意味的な秩序性をもってテキストの抽出を行うことが可能であり、かつ、使用者が主観的に新たな課題設定をおこなう必要のない典型文分析装置、その方法及びそのプログラムを提供することを目的とする。
本発明によれば、テキスト集合の分析をおこなう典型文分析装置であって、分析対象テキスト集合をワード単位に分解するテキスト分解手段と、前記分解されたワード単位のテキストにカテゴリスコアを付与するカテゴリスコア付与手段と、前記付与されたカテゴリスコアを用い、分析ワードに対する重み値を算出する重み値算出手段と、前記重み値に基づきテキストごとの典型度を算出する典型度算出手段と、前記典型度に基づき、典型文の抽出を行う典型文抽出手段と、を備えることを特徴とする典型文分析装置が提供される。
上記の典型文分析装置において、前記重み値算出手段における重み値の算出は、分析対象のワードと分析ワードとの距離の逆数を重み値とすることにより行うことを特徴とするようにしてもよい。
本発明によれば、自由記述式のアンケート調査の回答の分析等、テキストマイニングの機能を備えた装置において、大量のテキストデータから、使用者が読むべきものをピックアップしたり、使用者が指定する分析キーワードの文脈を理解したりする機能の実現が可能となる。
次に、本発明の最良の形態について図面を用いて説明する。
まず、本発明の概略を述べる。
本発明では、分析ワードとその他のワードとの近接関係に基づいて、各テキストの分析ワードに対する典型度を計算する。
ここで、典型度とは、各テキストが、そのテキスト集合や、分析ワードにより規定された部分集合を代表する度合いの指標である。
本発明では、まず、テキスト集合に含まれる各ワードの同時出現パタンから内的な関連を分析し、各ワードのカテゴリスコアを得る。
ここで、カテゴリスコアとはそれぞれのカテゴリがどれくらい目的変数に影響を与えているかを数値で示すものである。本発明においては、テキスト集合の内的関係の分析から得られる各ワードの相対関係を表した数値を指す。
次に、カテゴリスコアに基づいて分析ワードとその他のワードの相対距離に基づき、各ワードの分析ワードに対する重み値を計算する。
さらに、各テキストに対し、前記の重み値により、分析ワードに対する典型度を計算する。
このようにして、本発明では、分析ワード以外のワードに対して近接関係から重み値を定め、各テキストの典型度を計算しているので、使用者は、分析ワードが使われている文脈を的確に把握することが可能となるような分析結果を取得できる。
次に、本発明の構成について、図1を参照して説明する。
図1に示す典型文分析装置1は、分析対象テキスト入力部2と、テキスト情報保持部3と、分析ワード入力部4と、テキスト処理部5と、表示部10を備える。
テキスト処理部5は、テキスト解析部6と、カテゴリスコア計算部7と、典型度計算部8と、テキスト抽出部9を備える。
次に構成部ごとの動作について簡潔に説明する。
図1に示す典型文分析装置1において、分析対象テキスト入力部2により入力された分析対象とするテキスト集合は、テキスト情報保持部3に格納される。
テキスト解析部6は、テキスト情報保持部3に格納されたテキスト集合を構成する各テキストを解析する機能を有する。
そして、解析結果として各テキストを、ワード単位に分割し、テキスト情報保持部3に分割後の情報を追記する機能を有する。
カテゴリスコア計算部7は、前記の分割された各ワードの同時出現パタンから内的な関連を分析し、各ワードのカテゴリスコアを計算し、テキスト情報保持部3に追記する。
典型度計算部8は、分析ワード入力部4により入力された分析ワードに対して、テキスト情報保持部に格納されている各ワードの重み値を計算する。
さらに、テキスト情報保持部3の各テキストに対し、前記重み値を用い、分析ワードに関する典型度を計算する。
ここで、計算された重み値と典型度は、テキスト情報保持部3に更に追記される。
テキスト抽出部9は、テキスト情報保持部3に格納されたテキスト集合に対し、前記典型度に従って、テキストを抽出する。
表示部10は、テキスト処理部5の各処理部の処理結果を表示する部である。テキスト抽出部8によって抽出されたテキストは、表示部10により表示される。
[第1の実施形態]
次に、図1を参照して、本発明の第1の実施形態について説明する。
まず、自由文記述のアンケート調査等により収集されたテキスト集合は、分析対象テキスト入力部2により、典型文分析装置1に入力され、テキスト情報保持部3に格納される。
各テキストは、テキスト解析部6により単語や文節などの単位表現(ワード)に分解される。
ここで、分解をするためには、形態素解析に関する公知の技術(例えば、非特許文献1参照)が応用できる。
次に、カテゴリスコア計算部7により、テキストから分解されたワードに対し、例えば数量化理論III類(複数の質問に対する回答結果に基づいて、回答のパタンが似ている人、似ていない人を識別し、回答者を分類するために用いる方法)や、コレスポンデンス分析(低次元空間にコレスポンデンステーブル中の2つの名義変数間の関係を記述し、同時に各変数のカテゴリ間の関係も記述する方法)等の多変量解析に関する公知の技術(例えば非特許文献2参照)を利用し、カテゴリスコアが計算される。
これにより、分析対象のテキスト集合の内的な関係から、そこに含まれる各ワードの相対的なスコア(座標)が得られる。
ここで得られたワード及びカテゴリスコアは、分解前の元のテキストとの対応付けがなされた形式で、テキスト情報保持部3に格納される。
次に、典型文を分析するワードについて使用者が指定し、分析ワード入力部4により入力される。
典型度計算部8は、各ワードに対して、分析ワードに関する重み値を計算する。例えば、分析対象のワードと分析ワードとの距離の逆数を重み値とする。つまり分析ワードとの距離が近ければ近いほど重み値は大きくなる。
ここで、次のステップである、各テキストの典型度計算において分析ワード自身は典型度計算の対象外とする。
つまり、分析ワード自身の重み値は計算しないこととする。
さらに、各テキストに対して、例えば、含まれるワードの重み値を加算することによって、典型度を計算する。
そして、計算された典型度を、計算対象としたテキストと対応する形でテキスト情報保持部3に格納する。
次に、テキスト抽出部9が、テキスト情報保持部3を検索し、前記格納されたテキスト情報を典型度の高い順に抽出する。
さらに、表示部10により、テキスト抽出部9で前記抽出された結果を表示する。
これにより、ユーザは意味的な秩序性をもって抽出されたテキスト情報を入手でき、各テキストの意味や文脈などの情報を的確に得ることができる。
次に、図2のフローチャート、図3、図4及び図5を参照して、実施形態の動作について説明する。
自由文記述のアンケート調査等により収集された分析対象テキスト集合は、テキスト解析により単語や文節などの単位表現(ワード)に分解される(S21)。ここでは、形態素解析に関する公知の技術が応用できる。
次に、カテゴリスコア計算により、例えば数量化理論III類やコレスポンデンス分析等の多変量解析に関する公知の技術を利用し、分析対象テキスト集合に含まれるワードの同時出現パタンから内的な関係を分析し、各ワードのカテゴリスコアを得る(S22)。
次に、使用者が分析ワードの指定(分析対象とするキーワードの指定)をおこなう(S23)。
ここで、使用者による具体的な分析ワードの指定をおこなわず、前記カテゴリスコア計算の得られた平均値などを指定してもよい。
平均値を指定した場合には、分析対象テキスト集合全体に対する典型文を抽出することとなる。
各ワードのカテゴリスコアを用い、指定された分析ワードに関する、各ワードの重み値算出をおこなう(S24)。
例えば、当該ワードと分析ワードとの距離の逆数を重み値とする。ここで、次ステップの各テキストの典型度計算において分析ワード自身は対象外とし、分析ワード自身の重み値は計算しないこととする。
分析ワード自身は、当然に分析ワードからの距離が0であり、その逆数をとってしまうと無限大となり、次のステップの各テキストの典型度計算において典型度が計算できなくなってしまうからである。
図3を用いて具体的数値例で説明する。
例えば、各ワードのカテゴリスコア計算の結果が2つの軸で図4(ここでは、簡便に説明するために、一部の分析対象ワードのみを記載する。また、数値は小数第1位までの記載とする)のように得られている場合を想定する。
ワードAと分析ワードの距離を計算すると0.1が得られ、ワードAの重み値は、その逆数の10.0となる(図3参照)。
同様に、他の分析対象ワードについても図3のように重み値が計算される。
次に、前記重み値により、例えば、含まれるワードの重み値を加算することによって、分析対象ワードに関する各テキストの典型度計算をおこなう(S25)。
ここで、変形例として、典型度を計算するテキストは、分析ワードを含むものだけに限定してもよい。これにより、分析ワードを使用しているテキストのなかで、かつ典型度も高いテキストを抽出することができる。
分析ワードが実際にどのような文脈で使われているかといった観点から、文章の解析を行いたい場合などに適する実施例である。
また、分析ワード自身は、典型度を計算する対象外とする。
分析ワード自身を典型度計算の対象外とするため、前記、重み値の計算においても、分析ワードは対象外としてしまってもよい。
具体的な典型度計算を図3で例示した数値を前提として図5を用いて説明する。
例えば、テキストaがワードA(重み値10.0)とワードB(重み値5.0)からなる文であれば、それぞれのワードの重み値を加算して、テキストaの典型度は15.0となる。
同様に、テキストbはワードA、とワードC(重み値0.5)の重み値を加算して、テキストbの典型度は10.5と、テキストcはワードBとワードCの重み値を加算して、テキストcの典型度は5.5と、テキストdは、ワードCとワードD(重み値0.5)の重み値を加算して、テキストdの典型度は1.0と算出できる。
次に、計算された典型度の値に従い、典型文抽出をおこなう(S26)。
ここで、抽出するテキストは、典型度の値により、上位より一定個数としてもよいし、典型度の数値がある一定値以上としてもよい。
図3の数値例では、例えば、典型度5以上を抽出すると設定した場合、テキストa、テキストb、テキストcが選択され、典型度の高い順に、テキストa、テキストb、テキストcと抽出される。
一方、上位より一定個数とする場合、例えば2個と設定した場合は、典型度の高い順に、テキストa及びテキストbの二つが抽出される。
[第2の実施形態]
本発明の第2の実施形態として、重み値を計算する相対距離の範囲を定め、その範囲外のワードに対する重み値は0と判断するという形態も考えられる。
相対距離の離れているワードは、重み値が小さいため、重み値を0としてしまい、典型度の計算対象から除外してしまったとしても、計算結果に与える影響は小さい。
つまり抽出されるテキストもそれほど変動しない。
よって、分析の精度をそれほど落とすことなく、全体の計算量を減少させることが可能となり、これにより分析処理を迅速に行うことも可能となる。
なお、典型文分析装置は、ハードウェア、ソフトウェア又はこれらの組合せにより実現することができる。
以上説明した、実施形態においては、以下に記載するような効果を奏する。
第一の効果は、従来技術のように単に該当テキストを検索するだけでなく、典型度計算により順位付けをして抽出しているので、膨大な該当テキストが抽出されることはない。
よって、使用者が再抽出の必要性を判断する必要が無く、また、新たな分析ワードを主観的に判断して再抽出する必要がないことである。
よって、使用者の主観に左右されることのないテキスト文の抽出が可能である。
第二の効果は、テキスト集合に出現するワードの内的関係性を利用して典型度を計算しているので、合理的に秩序だった典型文の抽出ができることである。
自由記述式のアンケート調査の回答の分析等のテキスト分析において、ある分析ワード(キーワード)がどのような意味または文脈で使われているかの要約を知るといった用途に適用できる。
本発明の基本的構成を表す図である。 本発明の動作を表すフローチャートである。 本発明のスコア計算を行った場合の数値例を表す図である。 本発明のスコア計算についての概念図である。 本発明の典型度計算を行った場合の数値例を表す図である。 従来技術の動作を表すフローチャートである。
符号の説明
1 典型分析装置
2 分析対象テキスト入力部
3 テキスト情報保持部
4 分析ワード入力部
5 テキスト処理部
6 テキスト解析部
7 カテゴリスコア計算部
8 典型度計算部
9 テキスト抽出部
10 表示部

Claims (9)

  1. テキスト集合の分析をおこなう典型文分析装置であって、
    分析対象のテキスト集合をワード単位に分解するテキスト分解手段と、
    前記分解されたワード単位のテキストにカテゴリスコアを付与するカテゴリスコア付与手段と、
    前記付与されたカテゴリスコアを用い、分析ワードに対する重み値を算出する重み値算出手段と、
    前記重み値に基づきテキストごとの典型度を算出する典型度算出手段と、
    前記典型度に基づき、典型文の抽出を行う典型文抽出手段と、
    を備えることを特徴とする典型文分析装置。
  2. 請求項1に記載の典型文分析装置であって、
    前記重み値算出手段における重み値の算出は、分析対象のワードと分析ワードとの距離の逆数を重み値とすることにより行うことを特徴とする典型文分析装置。
  3. 請求項1又は2に記載の典型文分析装置であって、
    前記重み値算出手段における重み値の算出において、重み値を計算する相対距離の範囲を定め、その範囲外のワードに対する重み値は0と判断することを特徴とする典型文分析装置。
  4. 請求項1乃至3の何れか1項に記載の典型文分析装置であって、
    前記重み値算出手段において具体的な分析ワードの指定をおこなう代わりに、前記カテゴリスコア付与手段で得られたカテゴリスコア計算の平均値を指定することを特徴とする典型文分析装置。
  5. テキスト集合の分析をおこなう典型文分析方法であって、
    分析対象のテキスト集合をワード単位に分解するテキスト分解ステップと、
    前記分解されたワード単位のテキストにカテゴリスコアを付与するカテゴリスコア付与ステップと、
    前記付与されたカテゴリスコアを用い、分析ワードに対する重み値を算出する重み値算出ステップと、
    前記重み値に基づきテキストごとの典型度を算出する典型度算出ステップと、
    前記典型度に基づき、典型文の抽出を行う典型文抽出ステップと、
    を備えることを特徴とする典型文分析方法。
  6. 請求項5に記載の典型文分析方法であって、
    前記重み値算出ステップにおける重み値の算出は、分析対象のワードと分析ワードとの距離の逆数を重み値とすることにより行うことを特徴とする典型文分析方法。
  7. 請求項5又は6に記載の典型文分析方法であって、
    前記重み値算出ステップにおける重み値の算出において、重み値を計算する相対距離の範囲を定め、その範囲外のワードに対する重み値は0と判断することを特徴とする典型文分析方法。
  8. 請求項5乃至7の何れか1項に記載の典型文分析方法であって、
    前記重み値算出ステップにおいて具体的な分析ワードの指定をおこなう代わりに、前記カテゴリスコア付与ステップで得られたカテゴリスコア計算の平均値を指定することを特徴とする典型文分析方法。
  9. コンピュータを請求項1から4の何れか1項に記載の典型文分析装置として機能させることを特徴とするプログラム。
JP2007087751A 2007-03-29 2007-03-29 典型文分析装置、その方法及びそのプログラム Withdrawn JP2008250409A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007087751A JP2008250409A (ja) 2007-03-29 2007-03-29 典型文分析装置、その方法及びそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007087751A JP2008250409A (ja) 2007-03-29 2007-03-29 典型文分析装置、その方法及びそのプログラム

Publications (1)

Publication Number Publication Date
JP2008250409A true JP2008250409A (ja) 2008-10-16

Family

ID=39975324

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007087751A Withdrawn JP2008250409A (ja) 2007-03-29 2007-03-29 典型文分析装置、その方法及びそのプログラム

Country Status (1)

Country Link
JP (1) JP2008250409A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778205A (zh) * 2014-01-13 2014-05-07 北京奇虎科技有限公司 一种基于互信息的商品分类方法和系统
JP2018152023A (ja) * 2017-03-15 2018-09-27 株式会社Screenホールディングス テキストマイニング支援方法および装置
JP2020071690A (ja) * 2018-10-31 2020-05-07 西日本電信電話株式会社 パターン認識モデル及びパターン学習装置、その生成方法、それを用いたfaqの抽出方法及びパターン認識装置、並びにプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778205A (zh) * 2014-01-13 2014-05-07 北京奇虎科技有限公司 一种基于互信息的商品分类方法和系统
CN103778205B (zh) * 2014-01-13 2018-07-06 北京奇虎科技有限公司 一种基于互信息的商品分类方法和系统
JP2018152023A (ja) * 2017-03-15 2018-09-27 株式会社Screenホールディングス テキストマイニング支援方法および装置
JP2020071690A (ja) * 2018-10-31 2020-05-07 西日本電信電話株式会社 パターン認識モデル及びパターン学習装置、その生成方法、それを用いたfaqの抽出方法及びパターン認識装置、並びにプログラム

Similar Documents

Publication Publication Date Title
CN104137102A (zh) 非事实型询问应答系统以及计算机程序
Rupp et al. Dealing with heterogeneous big data when geoparsing historical corpora
CN103744889A (zh) 一种用于对问题进行聚类处理的方法与装置
CN113157867A (zh) 一种问答方法、装置、电子设备及存储介质
CN114817683A (zh) 一种信息推荐方法、装置、计算机设备及存储介质
CN109241276B (zh) 文本中词语分类方法、言语创造性评价方法和系统
Omran et al. Automatic essay grading system for short answers in English language
JP2008250409A (ja) 典型文分析装置、その方法及びそのプログラム
US8090696B2 (en) Method and system for assigning scores to elements in a set of structured data
JP6942759B2 (ja) 情報処理装置、プログラム及び情報処理方法
US11182561B2 (en) Data analyzer and data analysis method
CN114780755A (zh) 一种基于知识图谱的播放数据定位方法、装置及电子设备
JP6693032B2 (ja) 文章を解析するための方法、プログラムおよびシステム
JP2011191834A (ja) 文書分類方法、文書分類装置、およびプログラム
KR20090126862A (ko) 자연어 처리를 이용한 감성 정보 분석 시스템 및 방법,자연어 처리를 이용한 감성 정보 분석 방법을 컴퓨터에서실행하기 위한 프로그램을 저장한 기록매체
Maalej et al. On the similarity of task contexts
CN113705198A (zh) 场景图生成方法、装置、电子设备及存储介质
JP3641363B2 (ja) テキスト情報分析装置及び記録媒体
Benton Can we do better than using ‘mean GCSE grade’to predict future outcomes? An evaluation of Generalised Boosting Models
JP2005032193A (ja) 単語間意味関係測定装置、単語間意味関係測定方法、単語間意味関係測定プログラム及びプログラム記録媒体
CN111444434A (zh) 一种互联网反馈评论的生成方法及系统
JP4592556B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP2004334699A (ja) テキスト評価装置、テキスト評価方法、プログラム及び記憶媒体
Anupama Kumar et al. Computational intelligence for data analytics
JP7131518B2 (ja) 電子機器、発音学習方法、サーバ装置、発音学習処理システムおよびプログラム

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20100601