JPH11345241A - テキスト情報の分析装置及び記録媒体 - Google Patents
テキスト情報の分析装置及び記録媒体Info
- Publication number
- JPH11345241A JPH11345241A JP15347098A JP15347098A JPH11345241A JP H11345241 A JPH11345241 A JP H11345241A JP 15347098 A JP15347098 A JP 15347098A JP 15347098 A JP15347098 A JP 15347098A JP H11345241 A JPH11345241 A JP H11345241A
- Authority
- JP
- Japan
- Prior art keywords
- text
- information
- distance
- words
- processing unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 claims abstract description 136
- 238000000034 method Methods 0.000 claims abstract description 64
- 238000004364 calculation method Methods 0.000 claims abstract description 52
- 238000006243 chemical reaction Methods 0.000 claims abstract description 34
- 239000000284 extract Substances 0.000 abstract description 13
- 238000007596 consolidation process Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 23
- 238000007781 pre-processing Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000009434 installation Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000000491 multivariate analysis Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
ざまな角度から容易に分析を行えるようにすること。 【解決手段】テキスト情報群1aより指定された分析の
単位となるテキスト単位群を作成するテキスト情報変換
手段6aと、該作成したテキスト単位群から単語を抽出
し、該抽出した単語・テキスト単位間、単語・単語間、
テキスト単位・テキスト単位間のうち少なくとも一つの
間の距離を計算する距離計算手段7aと、該計算した距
離情報をもとに分析を行う分析手段8aとを備える。
Description
力テキスト情報をさまざまな角度から分析することがで
きるテキスト情報の分析装置及び記録媒体に関する。
ンターネットの急速な普及などにともなって、多量のテ
キスト情報を計算機を用いて簡単に収集・蓄積すること
が可能になってきている。
見を得るような分析を行うためには、その量が膨大であ
るがゆえに、テキスト情報やその中に現れる単語の間の
関係を図解化する機能、テキスト情報や単語をクラスタ
リング・分類する機能などを持ったテキスト情報の分析
装置が不可欠となる。
り、例えば、アンケート分析においては、選択式の回答
結果だけでなく、自由に記述されたテキスト情報の部分
に関しても、統計解析・多変量解析などの数量的な分析
手法を利用することが可能となり、多量のデータを用い
た精度の高い分析を行うことが可能になる。
素解析等を用いて単語を抽出する技術、単語の統計的情
報(出現頻度等)を利用することにより単語のテキスト
情報間の距離を計算する技術などが確立している。
来数量的なデータに対して用いられてきた統計解析・多
変量解析などの分析手法を適用することが可能となる。
したがって、従来の既知の技術を用いることによって、
テキスト情報の分析情報を構成することが可能となる。
た分析装置では、もともと文書の検索を行うことを目的
として開発された技術を用いているため、柔軟な分析を
目的とする場合には、テキスト情報の扱いが固定的であ
ることに起因する、次の問題が生じていた。
位に関するものである。検索装置では、検索の出力して
得られるテキスト情報がそのまま結果となるため、例え
ば論文、特許明細書、あるいはそれを構成する章、節、
段落といったように、テキスト情報がそれ自体で意味的
なまとまりを持った単位になっていることが必要とな
る。
間の関係が結果となるため、句、単語といったように、
検索情報ではまとまった情報としてみなされないような
単位のテキスト情報を対象にすることも考えられる。
とができていたテキスト情報のまとまりの単位が、分析
装置においては、一般的に明確な基準で決めることがで
きず、むしろ、分析の目的によってその都度変えること
ができるようになっていることが必要とされる。
に応じて入力テキスト情報のまとまりの単位を変更する
ための簡便な手段が提供されておらず、あらかじめ前処
理によって、入力テキスト情報を分割、統合、加工し、
適当なレベルのテキスト単位に変換しておく必要があっ
た。
い、各設問には複数の回答欄があり、各回答欄には複数
の文を書くことができるようなアンケート結果の分析を
行う場合なら、分析の目的によって、各設問に対する
全員の回答をまとめて一つの単位とする、一人分の回
答をまとめて一つの単位とする、各回答者の各設問の
回答を一つの単位とする、それを更に回答欄別に扱
う、といったテキスト情報の単位の取り方のバリエーシ
ョンが考えられる。しかし、それぞれのバリエーション
ごとに予めアンケート分析結果の回答テキスト情報を分
割、統合、加工した文書群のセットを用意しておくこと
が必要となっていた。
テキスト情報の制限方法に関するものである。テキスト
情報の検索では、例えば、特許明細書の検索において、
特定の年に出願されたものだけを検索する、IPC(国
際特許分類)の情報を利用して特定の分野のものだけを
検索するといったように、目的に応じて対象とするテキ
スト情報群を制限する機能が有効である場合がある。
合と同様に、対象を制限することが有効である場合が考
えられる。検索の場合に、対象を制限することができる
のは、対象となるテキスト情報に何らかの属性が付与さ
れていて、それを用いることが可能だからである。
に、そもそも属性を付与すべき対象であるテキスト情報
の単位が明確でなかった。例えば、前述のアンケート分
析の例において、各回答者の年齢が分かっている場合、
一人分の回答をまとめて一つの単位とするケースでは、
各テキスト情報の単位の属性として回答者の年齢を付与
することができるが、各設問に対する全員の回答をまと
めて一つの単位とするケースでは、そのような属性を付
与することは意味を持たない。
れていたとしても、分割、統合、加工の際に、その属性
情報もまた適切な変換手段を用いて付与し直す作業が別
途発生していた。
を分割することによって、もともと持っていた情報を失
ってしまうことに関するものである。例えば、前述のア
ンケート分析の例において、入力テキスト情報を、各回
答者の各設問の各回答欄の回答を分析の単位として扱う
ように分割した場合、同一回答者の同一設問に対する回
答の間には強い関連がある、同一設問に対する回答の間
には何らかの関連があるといった、本来入力テキスト情
報が持っていた情報を失ってしまうことになっていた。
ては、次のような課題があった。従来技術を用いたテキ
スト情報検索装置では、柔軟な目的に対応するために
は、入力テキスト情報群を、前処理によって分割、統
合、加工したりする作業が必要であった。
し、柔軟な目的に応じて、入力テキスト情報をさまざま
な角度から容易に分析を行えるようにすることを目的と
する。
図である。図1中、1aはテキスト情報群、6aはテキ
スト情報変換手段、7aは距離計算手段、8aは分析手
段、15aは入力手段、16aは出力手段である。
のように構成した。 (1):テキスト情報群1aより指定された分析の単位
となるテキスト単位群を作成するテキスト情報変換手段
6aと、該作成したテキスト単位群から単語を抽出し、
該抽出した単語・テキスト単位間、単語・単語間、テキ
スト単位・テキスト単位間のうち少なくとも一つの間の
距離を計算する距離計算手段7aと、該計算した距離情
報をもとに分析を行う分析手段8aとを備える。
装置において、前記テキスト単位群に、指定された方法
で名前を付ける名前付与手段と、指定された名前のパタ
ーンに合致するものだけを分析の対象にする分析対象限
定手段とを備える。
装置において、前記テキスト単位群に、指定された方法
で属性値を付ける属性値付与手段と、指定された属性値
を持つものだけを分析の対象にする分析対象限定手段と
を備える。
装置において、前記テキスト単位群に付けられた名前の
パターンから、単語・テキスト単位間、単語・単語間、
テキスト単位・テキスト単位間のうち少なくとも一つの
間の距離を計算する距離計算手段とを備える。
装置において、前記テキスト単位群に付けられた属性値
のパターンから、単語・テキスト単位間、単語・単語
間、テキスト単位・テキスト単位間のうち少なくとも一
つの間の距離を計算する距離計算手段とを備える。
た分析の単位となるテキスト単位群を作成するテキスト
情報変換手段6aと、該作成したテキスト単位群から単
語を抽出し、該抽出した単語・テキスト単位間、単語・
単語間、テキスト単位・テキスト単位間のうち少なくと
も一つの間の距離を計算する距離計算手段7aと、該計
算した距離情報をもとに分析を行う分析手段8aとし
て、コンピュータを機能させるためのプログラムを記録
したコンピュータ読み取り可能な記録媒体とする。
る。本発明は前記従来の課題を解決するため次のように
構成した。
群1aより指定された分析の単位となるテキスト単位群
を作成し、距離計算手段7aで該作成したテキスト単位
群から単語を抽出し、該抽出した単語・テキスト単位
間、単語・単語間、テキスト単位・テキスト単位間のう
ち少なくとも一つの間の距離を計算し、分析手段8aで
該計算した距離情報をもとに分析を行う。このため、柔
軟な目的に応じて、入力テキスト情報をさまざまな角度
から容易に分析を行える。
に、指定された方法で名前を付け、分析対象限定手段で
指定された名前のパターンに合致するものだけを分析の
対象にする。このため、テキスト単位の名前にテキスト
情報群の属性情報を埋め込むような指定を行っておけ
ば、名前のパターンを指定することにより、特別な前処
理なしに、目的に応じて分析対象とするテキスト情報群
を制限することができる。
位群に、指定された方法で属性値を付け、分析対象限定
手段で指定された属性値を持つものだけを分析の対象に
する。このため、特別な前処理なしに、目的に応じて分
析対象とするテキスト情報群を制限することができる。
に付けられた名前のパターンから、単語・テキスト単位
間、単語・単語間、テキスト単位・テキスト単位間のう
ち少なくとも一つの間の距離を計算する。このため、入
力テキスト情報群の中で関連のあったテキスト単位群
に、共通する名前を付けることによって、もともと持っ
ていた関連性の情報を失うことなく分析を行うことがで
きる。
群に付けられた属性値のパターンから、単語・テキスト
単位間、単語・単語間、テキスト単位・テキスト単位間
のうち少なくとも一つの間の距離を計算する。このた
め、入力テキスト情報群の中で関連のあったテキスト単
位群に、共通する属性値を付けることによって、もとも
と持っていた関連性の情報を失うことなく分析を行うこ
とができる。
分析の単位となるテキスト単位群を作成するテキスト情
報変換手段6aと、該作成したテキスト単位群から単語
を抽出し、該抽出した単語・テキスト単位間、単語・単
語間、テキスト単位・テキスト単位間のうち少なくとも
一つの間の距離を計算する距離計算手段7aと、該計算
した距離情報をもとに分析を行う分析手段8aとして、
コンピュータを機能させるためのプログラムを記録した
コンピュータ読み取り可能な記録媒体とする。このた
め、この記録媒体のプログラムをコンピュータにインス
トールすることで、柔軟な目的に応じて、入力テキスト
情報群をさまざまな角度から容易に分析を行えるテキス
ト情報の分析装置を容易に提供することができる。
施の形態について説明する。 (1):テキスト単位群を自動作成する場合の説明 A:テキスト単位群を自動作成する分析装置の説明 図2はテキスト単位群を自動作成する分析装置の説明図
である。図2において、分析装置18は、使用者17か
ら指定された方法で入力テキスト情報群1を分析して出
力するものである。
離情報3、テキスト情報変換処理部6、距離計算処理部
A7、分析処理部8、入力処理部15、出力処理部16
が設けてある。
理部6が入力テキスト情報群1を指定された方法で分
割、統合、加工等を行って作成したものである。距離情
報3は、距離計算処理部A7でテキスト単位群2から単
語を抽出し、単語・テキスト単位間、単語・単語間、テ
キスト単位・テキスト単位間の距離を計算したものであ
る。テキスト情報変換処理部6は、入力テキスト情報群
1を入力処理部15から指定された方法で分割、統合、
加工等を行ってテキスト単位群2を得るものである。距
離計算処理部A7は、テキスト単位群2から単語を抽出
し、単語・テキスト単位間、単語・単語間、テキスト単
位・テキスト単位間の距離情報3を計算するものであ
る。分析処理部8は、距離情報3をもとに分析を行うも
のである。入力処理部15は、使用者17が行う入力を
処理するものである。出力処理部16は、分析結果を使
用者17に出力するものである。
15にテキスト単位の指定を行う。これにより、テキス
ト情報変換処理部6で、入力テキスト情報群1を入力処
理部15から指定された方法で分割、統合、加工等を行
ってテキスト単位群2が作成される。次に、距離計算処
理部A7で、テキスト単位群2から単語を抽出し、単語
・テキスト単位間、単語・単語間、テキスト単位・テキ
スト単位間の距離を計算し距離情報3を作成する。そし
て、分析処理部8で、距離情報3をもとに分析を行い、
出力処理部16で、分析結果を使用者17に出力するも
のである。
ム構成の説明 図3はテキスト単位群を自動作成するシステム構成の説
明図である。図3において、データ処理装置19は、外
部記憶装置20、21、22、入力装置25、出力装置
26と接続されている。データ処理装置19には、テキ
スト情報変換処理部6、距離計算処理部A7、分析処理
部8、入力処理部15、出力処理部16が設けてある。
ト情報群1を入力処理部15から指定された方法で分
割、統合、加工等を行ってテキスト単位群2を得るもの
である。距離計算処理部A7は、テキスト単位群2から
単語を抽出し、単語・テキスト単位間、単語・単語間、
テキスト単位・テキスト単位間の距離情報3を計算する
ものである。分析処理部8は、距離情報3をもとに分析
を行うものである。入力処理部15は、使用者17が入
力装置25から行う入力を処理するものである。出力処
理部16は、分析結果を出力装置26により使用者17
に出力するものである。
装置)とメモリ等から構成されるものである。外部記憶
装置20は、テキスト情報変換処理部6で使用される入
力テキスト情報群1を格納するものである。外部記憶装
置21は、テキスト情報変換処理部6によって得られる
テキスト単位群2を格納するものである。外部記憶装置
22は、距離計算処理部A7によって得られる距離情報
3を格納するものである。
れ、使用者17からの入力を入力処理部15に伝えるも
のである。出力装置26は、ディスプレイ装置等から構
成され、出力処理部16から得られる出力を使用者17
に表示するものである。
部15にテキスト単位の指定を行う。これにより、テキ
スト情報変換処理部6で、外部記憶装置20の入力テキ
スト情報群1を入力処理部15から指定された方法で分
割、統合、加工等を行ってテキスト単位群2を作成し、
外部記憶装置21に格納する。次に、距離計算処理部A
7で、外部記憶装置21のテキスト単位群2から単語を
抽出し、単語・テキスト単位間、単語・単語間、テキス
ト単位・テキスト単位間の距離を計算して距離情報3を
作成し、外部記憶装置22に格納する。そして、分析処
理部8で、外部記憶装置22の距離情報3をもとに分析
を行い、出力処理部16で、分析結果を出力装置26に
出力するものである。
合の説明 A:テキスト単位群に名前を付ける分析装置の説明 図4はテキスト単位群に名前を付ける分析装置の説明図
である。図4において、分析装置18は、図2の構成
に、名前情報4、名前付与処理部9、分析対象限定処理
部A11を追加したものである。
ト単位群2に付けるもので、パターンマッチが可能な規
則的な名前である。名前付与処理部9は、テキスト単位
群2に入力処理部15から指定された方法で規則的な名
前を付けるものである。分析対象限定処理部A11は、
入力処理部15から指定された名前のパターンに合致す
るものだけを分析の対象にするものである。
15にテキスト単位の指定を行う。これにより、テキス
ト情報変換処理部6で、入力テキスト情報群1を入力処
理部15から指定された方法で分割、統合、加工等を行
ってテキスト単位群2が作成される。次に、名前付与処
理部9でテキスト単位群2に入力処理部15から指定さ
れた方法で規則的な名前を付け名前情報4を作成する。
距離計算処理部A7では、テキスト単位群2から単語を
抽出し、単語・テキスト単位間、単語・単語間、テキス
ト単位・テキスト単位間の距離を計算し距離情報3を作
成する。さらに、分析対象限定処理部A11で入力処理
部15から指定された名前のパターンに合致するものだ
けを分析の対象にするように、テキスト単位群2を制限
する。そして、分析処理部8で、距離情報3をもとに分
析を行い、出力処理部16で、分析結果を使用者17に
出力するものである。
ム構成の説明 図5はテキスト単位群に名前を付けるシステム構成の説
明図である。図5において、システム構成は、図3の構
成に、名前付与処理部9、分析対象限定処理部A11、
外部記憶装置23を追加したものである。
入力処理部15から指定された方法で規則的な名前を付
けるものである。分析対象限定処理部A11は、入力処
理部15から指定された名前のパターンに合致するもの
だけを分析の対象にするものである。外部記憶装置23
は、名前付与処理部9でテキスト単位群2に入力処理部
15から指定された方法で付けた規則的な名前情報を格
納するものである。
部15にテキスト単位の指定を行う。これにより、テキ
スト情報変換処理部6で、外部記憶装置20の入力テキ
スト情報群1を入力処理部15から指定された方法で分
割、統合、加工等を行ってテキスト単位群2を作成し、
外部記憶装置21に格納する。次に、名前付与処理部9
でテキスト単位群2に入力処理部15から指定された方
法で規則的な名前を付け名前情報4を作成し、外部記憶
装置23に格納する。距離計算処理部A7では、テキス
ト単位群2から単語を抽出し、単語・テキスト単位間、
単語・単語間、テキスト単位・テキスト単位間の距離を
計算して距離情報3を作成し、外部記憶装置22に格納
する。さらに、分析対象限定処理部A11で入力処理部
15から指定された名前のパターンに合致するものだけ
を分析の対象にするように、テキスト単位群2を制限す
る。そして、分析処理部8で、距離情報3をもとに分析
を行い、出力処理部16で、分析結果を出力装置26に
出力するものである。
れた方法で規則的な名前情報4を付ける名前付与処理部
9、及び、指定された名前のパターンに合致するものだ
けを分析の対象にする分析対象限定処理部A11を備え
ているので、テキスト単位の名前にテキスト情報群の属
性情報を埋め込むような指定を行っておけば、名前のパ
ターンを指定することにより、特別な前処理なしに、目
的に応じて分析対象とするテキスト情報群を制限するこ
とができる。
場合の説明 A:テキスト単位群に属性値を付ける分析装置の説明 図6はテキスト単位群に属性値を付ける分析装置の説明
図である。図6において、分析装置18は、図4の構成
における、名前情報4が属性値情報5に、名前付与処理
部9が属性値付与処理部10に、分析対象限定処理部A
11が分析対象限定処理部B12に、それぞれ置き換わ
ったものである。
テキスト単位群2に指定された方法で付与された属性値
である。属性値付与処理部10は、テキスト単位群2に
入力処理部15から指定された方法で属性値を付与する
ものである。分析対象限定処理部B12は、入力処理部
15から指定された属性値を持つものだけを分析の対象
にするものである。
15にテキスト単位の指定を行う。これにより、テキス
ト情報変換処理部6で、入力テキスト情報群1を入力処
理部15から指定された方法で分割、統合、加工等を行
ってテキスト単位群2が作成される。次に、属性値付与
処理部10でテキスト単位群2に入力処理部15から指
定された方法で属性値を付け属性値情報5を作成する。
距離計算処理部A7では、テキスト単位群2から単語を
抽出し、単語・テキスト単位間、単語・単語間、テキス
ト単位・テキスト単位間の距離を計算し距離情報3を作
成する。さらに、分析対象限定処理部B12で入力処理
部15から指定された属性値を持つものだけを分析の対
象にするように、テキスト単位群2を制限する。そし
て、分析処理部8で、距離情報3をもとに分析を行い、
出力処理部16で、分析結果を使用者17に出力するも
のである。
テム構成の説明 図7はテキスト単位群に属性値を付けるシステム構成の
説明図である。図7において、システム構成は、図3の
構成に、属性値付与処理部10、分析対象限定処理部B
12、外部記憶装置24を追加したものである。
2に入力処理部15から指定された方法で属性値を付与
するものである。分析対象限定処理部B12は、入力処
理部15から指定された属性値に合致するものだけを分
析の対象にするものである。外部記憶装置24は、属性
値付与処理部10でテキスト単位群2に入力処理部15
から指定された方法で付与した属性値情報5を格納する
ものである。
部15にテキスト単位の指定を行う。これにより、テキ
スト情報変換処理部6で、外部記憶装置20の入力テキ
スト情報群1を入力処理部15から指定された方法で分
割、統合、加工等を行ってテキスト単位群2を作成し、
外部記憶装置21に格納する。次に、属性値付与処理部
10でテキスト単位群2に入力処理部15から指定され
た方法で属性値を付け属性値情報5を作成し、外部記憶
装置24に格納する。距離計算処理部A7で、テキスト
単位群2から単語を抽出し、単語・テキスト単位間、単
語・単語間、テキスト単位・テキスト単位間の距離を計
算して距離情報3を作成し、外部記憶装置22に格納す
る。さらに、分析対象限定処理部B12で入力処理部1
5から指定された属性値を持つものだけを分析の対象に
するように、テキスト単位群2を制限する。そして、分
析処理部8で、距離情報3をもとに分析を行い、出力処
理部16で、分析結果を出力装置26に出力するもので
ある。
れた方法で属性値情報5を付与する属性値付与処理部1
0、及び、指定された属性値を持つものだけを分析の対
象にする分析対象限定処理部B12を備えているので、
特別な前処理なしに、目的に応じて分析対象とするテキ
スト情報群を制限することができる。
から距離を計算する場合の説明 A:テキスト単位群の名前のパターンから距離を計算す
る分析装置の説明 図8はテキスト単位群の名前のパターンから距離を計算
する分析装置の説明図である。図8において、分析装置
18は、図4の構成に、距離計算処理部B13を追加し
たものである。
2に付けられた名前情報4のパターンから単語・テキス
ト単位間、単語・単語間、テキスト単位・テキスト単位
間の距離情報3を計算するものである。
15にテキスト単位の指定を行う。これにより、テキス
ト情報変換処理部6で、入力テキスト情報群1を入力処
理部15から指定された方法で分割、統合、加工等を行
ってテキスト単位群2が作成される。次に、名前付与処
理部9でテキスト単位群2に入力処理部15から指定さ
れた方法で規則的な名前を付け名前情報4を作成する。
距離計算処理部A7で、テキスト単位群2から単語を抽
出し、単語・テキスト単位間、単語・単語間、テキスト
単位・テキスト単位間の距離を計算し距離情報3を作成
する。さらに、距離計算処理部B13で、名前情報4の
パターンから単語・テキスト単位間、単語・単語間、テ
キスト単位・テキスト単位間の距離を計算し距離情報3
を作成する。そして、分析処理部8で、距離情報3をも
とに分析を行い、出力処理部16で、分析結果を使用者
17に出力するものである。
距離を計算するシステム構成の説明 図9はテキスト単位群の名前のパターンから距離を計算
するシステム構成の説明図である。図9において、デー
タ処理装置19は、図5の構成に、距離計算処理部B1
3を追加したものである。
2に付けられた名前情報4のパターンから単語・テキス
ト単位間、単語・単語間、テキスト単位・テキスト単位
間の距離情報3を計算するものである。
部15にテキスト単位の指定を行う。これにより、テキ
スト情報変換処理部6で、外部記憶装置20の入力テキ
スト情報群1を入力処理部15から指定された方法で分
割、統合、加工等を行ってテキスト単位群2を作成し、
外部記憶装置21に格納する。次に、名前付与処理部9
でテキスト単位群2に入力処理部15から指定された方
法で規則的な名前を付け名前情報4を作成し、外部記憶
装置23に格納する。距離計算処理部A7で、テキスト
単位群2から単語を抽出し、単語・テキスト単位間、単
語・単語間、テキスト単位・テキスト単位間の距離を計
算して距離情報3を作成し、外部記憶装置22に格納す
る。さらに、距離計算処理部B13で、名前情報4のパ
ターンから単語・テキスト単位間、単語・単語間、テキ
スト単位・テキスト単位間の距離を計算して距離情報3
を作成し、外部記憶装置22に格納する。そして、分析
処理部8で、距離情報3をもとに分析を行い、出力処理
部16で、分析結果を出力装置26に出力するものであ
る。
れた名前情報4のパターンから単語・テキスト単位間、
単語・単語間、テキスト単位・テキスト単位間の距離情
報3を計算する距離計算処理部B13を備えているの
で、入力テキスト情報群の中で関連のあったテキスト単
位群に、共通する名前を付けることによって、もともと
持っていた関連性の情報を失うことなく分析を行うこと
ができる。
ンから距離を計算する場合の説明 A:属性値のパターンから距離を計算する分析装置の説
明 図10はテキスト単位群の属性値のパターンから距離を
計算する分析装置の説明図である。図10において、分
析装置18は、図8の構成における、名前情報4が属性
値情報5に、名前付与処理部9が属性値付与処理部10
に、距離計算処理部B13が距離計算処理部C14に、
それぞれ置き換わったものである。
テキスト単位群2に指定された方法で付与された属性値
である。属性値付与処理部10は、テキスト単位群2に
入力処理部15から指定された方法で属性値を付与する
ものである。距離計算処理部C14は、テキスト単位群
2に付けられた属性値情報5のパターンから単語・テキ
スト単位間、単語・単語間、テキスト単位・テキスト単
位間の距離情報3を計算するものである。
15にテキスト単位の指定を行う。これにより、テキス
ト情報変換処理部6で、入力テキスト情報群1を入力処
理部15から指定された方法で分割、統合、加工等を行
ってテキスト単位群2が作成される。次に、属性値付与
処理部10でテキスト単位群2に入力処理部15(使用
者17)から指定された方法で属性値を付け属性値情報
5を作成する。距離計算処理部A7で、テキスト単位群
2から単語を抽出し、単語・テキスト単位間、単語・単
語間、テキスト単位・テキスト単位間の距離を計算し距
離情報3を作成する。さらに、距離計算処理部C14
で、属性値情報5のパターンから単語・テキスト単位
間、単語・単語間、テキスト単位・テキスト単位間の距
離を計算し距離情報3を作成する。そして、分析処理部
8で、距離情報3をもとに分析を行い、出力処理部16
で、分析結果を使用者17に出力するものである。
システム構成の説明 図11はテキスト単位群の属性値のパターンから距離を
計算するシステム構成の説明図である。図11におい
て、データ処理装置19は、図7の構成に、距離計算処
理部C14を追加したものである。
2に付けられた属性値情報5のパターンから単語・テキ
スト単位間、単語・単語間、テキスト単位・テキスト単
位間の距離情報3を計算するものである。
部15にテキスト単位の指定を行う。これにより、テキ
スト情報変換処理部6で、外部記憶装置20の入力テキ
スト情報群1を入力処理部15から指定された方法で分
割、統合、加工等を行ってテキスト単位群2を作成し、
外部記憶装置21に格納する。次に、属性値付与処理部
10でテキスト単位群2に入力処理部15(入力装置2
5)から指定された方法で属性値を付け属性値情報5を
作成し、外部記憶装置23に格納する。距離計算処理部
A7で、テキスト単位群2から単語を抽出し、単語・テ
キスト単位間、単語・単語間、テキスト単位・テキスト
単位間の距離を計算し距離情報3を作成し、外部記憶装
置22に格納する。さらに、距離計算処理部C14で、
属性値情報5のパターンから単語・テキスト単位間、単
語・単語間、テキスト単位・テキスト単位間の距離を計
算した距離情報3を作成し、外部記憶装置22に格納す
る。そして、分析処理部8で、距離情報3をもとに分析
を行い、出力処理部16で、分析結果を出力装置26に
出力するものである。
れた属性値情報5のパターンから単語・テキスト単位
間、単語・単語間、テキスト単位・テキスト単位間の距
離情報3を計算する距離計算処理部C14を備えている
ので、入力テキスト情報群の中で関連のあったテキスト
単位群に、共通する属性値を付けることによって、もと
もと持っていた関連性の情報を失うことなく分析を行う
ことができる。
分析する場合の説明 前記説明した属性値付与処理部10は名前付与処理部9
と同様の動作を行い、分析対象限定処理部B12は分析
対象限定処理部A11と同様の動作を行い、距離計算処
理部C14は距離計算処理部B13と同様の動作を行っ
ているので、ここでは、テキスト情報変換処理部6、名
前付与処理部9、分析対象限定処理部A11、距離計算
処理部B13に関し、図12のようなアンケート結果の
テキスト情報を分析するケースを例として説明する。
る。図12において、回答者ID、回答者の年齢、回答
者の職業、設問1:商品Aのイメージ、設問2:商品B
のイメージ欄が設けてある。設問1:商品Aのイメージ
欄には回答欄1、回答欄2、回答欄3が設けてあり、設
問2:商品Bのイメージ欄には回答欄1、回答欄2、回
答欄3が設けてある。
が、表形式のデータとして与えられている場合、使用者
17は、どの行・列のデータをまとめてテキスト単位と
するのかを、テキスト情報変換処理部6に指定し、テキ
スト情報変換処理部6は、使用者17の指定に従って、
行・列のデータからテキスト情報を作成する。
位とする場合には、各行について、4列から9列までの
データ(設問1と設問2の回答)をつなげたテキスト情
報を作成するように指定する。
のテキスト単位とする場合には、各行について、4列か
ら9列までのデータをそれぞれ一つのテキスト情報とす
るように指定する。
のデータをつなげるだけでなく、指定した文字列を付加
するように指定することもできる。このようにすれば、
例えば、4列目から6列目までのデータには、設問に含
まれる「商品A」という文字列を付加(例えば、商品名
の一部である「A」のパターンを付加)し、7列目から
9列目までのデータには、設問に含まれる「商品B」と
いう文字列を付加することによって、各テキスト単位が
どの設問に対する回答であるかという情報を、テキスト
単位の中に埋め込むことが可能となる。
つのデータを指定した文字で分割するように指定するこ
ともできる。このようにすれば、例えば「。」という文
字で分割するように指定すれば、各回答欄に書かれてい
る一つの文をテキスト単位として設定することもできる
ようになる。
7が、行番号や列番号や各行・列に含まれるデータとい
った情報の組み合わせ方・書式などを、名前付与処理部
9に指定し、名前付与処理部9が作成するものである。
つのテキスト単位とする場合であれば、1列目のデー
タ、2列目のデータ、3列目のデータおよび列番号を組
み合わせて名前を作成するように指定することにより、
各テキスト単位の名前に、回答者ID、回答者の年齢、
回答者の職業、どの設問の何番目の回答であるかといっ
た情報を埋め込むことができる。
列を含むように指定する方法も考えられる。このように
すれば、例えば、4列目から6列目までのデータから作
成されるテキスト単位の名前には「商品A」という文字
列を含むようにする(例えば、商品名の一部である
「A」等のパターンをハイホン「‐」等で区切って含ま
せる)、7列目から9列目までのデータから作成される
テキスト単位の名前には「商品B」という文字列を含む
ようにするといったことが可能となり、各テキスト単位
の名前に、どの設問に対する回答であるかという情報を
埋め込むこともできるようになる。
のパターンは、正規表現やワイルドカードなどによって
指定する。分析対象限定処理部A11は、指定されたパ
ターンにマッチする名前を持つテキスト単位だけを対象
とするように限定処理を行う。
た回答者の年齢の部分が、ある特定の範囲の数値にマッ
チするような正規表現のパターンを指定すれば、特定の
年齢の回答者の回答だけを分析対象とするといった限定
が可能になる。
ト単位間、単語・単語間、テキスト単位・テキスト単位
間等の距離情報3を計算する場合は、テキスト単位の名
前を構成するどの要素(部分文字列)が一致していれば
距離を定義するのかを指定する。距離計算処理部Bは、
各テキスト単位の名前を比較し、指定された部分が一致
しているテキスト単位間の距離を指定された方法で再計
算する。
理部Aにより計算される距離を無視して、距離計算処理
部Bの値をそのまま使う方法、距離計算処理部Aにより
計算される距離に距離計算処理部Bの値を掛ける方法、
距離計算処理部Aにより計算される距離と距離計算処理
部Bの値を重み付け平均する方法などが考えられる。
つのテキスト単位とするケースで、名前のうち、回答者
IDの部分と設問を示す文字列(前記の「商品A」「商
品B」)の部分が一致している場合には、距離を半分に
するという指定をすれば、同一回答者の同一設問に対す
る回答の間には何らかの関連があるといった情報を加味
して、分析を行うことが可能となる。
応じて入力テキスト情報を分割、統合、加工して扱った
り、分析の対象を限定したり、入力テキスト情報に内在
する関係情報も扱うことができるようにしているので、
柔軟な目的に応じて、入力テキスト情報をさまざまな角
度から分析することが容易に可能である。このため、ア
ンケート分析などのテキスト情報の分析作業の質の向
上、手間の軽減に寄与するところが大きい。
処理部8、名前付与処理部9、属性値付与処理部10、
分析対象限定処理部A11、分析対象限定処理部B1
2、距離計算処理部B13、距離計算処理部C14、入
力処理部15、出力処理部16等は、プログラムで構成
でき、主制御部(CPU)が実行するものであり、主記
憶に格納されているものである。これらのプログラム
は、一般的な、パーソナルコンピュータ、ワークステー
ション等のデータ処理装置(コンピュータ)で処理され
るものである。このコンピュータは、主制御部、主記
憶、ハードディスク等のファイル装置、表示装置、キー
ボード等の入力手段である入力装置などのハードウェア
で構成されている。
をインストールする。このインストールは、フロッピ
ィ、光磁気ディスク等の可搬型の記録(記憶)媒体に、
これらのプログラムを記憶させておき、コンピュータが
備えている記録媒体に対して、アクセスするためのドラ
イブ装置を介して、或いは、LAN等のネットワークを
介して、コンピュータに設けられたファイル装置にイン
ストールされる。そして、このファイル装置から処理に
必要なプログラムステップを主記憶に読み出し、主制御
部が実行するものである。
のような効果がある。 (1):テキスト情報変換手段でテキスト情報群より指
定された分析の単位となるテキスト単位群を作成し、距
離計算手段で該作成したテキスト単位群から単語を抽出
し、該抽出した単語・テキスト単位間、単語・単語間、
テキスト単位・テキスト単位間のうち少なくとも一つの
間の距離を計算し、分析手段で該計算した距離情報をも
とに分析を行うため、柔軟な目的に応じて、入力テキス
ト情報をさまざまな角度から容易に分析を行える。
に、指定された方法で名前を付け、分析対象限定手段で
指定された名前のパターンに合致するものだけを分析の
対象にするため、テキスト単位の名前にテキスト情報群
の属性情報を埋め込むような指定を行っておけば、名前
のパターンを指定することにより、特別な前処理なし
に、目的に応じて分析対象とするテキスト情報群を制限
することができる。
位群に、指定された方法で属性値を付け、分析対象限定
手段で指定された属性値を持つものだけを分析の対象に
するため、特別な前処理なしに、目的に応じて分析対象
とするテキスト情報群を制限することができる。
群に付けられた名前のパターンから、単語・テキスト単
位間、単語・単語間、テキスト単位・テキスト単位間の
うち少なくとも一つの間の距離を計算するため、入力テ
キスト情報群の中で関連のあったテキスト単位群に、共
通する名前を付けることによって、もともと持っていた
関連性の情報を失うことなく分析を行うことができる。
群に付けられた属性値のパターンから、単語・テキスト
単位間、単語・単語間、テキスト単位・テキスト単位間
のうち少なくとも一つの間の距離を計算するため、入力
テキスト情報群の中で関連のあったテキスト単位群に、
共通する属性値を付けることによって、もともと持って
いた関連性の情報を失うことなく分析を行うことができ
る。
析の単位となるテキスト単位群を作成するテキスト情報
変換手段と、該作成したテキスト単位群から単語を抽出
し、該抽出した単語・テキスト単位間、単語・単語間、
テキスト単位・テキスト単位間のうち少なくとも一つの
間の距離を計算する距離計算手段と、該計算した距離情
報をもとに分析を行う分析手段として、コンピュータを
機能させるためのプログラムを記録したコンピュータ読
み取り可能な記録媒体とするため、この記録媒体のプロ
グラムをコンピュータにインストールすることで、柔軟
な目的に応じて、入力テキスト情報群をさまざまな角度
から容易に分析を行えるテキスト情報の分析装置を容易
に提供することができる。
する分析装置の説明図である。
するシステム構成の説明図である。
ける分析装置の説明図である。
けるシステム構成の説明図である。
付ける分析装置の説明図である。
付けるシステム構成の説明図である。
ターンから距離を計算する分析装置の説明図である。
ターンから距離を計算するシステム構成の説明図であ
る。
のパターンから距離を計算する分析装置の説明図であ
る。
のパターンから距離を計算するシステム構成の説明図で
ある。
図である。
Claims (6)
- 【請求項1】テキスト情報群より指定された分析の単位
となるテキスト単位群を作成するテキスト情報変換手段
と、 該作成したテキスト単位群から単語を抽出し、該抽出し
た単語・テキスト単位間、単語・単語間、テキスト単位
・テキスト単位間のうち少なくとも一つの間の距離を計
算する距離計算手段と、 該計算した距離情報をもとに分析を行う分析手段とを備
えることを特徴としたテキスト情報の分析装置。 - 【請求項2】前記テキスト単位群に、指定された方法で
名前を付ける名前付与手段と、 指定された名前のパターンに合致するものだけを分析の
対象にする分析対象限定手段とを備えることを特徴とし
た請求項1記載のテキスト情報の分析装置。 - 【請求項3】前記テキスト単位群に、指定された方法で
属性値を付ける属性値付与手段と、 指定された属性値を持つものだけを分析の対象にする分
析対象限定手段とを備えることを特徴とした請求項1記
載のテキスト情報の分析装置。 - 【請求項4】前記テキスト単位群に付けられた名前のパ
ターンから、単語・テキスト単位間、単語・単語間、テ
キスト単位・テキスト単位間のうち少なくとも一つの間
の距離を計算する距離計算手段とを備えることを特徴と
した請求項2記載のテキスト情報の分析装置。 - 【請求項5】前記テキスト単位群に付けられた属性値の
パターンから、単語・テキスト単位間、単語・単語間、
テキスト単位・テキスト単位間のうち少なくとも一つの
間の距離を計算する距離計算手段とを備えることを特徴
とした請求項3記載のテキスト情報の分析装置。 - 【請求項6】テキスト情報群より指定された分析の単位
となるテキスト単位群を作成するテキスト情報変換手段
と、 該作成したテキスト単位群から単語を抽出し、該抽出し
た単語・テキスト単位間、単語・単語間、テキスト単位
・テキスト単位間のうち少なくとも一つの間の距離を計
算する距離計算手段と、 該計算した距離情報をもとに分析を行う分析手段とし
て、 コンピュータを機能させるためのプログラムを記録した
コンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP15347098A JP3641363B2 (ja) | 1998-06-03 | 1998-06-03 | テキスト情報分析装置及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP15347098A JP3641363B2 (ja) | 1998-06-03 | 1998-06-03 | テキスト情報分析装置及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11345241A true JPH11345241A (ja) | 1999-12-14 |
JP3641363B2 JP3641363B2 (ja) | 2005-04-20 |
Family
ID=15563282
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP15347098A Expired - Fee Related JP3641363B2 (ja) | 1998-06-03 | 1998-06-03 | テキスト情報分析装置及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3641363B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001266060A (ja) * | 2000-03-15 | 2001-09-28 | Nec Corp | アンケート回答分析システム |
JP2006286026A (ja) * | 2006-07-28 | 2006-10-19 | Nec Corp | 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム |
JP2009093650A (ja) * | 2007-10-05 | 2009-04-30 | Fujitsu Ltd | 文書の段落分析によるその文書のタグの選択 |
JP2009128949A (ja) * | 2007-11-19 | 2009-06-11 | Fuji Xerox Co Ltd | グラフ表示装置およびプログラム |
CN106776548A (zh) * | 2016-12-06 | 2017-05-31 | 上海智臻智能网络科技股份有限公司 | 一种文本的相似度计算的方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07325832A (ja) * | 1994-05-31 | 1995-12-12 | Fujitsu Ltd | 単語使用パターンの時間的変化を利用した検索方法および情報検索装置 |
JPH0981574A (ja) * | 1995-09-14 | 1997-03-28 | Fujitsu Ltd | 検索集合表示画面を利用したデータベース検索法およびシステム |
JPH10124522A (ja) * | 1996-10-22 | 1998-05-15 | Fujitsu Ltd | 情報検索装置 |
-
1998
- 1998-06-03 JP JP15347098A patent/JP3641363B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07325832A (ja) * | 1994-05-31 | 1995-12-12 | Fujitsu Ltd | 単語使用パターンの時間的変化を利用した検索方法および情報検索装置 |
JPH0981574A (ja) * | 1995-09-14 | 1997-03-28 | Fujitsu Ltd | 検索集合表示画面を利用したデータベース検索法およびシステム |
JPH10124522A (ja) * | 1996-10-22 | 1998-05-15 | Fujitsu Ltd | 情報検索装置 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001266060A (ja) * | 2000-03-15 | 2001-09-28 | Nec Corp | アンケート回答分析システム |
US6876990B2 (en) | 2000-03-15 | 2005-04-05 | Nec Corporation | Questionnaire analysis system |
JP2006286026A (ja) * | 2006-07-28 | 2006-10-19 | Nec Corp | 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム |
JP4539616B2 (ja) * | 2006-07-28 | 2010-09-08 | 日本電気株式会社 | 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム |
JP2009093650A (ja) * | 2007-10-05 | 2009-04-30 | Fujitsu Ltd | 文書の段落分析によるその文書のタグの選択 |
JP2009128949A (ja) * | 2007-11-19 | 2009-06-11 | Fuji Xerox Co Ltd | グラフ表示装置およびプログラム |
CN106776548A (zh) * | 2016-12-06 | 2017-05-31 | 上海智臻智能网络科技股份有限公司 | 一种文本的相似度计算的方法和装置 |
CN106776548B (zh) * | 2016-12-06 | 2019-12-13 | 上海智臻智能网络科技股份有限公司 | 一种文本的相似度计算的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
JP3641363B2 (ja) | 2005-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bolden et al. | Bridging the quantitative-qualitative divide: the lexical approach to textual data analysis | |
KR102056822B1 (ko) | 학습 서비스 제공 방법 및 그 장치 | |
CN106503055B (zh) | 一种从结构化文本到图像描述的生成方法 | |
CN107301199B (zh) | 一种数据标签生成方法和装置 | |
WO2018227930A1 (zh) | 智能提示答案的方法及装置 | |
KR20200052412A (ko) | 인공지능 채용 시스템 및 상기 시스템의 채용 방법 | |
Ryan | What are standards of rigor for qualitative research | |
KR20190102529A (ko) | 토픽을 이용한 타겟 분석 장치 및 방법 | |
JP5213098B2 (ja) | 質問応答方法及びシステム | |
Poonnawat et al. | Jobs analysis for business intelligence skills requirements in the ASEAN region: A text mining study | |
JPH11345241A (ja) | テキスト情報の分析装置及び記録媒体 | |
Melnychuk et al. | The quantitative parameters in computer-assisted approach: Author’s lexical choices in the novels by Martin Amis | |
CN111222032B (zh) | 舆情分析方法及相关设备 | |
US7580570B2 (en) | Accuracy model for recognition signal processing engines | |
Ramírez-Noriega et al. | ASHuR: Evaluation of the Relation Summary-Content Without Human Reference Using ROUGE. | |
Esmaeilzadeh et al. | Providing insights for open-response surveys via end-to-end context-aware clustering | |
CN116049213A (zh) | 表格文档的关键词检索方法及电子设备 | |
JP2003263441A (ja) | キーワード決定データベース作成方法、キーワード決定方法、装置、プログラム、および記録媒体 | |
CN110866393B (zh) | 基于领域知识库的简历信息抽取方法及系统 | |
Anand et al. | Sentiment Analysis of Social Network for Information Professionals: A Case Study of LisLinks Discussion Forum | |
CN112988999A (zh) | 佛学问答对的构建方法、装置、设备及存储介质 | |
JP2008250409A (ja) | 典型文分析装置、その方法及びそのプログラム | |
Zhai et al. | A tutorial on probabilistic topic models for text data retrieval and analysis | |
US6572382B2 (en) | Paper preparation supporting method | |
JP2000148770A (ja) | 問合せ文書の分類装置および方法ならびに当該方法を記述したプログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040629 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040830 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050118 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050121 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080128 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090128 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100128 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110128 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110128 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120128 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130128 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130128 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140128 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |