JPH11345241A - テキスト情報の分析装置及び記録媒体 - Google Patents

テキスト情報の分析装置及び記録媒体

Info

Publication number
JPH11345241A
JPH11345241A JP15347098A JP15347098A JPH11345241A JP H11345241 A JPH11345241 A JP H11345241A JP 15347098 A JP15347098 A JP 15347098A JP 15347098 A JP15347098 A JP 15347098A JP H11345241 A JPH11345241 A JP H11345241A
Authority
JP
Japan
Prior art keywords
text
information
distance
words
processing unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP15347098A
Other languages
English (en)
Other versions
JP3641363B2 (ja
Inventor
Isamu Watabe
勇 渡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP15347098A priority Critical patent/JP3641363B2/ja
Publication of JPH11345241A publication Critical patent/JPH11345241A/ja
Application granted granted Critical
Publication of JP3641363B2 publication Critical patent/JP3641363B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】 【課題】柔軟な目的に応じて、入力テキスト情報をさま
ざまな角度から容易に分析を行えるようにすること。 【解決手段】テキスト情報群1aより指定された分析の
単位となるテキスト単位群を作成するテキスト情報変換
手段6aと、該作成したテキスト単位群から単語を抽出
し、該抽出した単語・テキスト単位間、単語・単語間、
テキスト単位・テキスト単位間のうち少なくとも一つの
間の距離を計算する距離計算手段7aと、該計算した距
離情報をもとに分析を行う分析手段8aとを備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、目的に応じて、入
力テキスト情報をさまざまな角度から分析することがで
きるテキスト情報の分析装置及び記録媒体に関する。
【0002】近年、記憶媒体の大容量化・低価格化、イ
ンターネットの急速な普及などにともなって、多量のテ
キスト情報を計算機を用いて簡単に収集・蓄積すること
が可能になってきている。
【0003】このように集められた情報から何らかの知
見を得るような分析を行うためには、その量が膨大であ
るがゆえに、テキスト情報やその中に現れる単語の間の
関係を図解化する機能、テキスト情報や単語をクラスタ
リング・分類する機能などを持ったテキスト情報の分析
装置が不可欠となる。
【0004】テキスト情報の分析装置を用いることによ
り、例えば、アンケート分析においては、選択式の回答
結果だけでなく、自由に記述されたテキスト情報の部分
に関しても、統計解析・多変量解析などの数量的な分析
手法を利用することが可能となり、多量のデータを用い
た精度の高い分析を行うことが可能になる。
【0005】
【従来の技術】現在では、入力テキスト情報群から形態
素解析等を用いて単語を抽出する技術、単語の統計的情
報(出現頻度等)を利用することにより単語のテキスト
情報間の距離を計算する技術などが確立している。
【0006】いったん距離情報が得られれば、あとは従
来数量的なデータに対して用いられてきた統計解析・多
変量解析などの分析手法を適用することが可能となる。
したがって、従来の既知の技術を用いることによって、
テキスト情報の分析情報を構成することが可能となる。
【0007】しかし、上記のような従来技術で構成され
た分析装置では、もともと文書の検索を行うことを目的
として開発された技術を用いているため、柔軟な分析を
目的とする場合には、テキスト情報の扱いが固定的であ
ることに起因する、次の問題が生じていた。
【0008】(1):第1の問題は、テキスト情報の単
位に関するものである。検索装置では、検索の出力して
得られるテキスト情報がそのまま結果となるため、例え
ば論文、特許明細書、あるいはそれを構成する章、節、
段落といったように、テキスト情報がそれ自体で意味的
なまとまりを持った単位になっていることが必要とな
る。
【0009】一方、分析装置では、例えばテキスト情報
間の関係が結果となるため、句、単語といったように、
検索情報ではまとまった情報としてみなされないような
単位のテキスト情報を対象にすることも考えられる。
【0010】すなわち、検索装置では容易に想定するこ
とができていたテキスト情報のまとまりの単位が、分析
装置においては、一般的に明確な基準で決めることがで
きず、むしろ、分析の目的によってその都度変えること
ができるようになっていることが必要とされる。
【0011】しかし、従来の技術では、このような目的
に応じて入力テキスト情報のまとまりの単位を変更する
ための簡便な手段が提供されておらず、あらかじめ前処
理によって、入力テキスト情報を分割、統合、加工し、
適当なレベルのテキスト単位に変換しておく必要があっ
た。
【0012】例えば、複数人に対して、複数の設問を行
い、各設問には複数の回答欄があり、各回答欄には複数
の文を書くことができるようなアンケート結果の分析を
行う場合なら、分析の目的によって、各設問に対する
全員の回答をまとめて一つの単位とする、一人分の回
答をまとめて一つの単位とする、各回答者の各設問の
回答を一つの単位とする、それを更に回答欄別に扱
う、といったテキスト情報の単位の取り方のバリエーシ
ョンが考えられる。しかし、それぞれのバリエーション
ごとに予めアンケート分析結果の回答テキスト情報を分
割、統合、加工した文書群のセットを用意しておくこと
が必要となっていた。
【0013】(2):第2の問題は、分析の対象となる
テキスト情報の制限方法に関するものである。テキスト
情報の検索では、例えば、特許明細書の検索において、
特定の年に出願されたものだけを検索する、IPC(国
際特許分類)の情報を利用して特定の分野のものだけを
検索するといったように、目的に応じて対象とするテキ
スト情報群を制限する機能が有効である場合がある。
【0014】テキスト情報の分析においても、検索の場
合と同様に、対象を制限することが有効である場合が考
えられる。検索の場合に、対象を制限することができる
のは、対象となるテキスト情報に何らかの属性が付与さ
れていて、それを用いることが可能だからである。
【0015】しかし、分析の場合には、前述したよう
に、そもそも属性を付与すべき対象であるテキスト情報
の単位が明確でなかった。例えば、前述のアンケート分
析の例において、各回答者の年齢が分かっている場合、
一人分の回答をまとめて一つの単位とするケースでは、
各テキスト情報の単位の属性として回答者の年齢を付与
することができるが、各設問に対する全員の回答をまと
めて一つの単位とするケースでは、そのような属性を付
与することは意味を持たない。
【0016】また、入力テキスト情報群に属性が付与さ
れていたとしても、分割、統合、加工の際に、その属性
情報もまた適切な変換手段を用いて付与し直す作業が別
途発生していた。
【0017】(3):第3の問題は、入力テキスト情報
を分割することによって、もともと持っていた情報を失
ってしまうことに関するものである。例えば、前述のア
ンケート分析の例において、入力テキスト情報を、各回
答者の各設問の各回答欄の回答を分析の単位として扱う
ように分割した場合、同一回答者の同一設問に対する回
答の間には強い関連がある、同一設問に対する回答の間
には何らかの関連があるといった、本来入力テキスト情
報が持っていた情報を失ってしまうことになっていた。
【0018】
【発明が解決しようとする課題】前記従来のものにおい
ては、次のような課題があった。従来技術を用いたテキ
スト情報検索装置では、柔軟な目的に対応するために
は、入力テキスト情報群を、前処理によって分割、統
合、加工したりする作業が必要であった。
【0019】本発明は、このような従来の課題を解決
し、柔軟な目的に応じて、入力テキスト情報をさまざま
な角度から容易に分析を行えるようにすることを目的と
する。
【0020】
【課題を解決するための手段】図1は本発明の原理説明
図である。図1中、1aはテキスト情報群、6aはテキ
スト情報変換手段、7aは距離計算手段、8aは分析手
段、15aは入力手段、16aは出力手段である。
【0021】本発明は前記従来の課題を解決するため次
のように構成した。 (1):テキスト情報群1aより指定された分析の単位
となるテキスト単位群を作成するテキスト情報変換手段
6aと、該作成したテキスト単位群から単語を抽出し、
該抽出した単語・テキスト単位間、単語・単語間、テキ
スト単位・テキスト単位間のうち少なくとも一つの間の
距離を計算する距離計算手段7aと、該計算した距離情
報をもとに分析を行う分析手段8aとを備える。
【0022】(2):前記(1)のテキスト情報の分析
装置において、前記テキスト単位群に、指定された方法
で名前を付ける名前付与手段と、指定された名前のパタ
ーンに合致するものだけを分析の対象にする分析対象限
定手段とを備える。
【0023】(3):前記(1)のテキスト情報の分析
装置において、前記テキスト単位群に、指定された方法
で属性値を付ける属性値付与手段と、指定された属性値
を持つものだけを分析の対象にする分析対象限定手段と
を備える。
【0024】(4):前記(2)のテキスト情報の分析
装置において、前記テキスト単位群に付けられた名前の
パターンから、単語・テキスト単位間、単語・単語間、
テキスト単位・テキスト単位間のうち少なくとも一つの
間の距離を計算する距離計算手段とを備える。
【0025】(5):前記(3)のテキスト情報の分析
装置において、前記テキスト単位群に付けられた属性値
のパターンから、単語・テキスト単位間、単語・単語
間、テキスト単位・テキスト単位間のうち少なくとも一
つの間の距離を計算する距離計算手段とを備える。
【0026】(6):テキスト情報群1aより指定され
た分析の単位となるテキスト単位群を作成するテキスト
情報変換手段6aと、該作成したテキスト単位群から単
語を抽出し、該抽出した単語・テキスト単位間、単語・
単語間、テキスト単位・テキスト単位間のうち少なくと
も一つの間の距離を計算する距離計算手段7aと、該計
算した距離情報をもとに分析を行う分析手段8aとし
て、コンピュータを機能させるためのプログラムを記録
したコンピュータ読み取り可能な記録媒体とする。
【0027】(作用)前記構成に基づく作用を説明す
る。本発明は前記従来の課題を解決するため次のように
構成した。
【0028】テキスト情報変換手段6aでテキスト情報
群1aより指定された分析の単位となるテキスト単位群
を作成し、距離計算手段7aで該作成したテキスト単位
群から単語を抽出し、該抽出した単語・テキスト単位
間、単語・単語間、テキスト単位・テキスト単位間のう
ち少なくとも一つの間の距離を計算し、分析手段8aで
該計算した距離情報をもとに分析を行う。このため、柔
軟な目的に応じて、入力テキスト情報をさまざまな角度
から容易に分析を行える。
【0029】また、名前付与手段で前記テキスト単位群
に、指定された方法で名前を付け、分析対象限定手段で
指定された名前のパターンに合致するものだけを分析の
対象にする。このため、テキスト単位の名前にテキスト
情報群の属性情報を埋め込むような指定を行っておけ
ば、名前のパターンを指定することにより、特別な前処
理なしに、目的に応じて分析対象とするテキスト情報群
を制限することができる。
【0030】さらに、属性値付与手段で前記テキスト単
位群に、指定された方法で属性値を付け、分析対象限定
手段で指定された属性値を持つものだけを分析の対象に
する。このため、特別な前処理なしに、目的に応じて分
析対象とするテキスト情報群を制限することができる。
【0031】また、距離計算手段で前記テキスト単位群
に付けられた名前のパターンから、単語・テキスト単位
間、単語・単語間、テキスト単位・テキスト単位間のう
ち少なくとも一つの間の距離を計算する。このため、入
力テキスト情報群の中で関連のあったテキスト単位群
に、共通する名前を付けることによって、もともと持っ
ていた関連性の情報を失うことなく分析を行うことがで
きる。
【0032】さらに、距離計算手段で前記テキスト単位
群に付けられた属性値のパターンから、単語・テキスト
単位間、単語・単語間、テキスト単位・テキスト単位間
のうち少なくとも一つの間の距離を計算する。このた
め、入力テキスト情報群の中で関連のあったテキスト単
位群に、共通する属性値を付けることによって、もとも
と持っていた関連性の情報を失うことなく分析を行うこ
とができる。
【0033】また、テキスト情報群1aより指定された
分析の単位となるテキスト単位群を作成するテキスト情
報変換手段6aと、該作成したテキスト単位群から単語
を抽出し、該抽出した単語・テキスト単位間、単語・単
語間、テキスト単位・テキスト単位間のうち少なくとも
一つの間の距離を計算する距離計算手段7aと、該計算
した距離情報をもとに分析を行う分析手段8aとして、
コンピュータを機能させるためのプログラムを記録した
コンピュータ読み取り可能な記録媒体とする。このた
め、この記録媒体のプログラムをコンピュータにインス
トールすることで、柔軟な目的に応じて、入力テキスト
情報群をさまざまな角度から容易に分析を行えるテキス
ト情報の分析装置を容易に提供することができる。
【0034】
【発明の実施の形態】以下、図面に基づいて本発明の実
施の形態について説明する。 (1):テキスト単位群を自動作成する場合の説明 A:テキスト単位群を自動作成する分析装置の説明 図2はテキスト単位群を自動作成する分析装置の説明図
である。図2において、分析装置18は、使用者17か
ら指定された方法で入力テキスト情報群1を分析して出
力するものである。
【0035】分析装置18には、テキスト単位群2、距
離情報3、テキスト情報変換処理部6、距離計算処理部
A7、分析処理部8、入力処理部15、出力処理部16
が設けてある。
【0036】テキスト単位群2は、テキスト情報変換処
理部6が入力テキスト情報群1を指定された方法で分
割、統合、加工等を行って作成したものである。距離情
報3は、距離計算処理部A7でテキスト単位群2から単
語を抽出し、単語・テキスト単位間、単語・単語間、テ
キスト単位・テキスト単位間の距離を計算したものであ
る。テキスト情報変換処理部6は、入力テキスト情報群
1を入力処理部15から指定された方法で分割、統合、
加工等を行ってテキスト単位群2を得るものである。距
離計算処理部A7は、テキスト単位群2から単語を抽出
し、単語・テキスト単位間、単語・単語間、テキスト単
位・テキスト単位間の距離情報3を計算するものであ
る。分析処理部8は、距離情報3をもとに分析を行うも
のである。入力処理部15は、使用者17が行う入力を
処理するものである。出力処理部16は、分析結果を使
用者17に出力するものである。
【0037】(動作の説明)使用者17は、入力処理部
15にテキスト単位の指定を行う。これにより、テキス
ト情報変換処理部6で、入力テキスト情報群1を入力処
理部15から指定された方法で分割、統合、加工等を行
ってテキスト単位群2が作成される。次に、距離計算処
理部A7で、テキスト単位群2から単語を抽出し、単語
・テキスト単位間、単語・単語間、テキスト単位・テキ
スト単位間の距離を計算し距離情報3を作成する。そし
て、分析処理部8で、距離情報3をもとに分析を行い、
出力処理部16で、分析結果を使用者17に出力するも
のである。
【0038】B:テキスト単位群を自動作成するシステ
ム構成の説明 図3はテキスト単位群を自動作成するシステム構成の説
明図である。図3において、データ処理装置19は、外
部記憶装置20、21、22、入力装置25、出力装置
26と接続されている。データ処理装置19には、テキ
スト情報変換処理部6、距離計算処理部A7、分析処理
部8、入力処理部15、出力処理部16が設けてある。
【0039】テキスト情報変換処理部6は、入力テキス
ト情報群1を入力処理部15から指定された方法で分
割、統合、加工等を行ってテキスト単位群2を得るもの
である。距離計算処理部A7は、テキスト単位群2から
単語を抽出し、単語・テキスト単位間、単語・単語間、
テキスト単位・テキスト単位間の距離情報3を計算する
ものである。分析処理部8は、距離情報3をもとに分析
を行うものである。入力処理部15は、使用者17が入
力装置25から行う入力を処理するものである。出力処
理部16は、分析結果を出力装置26により使用者17
に出力するものである。
【0040】データ処理装置19は、CPU(中央処理
装置)とメモリ等から構成されるものである。外部記憶
装置20は、テキスト情報変換処理部6で使用される入
力テキスト情報群1を格納するものである。外部記憶装
置21は、テキスト情報変換処理部6によって得られる
テキスト単位群2を格納するものである。外部記憶装置
22は、距離計算処理部A7によって得られる距離情報
3を格納するものである。
【0041】入力装置25は、キーボード等から構成さ
れ、使用者17からの入力を入力処理部15に伝えるも
のである。出力装置26は、ディスプレイ装置等から構
成され、出力処理部16から得られる出力を使用者17
に表示するものである。
【0042】(動作の説明)入力装置25から入力処理
部15にテキスト単位の指定を行う。これにより、テキ
スト情報変換処理部6で、外部記憶装置20の入力テキ
スト情報群1を入力処理部15から指定された方法で分
割、統合、加工等を行ってテキスト単位群2を作成し、
外部記憶装置21に格納する。次に、距離計算処理部A
7で、外部記憶装置21のテキスト単位群2から単語を
抽出し、単語・テキスト単位間、単語・単語間、テキス
ト単位・テキスト単位間の距離を計算して距離情報3を
作成し、外部記憶装置22に格納する。そして、分析処
理部8で、外部記憶装置22の距離情報3をもとに分析
を行い、出力処理部16で、分析結果を出力装置26に
出力するものである。
【0043】(2):テキスト単位群に名前を付ける場
合の説明 A:テキスト単位群に名前を付ける分析装置の説明 図4はテキスト単位群に名前を付ける分析装置の説明図
である。図4において、分析装置18は、図2の構成
に、名前情報4、名前付与処理部9、分析対象限定処理
部A11を追加したものである。
【0044】名前情報4は、名前付与処理部9でテキス
ト単位群2に付けるもので、パターンマッチが可能な規
則的な名前である。名前付与処理部9は、テキスト単位
群2に入力処理部15から指定された方法で規則的な名
前を付けるものである。分析対象限定処理部A11は、
入力処理部15から指定された名前のパターンに合致す
るものだけを分析の対象にするものである。
【0045】(動作の説明)使用者17は、入力処理部
15にテキスト単位の指定を行う。これにより、テキス
ト情報変換処理部6で、入力テキスト情報群1を入力処
理部15から指定された方法で分割、統合、加工等を行
ってテキスト単位群2が作成される。次に、名前付与処
理部9でテキスト単位群2に入力処理部15から指定さ
れた方法で規則的な名前を付け名前情報4を作成する。
距離計算処理部A7では、テキスト単位群2から単語を
抽出し、単語・テキスト単位間、単語・単語間、テキス
ト単位・テキスト単位間の距離を計算し距離情報3を作
成する。さらに、分析対象限定処理部A11で入力処理
部15から指定された名前のパターンに合致するものだ
けを分析の対象にするように、テキスト単位群2を制限
する。そして、分析処理部8で、距離情報3をもとに分
析を行い、出力処理部16で、分析結果を使用者17に
出力するものである。
【0046】B:テキスト単位群に名前を付けるシステ
ム構成の説明 図5はテキスト単位群に名前を付けるシステム構成の説
明図である。図5において、システム構成は、図3の構
成に、名前付与処理部9、分析対象限定処理部A11、
外部記憶装置23を追加したものである。
【0047】名前付与処理部9は、テキスト単位群2に
入力処理部15から指定された方法で規則的な名前を付
けるものである。分析対象限定処理部A11は、入力処
理部15から指定された名前のパターンに合致するもの
だけを分析の対象にするものである。外部記憶装置23
は、名前付与処理部9でテキスト単位群2に入力処理部
15から指定された方法で付けた規則的な名前情報を格
納するものである。
【0048】(動作の説明)入力装置25から入力処理
部15にテキスト単位の指定を行う。これにより、テキ
スト情報変換処理部6で、外部記憶装置20の入力テキ
スト情報群1を入力処理部15から指定された方法で分
割、統合、加工等を行ってテキスト単位群2を作成し、
外部記憶装置21に格納する。次に、名前付与処理部9
でテキスト単位群2に入力処理部15から指定された方
法で規則的な名前を付け名前情報4を作成し、外部記憶
装置23に格納する。距離計算処理部A7では、テキス
ト単位群2から単語を抽出し、単語・テキスト単位間、
単語・単語間、テキスト単位・テキスト単位間の距離を
計算して距離情報3を作成し、外部記憶装置22に格納
する。さらに、分析対象限定処理部A11で入力処理部
15から指定された名前のパターンに合致するものだけ
を分析の対象にするように、テキスト単位群2を制限す
る。そして、分析処理部8で、距離情報3をもとに分析
を行い、出力処理部16で、分析結果を出力装置26に
出力するものである。
【0049】以上のように、テキスト単位群2に指定さ
れた方法で規則的な名前情報4を付ける名前付与処理部
9、及び、指定された名前のパターンに合致するものだ
けを分析の対象にする分析対象限定処理部A11を備え
ているので、テキスト単位の名前にテキスト情報群の属
性情報を埋め込むような指定を行っておけば、名前のパ
ターンを指定することにより、特別な前処理なしに、目
的に応じて分析対象とするテキスト情報群を制限するこ
とができる。
【0050】(3):テキスト単位群に属性値を付ける
場合の説明 A:テキスト単位群に属性値を付ける分析装置の説明 図6はテキスト単位群に属性値を付ける分析装置の説明
図である。図6において、分析装置18は、図4の構成
における、名前情報4が属性値情報5に、名前付与処理
部9が属性値付与処理部10に、分析対象限定処理部A
11が分析対象限定処理部B12に、それぞれ置き換わ
ったものである。
【0051】属性値情報5は、属性値付与処理部10で
テキスト単位群2に指定された方法で付与された属性値
である。属性値付与処理部10は、テキスト単位群2に
入力処理部15から指定された方法で属性値を付与する
ものである。分析対象限定処理部B12は、入力処理部
15から指定された属性値を持つものだけを分析の対象
にするものである。
【0052】(動作の説明)使用者17は、入力処理部
15にテキスト単位の指定を行う。これにより、テキス
ト情報変換処理部6で、入力テキスト情報群1を入力処
理部15から指定された方法で分割、統合、加工等を行
ってテキスト単位群2が作成される。次に、属性値付与
処理部10でテキスト単位群2に入力処理部15から指
定された方法で属性値を付け属性値情報5を作成する。
距離計算処理部A7では、テキスト単位群2から単語を
抽出し、単語・テキスト単位間、単語・単語間、テキス
ト単位・テキスト単位間の距離を計算し距離情報3を作
成する。さらに、分析対象限定処理部B12で入力処理
部15から指定された属性値を持つものだけを分析の対
象にするように、テキスト単位群2を制限する。そし
て、分析処理部8で、距離情報3をもとに分析を行い、
出力処理部16で、分析結果を使用者17に出力するも
のである。
【0053】B:テキスト単位群に属性値を付けるシス
テム構成の説明 図7はテキスト単位群に属性値を付けるシステム構成の
説明図である。図7において、システム構成は、図3の
構成に、属性値付与処理部10、分析対象限定処理部B
12、外部記憶装置24を追加したものである。
【0054】属性値付与処理部10は、テキスト単位群
2に入力処理部15から指定された方法で属性値を付与
するものである。分析対象限定処理部B12は、入力処
理部15から指定された属性値に合致するものだけを分
析の対象にするものである。外部記憶装置24は、属性
値付与処理部10でテキスト単位群2に入力処理部15
から指定された方法で付与した属性値情報5を格納する
ものである。
【0055】(動作の説明)入力装置25から入力処理
部15にテキスト単位の指定を行う。これにより、テキ
スト情報変換処理部6で、外部記憶装置20の入力テキ
スト情報群1を入力処理部15から指定された方法で分
割、統合、加工等を行ってテキスト単位群2を作成し、
外部記憶装置21に格納する。次に、属性値付与処理部
10でテキスト単位群2に入力処理部15から指定され
た方法で属性値を付け属性値情報5を作成し、外部記憶
装置24に格納する。距離計算処理部A7で、テキスト
単位群2から単語を抽出し、単語・テキスト単位間、単
語・単語間、テキスト単位・テキスト単位間の距離を計
算して距離情報3を作成し、外部記憶装置22に格納す
る。さらに、分析対象限定処理部B12で入力処理部1
5から指定された属性値を持つものだけを分析の対象に
するように、テキスト単位群2を制限する。そして、分
析処理部8で、距離情報3をもとに分析を行い、出力処
理部16で、分析結果を出力装置26に出力するもので
ある。
【0056】以上のように、テキスト単位群2に指定さ
れた方法で属性値情報5を付与する属性値付与処理部1
0、及び、指定された属性値を持つものだけを分析の対
象にする分析対象限定処理部B12を備えているので、
特別な前処理なしに、目的に応じて分析対象とするテキ
スト情報群を制限することができる。
【0057】(4):テキスト単位群の名前のパターン
から距離を計算する場合の説明 A:テキスト単位群の名前のパターンから距離を計算す
る分析装置の説明 図8はテキスト単位群の名前のパターンから距離を計算
する分析装置の説明図である。図8において、分析装置
18は、図4の構成に、距離計算処理部B13を追加し
たものである。
【0058】距離計算処理部B13は、テキスト単位群
2に付けられた名前情報4のパターンから単語・テキス
ト単位間、単語・単語間、テキスト単位・テキスト単位
間の距離情報3を計算するものである。
【0059】(動作の説明)使用者17は、入力処理部
15にテキスト単位の指定を行う。これにより、テキス
ト情報変換処理部6で、入力テキスト情報群1を入力処
理部15から指定された方法で分割、統合、加工等を行
ってテキスト単位群2が作成される。次に、名前付与処
理部9でテキスト単位群2に入力処理部15から指定さ
れた方法で規則的な名前を付け名前情報4を作成する。
距離計算処理部A7で、テキスト単位群2から単語を抽
出し、単語・テキスト単位間、単語・単語間、テキスト
単位・テキスト単位間の距離を計算し距離情報3を作成
する。さらに、距離計算処理部B13で、名前情報4の
パターンから単語・テキスト単位間、単語・単語間、テ
キスト単位・テキスト単位間の距離を計算し距離情報3
を作成する。そして、分析処理部8で、距離情報3をも
とに分析を行い、出力処理部16で、分析結果を使用者
17に出力するものである。
【0060】B:テキスト単位群の名前のパターンから
距離を計算するシステム構成の説明 図9はテキスト単位群の名前のパターンから距離を計算
するシステム構成の説明図である。図9において、デー
タ処理装置19は、図5の構成に、距離計算処理部B1
3を追加したものである。
【0061】距離計算処理部B13は、テキスト単位群
2に付けられた名前情報4のパターンから単語・テキス
ト単位間、単語・単語間、テキスト単位・テキスト単位
間の距離情報3を計算するものである。
【0062】(動作の説明)入力装置25から入力処理
部15にテキスト単位の指定を行う。これにより、テキ
スト情報変換処理部6で、外部記憶装置20の入力テキ
スト情報群1を入力処理部15から指定された方法で分
割、統合、加工等を行ってテキスト単位群2を作成し、
外部記憶装置21に格納する。次に、名前付与処理部9
でテキスト単位群2に入力処理部15から指定された方
法で規則的な名前を付け名前情報4を作成し、外部記憶
装置23に格納する。距離計算処理部A7で、テキスト
単位群2から単語を抽出し、単語・テキスト単位間、単
語・単語間、テキスト単位・テキスト単位間の距離を計
算して距離情報3を作成し、外部記憶装置22に格納す
る。さらに、距離計算処理部B13で、名前情報4のパ
ターンから単語・テキスト単位間、単語・単語間、テキ
スト単位・テキスト単位間の距離を計算して距離情報3
を作成し、外部記憶装置22に格納する。そして、分析
処理部8で、距離情報3をもとに分析を行い、出力処理
部16で、分析結果を出力装置26に出力するものであ
る。
【0063】以上のように、テキスト単位群2に付けら
れた名前情報4のパターンから単語・テキスト単位間、
単語・単語間、テキスト単位・テキスト単位間の距離情
報3を計算する距離計算処理部B13を備えているの
で、入力テキスト情報群の中で関連のあったテキスト単
位群に、共通する名前を付けることによって、もともと
持っていた関連性の情報を失うことなく分析を行うこと
ができる。
【0064】(5):テキスト単位群の属性値のパター
ンから距離を計算する場合の説明 A:属性値のパターンから距離を計算する分析装置の説
明 図10はテキスト単位群の属性値のパターンから距離を
計算する分析装置の説明図である。図10において、分
析装置18は、図8の構成における、名前情報4が属性
値情報5に、名前付与処理部9が属性値付与処理部10
に、距離計算処理部B13が距離計算処理部C14に、
それぞれ置き換わったものである。
【0065】属性値情報5は、属性値付与処理部10で
テキスト単位群2に指定された方法で付与された属性値
である。属性値付与処理部10は、テキスト単位群2に
入力処理部15から指定された方法で属性値を付与する
ものである。距離計算処理部C14は、テキスト単位群
2に付けられた属性値情報5のパターンから単語・テキ
スト単位間、単語・単語間、テキスト単位・テキスト単
位間の距離情報3を計算するものである。
【0066】(動作の説明)使用者17は、入力処理部
15にテキスト単位の指定を行う。これにより、テキス
ト情報変換処理部6で、入力テキスト情報群1を入力処
理部15から指定された方法で分割、統合、加工等を行
ってテキスト単位群2が作成される。次に、属性値付与
処理部10でテキスト単位群2に入力処理部15(使用
者17)から指定された方法で属性値を付け属性値情報
5を作成する。距離計算処理部A7で、テキスト単位群
2から単語を抽出し、単語・テキスト単位間、単語・単
語間、テキスト単位・テキスト単位間の距離を計算し距
離情報3を作成する。さらに、距離計算処理部C14
で、属性値情報5のパターンから単語・テキスト単位
間、単語・単語間、テキスト単位・テキスト単位間の距
離を計算し距離情報3を作成する。そして、分析処理部
8で、距離情報3をもとに分析を行い、出力処理部16
で、分析結果を使用者17に出力するものである。
【0067】B:属性値のパターンから距離を計算する
システム構成の説明 図11はテキスト単位群の属性値のパターンから距離を
計算するシステム構成の説明図である。図11におい
て、データ処理装置19は、図7の構成に、距離計算処
理部C14を追加したものである。
【0068】距離計算処理部C14は、テキスト単位群
2に付けられた属性値情報5のパターンから単語・テキ
スト単位間、単語・単語間、テキスト単位・テキスト単
位間の距離情報3を計算するものである。
【0069】(動作の説明)入力装置25から入力処理
部15にテキスト単位の指定を行う。これにより、テキ
スト情報変換処理部6で、外部記憶装置20の入力テキ
スト情報群1を入力処理部15から指定された方法で分
割、統合、加工等を行ってテキスト単位群2を作成し、
外部記憶装置21に格納する。次に、属性値付与処理部
10でテキスト単位群2に入力処理部15(入力装置2
5)から指定された方法で属性値を付け属性値情報5を
作成し、外部記憶装置23に格納する。距離計算処理部
A7で、テキスト単位群2から単語を抽出し、単語・テ
キスト単位間、単語・単語間、テキスト単位・テキスト
単位間の距離を計算し距離情報3を作成し、外部記憶装
置22に格納する。さらに、距離計算処理部C14で、
属性値情報5のパターンから単語・テキスト単位間、単
語・単語間、テキスト単位・テキスト単位間の距離を計
算した距離情報3を作成し、外部記憶装置22に格納す
る。そして、分析処理部8で、距離情報3をもとに分析
を行い、出力処理部16で、分析結果を出力装置26に
出力するものである。
【0070】以上のように、テキスト単位群2に付けら
れた属性値情報5のパターンから単語・テキスト単位
間、単語・単語間、テキスト単位・テキスト単位間の距
離情報3を計算する距離計算処理部C14を備えている
ので、入力テキスト情報群の中で関連のあったテキスト
単位群に、共通する属性値を付けることによって、もと
もと持っていた関連性の情報を失うことなく分析を行う
ことができる。
【0071】(6):アンケート結果のテキスト情報を
分析する場合の説明 前記説明した属性値付与処理部10は名前付与処理部9
と同様の動作を行い、分析対象限定処理部B12は分析
対象限定処理部A11と同様の動作を行い、距離計算処
理部C14は距離計算処理部B13と同様の動作を行っ
ているので、ここでは、テキスト情報変換処理部6、名
前付与処理部9、分析対象限定処理部A11、距離計算
処理部B13に関し、図12のようなアンケート結果の
テキスト情報を分析するケースを例として説明する。
【0072】図12はアンケート結果表の説明図であ
る。図12において、回答者ID、回答者の年齢、回答
者の職業、設問1:商品Aのイメージ、設問2:商品B
のイメージ欄が設けてある。設問1:商品Aのイメージ
欄には回答欄1、回答欄2、回答欄3が設けてあり、設
問2:商品Bのイメージ欄には回答欄1、回答欄2、回
答欄3が設けてある。
【0073】・図12に示すように入力テキスト情報
が、表形式のデータとして与えられている場合、使用者
17は、どの行・列のデータをまとめてテキスト単位と
するのかを、テキスト情報変換処理部6に指定し、テキ
スト情報変換処理部6は、使用者17の指定に従って、
行・列のデータからテキスト情報を作成する。
【0074】例えば、一人の全回答を一つのテキスト単
位とする場合には、各行について、4列から9列までの
データ(設問1と設問2の回答)をつなげたテキスト情
報を作成するように指定する。
【0075】また、各回答者の各回答欄のデータを一つ
のテキスト単位とする場合には、各行について、4列か
ら9列までのデータをそれぞれ一つのテキスト情報とす
るように指定する。
【0076】テキスト単位を作成する際に、単に行・列
のデータをつなげるだけでなく、指定した文字列を付加
するように指定することもできる。このようにすれば、
例えば、4列目から6列目までのデータには、設問に含
まれる「商品A」という文字列を付加(例えば、商品名
の一部である「A」のパターンを付加)し、7列目から
9列目までのデータには、設問に含まれる「商品B」と
いう文字列を付加することによって、各テキスト単位が
どの設問に対する回答であるかという情報を、テキスト
単位の中に埋め込むことが可能となる。
【0077】さらに、テキスト単位を作成する際に、一
つのデータを指定した文字で分割するように指定するこ
ともできる。このようにすれば、例えば「。」という文
字で分割するように指定すれば、各回答欄に書かれてい
る一つの文をテキスト単位として設定することもできる
ようになる。
【0078】・テキスト単位に対する名前は、使用者1
7が、行番号や列番号や各行・列に含まれるデータとい
った情報の組み合わせ方・書式などを、名前付与処理部
9に指定し、名前付与処理部9が作成するものである。
【0079】例えば、各回答者の各回答欄のデータを一
つのテキスト単位とする場合であれば、1列目のデー
タ、2列目のデータ、3列目のデータおよび列番号を組
み合わせて名前を作成するように指定することにより、
各テキスト単位の名前に、回答者ID、回答者の年齢、
回答者の職業、どの設問の何番目の回答であるかといっ
た情報を埋め込むことができる。
【0080】テキスト単位の名前の一部に、任意の文字
列を含むように指定する方法も考えられる。このように
すれば、例えば、4列目から6列目までのデータから作
成されるテキスト単位の名前には「商品A」という文字
列を含むようにする(例えば、商品名の一部である
「A」等のパターンをハイホン「‐」等で区切って含ま
せる)、7列目から9列目までのデータから作成される
テキスト単位の名前には「商品B」という文字列を含む
ようにするといったことが可能となり、各テキスト単位
の名前に、どの設問に対する回答であるかという情報を
埋め込むこともできるようになる。
【0081】・分析対象を限定するために指定する名前
のパターンは、正規表現やワイルドカードなどによって
指定する。分析対象限定処理部A11は、指定されたパ
ターンにマッチする名前を持つテキスト単位だけを対象
とするように限定処理を行う。
【0082】例えば、テキスト単位の名前に埋め込まれ
た回答者の年齢の部分が、ある特定の範囲の数値にマッ
チするような正規表現のパターンを指定すれば、特定の
年齢の回答者の回答だけを分析対象とするといった限定
が可能になる。
【0083】・名前情報4のパターンから単語・テキス
ト単位間、単語・単語間、テキスト単位・テキスト単位
間等の距離情報3を計算する場合は、テキスト単位の名
前を構成するどの要素(部分文字列)が一致していれば
距離を定義するのかを指定する。距離計算処理部Bは、
各テキスト単位の名前を比較し、指定された部分が一致
しているテキスト単位間の距離を指定された方法で再計
算する。
【0084】距離の再計算の方法としては、距離計算処
理部Aにより計算される距離を無視して、距離計算処理
部Bの値をそのまま使う方法、距離計算処理部Aにより
計算される距離に距離計算処理部Bの値を掛ける方法、
距離計算処理部Aにより計算される距離と距離計算処理
部Bの値を重み付け平均する方法などが考えられる。
【0085】例えば、各回答者の各回答欄のデータを一
つのテキスト単位とするケースで、名前のうち、回答者
IDの部分と設問を示す文字列(前記の「商品A」「商
品B」)の部分が一致している場合には、距離を半分に
するという指定をすれば、同一回答者の同一設問に対す
る回答の間には何らかの関連があるといった情報を加味
して、分析を行うことが可能となる。
【0086】以上実施の形態で説明したように、目的に
応じて入力テキスト情報を分割、統合、加工して扱った
り、分析の対象を限定したり、入力テキスト情報に内在
する関係情報も扱うことができるようにしているので、
柔軟な目的に応じて、入力テキスト情報をさまざまな角
度から分析することが容易に可能である。このため、ア
ンケート分析などのテキスト情報の分析作業の質の向
上、手間の軽減に寄与するところが大きい。
【0087】(7):プログラムのインストールの説明 テキスト情報変換処理部6、距離計算処理部A7、分析
処理部8、名前付与処理部9、属性値付与処理部10、
分析対象限定処理部A11、分析対象限定処理部B1
2、距離計算処理部B13、距離計算処理部C14、入
力処理部15、出力処理部16等は、プログラムで構成
でき、主制御部(CPU)が実行するものであり、主記
憶に格納されているものである。これらのプログラム
は、一般的な、パーソナルコンピュータ、ワークステー
ション等のデータ処理装置(コンピュータ)で処理され
るものである。このコンピュータは、主制御部、主記
憶、ハードディスク等のファイル装置、表示装置、キー
ボード等の入力手段である入力装置などのハードウェア
で構成されている。
【0088】このコンピュータに、本発明のプログラム
をインストールする。このインストールは、フロッピ
ィ、光磁気ディスク等の可搬型の記録(記憶)媒体に、
これらのプログラムを記憶させておき、コンピュータが
備えている記録媒体に対して、アクセスするためのドラ
イブ装置を介して、或いは、LAN等のネットワークを
介して、コンピュータに設けられたファイル装置にイン
ストールされる。そして、このファイル装置から処理に
必要なプログラムステップを主記憶に読み出し、主制御
部が実行するものである。
【0089】
【発明の効果】以上説明したように、本発明によれば次
のような効果がある。 (1):テキスト情報変換手段でテキスト情報群より指
定された分析の単位となるテキスト単位群を作成し、距
離計算手段で該作成したテキスト単位群から単語を抽出
し、該抽出した単語・テキスト単位間、単語・単語間、
テキスト単位・テキスト単位間のうち少なくとも一つの
間の距離を計算し、分析手段で該計算した距離情報をも
とに分析を行うため、柔軟な目的に応じて、入力テキス
ト情報をさまざまな角度から容易に分析を行える。
【0090】(2):名前付与手段でテキスト単位群
に、指定された方法で名前を付け、分析対象限定手段で
指定された名前のパターンに合致するものだけを分析の
対象にするため、テキスト単位の名前にテキスト情報群
の属性情報を埋め込むような指定を行っておけば、名前
のパターンを指定することにより、特別な前処理なし
に、目的に応じて分析対象とするテキスト情報群を制限
することができる。
【0091】(3):属性値付与手段で前記テキスト単
位群に、指定された方法で属性値を付け、分析対象限定
手段で指定された属性値を持つものだけを分析の対象に
するため、特別な前処理なしに、目的に応じて分析対象
とするテキスト情報群を制限することができる。
【0092】(4):距離計算手段で前記テキスト単位
群に付けられた名前のパターンから、単語・テキスト単
位間、単語・単語間、テキスト単位・テキスト単位間の
うち少なくとも一つの間の距離を計算するため、入力テ
キスト情報群の中で関連のあったテキスト単位群に、共
通する名前を付けることによって、もともと持っていた
関連性の情報を失うことなく分析を行うことができる。
【0093】(5):距離計算手段で前記テキスト単位
群に付けられた属性値のパターンから、単語・テキスト
単位間、単語・単語間、テキスト単位・テキスト単位間
のうち少なくとも一つの間の距離を計算するため、入力
テキスト情報群の中で関連のあったテキスト単位群に、
共通する属性値を付けることによって、もともと持って
いた関連性の情報を失うことなく分析を行うことができ
る。
【0094】(6):テキスト情報群より指定された分
析の単位となるテキスト単位群を作成するテキスト情報
変換手段と、該作成したテキスト単位群から単語を抽出
し、該抽出した単語・テキスト単位間、単語・単語間、
テキスト単位・テキスト単位間のうち少なくとも一つの
間の距離を計算する距離計算手段と、該計算した距離情
報をもとに分析を行う分析手段として、コンピュータを
機能させるためのプログラムを記録したコンピュータ読
み取り可能な記録媒体とするため、この記録媒体のプロ
グラムをコンピュータにインストールすることで、柔軟
な目的に応じて、入力テキスト情報群をさまざまな角度
から容易に分析を行えるテキスト情報の分析装置を容易
に提供することができる。
【図面の簡単な説明】
【図1】本発明の原理説明図である。
【図2】実施の形態におけるテキスト単位群を自動作成
する分析装置の説明図である。
【図3】実施の形態におけるテキスト単位群を自動作成
するシステム構成の説明図である。
【図4】実施の形態におけるテキスト単位群に名前を付
ける分析装置の説明図である。
【図5】実施の形態におけるテキスト単位群に名前を付
けるシステム構成の説明図である。
【図6】実施の形態におけるテキスト単位群に属性値を
付ける分析装置の説明図である。
【図7】実施の形態におけるテキスト単位群に属性値を
付けるシステム構成の説明図である。
【図8】実施の形態におけるテキスト単位群の名前のパ
ターンから距離を計算する分析装置の説明図である。
【図9】実施の形態におけるテキスト単位群の名前のパ
ターンから距離を計算するシステム構成の説明図であ
る。
【図10】実施の形態におけるテキスト単位群の属性値
のパターンから距離を計算する分析装置の説明図であ
る。
【図11】実施の形態におけるテキスト単位群の属性値
のパターンから距離を計算するシステム構成の説明図で
ある。
【図12】実施の形態におけるアンケート結果表の説明
図である。
【符号の説明】
1a テキスト情報群 6a テキスト情報変換手段 7a 距離計算手段 8a 分析手段 15a 入力手段 16a 出力手段

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】テキスト情報群より指定された分析の単位
    となるテキスト単位群を作成するテキスト情報変換手段
    と、 該作成したテキスト単位群から単語を抽出し、該抽出し
    た単語・テキスト単位間、単語・単語間、テキスト単位
    ・テキスト単位間のうち少なくとも一つの間の距離を計
    算する距離計算手段と、 該計算した距離情報をもとに分析を行う分析手段とを備
    えることを特徴としたテキスト情報の分析装置。
  2. 【請求項2】前記テキスト単位群に、指定された方法で
    名前を付ける名前付与手段と、 指定された名前のパターンに合致するものだけを分析の
    対象にする分析対象限定手段とを備えることを特徴とし
    た請求項1記載のテキスト情報の分析装置。
  3. 【請求項3】前記テキスト単位群に、指定された方法で
    属性値を付ける属性値付与手段と、 指定された属性値を持つものだけを分析の対象にする分
    析対象限定手段とを備えることを特徴とした請求項1記
    載のテキスト情報の分析装置。
  4. 【請求項4】前記テキスト単位群に付けられた名前のパ
    ターンから、単語・テキスト単位間、単語・単語間、テ
    キスト単位・テキスト単位間のうち少なくとも一つの間
    の距離を計算する距離計算手段とを備えることを特徴と
    した請求項2記載のテキスト情報の分析装置。
  5. 【請求項5】前記テキスト単位群に付けられた属性値の
    パターンから、単語・テキスト単位間、単語・単語間、
    テキスト単位・テキスト単位間のうち少なくとも一つの
    間の距離を計算する距離計算手段とを備えることを特徴
    とした請求項3記載のテキスト情報の分析装置。
  6. 【請求項6】テキスト情報群より指定された分析の単位
    となるテキスト単位群を作成するテキスト情報変換手段
    と、 該作成したテキスト単位群から単語を抽出し、該抽出し
    た単語・テキスト単位間、単語・単語間、テキスト単位
    ・テキスト単位間のうち少なくとも一つの間の距離を計
    算する距離計算手段と、 該計算した距離情報をもとに分析を行う分析手段とし
    て、 コンピュータを機能させるためのプログラムを記録した
    コンピュータ読み取り可能な記録媒体。
JP15347098A 1998-06-03 1998-06-03 テキスト情報分析装置及び記録媒体 Expired - Fee Related JP3641363B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP15347098A JP3641363B2 (ja) 1998-06-03 1998-06-03 テキスト情報分析装置及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP15347098A JP3641363B2 (ja) 1998-06-03 1998-06-03 テキスト情報分析装置及び記録媒体

Publications (2)

Publication Number Publication Date
JPH11345241A true JPH11345241A (ja) 1999-12-14
JP3641363B2 JP3641363B2 (ja) 2005-04-20

Family

ID=15563282

Family Applications (1)

Application Number Title Priority Date Filing Date
JP15347098A Expired - Fee Related JP3641363B2 (ja) 1998-06-03 1998-06-03 テキスト情報分析装置及び記録媒体

Country Status (1)

Country Link
JP (1) JP3641363B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001266060A (ja) * 2000-03-15 2001-09-28 Nec Corp アンケート回答分析システム
JP2006286026A (ja) * 2006-07-28 2006-10-19 Nec Corp 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム
JP2009093650A (ja) * 2007-10-05 2009-04-30 Fujitsu Ltd 文書の段落分析によるその文書のタグの選択
JP2009128949A (ja) * 2007-11-19 2009-06-11 Fuji Xerox Co Ltd グラフ表示装置およびプログラム
CN106776548A (zh) * 2016-12-06 2017-05-31 上海智臻智能网络科技股份有限公司 一种文本的相似度计算的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07325832A (ja) * 1994-05-31 1995-12-12 Fujitsu Ltd 単語使用パターンの時間的変化を利用した検索方法および情報検索装置
JPH0981574A (ja) * 1995-09-14 1997-03-28 Fujitsu Ltd 検索集合表示画面を利用したデータベース検索法およびシステム
JPH10124522A (ja) * 1996-10-22 1998-05-15 Fujitsu Ltd 情報検索装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07325832A (ja) * 1994-05-31 1995-12-12 Fujitsu Ltd 単語使用パターンの時間的変化を利用した検索方法および情報検索装置
JPH0981574A (ja) * 1995-09-14 1997-03-28 Fujitsu Ltd 検索集合表示画面を利用したデータベース検索法およびシステム
JPH10124522A (ja) * 1996-10-22 1998-05-15 Fujitsu Ltd 情報検索装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001266060A (ja) * 2000-03-15 2001-09-28 Nec Corp アンケート回答分析システム
US6876990B2 (en) 2000-03-15 2005-04-05 Nec Corporation Questionnaire analysis system
JP2006286026A (ja) * 2006-07-28 2006-10-19 Nec Corp 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム
JP4539616B2 (ja) * 2006-07-28 2010-09-08 日本電気株式会社 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム
JP2009093650A (ja) * 2007-10-05 2009-04-30 Fujitsu Ltd 文書の段落分析によるその文書のタグの選択
JP2009128949A (ja) * 2007-11-19 2009-06-11 Fuji Xerox Co Ltd グラフ表示装置およびプログラム
CN106776548A (zh) * 2016-12-06 2017-05-31 上海智臻智能网络科技股份有限公司 一种文本的相似度计算的方法和装置
CN106776548B (zh) * 2016-12-06 2019-12-13 上海智臻智能网络科技股份有限公司 一种文本的相似度计算的方法和装置

Also Published As

Publication number Publication date
JP3641363B2 (ja) 2005-04-20

Similar Documents

Publication Publication Date Title
Bolden et al. Bridging the quantitative-qualitative divide: the lexical approach to textual data analysis
KR102056822B1 (ko) 학습 서비스 제공 방법 및 그 장치
CN106503055B (zh) 一种从结构化文本到图像描述的生成方法
Kumar et al. Text mining: concepts, process and applications
Onan et al. Weighted word embeddings and clustering‐based identification of question topics in MOOC discussion forum posts
CN111831802B (zh) 一种基于lda主题模型的城市领域知识检测系统及方法
CN107436916B (zh) 智能提示答案的方法及装置
KR20200052412A (ko) 인공지능 채용 시스템 및 상기 시스템의 채용 방법
Ryan What are standards of rigor for qualitative research
JPH11345241A (ja) テキスト情報の分析装置及び記録媒体
CN111222032B (zh) 舆情分析方法及相关设备
US7580570B2 (en) Accuracy model for recognition signal processing engines
JP5213098B2 (ja) 質問応答方法及びシステム
KR20190102529A (ko) 토픽을 이용한 타겟 분석 장치 및 방법
Alshameri et al. Categorizing top fortune company mission and vision statements via text mining
JP2007164635A (ja) 同義語彙獲得方法及び装置及びプログラム
Melnychuk et al. The quantitative parameters in computer-assisted approach: Author’s lexical choices in the novels by Martin Amis
Ramírez-Noriega et al. ASHuR: Evaluation of the Relation Summary-Content Without Human Reference Using ROUGE.
CN110866393B (zh) 基于领域知识库的简历信息抽取方法及系统
JP2008250409A (ja) 典型文分析装置、その方法及びそのプログラム
Zhai et al. A tutorial on probabilistic topic models for text data retrieval and analysis
JP2003141132A (ja) 情報処理装置およびその方法
Zhao et al. Recursion identify algorithm for gender prediction with Chinese names
Triaji et al. Building a Knowledge Graph on Video Transcript Text Data
Hulliyah et al. Indonesian Affective Word Resources Construction in Valence and Arousal Dimension for Sentiment Analysis

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040629

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050118

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050121

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080128

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090128

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100128

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110128

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110128

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120128

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130128

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130128

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140128

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees