JP2002342324A - テキスト分割方法及び装置及びテキスト分割プログラム及びテキスト分割プログラムを格納した記憶媒体 - Google Patents

テキスト分割方法及び装置及びテキスト分割プログラム及びテキスト分割プログラムを格納した記憶媒体

Info

Publication number
JP2002342324A
JP2002342324A JP2001146872A JP2001146872A JP2002342324A JP 2002342324 A JP2002342324 A JP 2002342324A JP 2001146872 A JP2001146872 A JP 2001146872A JP 2001146872 A JP2001146872 A JP 2001146872A JP 2002342324 A JP2002342324 A JP 2002342324A
Authority
JP
Japan
Prior art keywords
word
text
vector
word string
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001146872A
Other languages
English (en)
Other versions
JP3775239B2 (ja
Inventor
Katsuto Bessho
克人 別所
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2001146872A priority Critical patent/JP3775239B2/ja
Publication of JP2002342324A publication Critical patent/JP2002342324A/ja
Application granted granted Critical
Publication of JP3775239B2 publication Critical patent/JP3775239B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 テキストから正解である意味段落の境界のみ
を過不足なく認定することを可能とする。 【解決手段】 本発明は、テキストを形態素解析して、
単語に分割し、単語の意味を表現するベクトルが格納さ
れている概念ベースを検索することによって形態素解析
処理で得られた各単語に対応するベクトルを取得し、単
語の境界の前後に、ある個数の単語の集合である単語列
をとり、各単語列を構成する単語のベクトルの情報から
前後の単語列の類似尺度または、距離尺度である単語列
結束度を算出し、単語列結束度が類似尺度である場合、
極小である単語境界を、距離尺度である場合、極大であ
る単語境界を、テキストの意味段落の境界と認定する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、テキスト分割方法
及び装置及びテキスト分割プログラム及びテキスト分割
プログラムを格納した記憶媒体に係り、特に、テキスト
を入力とし、当該テキストを意味的なまとまりの単位で
ある意味段落に自動分割するためのテキスト分割方法及
び装置及びテキスト分割プログラム及びテキスト分割プ
ログラムを格納した記憶媒体に関する。
【0002】
【従来の技術】従来のテキスト分割方法としては、M.A.
Hearstによって考案された単位の頻度に基づく単語列の
結束度による方法( 参考文献:Hearst, M.A.,: Multi-Pa
ragraph Segmentation of Expository Text, 32nd Annu
al Meeting of the Association for Computational Li
nguistics, pp.9-16(1994)) がある。
【0003】この方法では、まず、テキストを形態素解
析して単語に分割する。
【0004】次に、図6に示すように、任意の単語境界
の前後に、ある個数の単語の集合である単語列(以下の
説明では、「窓」と記す)をとり、各窓を構成する単語
の頻度ベクトルをとり、前後の窓に対応する頻度ベクト
ル間の余弦測度を単語列結束度として計算する。各単語
境界に対し、この計算を行うことにより、各単語境界に
一つの単語列結束度が対応することになる。
【0005】単語境界が意味段落境界に近づくにつれ、
前後の窓に共通して含まれる単語は一般に少なくなるた
め、単語列結束度は減少していく。そこで、単語列結束
度が極小である単語境界を当該テキストの意味段落の境
界と認定する。
【0006】ここで、ある単語境界位置をi、前の窓を
bl 、後ろの窓をbr とし、単語tのbl 、br におけ
る出現頻度をそれぞれ
【0007】
【数1】 としたとき、iにおける単語列結束度Ci は、
【0008】
【数2】 と表される。
【0009】
【発明が解決しようとする課題】テキストの意味段落の
中途の単語境界位置で、前後の窓に共通して含まれる単
語が少ないことは多い。しかしながら、上記従来のHear
stの方法では、単語の頻度ベクトル間の余弦測度を取っ
ているため、そのような単語境界位置における結束度は
小さくなり、意味段落の境界と認定されることが多い。
このように、上記従来のHearstの方法では、認定した意
味段落の境界にノイズとなるものが多く含まれるという
問題がある。本発明は、上記の点に鑑みなされたもの
で、テキストから正解である意味段落の境界(テキスト
の隣接単語間境界)のみを過不足なく認定できるような
テキスト分割方法及び装置及びテキスト分割プログラム
及びテキスト分割プログラムを格納した記憶媒体を提供
することを目的とする。
【0010】
【課題を解決するための手段】図1は、本発明の原理を
説明するための図である。
【0011】本発明(請求項1)は、テキストを意味的
なまとまりの単位である意味段落に分割するテキスト分
割方法において、テキストを形態素解析して、単語に分
割する形態素解析過程(ステップ1)と、単語の意味を
表現するベクトルが格納されている概念ベースを検索す
ることによって形態素解析過程で得られた各単語に対応
するベクトルを取得する単語ベクトル取得過程(ステッ
プ2)と、単語の境界の前後に、ある個数の単語の集合
である単語列をとり、各単語列を構成する単語のベクト
ルの情報から前後の単語列の類似尺度または、距離尺度
である単語列結束度を算出する単語列結束度算出過程
(ステップ3)と、単語列結束度が類似尺度である場
合、極小である単語境界を、距離尺度である場合、極大
である単語境界を、テキストの意味段落の境界と認定す
る意味段落境界認定過程(ステップ4)とからなる。
【0012】本発明(請求項2)は、単語列結束度算出
過程において、各単語列に対し、該単語列を構成する単
語のベクトルの和ベクトル、または、重心ベクトルを算
出し、単語列結束度として、前後の単語列に対応する和
ベクトルまたは、重心ベクトル間の余弦測度を始めとす
る類似尺度または、距離尺度を算出する。
【0013】本発明(請求項3)は、単語列結束度算出
過程において、各単語列に対し、該単語列を構成する単
語のベクトルの分布から母集団ベクトル分布を推定し、
単語列結束度として、前後の単語列に対応する母集団ベ
クトル分布間のカルバック・リーブラー距離を始めとす
る類似尺度または、距離尺度を算出する。
【0014】図2は、本発明の原理構成図である。
【0015】本発明(請求項4)は、テキストを意味的
なまとまりの単位である意味段落に分割するテキスト分
割装置であって、テキストを形態素解析して、単語に分
割する形態素解析手段20と、単語の意味を表現するベ
クトルが格納されている概念ベース60を検索すること
によって形態素解析手段20で得られた各単語に対応す
るベクトルを取得する単語ベクトル取得手段30と、単
語の境界の前後に、ある個数の単語の集合である単語列
をとり、各単語列を構成する単語のベクトルの情報から
前後の単語列の類似尺度または、距離尺度である単語列
結束度を算出する単語列結束度算出手段40と、単語列
結束度が類似尺度である場合、極小である単語境界を、
距離尺度である場合、極大である単語境界を、テキスト
の意味段落の境界と認定する意味段落境界認定手段50
とを有する。
【0016】本発明(請求項5)は、単語列結束度算出
手段40において、各単語列に対し、該単語列を構成す
る単語のベクトルの和ベクトル、または、重心ベクトル
を算出する手段と、単語列結束度として、前後の単語列
に対応する和ベクトルまたは、重心ベクトル間の余弦測
度を始めとする類似尺度または、距離尺度を算出する手
段とを有する。
【0017】本発明(請求項6)は、単語列結束度算出
手段40において、各単語列に対し、該単語列を構成す
る単語のベクトルの分布から母集団ベクトル分布を推定
する手段と、単語列結束度として、前後の単語列に対応
する母集団ベクトル分布間のカルバック・リーブラ距離
を始めとする類似尺度または、距離尺度を算出する手段
とを有する。
【0018】本発明(請求項7)は、テキストを意味的
なまとまりの単位である意味段落に分割するテキスト分
割プログラムであって、テキストを形態素解析して、単
語に分割する形態素解析プロセスと、単語の意味を表現
するベクトルが格納されている概念ベースを検索するこ
とによって形態素解析プロセスで得られた各単語に対応
するベクトルを取得する単語ベクトル取得プロセスと、
単語の境界の前後に、ある個数の単語の集合である単語
列をとり、各単語列を構成する単語のベクトルの情報か
ら前後の単語列の類似尺度または、距離尺度である単語
列結束度を算出する単語列結束度算出プロセスと、単語
列結束度が類似尺度である場合、極小である単語境界
を、距離尺度である場合、極大である単語境界を、テキ
ストの意味段落の境界と認定する意味段落境界認定プロ
セスとを有する。
【0019】本発明(請求項8)のテキスト分割プログ
ラムは、単語列結束度算出プロセスにおいて、各単語列
に対し、該単語列を構成する単語のベクトルの和ベクト
ル、または、重心ベクトルを算出するプロセスと、単語
列結束度として、前後の単語列に対応する和ベクトルま
たは、重心ベクトル間の余弦測度を始めとする類似尺度
または、距離尺度を算出するプロセスとを有する。
【0020】本発明(請求項9)のテキスト分割プログ
ラムは、単語列結束度算出プロセスにおいて、各単語列
に対し、該単語列を構成する単語のベクトルの分布から
母集団ベクトル分布を推定するプロセスと、単語列結束
度として、前後の単語列に対応する母集団ベクトル分布
間のカルバック・リーブラー距離を始めとする類似尺度
または、距離尺度を算出するプロセスとを有する。
【0021】本発明(請求項10)は、テキストを意味
的なまとまりの単位である意味段落に分割するテキスト
分割プログラムを格納した記憶媒体であって、テキスト
を形態素解析して、単語に分割する形態素解析プロセス
と、単語の意味を表現するベクトルが格納されている概
念ベースを検索することによって形態素解析プロセスで
得られた各単語に対応するベクトルを取得する単語ベク
トル取得プロセスと、単語の境界の前後に、ある個数の
単語の集合である単語列をとり、各単語列を構成する単
語のベクトルの情報から前後の単語列の類似尺度また
は、距離尺度である単語列結束度を算出する単語列結束
度算出プロセスと、単語列結束度が類似尺度である場
合、極小である単語境界を、距離尺度である場合、極大
である単語境界を、テキストの意味段落の境界と認定す
る意味段落境界認定プロセスとを有する。
【0022】本発明(請求項11)のテキスト分割プロ
グラムを格納した記憶媒体は、単語列結束度算出プロセ
スにおいて、各単語列に対し、該単語列を構成する単語
のベクトルの和ベクトル、または、重心ベクトルを算出
するプロセスと、単語列結束度として、前後の単語列に
対応する和ベクトルまたは、重心ベクトル間の余弦測度
を始めとする類似尺度または、距離尺度を算出するプロ
セスとを有する。
【0023】本発明(請求項12)のテキスト分割プロ
グラムを格納した記憶媒体は、単語列結束度算出プロセ
スにおいて、各単語列に対し、該単語列を構成する単語
のベクトルの分布から母集団ベクトル分布を推定するプ
ロセスと、単語列結束度として、前後の単語列に対応す
る母集団ベクトル間のカルバック・リーブラー距離を始
めとする類似尺度または、距離尺度を算出するプロセス
を有する。上記のように、本発明では、単語の意味を表
現するベクトルが格納されている概念ベースを用いる。
この概念ベースにおける単語ベクトルは、意味的に類似
している単語間ほど距離が近く、意味的に類似していな
い単語間ほど距離が遠くなるように値が設定されてい
る。正解の意味段落境界の前の窓(直前の単語列)に含
まれる単語と後ろの窓(直後の単語列)に含まれる単語
とは意味的類似性が低いことにより、そのベクトル間の
距離も遠くなるため、単語列の結束度は、類似尺度のと
き低くなり、距離尺度のとき高くなる。
【0024】また、意味段落の中途の単語境界位置にお
いては、前の窓(直前の単語列)に含まれる単語と後ろ
の窓(直後の単語列)に含まれる単語とは意味的類似性
が高い。前後の窓(直前・直後の単語列)に共通して含
まれる単語がない場合でも、同様のことが言える。従っ
て、そのベクトル間の距離も近くなるため、単語列の結
束度は、類似尺度のとき高くなり、距離尺度のとき低く
なる。
【0025】そこで、単語列結束度が類似尺度である場
合、極小である単語境界を、距離尺度である場合、極大
である単語境界を、当該テキストの意味段落の境界と認
定することにより、正解である意味段落の境界のみを過
不足なく認定できるようになる。
【0026】
【発明の実施の形態】図3は、本発明の一実施の形態に
おけるテキスト分割装置の構成を示す。 同図に示すテ
キスト分割装置は、テキスト入力部10、形態素解析部
20、単語ベクトル取得部30、単語列結束度算出部4
0、意味段落境界認定部50、概念ベース60から構成
される。
【0027】概念ベース60は、単語の意味を表現する
単語ベクトルが格納されており、当該単語ベクトルは、
意味的に類似している単語間程距離が近く、意味的に類
似していない単語間ほど距離が遠くなるように値が設定
されており、データベースに格納される。
【0028】テキスト入力部10は、処理対象となるテ
キストを入力する。
【0029】形態素解析部20は、入力されたテキスト
を形態素解析して単語に分割し、その形態素解析結果を
単語ベクトル取得部30に転送する。
【0030】単語ベクトル取得部30は、概念ベース6
0を検索することにより、形態素解析の結果得られた各
単語に対応するベクトルを取得する。
【0031】単語列結束度算出部40は、図6に示すよ
うに、任意の単語境界の前後に、ある個数の単語の集合
である窓(単語列)をとり、各窓を構成する単語のベク
トルの情報から、前後の窓の類似尺度または、距離尺度
である単語列結束度を算出する。各単語境界に対し、こ
の計算を行うことにより、各単語境界に一つの単語列結
束度が対応することになる。また、単語列結束度を求め
る際に、単語列結束度算出部40は、各窓に対し、当該
窓を構成する単語のベクトルの和、または、重心をと
り、単語列結束度として、前後の窓に対応する和また
は、重心ベクトル間の余弦測度を始めとする類似尺度ま
たは、距離尺度をとる。あるいは、各窓に対し、当該窓
を構成する単語のベクトルの分布から母集団分布を推定
し、単語列結束度として、前後の窓に対応する母集団分
布間のカルバック・リープラー距離を始めとする類似尺
度または、距離尺度をとる。
【0032】意味段落境界認定部50は、単語列結束度
が類似尺度である場合、極小である単語境界を、距離尺
度である場合、極大である単語境界を当該テキストの意
味段落の境界と認定する。
【0033】
【実施例】以下、図面と共に本発明の実施例を説明す
る。
【0034】図4は、本発明の一実施例のテキスト分割
装置の動作のフローチャートである。
【0035】ステップ101) 形態素解析部20は、
入力テキストを形態素解析して単語に分割する。
【0036】ステップ102) 単語ベクトル取得部3
0は、単語の意味を表現するベクトルが格納されている
概念ベース60を検索することによって、ステップ10
1の形態素解析処理により得られた各単語に対応するベ
クトルを取得する。
【0037】ステップ103) 単語列結束度算出部4
0は、前述の図6に示すように、任意の単語境界の前後
に、ある個数の単語の集合である窓を取り、各窓を構成
する単語のベクトルの情報から、前後の窓の類似尺度ま
たは、距離尺度である単語列結束度を算出する。単語列
結束度を算出する単語境界は、1単語の刻み幅でとって
いく。各単語境界に対する窓の幅は単語の一定個数分と
る。窓の幅をa個としたとき、テキストの最初のa単語
以内の単語境界の前の窓と、最後のa単語以内の単語境
界の後ろの窓の幅は、a個に足りないが、a個に足りな
い窓はとれる最大幅をとって単語列結束度を算出する。
あるいは、前後の窓の幅が、a個とれる単語境界のみ単
語列結束度を算出する。
【0038】ステップ104) 意味段落境界認定部5
0は、単語列結束度が類似尺度である場合、極小である
単語境界を、距離尺度である場合、極大である単語境界
を、当該テキストの意味段落の境界と認定する。ここで
いう極値とは、テキスト全体における極値である。
【0039】次に、概念ベース60について説明する。
【0040】図5は、本発明の一実施例の概念ベースの
データの例を示す。
【0041】概念ベース60は、各単語毎に、p次元の
ベクトル値が付与されている。概念ベース60中の単語
は、名詞や動詞、形容詞等の自立語である。概念ベース
60における単語ベクトルは、意味的に類似している単
語間ほど距離が近く、意味的に類似していない単語間ほ
ど距離が遠くなるように値が設定されている。
【0042】概念ベースの例としては、特願平4−25
1513の「類似性判別装置」や、特願平6−0960
11の「類似性判別利用データ精錬方法及びこの方法を
実施する装置」で紹介されているデータベースがある。
【0043】また、Deerwesterの論文(Deerwester,S.,D
umais,S.T.,Furnas, G. W.,Landauer,T.K.,and Harshma
n, R.:Indexing by Latent Semantic Analysis, Journa
l ofthe American Society for Information Science,p
p.391-407(1990)) では、単語の文書における頻度を記
録した単語・文書間の共起行列を特異値分解により次元
数を縮退させた行列に変換しているが、この変換後の行
列も概念ベースの一例である。Schutze の論文(Schutz
e,H.:Dimensions of Meaning, Proc. of Supercomputin
g '92,pp.787-796(1992))では、コーパス中の単語間の
共起頻度を記録した単語・単語間の共起行列を特異値分
解により次元数を縮退させた行列に変換しているが、こ
の変換後の行列も概念ベースの一例である。
【0044】前述のステップ102における単語ベクト
ル取得部30において、概念ベース60を検索すること
によって、ステップ101の形態素解析処理で得られた
各単語に対応するベクトルを取得する。
【0045】次に、上記のステップ103における単語
列結束度算出部40の処理について説明する。
【0046】単語列結束度算出部40は、各窓に対し、
当該窓を構成する単語のベクトルの和または、重心をと
り、単語列結束度として、前後の窓に対応する和また
は、重心ベクトル間の余弦測度を始めとする類似尺度ま
たは、距離尺度をとる。
【0047】余弦測度は、類似尺度である。ここで、あ
る単語境界位置をi、前の窓に含まれる単語集合をL、
後ろの窓に含まれる単語の集合をRとし、単語tに対応
する概念ベース60中のベクトルをνt としたとき、前
後の窓に対応する和ベクトル間の余弦測度Ci は、以下
のように表される。なお、以下の式における“・”は、
ベクトル間の内積である。
【0048】
【数3】 余弦測度は、2つのベクトル間の角度で決まるので、前
後の窓に対応する重心ベクトル間の余弦測度は、和ベク
トル間の余弦測度と一致する。
【0049】また、前後の窓に対応するベクトル間の距
離尺度として、ベクトルを分布と見做して、分布間の距
離尺度であるカルバック・リーブラ距離をとる方法もあ
る。カルバック・リーブラー距離は、以下のように表さ
れる。前の窓に対応する和ベクトルωL を以下のように
成分表示したとする。
【0050】
【数4】 ここで、aL1>0(1≦i≦p)と仮定する。
【0051】また、あるベクトル値が表現する意味と、
そのベクトル値のスカラ倍の値が表現する意味を同一視
できるように概念ベースが構成されているとする。この
とき、以下のようなωL の各成分の和が1となるように
正規化したベクトルωL ’とωL を同一視できる。
【0052】
【数5】 後ろの窓に対応する和ベクトルのωR についても同様に
正規化したベクトル
【0053】
【数6】 を作る。
【0054】
【数7】 ベクトルωL ’、ωR ’間のカルバック・リーブラ距離
として、KL(ωR ’,ωL ’)をとってもよい。
【0055】上記のカルバック・リーブラ距離は、2つ
の分布に対して対称ではないので、双方の分布からみた
カルバック・リーブラ距離の和であるJeffery 距離を距
離尺度としてとる方法もある。Jeffery 距離J(ωL
’,ωR ’)は、以下のように表される。
【0056】
【数8】 次に、上記のステップ103における単語列結束度算出
部40の処理について説明する。
【0057】単語列結束度算出部40では、各窓に対
し、当該窓を構成する単語のベクトルの分布から母集団
分布を推定し、単語列結束度として前後の窓に対応する
母集団分布間のカルバック・リーブラ距離を始めとする
類似尺度または、距離尺度をとる。単語ベクトルの次元
をp次元としたとき、単語ベクトルの集合を、p次元空
間上の連続的なある確率分布に従う標本の集合と見て、
標本集合から元の確率分布を推定する訳である。
【0058】前述したように、カルバック・リーブラ距
離は距離尺度である。カルバック・リーブラ距離の算出
は、具体的には以下のようにする。
【0059】前の窓を構成する単語ベクトルの集合
【0060】
【数9】 から母集団分布f(x)(x∈Rp )を推定する。母集
団分布の推定には、母集団分布としてパラメトリックな
分布をとる方法と、ノンパラメトリックな分布をとる方
法がある。パラメトリックな分布の一例としては、正規
分布があり、これを決定付けるパラメータは、母平均と
母分散共分散行列である。VL から最尤推定等の手法に
より、これらのパラメータを推定することにより、母集
団分布f(x)(x∈Rp )を推定する。ここで、母平
均μは、次のように推定される。
【0061】なお、|L|は、Lの要素数である。
【0062】
【数10】 また、母分散共分散行列Ωは、次のように推定される。
(νr −μ)は縦ベクトルであり、(νr −μ)’は、
それを転置した横ベクトルである。
【0063】
【数11】 推定したμ、Ωにより、正規分布である母集団分布f
(x)(x∈Rp )は次のように表される。
【0064】
【数12】 後ろの窓を構成する単語ベクトルの集合からも同様に母
集団分布g(x)(x∈Rp )を推定する。
【0065】確率分布f(x),g(x)間のカルバッ
ク・リーブラ距離KL(f(x),g(x))は、
【0066】
【数13】 となる。
【0067】確率分布f(x),g(x)間のカルバッ
ク・リーブラ距離として、KL(f(x),g(x))
をとってもよい。
【0068】上記のカルバック・リーブラ距離は、2つ
の確率分布に対して対称ではないので、双方の確率分布
からみたカルバック・リーブラ距離の和であるJeffery
距離を距離尺度としてとる方法もある。Jeffery 距離J
(f(x),g(x))は、以下のように表される。
【0069】
【数14】 実際のカルバック・リーブラ距離や、Jeffery 距離の算
出では、積分領域を分割し、各分割領域のある一点に対
応する積分関数の数値に基づいて積分値の近似値を求め
るといった離散的な数値計算手法をとることができる。
【0070】次に、ステップ104における意味段落境
界認定部50の処理について説明する。
【0071】ステップ103において、上記の方法によ
り各単語境界に対応する単語列結束度を計算した後、意
味段落境界認定部50において、単語列結束度が類似尺
度である場合、極小である単語境界を、距離尺度である
場合、極大である単語境界を、当該テキストの意味段落
の境界と認定する。ここでいう極値とは、テキスト全体
における極値である。
【0072】また、上記の実施例では、図4のフローチ
ャートに基づいて説明したが、図4に示す一連の動作を
プログラムとして構築し、概念ベースをテキスト分割装
置として利用されるコンピュータのバッファ等に格納
し、構築されたプログラムをCPUにインストールして
実行したり、ネットワークを介して流通させることも可
能である。
【0073】また、構築されたプログラムをテキスト分
割装置として利用されるコンピュータに接続されるハー
ドディスク装置や、フロッピー(登録商標)ディスク、
CD−ROM等の可搬記憶媒体に格納しておき、本発明
を実施する際にインストールすることにより、容易に本
発明を実現できる。
【0074】なお、本発明は、上記の実施例に限定され
ることなく、特許請求の範囲内において、種々変更・応
用が可能である。
【0075】
【発明の効果】上述のように、本発明によれば、単語の
意味を表現するベクトルの情報から単語列結束度を算出
することにより、正解である意味段落の境界のみを過不
足なく認定できるようになる。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の一実施の形態におけるテキスト分割装
置の構成図である。
【図4】本発明の一実施例のテキスト分割装置の動作の
フローチャートである。
【図5】本発明の一実施例の概念ベースのデータの例で
ある。
【図6】単語列結束度算出を説明するための図である。
【符号の説明】
10 テキスト入力部 20 形態素解析手段、形態素解析部 30 単語ベクトル取得手段、単語ベクトル取得部 40 単語列結束度算出手段、単語列結束度算出部 50 隣接単語列認定手段、意味段落境界認定部 60 概念ベース

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 テキストを意味的なまとまりの単位であ
    る意味段落に分割するテキスト分割方法において、 前記テキストを形態素解析して、単語に分割する形態素
    解析過程と、 単語の意味を表現するベクトルが格納されている概念ベ
    ースを検索することによって前記形態素解析過程で得ら
    れた各単語に対応するベクトルを取得する単語ベクトル
    取得過程と、 単語の境界の前後に、ある個数の単語の集合である単語
    列をとり、各単語列を構成する単語のベクトルの情報か
    ら前後の単語列の類似尺度または、距離尺度である単語
    列結束度を算出する単語列結束度算出過程と、 単語列結束度が類似尺度である場合、極小である単語境
    界を、距離尺度である場合、極大である単語境界を、前
    記テキストの意味段落の境界と認定する意味段落境界認
    定過程とからなることを特徴とするテキスト分割方法。
  2. 【請求項2】 前記単語列結束度算出過程において、 前記各単語列に対し、該単語列を構成する単語のベクト
    ルの和ベクトル、または、重心ベクトルを算出し、 前記単語列結束度として、前後の単語列に対応する和ベ
    クトルまたは、重心ベクトル間の余弦測度をを始めとす
    る類似尺度または、距離尺度を算出する請求項1記載の
    テキスト分割方法。
  3. 【請求項3】 前記単語列結束度算出過程において、 前記各単語列に対し、該単語列を構成する単語のベクト
    ルの分布から母集団ベクトル分布を推定し、 前記単語列結束度として、前後の単語列に対応する母集
    団ベクトル分布間のカルバック・リーブラー距離を始め
    とする類似尺度または、距離尺度を算出する請求項1記
    載のテキスト分割方法。
  4. 【請求項4】 テキストを意味的なまとまりの単位であ
    る意味段落に分割するテキスト分割装置であって、 前記テキストを形態素解析して、単語に分割する形態素
    解析手段と、 単語の意味を表現するベクトルが格納されている概念ベ
    ースと、 前記概念ベースを検索することによって前記形態素解析
    手段で得られた各単語に対応するベクトルを取得する単
    語ベクトル取得手段と、 単語の境界の前後に、ある個数の単語の集合である単語
    列をとり、各単語列を構成する単語のベクトルの情報か
    ら前後の単語列の類似尺度または、距離尺度である単語
    列結束度を算出する単語列結束度算出手段と、 単語列結束度が類似尺度である場合、極小である単語境
    界を、距離尺度である場合、極大である単語境界を、前
    記テキストの意味段落の境界と認定する意味段落境界認
    定手段とを有することを特徴とするテキスト分割装置。
  5. 【請求項5】 前記単語列結束度算出手段は、 前記各単語列に対し、該単語列を構成する単語のベクト
    ルの和ベクトル、または、重心ベクトルを算出する手段
    と、 前記単語列結束度として、前後の単語列に対応する和ベ
    クトルまたは、重心ベクトル間の余弦測度をを始めとす
    る類似尺度または、距離尺度を算出する手段とを有する
    請求項4記載のテキスト分割装置。
  6. 【請求項6】 前記単語列結束度算出手段は、 前記各単語列に対し、該単語列を構成する単語のベクト
    ルの分布から母集団ベクトル分布を推定する手段と、 前記単語列結束度として、前後の単語列に対応する母集
    団ベクトル分布間のカルバック・リーブラー距離を始め
    とする類似尺度または、距離尺度を算出する手段とを有
    する請求項4記載のテキスト分割装置。
  7. 【請求項7】 テキストを意味的なまとまりの単位であ
    る意味段落に分割するテキスト分割プログラムであっ
    て、 前記テキストを形態素解析して、単語に分割する形態素
    解析プロセスと、 単語の意味を表現するベクトルが格納されている概念ベ
    ースを検索することによって前記形態素解析プロセスで
    得られた各単語に対応するベクトルを取得する単語ベク
    トル取得プロセスと、 単語の境界の前後に、ある個数の単語の集合である単語
    列をとり、各単語列を構成する単語のベクトルの情報か
    ら前後の単語列の類似尺度または、距離尺度である単語
    列結束度を算出する単語列結束度算出プロセスと、 単語列結束度が類似尺度である場合、極小である単語境
    界を、距離尺度である場合、極大である単語境界を、前
    記テキストの意味段落の境界と認定する意味段落境界認
    定プロセスとを有することを特徴とするテキスト分割プ
    ログラム。
  8. 【請求項8】 前記単語列結束度算出プロセスは、 前記各単語列に対し、該単語列を構成する単語のベクト
    ルの和ベクトル、または、重心ベクトルを算出するプロ
    セスと、 前記単語列結束度として、前後の単語列に対応する和ベ
    クトルまたは、重心ベクトル間の余弦測度を始めとする
    類似尺度または、距離尺度を算出するプロセスとを有す
    る請求項7記載のテキスト分割プログラム。
  9. 【請求項9】 前記単語列結束度算出プロセスは、 前記各単語列に対し、該単語列を構成する単語のベクト
    ルの分布から母集団ベクトル分布を推定するプロセス
    と、 前記単語列結束度として、前後の単語列に対応する母集
    団ベクトル分布間のカルバック・リーブラー距離を始め
    とする類似尺度または、距離尺度を算出するプロセスと
    を有する請求項7記載のテキスト分割プログラム。
  10. 【請求項10】 テキストを意味的なまとまりの単位で
    ある意味段落に分割するテキスト分割プログラムを格納
    した記憶媒体であって、 前記テキストを形態素解析して、単語に分割する形態素
    解析プロセスと、 単語の意味を表現するベクトルが格納されている概念ベ
    ースを検索することによって前記形態素解析プロセスで
    得られた各単語に対応するベクトルを取得する単語ベク
    トル取得プロセスと、 単語の境界の前後に、ある個数の単語の集合である単語
    列をとり、各単語列を構成する単語のベクトルの情報か
    ら前後の単語列の類似尺度または、距離尺度である単語
    列結束度を算出する単語列結束度算出プロセスと、 単語列結束度が類似尺度である場合、極小である単語境
    界を、距離尺度である場合、極大である単語境界を、前
    記テキストの意味段落の境界と認定する意味段落境界認
    定プロセスとを有することを特徴とするテキスト分割プ
    ログラムを格納した記憶媒体。
  11. 【請求項11】 前記単語列結束度算出プロセスは、 前記各単語列に対し、該単語列を構成する単語のベクト
    ルの和ベクトル、または、重心ベクトルを算出するプロ
    セスと、 前記単語列結束度として、前後の単語列に対応する和ベ
    クトルまたは、重心ベクトル間の余弦測度を始めとする
    類似尺度または、距離尺度を算出するプロセスとを有す
    る請求項10記載のテキスト分割プログラムを格納した
    記憶媒体。
  12. 【請求項12】 前記単語列結束度算出プロセスは、 前記各単語列に対し、該単語列を構成する単語のベクト
    ルの分布から母集団ベクトル分布を推定するプロセス
    と、 前記単語列結束度として、前後の単語列に対応する母集
    団ベクトル分布間のカルバック・リーブラー距離を始め
    とする類似尺度または、距離尺度を算出するプロセスと
    を有する請求項10記載のテキスト分割プログラムを格
    納した記憶媒体。
JP2001146872A 2001-05-16 2001-05-16 テキスト分割方法及び装置及びテキスト分割プログラム及びテキスト分割プログラムを格納した記憶媒体 Expired - Fee Related JP3775239B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001146872A JP3775239B2 (ja) 2001-05-16 2001-05-16 テキスト分割方法及び装置及びテキスト分割プログラム及びテキスト分割プログラムを格納した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001146872A JP3775239B2 (ja) 2001-05-16 2001-05-16 テキスト分割方法及び装置及びテキスト分割プログラム及びテキスト分割プログラムを格納した記憶媒体

Publications (2)

Publication Number Publication Date
JP2002342324A true JP2002342324A (ja) 2002-11-29
JP3775239B2 JP3775239B2 (ja) 2006-05-17

Family

ID=18992445

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001146872A Expired - Fee Related JP3775239B2 (ja) 2001-05-16 2001-05-16 テキスト分割方法及び装置及びテキスト分割プログラム及びテキスト分割プログラムを格納した記憶媒体

Country Status (1)

Country Link
JP (1) JP3775239B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008542951A (ja) * 2005-06-06 2008-11-27 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア 関連性ネットワーク
JP2009015795A (ja) * 2007-07-09 2009-01-22 Nippon Telegr & Teleph Corp <Ntt> テキストセグメンテーション装置、テキストセグメンテーション方法、プログラム及び記録媒体
JP2016538616A (ja) * 2013-09-29 2016-12-08 ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド 知識抽出方法及びシステム
CN110020420A (zh) * 2018-01-10 2019-07-16 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备和存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008542951A (ja) * 2005-06-06 2008-11-27 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア 関連性ネットワーク
JP2009015795A (ja) * 2007-07-09 2009-01-22 Nippon Telegr & Teleph Corp <Ntt> テキストセグメンテーション装置、テキストセグメンテーション方法、プログラム及び記録媒体
JP2016538616A (ja) * 2013-09-29 2016-12-08 ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド 知識抽出方法及びシステム
CN110020420A (zh) * 2018-01-10 2019-07-16 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备和存储介质
CN110020420B (zh) * 2018-01-10 2023-07-21 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
JP3775239B2 (ja) 2006-05-17

Similar Documents

Publication Publication Date Title
US11182564B2 (en) Text recommendation method and apparatus, and electronic device
US11093854B2 (en) Emoji recommendation method and device thereof
CN107832414B (zh) 用于推送信息的方法和装置
US20210201143A1 (en) Computing device and method of classifying category of data
JP2940501B2 (ja) ドキュメント分類装置及び方法
US20170278510A1 (en) Electronic device, method and training method for natural language processing
US8321418B2 (en) Information processor, method of processing information, and program
JP4904496B2 (ja) 文書類似性導出装置及びそれを用いた回答支援システム
CN109271542A (zh) 封面确定方法、装置、设备及可读存储介质
JP2006251866A (ja) 情報処理装置および方法、プログラム、並びに記録媒体
JP2022169757A (ja) 探索装置、探索方法及び探索プログラム
JP2003223456A (ja) 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法
CN109086265A (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN111428503B (zh) 同名人物的识别处理方法及处理装置
CN112818091A (zh) 基于关键词提取的对象查询方法、装置、介质与设备
Staš et al. Classification of heterogeneous text data for robust domain-specific language modeling
CN111797204A (zh) 文本匹配方法、装置、计算机设备及存储介质
JP4524640B2 (ja) 情報処理装置および方法、並びにプログラム
JP2004157931A (ja) 意図文型種別抽出方式
JP2002342324A (ja) テキスト分割方法及び装置及びテキスト分割プログラム及びテキスト分割プログラムを格納した記憶媒体
JP3178406B2 (ja) 階層型文章分類装置およびプログラムを記録した機械読み取り可能な記録媒体
JP5013821B2 (ja) コンテンツを分類する装置、方法、プログラム
JP3925418B2 (ja) トピック境界決定装置及びプログラム
KR101769035B1 (ko) 한국어 텍스트 클러스터링 시스템 및 방법
CN114254112A (zh) 用于敏感信息预分类的方法、系统、装置和介质

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051115

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060131

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060213

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090303

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100303

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110303

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110303

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120303

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees