JP2002342324A - テキスト分割方法及び装置及びテキスト分割プログラム及びテキスト分割プログラムを格納した記憶媒体 - Google Patents
テキスト分割方法及び装置及びテキスト分割プログラム及びテキスト分割プログラムを格納した記憶媒体Info
- Publication number
- JP2002342324A JP2002342324A JP2001146872A JP2001146872A JP2002342324A JP 2002342324 A JP2002342324 A JP 2002342324A JP 2001146872 A JP2001146872 A JP 2001146872A JP 2001146872 A JP2001146872 A JP 2001146872A JP 2002342324 A JP2002342324 A JP 2002342324A
- Authority
- JP
- Japan
- Prior art keywords
- word
- text
- vector
- word string
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
を過不足なく認定することを可能とする。 【解決手段】 本発明は、テキストを形態素解析して、
単語に分割し、単語の意味を表現するベクトルが格納さ
れている概念ベースを検索することによって形態素解析
処理で得られた各単語に対応するベクトルを取得し、単
語の境界の前後に、ある個数の単語の集合である単語列
をとり、各単語列を構成する単語のベクトルの情報から
前後の単語列の類似尺度または、距離尺度である単語列
結束度を算出し、単語列結束度が類似尺度である場合、
極小である単語境界を、距離尺度である場合、極大であ
る単語境界を、テキストの意味段落の境界と認定する。
Description
及び装置及びテキスト分割プログラム及びテキスト分割
プログラムを格納した記憶媒体に係り、特に、テキスト
を入力とし、当該テキストを意味的なまとまりの単位で
ある意味段落に自動分割するためのテキスト分割方法及
び装置及びテキスト分割プログラム及びテキスト分割プ
ログラムを格納した記憶媒体に関する。
Hearstによって考案された単位の頻度に基づく単語列の
結束度による方法( 参考文献:Hearst, M.A.,: Multi-Pa
ragraph Segmentation of Expository Text, 32nd Annu
al Meeting of the Association for Computational Li
nguistics, pp.9-16(1994)) がある。
析して単語に分割する。
の前後に、ある個数の単語の集合である単語列(以下の
説明では、「窓」と記す)をとり、各窓を構成する単語
の頻度ベクトルをとり、前後の窓に対応する頻度ベクト
ル間の余弦測度を単語列結束度として計算する。各単語
境界に対し、この計算を行うことにより、各単語境界に
一つの単語列結束度が対応することになる。
前後の窓に共通して含まれる単語は一般に少なくなるた
め、単語列結束度は減少していく。そこで、単語列結束
度が極小である単語境界を当該テキストの意味段落の境
界と認定する。
bl 、後ろの窓をbr とし、単語tのbl 、br におけ
る出現頻度をそれぞれ
中途の単語境界位置で、前後の窓に共通して含まれる単
語が少ないことは多い。しかしながら、上記従来のHear
stの方法では、単語の頻度ベクトル間の余弦測度を取っ
ているため、そのような単語境界位置における結束度は
小さくなり、意味段落の境界と認定されることが多い。
このように、上記従来のHearstの方法では、認定した意
味段落の境界にノイズとなるものが多く含まれるという
問題がある。本発明は、上記の点に鑑みなされたもの
で、テキストから正解である意味段落の境界(テキスト
の隣接単語間境界)のみを過不足なく認定できるような
テキスト分割方法及び装置及びテキスト分割プログラム
及びテキスト分割プログラムを格納した記憶媒体を提供
することを目的とする。
説明するための図である。
なまとまりの単位である意味段落に分割するテキスト分
割方法において、テキストを形態素解析して、単語に分
割する形態素解析過程(ステップ1)と、単語の意味を
表現するベクトルが格納されている概念ベースを検索す
ることによって形態素解析過程で得られた各単語に対応
するベクトルを取得する単語ベクトル取得過程(ステッ
プ2)と、単語の境界の前後に、ある個数の単語の集合
である単語列をとり、各単語列を構成する単語のベクト
ルの情報から前後の単語列の類似尺度または、距離尺度
である単語列結束度を算出する単語列結束度算出過程
(ステップ3)と、単語列結束度が類似尺度である場
合、極小である単語境界を、距離尺度である場合、極大
である単語境界を、テキストの意味段落の境界と認定す
る意味段落境界認定過程(ステップ4)とからなる。
過程において、各単語列に対し、該単語列を構成する単
語のベクトルの和ベクトル、または、重心ベクトルを算
出し、単語列結束度として、前後の単語列に対応する和
ベクトルまたは、重心ベクトル間の余弦測度を始めとす
る類似尺度または、距離尺度を算出する。
過程において、各単語列に対し、該単語列を構成する単
語のベクトルの分布から母集団ベクトル分布を推定し、
単語列結束度として、前後の単語列に対応する母集団ベ
クトル分布間のカルバック・リーブラー距離を始めとす
る類似尺度または、距離尺度を算出する。
なまとまりの単位である意味段落に分割するテキスト分
割装置であって、テキストを形態素解析して、単語に分
割する形態素解析手段20と、単語の意味を表現するベ
クトルが格納されている概念ベース60を検索すること
によって形態素解析手段20で得られた各単語に対応す
るベクトルを取得する単語ベクトル取得手段30と、単
語の境界の前後に、ある個数の単語の集合である単語列
をとり、各単語列を構成する単語のベクトルの情報から
前後の単語列の類似尺度または、距離尺度である単語列
結束度を算出する単語列結束度算出手段40と、単語列
結束度が類似尺度である場合、極小である単語境界を、
距離尺度である場合、極大である単語境界を、テキスト
の意味段落の境界と認定する意味段落境界認定手段50
とを有する。
手段40において、各単語列に対し、該単語列を構成す
る単語のベクトルの和ベクトル、または、重心ベクトル
を算出する手段と、単語列結束度として、前後の単語列
に対応する和ベクトルまたは、重心ベクトル間の余弦測
度を始めとする類似尺度または、距離尺度を算出する手
段とを有する。
手段40において、各単語列に対し、該単語列を構成す
る単語のベクトルの分布から母集団ベクトル分布を推定
する手段と、単語列結束度として、前後の単語列に対応
する母集団ベクトル分布間のカルバック・リーブラ距離
を始めとする類似尺度または、距離尺度を算出する手段
とを有する。
なまとまりの単位である意味段落に分割するテキスト分
割プログラムであって、テキストを形態素解析して、単
語に分割する形態素解析プロセスと、単語の意味を表現
するベクトルが格納されている概念ベースを検索するこ
とによって形態素解析プロセスで得られた各単語に対応
するベクトルを取得する単語ベクトル取得プロセスと、
単語の境界の前後に、ある個数の単語の集合である単語
列をとり、各単語列を構成する単語のベクトルの情報か
ら前後の単語列の類似尺度または、距離尺度である単語
列結束度を算出する単語列結束度算出プロセスと、単語
列結束度が類似尺度である場合、極小である単語境界
を、距離尺度である場合、極大である単語境界を、テキ
ストの意味段落の境界と認定する意味段落境界認定プロ
セスとを有する。
ラムは、単語列結束度算出プロセスにおいて、各単語列
に対し、該単語列を構成する単語のベクトルの和ベクト
ル、または、重心ベクトルを算出するプロセスと、単語
列結束度として、前後の単語列に対応する和ベクトルま
たは、重心ベクトル間の余弦測度を始めとする類似尺度
または、距離尺度を算出するプロセスとを有する。
ラムは、単語列結束度算出プロセスにおいて、各単語列
に対し、該単語列を構成する単語のベクトルの分布から
母集団ベクトル分布を推定するプロセスと、単語列結束
度として、前後の単語列に対応する母集団ベクトル分布
間のカルバック・リーブラー距離を始めとする類似尺度
または、距離尺度を算出するプロセスとを有する。
的なまとまりの単位である意味段落に分割するテキスト
分割プログラムを格納した記憶媒体であって、テキスト
を形態素解析して、単語に分割する形態素解析プロセス
と、単語の意味を表現するベクトルが格納されている概
念ベースを検索することによって形態素解析プロセスで
得られた各単語に対応するベクトルを取得する単語ベク
トル取得プロセスと、単語の境界の前後に、ある個数の
単語の集合である単語列をとり、各単語列を構成する単
語のベクトルの情報から前後の単語列の類似尺度また
は、距離尺度である単語列結束度を算出する単語列結束
度算出プロセスと、単語列結束度が類似尺度である場
合、極小である単語境界を、距離尺度である場合、極大
である単語境界を、テキストの意味段落の境界と認定す
る意味段落境界認定プロセスとを有する。
グラムを格納した記憶媒体は、単語列結束度算出プロセ
スにおいて、各単語列に対し、該単語列を構成する単語
のベクトルの和ベクトル、または、重心ベクトルを算出
するプロセスと、単語列結束度として、前後の単語列に
対応する和ベクトルまたは、重心ベクトル間の余弦測度
を始めとする類似尺度または、距離尺度を算出するプロ
セスとを有する。
グラムを格納した記憶媒体は、単語列結束度算出プロセ
スにおいて、各単語列に対し、該単語列を構成する単語
のベクトルの分布から母集団ベクトル分布を推定するプ
ロセスと、単語列結束度として、前後の単語列に対応す
る母集団ベクトル間のカルバック・リーブラー距離を始
めとする類似尺度または、距離尺度を算出するプロセス
を有する。上記のように、本発明では、単語の意味を表
現するベクトルが格納されている概念ベースを用いる。
この概念ベースにおける単語ベクトルは、意味的に類似
している単語間ほど距離が近く、意味的に類似していな
い単語間ほど距離が遠くなるように値が設定されてい
る。正解の意味段落境界の前の窓(直前の単語列)に含
まれる単語と後ろの窓(直後の単語列)に含まれる単語
とは意味的類似性が低いことにより、そのベクトル間の
距離も遠くなるため、単語列の結束度は、類似尺度のと
き低くなり、距離尺度のとき高くなる。
いては、前の窓(直前の単語列)に含まれる単語と後ろ
の窓(直後の単語列)に含まれる単語とは意味的類似性
が高い。前後の窓(直前・直後の単語列)に共通して含
まれる単語がない場合でも、同様のことが言える。従っ
て、そのベクトル間の距離も近くなるため、単語列の結
束度は、類似尺度のとき高くなり、距離尺度のとき低く
なる。
合、極小である単語境界を、距離尺度である場合、極大
である単語境界を、当該テキストの意味段落の境界と認
定することにより、正解である意味段落の境界のみを過
不足なく認定できるようになる。
おけるテキスト分割装置の構成を示す。 同図に示すテ
キスト分割装置は、テキスト入力部10、形態素解析部
20、単語ベクトル取得部30、単語列結束度算出部4
0、意味段落境界認定部50、概念ベース60から構成
される。
単語ベクトルが格納されており、当該単語ベクトルは、
意味的に類似している単語間程距離が近く、意味的に類
似していない単語間ほど距離が遠くなるように値が設定
されており、データベースに格納される。
キストを入力する。
を形態素解析して単語に分割し、その形態素解析結果を
単語ベクトル取得部30に転送する。
0を検索することにより、形態素解析の結果得られた各
単語に対応するベクトルを取得する。
うに、任意の単語境界の前後に、ある個数の単語の集合
である窓(単語列)をとり、各窓を構成する単語のベク
トルの情報から、前後の窓の類似尺度または、距離尺度
である単語列結束度を算出する。各単語境界に対し、こ
の計算を行うことにより、各単語境界に一つの単語列結
束度が対応することになる。また、単語列結束度を求め
る際に、単語列結束度算出部40は、各窓に対し、当該
窓を構成する単語のベクトルの和、または、重心をと
り、単語列結束度として、前後の窓に対応する和また
は、重心ベクトル間の余弦測度を始めとする類似尺度ま
たは、距離尺度をとる。あるいは、各窓に対し、当該窓
を構成する単語のベクトルの分布から母集団分布を推定
し、単語列結束度として、前後の窓に対応する母集団分
布間のカルバック・リープラー距離を始めとする類似尺
度または、距離尺度をとる。
が類似尺度である場合、極小である単語境界を、距離尺
度である場合、極大である単語境界を当該テキストの意
味段落の境界と認定する。
る。
装置の動作のフローチャートである。
入力テキストを形態素解析して単語に分割する。
0は、単語の意味を表現するベクトルが格納されている
概念ベース60を検索することによって、ステップ10
1の形態素解析処理により得られた各単語に対応するベ
クトルを取得する。
0は、前述の図6に示すように、任意の単語境界の前後
に、ある個数の単語の集合である窓を取り、各窓を構成
する単語のベクトルの情報から、前後の窓の類似尺度ま
たは、距離尺度である単語列結束度を算出する。単語列
結束度を算出する単語境界は、1単語の刻み幅でとって
いく。各単語境界に対する窓の幅は単語の一定個数分と
る。窓の幅をa個としたとき、テキストの最初のa単語
以内の単語境界の前の窓と、最後のa単語以内の単語境
界の後ろの窓の幅は、a個に足りないが、a個に足りな
い窓はとれる最大幅をとって単語列結束度を算出する。
あるいは、前後の窓の幅が、a個とれる単語境界のみ単
語列結束度を算出する。
0は、単語列結束度が類似尺度である場合、極小である
単語境界を、距離尺度である場合、極大である単語境界
を、当該テキストの意味段落の境界と認定する。ここで
いう極値とは、テキスト全体における極値である。
データの例を示す。
ベクトル値が付与されている。概念ベース60中の単語
は、名詞や動詞、形容詞等の自立語である。概念ベース
60における単語ベクトルは、意味的に類似している単
語間ほど距離が近く、意味的に類似していない単語間ほ
ど距離が遠くなるように値が設定されている。
1513の「類似性判別装置」や、特願平6−0960
11の「類似性判別利用データ精錬方法及びこの方法を
実施する装置」で紹介されているデータベースがある。
umais,S.T.,Furnas, G. W.,Landauer,T.K.,and Harshma
n, R.:Indexing by Latent Semantic Analysis, Journa
l ofthe American Society for Information Science,p
p.391-407(1990)) では、単語の文書における頻度を記
録した単語・文書間の共起行列を特異値分解により次元
数を縮退させた行列に変換しているが、この変換後の行
列も概念ベースの一例である。Schutze の論文(Schutz
e,H.:Dimensions of Meaning, Proc. of Supercomputin
g '92,pp.787-796(1992))では、コーパス中の単語間の
共起頻度を記録した単語・単語間の共起行列を特異値分
解により次元数を縮退させた行列に変換しているが、こ
の変換後の行列も概念ベースの一例である。
ル取得部30において、概念ベース60を検索すること
によって、ステップ101の形態素解析処理で得られた
各単語に対応するベクトルを取得する。
列結束度算出部40の処理について説明する。
当該窓を構成する単語のベクトルの和または、重心をと
り、単語列結束度として、前後の窓に対応する和また
は、重心ベクトル間の余弦測度を始めとする類似尺度ま
たは、距離尺度をとる。
る単語境界位置をi、前の窓に含まれる単語集合をL、
後ろの窓に含まれる単語の集合をRとし、単語tに対応
する概念ベース60中のベクトルをνt としたとき、前
後の窓に対応する和ベクトル間の余弦測度Ci は、以下
のように表される。なお、以下の式における“・”は、
ベクトル間の内積である。
後の窓に対応する重心ベクトル間の余弦測度は、和ベク
トル間の余弦測度と一致する。
離尺度として、ベクトルを分布と見做して、分布間の距
離尺度であるカルバック・リーブラ距離をとる方法もあ
る。カルバック・リーブラー距離は、以下のように表さ
れる。前の窓に対応する和ベクトルωL を以下のように
成分表示したとする。
そのベクトル値のスカラ倍の値が表現する意味を同一視
できるように概念ベースが構成されているとする。この
とき、以下のようなωL の各成分の和が1となるように
正規化したベクトルωL ’とωL を同一視できる。
正規化したベクトル
として、KL(ωR ’,ωL ’)をとってもよい。
の分布に対して対称ではないので、双方の分布からみた
カルバック・リーブラ距離の和であるJeffery 距離を距
離尺度としてとる方法もある。Jeffery 距離J(ωL
’,ωR ’)は、以下のように表される。
部40の処理について説明する。
し、当該窓を構成する単語のベクトルの分布から母集団
分布を推定し、単語列結束度として前後の窓に対応する
母集団分布間のカルバック・リーブラ距離を始めとする
類似尺度または、距離尺度をとる。単語ベクトルの次元
をp次元としたとき、単語ベクトルの集合を、p次元空
間上の連続的なある確率分布に従う標本の集合と見て、
標本集合から元の確率分布を推定する訳である。
離は距離尺度である。カルバック・リーブラ距離の算出
は、具体的には以下のようにする。
団分布の推定には、母集団分布としてパラメトリックな
分布をとる方法と、ノンパラメトリックな分布をとる方
法がある。パラメトリックな分布の一例としては、正規
分布があり、これを決定付けるパラメータは、母平均と
母分散共分散行列である。VL から最尤推定等の手法に
より、これらのパラメータを推定することにより、母集
団分布f(x)(x∈Rp )を推定する。ここで、母平
均μは、次のように推定される。
(νr −μ)は縦ベクトルであり、(νr −μ)’は、
それを転置した横ベクトルである。
(x)(x∈Rp )は次のように表される。
集団分布g(x)(x∈Rp )を推定する。
ク・リーブラ距離KL(f(x),g(x))は、
ク・リーブラ距離として、KL(f(x),g(x))
をとってもよい。
の確率分布に対して対称ではないので、双方の確率分布
からみたカルバック・リーブラ距離の和であるJeffery
距離を距離尺度としてとる方法もある。Jeffery 距離J
(f(x),g(x))は、以下のように表される。
出では、積分領域を分割し、各分割領域のある一点に対
応する積分関数の数値に基づいて積分値の近似値を求め
るといった離散的な数値計算手法をとることができる。
界認定部50の処理について説明する。
り各単語境界に対応する単語列結束度を計算した後、意
味段落境界認定部50において、単語列結束度が類似尺
度である場合、極小である単語境界を、距離尺度である
場合、極大である単語境界を、当該テキストの意味段落
の境界と認定する。ここでいう極値とは、テキスト全体
における極値である。
ャートに基づいて説明したが、図4に示す一連の動作を
プログラムとして構築し、概念ベースをテキスト分割装
置として利用されるコンピュータのバッファ等に格納
し、構築されたプログラムをCPUにインストールして
実行したり、ネットワークを介して流通させることも可
能である。
割装置として利用されるコンピュータに接続されるハー
ドディスク装置や、フロッピー(登録商標)ディスク、
CD−ROM等の可搬記憶媒体に格納しておき、本発明
を実施する際にインストールすることにより、容易に本
発明を実現できる。
ることなく、特許請求の範囲内において、種々変更・応
用が可能である。
意味を表現するベクトルの情報から単語列結束度を算出
することにより、正解である意味段落の境界のみを過不
足なく認定できるようになる。
置の構成図である。
フローチャートである。
ある。
Claims (12)
- 【請求項1】 テキストを意味的なまとまりの単位であ
る意味段落に分割するテキスト分割方法において、 前記テキストを形態素解析して、単語に分割する形態素
解析過程と、 単語の意味を表現するベクトルが格納されている概念ベ
ースを検索することによって前記形態素解析過程で得ら
れた各単語に対応するベクトルを取得する単語ベクトル
取得過程と、 単語の境界の前後に、ある個数の単語の集合である単語
列をとり、各単語列を構成する単語のベクトルの情報か
ら前後の単語列の類似尺度または、距離尺度である単語
列結束度を算出する単語列結束度算出過程と、 単語列結束度が類似尺度である場合、極小である単語境
界を、距離尺度である場合、極大である単語境界を、前
記テキストの意味段落の境界と認定する意味段落境界認
定過程とからなることを特徴とするテキスト分割方法。 - 【請求項2】 前記単語列結束度算出過程において、 前記各単語列に対し、該単語列を構成する単語のベクト
ルの和ベクトル、または、重心ベクトルを算出し、 前記単語列結束度として、前後の単語列に対応する和ベ
クトルまたは、重心ベクトル間の余弦測度をを始めとす
る類似尺度または、距離尺度を算出する請求項1記載の
テキスト分割方法。 - 【請求項3】 前記単語列結束度算出過程において、 前記各単語列に対し、該単語列を構成する単語のベクト
ルの分布から母集団ベクトル分布を推定し、 前記単語列結束度として、前後の単語列に対応する母集
団ベクトル分布間のカルバック・リーブラー距離を始め
とする類似尺度または、距離尺度を算出する請求項1記
載のテキスト分割方法。 - 【請求項4】 テキストを意味的なまとまりの単位であ
る意味段落に分割するテキスト分割装置であって、 前記テキストを形態素解析して、単語に分割する形態素
解析手段と、 単語の意味を表現するベクトルが格納されている概念ベ
ースと、 前記概念ベースを検索することによって前記形態素解析
手段で得られた各単語に対応するベクトルを取得する単
語ベクトル取得手段と、 単語の境界の前後に、ある個数の単語の集合である単語
列をとり、各単語列を構成する単語のベクトルの情報か
ら前後の単語列の類似尺度または、距離尺度である単語
列結束度を算出する単語列結束度算出手段と、 単語列結束度が類似尺度である場合、極小である単語境
界を、距離尺度である場合、極大である単語境界を、前
記テキストの意味段落の境界と認定する意味段落境界認
定手段とを有することを特徴とするテキスト分割装置。 - 【請求項5】 前記単語列結束度算出手段は、 前記各単語列に対し、該単語列を構成する単語のベクト
ルの和ベクトル、または、重心ベクトルを算出する手段
と、 前記単語列結束度として、前後の単語列に対応する和ベ
クトルまたは、重心ベクトル間の余弦測度をを始めとす
る類似尺度または、距離尺度を算出する手段とを有する
請求項4記載のテキスト分割装置。 - 【請求項6】 前記単語列結束度算出手段は、 前記各単語列に対し、該単語列を構成する単語のベクト
ルの分布から母集団ベクトル分布を推定する手段と、 前記単語列結束度として、前後の単語列に対応する母集
団ベクトル分布間のカルバック・リーブラー距離を始め
とする類似尺度または、距離尺度を算出する手段とを有
する請求項4記載のテキスト分割装置。 - 【請求項7】 テキストを意味的なまとまりの単位であ
る意味段落に分割するテキスト分割プログラムであっ
て、 前記テキストを形態素解析して、単語に分割する形態素
解析プロセスと、 単語の意味を表現するベクトルが格納されている概念ベ
ースを検索することによって前記形態素解析プロセスで
得られた各単語に対応するベクトルを取得する単語ベク
トル取得プロセスと、 単語の境界の前後に、ある個数の単語の集合である単語
列をとり、各単語列を構成する単語のベクトルの情報か
ら前後の単語列の類似尺度または、距離尺度である単語
列結束度を算出する単語列結束度算出プロセスと、 単語列結束度が類似尺度である場合、極小である単語境
界を、距離尺度である場合、極大である単語境界を、前
記テキストの意味段落の境界と認定する意味段落境界認
定プロセスとを有することを特徴とするテキスト分割プ
ログラム。 - 【請求項8】 前記単語列結束度算出プロセスは、 前記各単語列に対し、該単語列を構成する単語のベクト
ルの和ベクトル、または、重心ベクトルを算出するプロ
セスと、 前記単語列結束度として、前後の単語列に対応する和ベ
クトルまたは、重心ベクトル間の余弦測度を始めとする
類似尺度または、距離尺度を算出するプロセスとを有す
る請求項7記載のテキスト分割プログラム。 - 【請求項9】 前記単語列結束度算出プロセスは、 前記各単語列に対し、該単語列を構成する単語のベクト
ルの分布から母集団ベクトル分布を推定するプロセス
と、 前記単語列結束度として、前後の単語列に対応する母集
団ベクトル分布間のカルバック・リーブラー距離を始め
とする類似尺度または、距離尺度を算出するプロセスと
を有する請求項7記載のテキスト分割プログラム。 - 【請求項10】 テキストを意味的なまとまりの単位で
ある意味段落に分割するテキスト分割プログラムを格納
した記憶媒体であって、 前記テキストを形態素解析して、単語に分割する形態素
解析プロセスと、 単語の意味を表現するベクトルが格納されている概念ベ
ースを検索することによって前記形態素解析プロセスで
得られた各単語に対応するベクトルを取得する単語ベク
トル取得プロセスと、 単語の境界の前後に、ある個数の単語の集合である単語
列をとり、各単語列を構成する単語のベクトルの情報か
ら前後の単語列の類似尺度または、距離尺度である単語
列結束度を算出する単語列結束度算出プロセスと、 単語列結束度が類似尺度である場合、極小である単語境
界を、距離尺度である場合、極大である単語境界を、前
記テキストの意味段落の境界と認定する意味段落境界認
定プロセスとを有することを特徴とするテキスト分割プ
ログラムを格納した記憶媒体。 - 【請求項11】 前記単語列結束度算出プロセスは、 前記各単語列に対し、該単語列を構成する単語のベクト
ルの和ベクトル、または、重心ベクトルを算出するプロ
セスと、 前記単語列結束度として、前後の単語列に対応する和ベ
クトルまたは、重心ベクトル間の余弦測度を始めとする
類似尺度または、距離尺度を算出するプロセスとを有す
る請求項10記載のテキスト分割プログラムを格納した
記憶媒体。 - 【請求項12】 前記単語列結束度算出プロセスは、 前記各単語列に対し、該単語列を構成する単語のベクト
ルの分布から母集団ベクトル分布を推定するプロセス
と、 前記単語列結束度として、前後の単語列に対応する母集
団ベクトル分布間のカルバック・リーブラー距離を始め
とする類似尺度または、距離尺度を算出するプロセスと
を有する請求項10記載のテキスト分割プログラムを格
納した記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001146872A JP3775239B2 (ja) | 2001-05-16 | 2001-05-16 | テキスト分割方法及び装置及びテキスト分割プログラム及びテキスト分割プログラムを格納した記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001146872A JP3775239B2 (ja) | 2001-05-16 | 2001-05-16 | テキスト分割方法及び装置及びテキスト分割プログラム及びテキスト分割プログラムを格納した記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002342324A true JP2002342324A (ja) | 2002-11-29 |
JP3775239B2 JP3775239B2 (ja) | 2006-05-17 |
Family
ID=18992445
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001146872A Expired - Fee Related JP3775239B2 (ja) | 2001-05-16 | 2001-05-16 | テキスト分割方法及び装置及びテキスト分割プログラム及びテキスト分割プログラムを格納した記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3775239B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008542951A (ja) * | 2005-06-06 | 2008-11-27 | ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア | 関連性ネットワーク |
JP2009015795A (ja) * | 2007-07-09 | 2009-01-22 | Nippon Telegr & Teleph Corp <Ntt> | テキストセグメンテーション装置、テキストセグメンテーション方法、プログラム及び記録媒体 |
JP2016538616A (ja) * | 2013-09-29 | 2016-12-08 | ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド | 知識抽出方法及びシステム |
CN110020420A (zh) * | 2018-01-10 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备和存储介质 |
-
2001
- 2001-05-16 JP JP2001146872A patent/JP3775239B2/ja not_active Expired - Fee Related
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008542951A (ja) * | 2005-06-06 | 2008-11-27 | ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア | 関連性ネットワーク |
JP2009015795A (ja) * | 2007-07-09 | 2009-01-22 | Nippon Telegr & Teleph Corp <Ntt> | テキストセグメンテーション装置、テキストセグメンテーション方法、プログラム及び記録媒体 |
JP2016538616A (ja) * | 2013-09-29 | 2016-12-08 | ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド | 知識抽出方法及びシステム |
CN110020420A (zh) * | 2018-01-10 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备和存储介质 |
CN110020420B (zh) * | 2018-01-10 | 2023-07-21 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP3775239B2 (ja) | 2006-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11182564B2 (en) | Text recommendation method and apparatus, and electronic device | |
US11093854B2 (en) | Emoji recommendation method and device thereof | |
CN107832414B (zh) | 用于推送信息的方法和装置 | |
US20210201143A1 (en) | Computing device and method of classifying category of data | |
JP2940501B2 (ja) | ドキュメント分類装置及び方法 | |
US20170278510A1 (en) | Electronic device, method and training method for natural language processing | |
US8321418B2 (en) | Information processor, method of processing information, and program | |
JP4904496B2 (ja) | 文書類似性導出装置及びそれを用いた回答支援システム | |
CN109271542A (zh) | 封面确定方法、装置、设备及可读存储介质 | |
JP2006251866A (ja) | 情報処理装置および方法、プログラム、並びに記録媒体 | |
JP2022169757A (ja) | 探索装置、探索方法及び探索プログラム | |
JP2003223456A (ja) | 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法 | |
CN109086265A (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN111428503B (zh) | 同名人物的识别处理方法及处理装置 | |
CN112818091A (zh) | 基于关键词提取的对象查询方法、装置、介质与设备 | |
Staš et al. | Classification of heterogeneous text data for robust domain-specific language modeling | |
CN111797204A (zh) | 文本匹配方法、装置、计算机设备及存储介质 | |
JP4524640B2 (ja) | 情報処理装置および方法、並びにプログラム | |
JP2004157931A (ja) | 意図文型種別抽出方式 | |
JP2002342324A (ja) | テキスト分割方法及び装置及びテキスト分割プログラム及びテキスト分割プログラムを格納した記憶媒体 | |
JP3178406B2 (ja) | 階層型文章分類装置およびプログラムを記録した機械読み取り可能な記録媒体 | |
JP5013821B2 (ja) | コンテンツを分類する装置、方法、プログラム | |
JP3925418B2 (ja) | トピック境界決定装置及びプログラム | |
KR101769035B1 (ko) | 한국어 텍스트 클러스터링 시스템 및 방법 | |
CN114254112A (zh) | 用于敏感信息预分类的方法、系统、装置和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051115 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060112 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060131 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060213 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090303 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100303 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110303 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110303 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120303 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |