JP2002197083A - 文書分割方法 - Google Patents

文書分割方法

Info

Publication number
JP2002197083A
JP2002197083A JP2000378015A JP2000378015A JP2002197083A JP 2002197083 A JP2002197083 A JP 2002197083A JP 2000378015 A JP2000378015 A JP 2000378015A JP 2000378015 A JP2000378015 A JP 2000378015A JP 2002197083 A JP2002197083 A JP 2002197083A
Authority
JP
Japan
Prior art keywords
document
vector
segment
document segment
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000378015A
Other languages
English (en)
Other versions
JP2002197083A5 (ja
Inventor
Takahiko Kawatani
隆彦 川谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HP Inc
Original Assignee
Hewlett Packard Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Co filed Critical Hewlett Packard Co
Priority to JP2000378015A priority Critical patent/JP2002197083A/ja
Priority to US10/432,543 priority patent/US7308138B2/en
Priority to PCT/US2001/043534 priority patent/WO2002048951A1/en
Publication of JP2002197083A publication Critical patent/JP2002197083A/ja
Publication of JP2002197083A5 publication Critical patent/JP2002197083A5/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 入力文書において話題が不連続となる点を見
出し、複数個のブロックに分割する。 【解決手段】 入力文書に出現する用語を検出し、入力
文書を適当な単位の文書セグメントに区分けし、文書セ
グメントに出現する用語の出現頻度を成分とする文書セ
グメントのベクトルを生成し、文書セグメントベクトル
の平方和行列の固有ベクトルおよび固有値を算出し、固
有ベクトルから、文書分割決定のための部分空間を構成
する基底ベクトルを選択し、文書セグメントベクトルの
それぞれを前記基底ベクトルに射影した値を求め、この
射影値に基づいて文書を分割する。文書セグメントベク
トルの集合に対し特異値分解を実行し、文書セグメント
ベクトルの集合を互いに直交する固有ベクトルおよび固
有値により展開する。固有ベクトルは用語の組合わせに
より表現されるベクトルなのでそれ自体が概念を持つ。
固有値は固有ベクトルの表す概念の強さ、もしくはエネ
ルギーと見なすことができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力された文書に
おいて話題が前後で不連続となる点を見出して話題境界
を検出し、文書を複数個のブロックに分割する文書分割
方法に関する。
【0002】
【従来の技術】話題境界の検出による文書分割に関して
は、Hearst法がよく知られている(M.A.Hearst, "Multi
-paragraph segmentation of expository text", in Pr
oceedings of the 32nd Annual Meeting of Associatio
n for Computational Linguistics, pp.9-16, 199
4.)。この方法では、先ず、話題境界の候補点の前後に
一定の大きさの窓を設け、それぞれの窓の中でどのよう
な用語が出現するかに関する類似性を求める。この類似
性が高ければ、前後の窓の話題の関連性が大きく、候補
点は境界点になりえない。反対に類似性が低ければ前後
の窓の結束性は小さく、話題の境界点になりうる。具体
的には文書の冒頭から末尾まで一定の刻み幅で話題境界
の候補点をずらしながら上記類似性を求め、極小となる
点を検出して話題境界とする。
【0003】
【発明が解決しようとする課題】上述のHearst法では話
題の不連続を検出するために候補点の前後の窓の中の出
現用語の比較を行っている。この方法には以下のような
問題があった。ひとつは窓の大きさに関する問題であ
る。具体的に窓の大きさをどの程度にとるかは恣意的で
あり、窓を大きくとれば検出される話題境界の間隔、即
ち話題の長さは長くなりがちであり、反対に小さくすれ
ば短くなりがちであった。そのため、複数の話題を含
み、各話題の長さがまちまちであるような文書に対して
は適切に文書を分割することが困難であった。ふたつ目
の問題は前後の窓の話題の類似性の検出方法である。従
来の方法では前後の窓における単語の共有性に基づいて
話題の類似性を判断していたため、前後の窓で同じ単語
が出現しない限り類似性は求められなかった。実際問題
として、文書の中で互いに関連する単語対の一方が前の
窓に、他方が後ろの窓に含まれているような時、話題の
類似性は存在すると考えられる。例えば、野球記事の中
で、“巨人”と“松井”の両方が現れる文が存在したと
すると、“巨人”と“松井”は関連する単語とみなすこ
とができるので、前の窓に“巨人”が、後ろの窓に“松
井”が現れていれば、他に共有する単語はなくとも話題
の類似性は存在すると考えてよい。しかしながら、従来
の技術では単語としての共有性にのみ着目するのでこの
ような類似性は検出できなかった。そのため話題の類似
性に関する的確さに問題があった。
【0004】
【課題を解決するための手段】上記のような問題を解決
するため、この発明による分割方法は、入力文書に出現
する用語を検出し、入力文書を適当な単位の文書セグメ
ントに区分けし、文書セグメントに出現する用語の出現
頻度を成分とする文書セグメントのベクトルを生成し、
文書セグメントベクトルの平方和行列の固有ベクトルお
よび固有値を算出し、固有ベクトルから、文書分割決定
のための部分空間を構成する基底ベクトルを選択し、文
書セグメントベクトルのそれぞれを前記基底ベクトルに
射影した値を求め、この射影値に基づいて文書を分割す
る。
【0005】文書セグメントベクトルとは文書セグメン
ト中で各用語が現れる回数すなわち頻度をもとに決定し
た値を成分とするベクトルであり、その文書セグメント
の概念を表す。文書を区分けする最も自然な単位は、文
章である。次いで文書セグメントベクトルの集合に対し
特異値分解を実行し、文書セグメントベクトルの集合を
互いに直交する固有ベクトルおよび固有値により展開す
る。固有ベクトルは用語の組合わせにより表現されるベ
クトルなのでそれ自体が概念を持つ。固有ベクトルは文
書固有に決まるので固有ベクトルが表す概念を固有概念
と呼んでもよい。また、固有値は固有ベクトルの表す概
念の強さ、もしくはエネルギーと見なすことができる。
文書セグメントをある固有ベクトルに射影した値は、文
書セグメントベクトルの表す概念がその固有ベクトルに
対応する固有概念方向に持つ成分であり、射影値を自乗
した値は上記成分のエネルギーを表す。表す概念が似て
いる文書セグメントは各固有概念方向の成分、もしくは
エネルギーに関して同じような値をもつはずである。そ
こで、各文書セグメントと各固有概念との関連性を上記
射影値をもとに求めた後、各文書セグメントの固有概念
との関連性に関する連続性を求め、連続性が最も低くな
る点を話題の境界とする。
【0006】前述のように本発明では各文書セグメント
ベクトルの各固有ベクトルへの射影を基に話題の連続性
を求めている。平方和行列の固有ベクトルは、低次のそ
れにおいては文書中で共起する単語に対する係数は同じ
符号で近い値を持つという性質を持っている。そのため
低次の固有ベクトルへの射影値は、単語を共有しない文
書セグメントであっても互いに共起する単語対の一方
(例えば前述の“巨人”)が一方の文書セグメントに、
単語対の他方(例えば前述の“松井”)が他方の文書セ
グメントに含まれていればそれぞれの文書セグメントベ
クトルの射影値は関連性を持つようになる。また、この
ような単語対が多く含まれるほど射影値の値は近くな
る。その結果、固有ベクトルを正しく選択することによ
り、もしくは正しく重み付けを行うことにより文書セグ
メント間の類似性が的確に求められるようになり、同じ
話題が長く連続しなくとも境界が正しく求められるよう
になる。
【0007】
【発明の実施の形態】図1は本発明の実施例を示す。こ
の発明の方法は、汎用コンピュータ上でこの発明を組み
込んだプログラムを走らせることによって実施すること
ができる。図1は、そのようなプログラムのフローチャ
ートである。
【0008】ブロック11は用語検出部、ブロック12は形
態素解析部、ブロック13は文書セグメント区分け部であ
る。ブロック14は文書セグメントベクトル作成部、ブロ
ック15は平方和行列算出部、ブロック16は固有値・固有
ベクトル算出部、ブロック17は部分空間決定部、ブロッ
ク18は文書セグメントベクトル射影である。また、ブロ
ック19は関連性検出部、ブロック20は話題境界決定部を
表す。以下、英文文書を例に実施例を説明する。
【0009】入力された文書について、先ず用語検出部
11において、文書から単語及び数詞などの記号系列を検
出する。ここでは、単語や記号系列を総称して用語と呼
ぶ。英文の場合、単語同士を分けて書く正書法が確立し
ているので用語の検出は容易である。次に、形態素解析
部12は、用語の品詞付けなどの形態素解析を行う。次に
文書セグメントへの区分けを行う。文書セグメントへの
最も基本的な単位は文である。英文の場合、文はピリオ
ドで終わり、その後ろにスペースが続くので文の切出し
は容易に行うことができる。その他の文書セグメントへ
の区分け法としては、用語の数がほぼ同じになるように
複数の文をまとめて文書セグメントとする方法、文書の
先頭から含まれる用語の数が同じになるように文とは関
係なく区分けする方法などがある。
【0010】文書セグメントベクトル作成部14は、先ず
文書全体に出現する用語から作成すべきベクトルの次元
数および各次元と各用語との対応を決定する。この際に
出現する全ての用語の種類にベクトルの成分を対応させ
なければならないということはなく、品詞付け処理の結
果を用い、例えば名詞と動詞と判定された用語のみを用
いてベクトルを作成するようにしてもよい。次いで、各
文書セグメントに出現する用語の種類とその頻度を求
め、その値に重みを付与して対応する成分の値を決定
し、文書セグメントベクトルを作成する。重みの与え方
としては従来の技術を用いることができる。
【0011】平方和行列算出部15は、各文書セグメント
ベクトルの平方和行列の算出を行う。K個の用語が現れ
る入力文書がN個の文書セグメントに区分けされたとし
て、n番目の文書セグメントベクトルsn (n=1,..,N)を(s
n1, sn2,.., snK)により表すと、平方和行列A=(Aab)
は、次式により算出することができる。
【0012】
【数8】
【0013】固有値・固有ベクトル算出部16は、行列A
の固有値・固有ベクトルの算出を行う。求められたm次の
固有ベクトル、固有値をΦ、λとする。Φ1は各文
書セグメントベクトルを射影した時の射影値の自乗和を
最大にする軸であるので、各文書セグメントに最も共通
する概念を表すことになる。また、λ1はその射影値の
自乗和そのものであり、Φ1が表す概念の強さ、もしく
はエネルギーを表すとみなすことができる。Φ2はΦ1
直交すると言う条件のもとで射影値の自乗和を最大にす
る軸である。Φ3以降も同様である。このようにして求
められた固有ベクトルが文書セグメントベクトルの集合
を近似する部分空間の基底となる。固有ベクトルをL次
まで用いれば部分空間の次元数はLとなり、入力文書の
概念が互いに直交する概念を持つL個の固有ベクトルに
より展開されたことになる。
【0014】部分空間決定部17は、Lの値を具体的に決
定する。行列AのランクをRとするとAからはR個の固有ベ
クトルが求められるので、その文書は本来はR個の固有
概念を有することになる。部分空間は、このうちの(R
−L)個の固有概念を捨ててL個の固有概念の組み合わせ
で文書の中心概念を表す。部分空間の基底ベクトルはL
次までの固有ベクトルである。中心概念が本来の概念に
対してどの程度の割合を占めていたかは、次式で表され
る。この式はLの値を実際に決めるときの目安にするこ
とができる。
【0015】
【数9】
【0016】文書セグメントベクトル射影部18は、各文
書セグメントベクトルの部分空間への射影値を求める。
snの射影後のベクトルをpn =(pn1, pn2,.., pnL)とす
る。m番目の基底ベクトルへの射影値pnmは、次式で与え
られる。次式においてTは転置を表す。
【0017】
【数10】
【0018】関連性検出部19は、各文書セグメントとそ
れぞれの固有概念すなわち基底ベクトルとの関連度を算
出する。この関連度を算出する手法としては種々考えら
れるが、その一つは次のような方法である。m番目の基
底ベクトルへの射影値の全文書セグメントにわたる平均
および標準偏差を次式により求める。
【0019】
【数11】
【0020】n番目の文書セグメントがm番目の固有概
念すなわち基底ベクトルに対してもつ正の関連性を示す
変数をπnm、負の関連性を示す変数をνnmとすると、こ
れらの変数を次のように定義することができる。
【0021】
【数12】
【0022】ここで、a、bは予め決められた閾値であ
る。n番目の文書セグメントがm番目の固有概念に対し
てもつ関連性が直前の文書セグメントがもつ関連性とど
の程度異なるかを示す関数をhm(n)とすると、これは次
の式で表すことができる。
【0023】
【数13】
【0024】前の2つの項はそれぞれ正、負の関連性が
n番目の文書セグメントから始まったときにそれぞれ1
の値をとり、後ろの2つはぞれぞれ正、負の関連性がn-
1番目の文書セグメントで終わったときにそれぞれ1の値
をとる。即ち、m番目の固有概念に関連するような話題
が連続していればhm(n)は0、不連続であれば1以上の値
をとる。
【0025】話題境界決定部20は、次式のh(n)を各nに
対して求め、h(n)の極大点を求める。
【0026】
【数14】
【0027】h(n)の極大点はL個の固有概念すなわち基
底ベクトルに対する関連性の変化の総計が局所的に大き
くなる点であり、対応する文書セグメントの先頭を話題
の境界とする。こうして、文書が話題の境界点で分割さ
れる。以上述べた実施例では、文書セグメントと固有概
念との関連性の算出に、文書セグメントベクトルの基底
ベクトルへの射影値が用いられていたが、射影値の自乗
を用いても同等の結果を得ることができる。この場合、
pnmは数10の代わりに次式で与えられる。
【0028】
【数15】
【0029】図2は本発明の別の形態の実施例である。
この発明の方法は、汎用コンピュータ上でこの発明を組
み込んだプログラムを走らせることによって実施するこ
とができる。図2は、そのようなプログラムのフローチ
ャートである。
【0030】ブロック11から18は図1に示したものと同
じであり、ブロック11は用語検出部、ブロック12は形態
素解析部、ブロック13は文書セグメント区分け部であ
る。ブロック14は文書セグメントベクトル作成部、ブロ
ック15は平方和行列算出部、ブロック16は固有値・固有
ベクトル算出部、ブロック17は部分空間決定部、ブロッ
ク18は文書セグメントベクトル射影である。また、ブロ
ック29は文書セグメント間連続性検出、ブロック30は連
続性最小点検出を表す。
【0031】ブロック29では、n番目の文書セグメント
の直後を境界点候補としたとき、その直前C個の文書セ
グメントと直後のC個の文書セグメントの全ての組み合
わせに対して部分空間への射影ベクトルに関する演算を
行い、文書セグメント間の話題連続性を算出する。文書
の先頭付近、最後の付近においては境界点候補の前後に
存在する文書セグメントの数がCに達しない場合もあ
る。この場合には存在するだけの文書セグメントを用い
るので、Cは存在するだけの文書セグメントの数を表す
こととする。n番目の文書セグメントsnの部分空間への
射影ベクトルをpn =(pn1, pn2,.., pnL)とする。ここ
で、m番目の基底ベクトルへの射影値pnmは数10で与え
られるとする。h(n)を連続性の算出結果とすると、h(n)
は次のような式で算出することが可能である。
【0032】
【数16】
【0033】
【数17】
【0034】
【数18】
【0035】数16はn番目の文書セグメントの直前C個
の文書セグメントの射影ベクトルと直後のC個の文書セ
グメントの射影ベクトルの全ての組み合わせにつき余弦
類似度を求め、平均をとったものである。数16におい
ては短い文同士の射影ベクトルの類似度がh(n)に対して
必要以上に影響する可能性があるが、数16はその影響
を軽減するためのものである。何れの式においても境界
点の前後で話題が連続していれば大きな値を、不連続で
あれば小さな値をとる。
【0036】連続性最小点検出部30は、h(n)の極小点を
求める処理である。h(n)の極小点は連続性が極小、即ち
不連続性が極大になる点であり、対応する文書セグメン
トの最後を話題の境界とする。こうして、文書が話題の
境界点で分割される。以上述べた実施例では、文書セグ
メントと固有概念との関連性の算出に、文書セグメント
ベクトルの基底ベクトルへの射影値が用いられていた
が、射影値の自乗を用いても同等の結果を得ることがで
きる。この場合、pnmは数10の代わりに数15で与えら
れる。
【0037】58個の文からなる英文文書から2回以上出
現する44個の名詞を用語として用い、文単位に文書セグ
メントベクトルを作成し、文書の分割を行った場合、図
1、2の発明とも得られた結果は人間の感覚とよく一致し
ており、人間が話題が変化していると判断した個所が話
題境界として抽出されていた。
【0038】
【発明の効果】この本発明によれば各文の概念の変化を
捉えて話題の境界を検出するので従来に比べ精度が高め
られる。
【図面の簡単な説明】
【図1】本発明の一実施例のフローチャート。
【図2】本発明のもう一つの実施例のフローチャート。
【符号の説明】
11 用語検出部 12 形態素解析部 13 文書セグメント区分け部 14 文書セグメントベクトル作成部 15 平方和行列算出部 16 部分空間決定部 17 固有ベクトル選択部 18 文書セグメントベクトル射影部 19 関連性検出部 20 話題境界決定部

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】与えられた入力文書を分割する方法であっ
    て、 入力文書に出現する用語を検出するステップと、 入力文書を適当な単位の文書セグメントに区分けするス
    テップと、 前記文書セグメントに出現する用語の出現頻度に関連し
    た値を成分とする文書セグメントのベクトルを生成する
    ステップと、 前記文書セグメントベクトルの平方和行列の固有ベクト
    ルおよび固有値を算出するステップと、 前記固有ベクトルから、文書セグメントの話題連続性を
    算出するための部分空間を構成する基底ベクトルを選択
    するステップと、 前記文書セグメントベクトルのそれぞれを前記基底ベク
    トルに射影した値に関連した値を成分とするベクトルを
    求めるステップと、 前記射影したベクトルの連続性に基づいて文書の境界点
    を判定するステップと、 を含む文書分割方法。
  2. 【請求項2】 K個の用語が現れる入力文書がN個の文書
    セグメントに分割され、sniがi番目の用語の文書セグ
    メントnにおける出現頻度に応じた値として、n番目の
    文書セグメントベクトルsn (n=1,..,N)を(sn1,
    n2,.., snK)により表すと、前記平方和行列は、 【数1】 により算出される請求項1に記載の方法。
  3. 【請求項3】n番目の文書セグメントのm番目の基底ベ
    クトルへの射影値、もしくはその自乗した値をPnm、
    番目の文書セグメントがm番目の基底ベクトルに対して
    もつ正の関連性を示す変数をπnm、負の関連性を示す変
    数をνnmとし、 【数2】 と定義して前記文書セグメントの関連性を算出する請求
    項1に記載の文書分割方法。
  4. 【請求項4】n番目の文書セグメントがm番目の基底ベ
    クトルに対してもつ関連性が直前の文書セグメントがも
    つ関連性とどの程度異なるかを示す関数hm(n)を次のよ
    うに定義し、 【数3】 次式のh(n)を各nに対して求め、 【数4】 h(n)の極大点に基づいて文書の境界を決定する請求項3
    に記載の文書分割方法。
  5. 【請求項5】境界点候補の直前の一定個数の文書セグメ
    ントベクトルを部分空間に射影したベクトルと、直後の
    一定個数の文書セグメントベクトルを部分空間に射影し
    たベクトルとの全ての組み合わせから、境界点候補前後
    の話題の連続性を算出する請求項1に記載の文書分割方
    法。
  6. 【請求項6】文書セグメントnの直後を境界点候補と
    し、Cを境界点候補前後で処理の対象となる文書セグメ
    ントの個数、Lを部分空間の次元数、文書セグメントnの
    ベクトルを部分空間に射影したベクトルをpn =(pn1, p
    n2,.., pnL)、Tを転置として、ベクトルpn+i、pn+j-1
    間の内積を 【数5】 で定義するとき、話題の連続性を表す関数h(n)を 【数6】 または 【数7】 で算出する請求項5に記載の文書分割方法。
  7. 【請求項7】h(n)の極大点に基づいて文書の境界を決定
    する請求項5に記載の文書分割方法。
JP2000378015A 2000-12-12 2000-12-12 文書分割方法 Pending JP2002197083A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2000378015A JP2002197083A (ja) 2000-12-12 2000-12-12 文書分割方法
US10/432,543 US7308138B2 (en) 2000-12-12 2001-11-16 Document segmentation method
PCT/US2001/043534 WO2002048951A1 (en) 2000-12-12 2001-11-16 A document segmentation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000378015A JP2002197083A (ja) 2000-12-12 2000-12-12 文書分割方法

Publications (2)

Publication Number Publication Date
JP2002197083A true JP2002197083A (ja) 2002-07-12
JP2002197083A5 JP2002197083A5 (ja) 2008-01-31

Family

ID=18846658

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000378015A Pending JP2002197083A (ja) 2000-12-12 2000-12-12 文書分割方法

Country Status (2)

Country Link
JP (1) JP2002197083A (ja)
WO (1) WO2002048951A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008204274A (ja) * 2007-02-21 2008-09-04 Nomura Research Institute Ltd 会話解析装置および会話解析プログラム
JP2010257425A (ja) * 2009-04-28 2010-11-11 Nippon Hoso Kyokai <Nhk> 話題境界検出装置及びコンピュータプログラム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8914361B2 (en) * 1999-09-22 2014-12-16 Google Inc. Methods and systems for determining a meaning of a document to match the document to content
JP4452012B2 (ja) * 2002-07-04 2010-04-21 ヒューレット・パッカード・カンパニー 文書の特有性評価方法
JP5606988B2 (ja) * 2011-04-25 2014-10-15 東芝テック株式会社 表示入力装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5559940A (en) * 1990-12-14 1996-09-24 Hutson; William H. Method and system for real-time information analysis of textual material
US5583956A (en) * 1993-01-12 1996-12-10 The Board Of Trustees Of The Leland Stanford Junior University Estimation of skew angle in text image
US5619709A (en) * 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008204274A (ja) * 2007-02-21 2008-09-04 Nomura Research Institute Ltd 会話解析装置および会話解析プログラム
JP2010257425A (ja) * 2009-04-28 2010-11-11 Nippon Hoso Kyokai <Nhk> 話題境界検出装置及びコンピュータプログラム

Also Published As

Publication number Publication date
WO2002048951A1 (en) 2002-06-20

Similar Documents

Publication Publication Date Title
CN108509474B (zh) 搜索信息的同义词扩展方法及装置
Riedl et al. TopicTiling: a text segmentation algorithm based on LDA
US7689408B2 (en) Identifying language of origin for words using estimates of normalized appearance frequency
Biemann Unsupervised part-of-speech tagging employing efficient graph clustering
EP1617340B1 (en) A method and apparatus for providing proper or partial proper name recognition
McDonald et al. Multilingual dependency analysis with a two-stage discriminative parser
US9697475B1 (en) Additive context model for entity resolution
JP2002169834A (ja) 文書のベクトル解析を行うコンピュータおよび方法
US10002296B2 (en) Video classification method and apparatus
CN110704621A (zh) 文本处理方法、装置及存储介质和电子设备
CN111400493A (zh) 基于槽位相似度的文本匹配方法、装置、设备及存储介质
JP2018077850A (ja) 単語正規化方法、単語正規化装置及び機械翻訳方法、機械翻訳装置
Atia et al. Increasing the accuracy of opinion mining in Arabic
JP2006252333A (ja) データ処理方法、データ処理装置およびそのプログラム
CN111241813B (zh) 语料扩展方法、装置、设备及介质
Hu et al. Different contexts lead to different word embeddings
Riedl et al. How text segmentation algorithms gain from topic models
CN111859940B (zh) 一种关键词提取方法、装置、电子设备及存储介质
US11748567B2 (en) Total correlation variational autoencoder strengthened with attentions for segmenting syntax and semantics
US20170220562A1 (en) Translation apparatus
Liu et al. Evaluation algorithms for event nugget detection: A pilot study
US11520994B2 (en) Summary evaluation device, method, program, and storage medium
JP2016224483A (ja) モデル学習装置、方法、及びプログラム
US20140257810A1 (en) Pattern classifier device, pattern classifying method, computer program product, learning device, and learning method
Dang et al. A method to reveal speaker identity in distributed asr training, and how to counter it

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071207

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071225

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080422

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20080530

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080716

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20080828

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20081031