JP2004029968A - Method for generating topic estimation model and topic estimation method - Google Patents

Method for generating topic estimation model and topic estimation method Download PDF

Info

Publication number
JP2004029968A
JP2004029968A JP2002181950A JP2002181950A JP2004029968A JP 2004029968 A JP2004029968 A JP 2004029968A JP 2002181950 A JP2002181950 A JP 2002181950A JP 2002181950 A JP2002181950 A JP 2002181950A JP 2004029968 A JP2004029968 A JP 2004029968A
Authority
JP
Japan
Prior art keywords
topic
item
hierarchy
estimated value
relevance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002181950A
Other languages
Japanese (ja)
Inventor
Katsushi Asami
浅見 克志
Toshiyuki Takezawa
竹澤 寿幸
Genichiro Kikui
菊井 玄一郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2002181950A priority Critical patent/JP2004029968A/en
Publication of JP2004029968A publication Critical patent/JP2004029968A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Complex Calculations (AREA)
  • Machine Translation (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a method for generating a topic estimation model applicable to interactive expressions with spoken words for highly accurately estimating a topic to which an input utterance sentence is belonging by one utterance unit. <P>SOLUTION: Based on a plurality of interactive sentences for learning to which preliminarily defined topic items are assigned, and morphemic analysis is performed, relevance between words and respective topic items is calculated from the mutual information quantity of the words and the topic items and an entropy related with word appearance, and a table in which the relevance to each topic item is stored for each word is generated. <P>COPYRIGHT: (C)2004,JPO

Description

【0001】
【発明の属する技術分野】
この発明は、話題推定モデルの生成方法および話題推定方法に関し、特に話し言葉による対話に適用可能な話題推定モデルの生成方法および話題推定方法に関する。
【0002】
【従来の技術】
新聞記事やニュース音声などの書き言葉もしくはそれに近い性質を持つ文書を対象として、文書の見出しに含まれる話題単語と本文中に出現する単語との相互情報量を関連度として保持する話題抽出モデルを用い、入力された文章に含まれる単語に関して関連度の和を求め、その和が最大のものに対応する話題単語を出力する方法が既に開発されている(例えば、特開平11−7447公報参照)。
【0003】
【発明が解決しようとする課題】
新聞記事やニュース音声に比べて、実世界の対話に現れる話し言葉による表現は、一般に1文あたりに含まれる単語数が数単語から十数単語程度と短く、また文法構造的に必ずしも整っていない。また、学習に利用できるデータに関して、対話データは新聞記事やニュース音声ほど多く集めることはできない。
【0004】
このような状況において、従来手法を適用しても、相互情報量では単語と話題との関連、さらには入力文と話題との関連を適切に表現することができず、精度のよい推定結果が得られないという問題があった。
【0005】
また、実世界の対話では予期せぬタイミングで話題が転換する場合があり、これに追従するためには、対話のコンテクストに関係なく、1発話単位で話題を推定する必要がある。
【0006】
また、音声認識装置による対話文の認識結果を入力文として用いる場合には、音声認識誤りを含む文が入力されたときでも、その誤りの影響をできるだけ受けずに話題を推定する必要がある。
【0007】
この発明は、話し言葉による対話表現に適用でき、1発話単位でかつ良好な精度で入力発話文の属する話題を推定できる話題推定モデルの生成方法および話題推定方法を提供することを目的とする。
【0008】
【課題を解決するための手段】
請求項1に記載の発明は、予め定義された話題項目が割り当てられかつ形態素解析された複数の学習用対話文に基づいて、学習用対話文に出現する各単語毎に、単語と各話題項目との関連度を、単語と話題項目の相互情報量および単語出現に関するエントロピーから算出して、各単語毎に各話題項目に対する関連度を格納したテーブルを生成することを特徴とする。
【0009】
請求項2に記載の発明は、請求項1に記載の話題推定モデルの生成方法において、学習用対話文に含まれる単語は、読みと品詞のみによって識別されることを特徴とする。
【0010】
請求項3に記載の発明は、請求項1乃至2に記載の話題推定モデルの生成方法において、話題項目が階層構造化されており、各学習用対話文には各階層の話題項目が予め割り当てられており、最上位階層の話題項目に対する関連度を算出する際には、学習用対話文全体の集合上で相互情報量およびエントロピーを算出し、最上位階層より下位の話題項目に対する関連度を算出する際には、その話題項目に対応する1階層上位の話題項目が割り当てられている学習用対話文の集合上で相互情報量およびエントロピーを算出することを特徴とする。
【0011】
請求項4に記載の発明は、請求項1および2のいずれかに記載した方法によって生成された話題推定モデルを用いて、入力発話文に対応する話題を推定する方法であって、話題推定モデルの各話題項目毎に、入力発話文に含まれる各単語とその話題項目との関連度の総和を算出するステップ、ならびに関連度の総和が最も大きな話題項目を、入力発話文に対する話題推定結果として出力するステップを備えていることを特徴とする。
【0012】
請求項5に記載の発明は、請求項1および2のいずれかに記載した方法によって生成された話題推定モデルを用いて、入力発話文に対応する話題を推定する方法であって、話題推定モデルの各話題項目毎に、入力発話文に含まれる各単語とその話題項目との関連度の総和を算出するステップ、ならびに関連度の総和の大きい順に順位付けした複数の話題項目を、入力発話文に対する話題推定結果として出力するステップを備えていることを特徴とする。
【0013】
請求項6に記載の発明は、請求項3に記載した方法によって生成された話題推定モデルを用いて、入力発話文に対応する話題を推定する方法であって、話題推定モデルの各話題項目毎に、入力発話文に含まれる各単語とその話題項目との関連度の総和を算出し、これを各話題項目の仮の推定値とするステップ、最下位階層の各話題項目毎に、最下位階層の話題項目からその話題項目に対応する最上階層の話題項目までに至る一連の話題項目それぞれの仮の推定値を乗算することにより、最下位階層の各話題項目の推定値を算出するステップ、最下位階層より1つの上の階層から最上位階層までの各階層の各話題項目の推定値を、ある階層の話題項目の推定値を対応する1つ下の階層の各話題項目の推定値の最大値とするという規則に基づいて、下位の階層の話題項目に対するものから順番に求めていくステップ、ならびに各階層において、推定値が最大となる話題項目を、話題推定結果として出力するステップを備えていることを特徴とする。
【0014】
請求項7に記載の発明は、請求項3に記載した方法によって生成された話題推定モデルを用いて、入力発話文に対応する話題を推定する方法であって、話題推定モデルの各話題項目毎に、入力発話文に含まれる各単語とその話題項目との関連度の総和を算出し、これを各話題項目の仮の推定値とするステップ、最下位階層の各話題項目毎に、最下位階層の話題項目からその話題項目に対応する最上階層の話題項目までに至る一連の話題項目それぞれの仮の推定値を乗算することにより、最下位階層の各話題項目の推定値を算出するステップ、最下位階層より1つの上の階層から最上位階層までの各階層の各話題項目の推定値を、ある階層の話題項目の推定値を対応する1つ下の階層の各話題項目の推定値の最大値とするという規則に基づいて、下位の階層の話題項目に対するものから順番に求めていくステップ、ならびに各階層において、推定値の大きい順に順位付けした複数の話題項目を、話題推定結果として出力するステップを備えていることを特徴とする。
【0015】
請求項8に記載の発明は、請求項4乃至7に記載の話題推定方法において、入力発話文に含まれる単語は、読みと品詞のみによって識別されることを特徴とする。
【0016】
【発明の実施の形態】
以下、図面を参照して、この発明の実施の形態について説明する。
【0017】
〔1〕話題推定モデルの作成方法についての説明
【0018】
まず、話題推定モデルの作成方法について説明する。
【0019】
話題推定モデルを作成するために、学習用データを用意する。学習用データは、形態素解析が行なわれた複数の対話文から構成されている。各対話文には、予め定義された複数の話題項目の中から、予め対応する話題項目が割り当てられる。この実施の形態では、話題項目は、階層構造となっており、各対話文には、各階層毎の話題項目が割り当てられる。図1には、話題項目が3階層として与えられている場合の具体例が示されている。
【0020】
また、学習用データに含まれる各単語の識別は、「読み」と「品詞」のみによって識別される。例えば、「咳」と「席」とは異なる意味を持つ単語であるが、、ともに「セキ/ 名詞」であるので、同一単語として扱う。同様に、「乗り換え」と「乗換」や、「瓶」と「便」も同一単語として扱う。
【0021】
話題推定モデルを作成するとは、図2に示すように、学習用データに基づいて、各単語毎に各話題項目に対する関連度を格納した関連度テーブルを作成することを意味している。
【0022】
まず、単語と話題の関連度を算出するための一般式について説明する。
【0023】
単語wが出現/非出現の事象をWと定義する。
話題tが出現/非出現の事象をTと定義する。
単語wの出現確率( ある文の集合上で単語wが出現する確率)をp(w)と定義する。
話題tの出現確率( ある文の集合上で話題tが出現する確率)をp(t)と定義する。
話題tと単語wの共起確率(ある文の集合上で話題tについて単語wが出現する確率)をp(t,w)と定義する。
【0024】
WのエントロピーH(W)は、次式(1)で表される。
【0025】
【数1】

Figure 2004029968
【0026】
TとWの相互情報量I(T;W)は、次式(2)で表される。
【0027】
【数2】
Figure 2004029968
【0028】
単語wと話題tとの関連度r(t;w)は、次式(3)で表される。
【0029】
【数3】
Figure 2004029968
【0030】
図3は、話題の階層が3階層である場合に、ある単語と各階層の話題との関連度を算出する場合の考え方を示している。
【0031】
ここでは、話題txyz は最下位階層( レイヤ2) の話題を示し、話題txyは話題txyz の1つ上位の階層( レイヤ1) での話題を示し、話題tx は話題txyの1つ上位の階層( レイヤ0) での話題を示している。
【0032】
▲1▼ある単語wu と最上位階層( レイヤ0)の話題tx との関連度を求める場合には、p(wu ),p(tx )は学習データの文全体の集合上で計算する。
【0033】
例えば、学習データの文全体の集合には1000個の文が含まれており、その中に話題tx の文が100個存在するものとする。また、学習データの文全体の集合には単語wu を含む文が50個存在し、話題tx の文の集合には単語wu を含む文が25個存在するとする。
【0034】
この場合には、p(wu )=50/1000,p(tx )=100/1000,p(tx ,wu )=25/1000となる。これらと、上記式(1),(2),(3)に基づいて、単語wu と話題tx との関連度r(tx ;wu )が求められる。
【0035】
▲2▼単語wu と第2階層( レイヤ1)の話題txyとの関連度を求める場合には、p(wu ),p(txy)は、レイヤ0で話題がtx である文の集合上で計算する。
【0036】
話題tx の文の集合(100個の文)の中に、話題txyの文が10個存在するものとする。また、話題txyの文の集合には、単語wu を含む文が5個存在するとする。
【0037】
この場合には、p(wu )=25/100,p(txy)=10/100,p(t,w)=5/100となる。ここで、p(wu )は、話題txyに対応する1つ上の階層(レイヤ0)での話題tx の文の集合において、当該単語wu が含まれている文の数(この例では25)を利用して求められる。これらと、上記式(1),(2),(3)に基づいて、単語wu と話題txyとの関連度r(txy;wu )が求められる。
【0038】
▲3▼単語wu と最下位層(レイヤ2)の話題txyz との関連度を求める場合には、p(wu ),p(txyz )は、レイヤ1で話題がtxyである文の集合上で計算する。
【0039】
話題txyの文の集合(10個の文)の中に、話題txyz の文が3個存在するものとする。また、話題txyz の文の集合には、単語wu を含む文が1個存在するとする。
【0040】
この場合には、p(wu )=5/10,p(txy)=3/10,p(t,w)=1/10となる。ここで、p(wu )は、話題txyz に対応する1つ上の階層の話題txyの文の集合において、当該単語wu が含まれている文の数(この例では5)を利用して求められる。
【0041】
これらと、上記式(1),(2),(3)に基づいて、単語wu と話題txyz との関連度r(txyz ;wu )が求められる。
【0042】
図4は、話題推定モデルの作成手順を示している。
【0043】
まず、学習データ全体の集合上に存在する各単語wi 毎に、最上位階層の各話題tx との関連度r(tx ;wi )を算出する(ステップ1)。
【0044】
つまり、学習データ全体の集合上で、各単語wi 毎に単語の出現確率p(wi )を算出する。また、学習データ全体の集合上で、最上位階層の各話題tx 毎に話題の出現確率p(tx )を算出する。また、学習データ全体の集合上で、最上位階層の話題tx のみを対象として、各単語wi 毎に、各話題との共起確率p(tx ,wi )を算出する。そして、これらの情報に基づいて、各単語wi 毎に、最上位階層の各話題tx との関連度r(tx ;wi )を算出する。
【0045】
次に、関連度計算の対象階層を1つ下げる(ステップ2)。そして、学習データ全体の集合上に存在する各単語wi 毎に、関連度計算の対象階層の各話題との関連度を算出する(ステップ3)。この際、上述したように、対象階層の話題の出現確率、単語の出現確率は、対象階層の話題が属する1つ上の階層の話題に対応する文集合上で計算する。
【0046】
次に、現在の関連度計算の対象階層が最下位階層であるか否かを判定する(ステップ4)。現在の関連度計算の対象階層が最下位階層でない場合には、ステップ2に戻る。現在の関連度計算の対象階層が最下位階層である場合には、終了する。このような手順を行うことにより、図2に示すような関連度テーブルが作成される。
【0047】
〔2〕話題推定方法についての説明
【0048】
次に、話題推定方法について説明する。話題推定とは、話題推定モデルに基づいて、話題推定対象文に対して適切な話題を推定することをいう。話題推定対象文としては、それぞれの単語の形態素情報をもつ単語列が用いられる。これは、例えば、形態素解析済の発話文の書き起こしや、音声認識装置による形態素情報付きの音声認識結果である。話題推定対象文に含まれる各単語の識別は、「読み」と「品詞」のみによって識別される。
【0049】
図5は、話題推定アルゴリズムの手順を示している。
【0050】
話題推定対象文が入力されると(ステップ11)、入力文に含まれる各単語毎に、各話題項目との関連度を、関連度テーブルから抽出する(ステップ12)。
【0051】
そして、全階層の各話題項目毎に、入力文に含まれる各単語との関連度の総和和を算出し、これを各話題項目の仮の推定値とする(ステップ13)。
【0052】
例えば、話題項目の階層が3階層であり、入力文が単語系列{w3 ,w10,w165 ,w957 ,w3876,w4598}で表されるとき、レイヤ0 の話題項目tx 、レイヤ1 の話題項目txyおよびレイヤ2の話題項目txyz それぞれに対する仮の推定値rx 、rxyおよびrxyz は、次式(4)で表される。
【0053】
【数4】
Figure 2004029968
【0054】
次に、ステップ13で算出された各話題項目の仮の推定値に基づいて、最下位階層の各話題項目毎に推定値を算出する(ステップ14)。
【0055】
つまり、最下位階層の各話題項目毎に、最下位階層の話題項目からその話題項目に対応する最上階層の話題項目までに至る一連の話題項目それぞれの仮の推定値を乗算することにより、最下位階層の各話題項目の推定値を算出する。
【0056】
例えば、話題項目の階層が3階層である場合には、まず、最上位階層より1つ下位の階層であるレイヤ1の各話題項目の仮の推定値に、対応する最上位階層(レイヤ0)の話題項目の仮の推定値を乗ずることにより、レイヤ1の各話題項目の仮の推定値を更新させる。次に、最下位階層であるレイヤ2の各話題項目の仮の推定値に、対応するレイヤ1の話題項目の仮の推定値(更新済のもの)を乗ずじ、その結果をレイヤ2の各話題項目の推定値とする。
【0057】
次に、最下位階層より1つの上の階層から最上位階層までの各話題項目毎に推定値を算出する(ステップ15)。
【0058】
つまり、最下位階層より1つの上の階層から最上位階層までの各階層の各話題項目の推定値を、”ある階層の話題項目の推定値を対応する1つ下の階層の各話題項目の推定値の最大値とする”という規則に基づいて、下位の階層の話題項目に対するものから順番に求めていく。
【0059】
例えば、話題項目の階層が3階層である場合には、まず、最下位階層より1つ上位の階層であるレイヤ1の各話題項目の推定値を、それに対応するレイヤ2の各話題項目の推定値の最大値とする。次に、レイヤ0の各話題項目の推定値を、それに対応するレイヤ1の各話題項目の推定値の最大値とする。
【0060】
次に、各階層において、推定値が最大となる話題項目を、話題推定結果(1best)として出力する(ステップ16)。
【0061】
図6は、話題の階層構造を示している。
話題1、話題1−3、話題1−3−1の仮の推定値をr1 ,r13,r131 で表し、推定値をR1 ,R13,R131 で表すことにする。
【0062】
話題2に属する木に注目すると、R212,223 は、次式(5)のように表される。
【0063】
212 =r2 21212 
223 =r2 22223    …(5)
【0064】
話題2−1に属するレイヤ2の各話題の推定値のうちの最大値がR212 である場合には、話題2−1の推定値R21は、R21=R212 となる。また、話題2−2に属するレイヤ2の各話題の推定値のうちの最大値がR223 である場合には、話題2−2の推定値R22は、R22=R223 となる。
【0065】
話題2に属するレイヤ1の各話題の推定値のうちの最大値がR22である場合には、話題2の推定値R2 は、R2 =R22となる。
【0066】
レイヤ0の各話題の推定値のうちの最大値がR2 である場合には、各レイヤの話題の推定結果(1best) は、次のようになる。
【0067】
レイヤ0:話題2 ,レイヤ1:話題2−2 ,レイヤ2:話題2−2−3
【0068】
なお、例えば、3best までの推定結果を出力させるようにしてもよい。つまり、推定値の大小関係により順位付けした推定結果(n−best) を出力させるようにしてもよい。
【0069】
たとえば、レイヤ2の各話題項目のうち推定値が最も大きいものがR223 であり、2番目に推定値が大きいものがR212 であり、3番目に推定値が大きいものがR131 であるとすると、レイヤ間の整合性を優先した場合の3best までの推定結果は、次のようになる。
【0070】
1best    レイヤ0:話題2 ,レイヤ1:話題2−2 ,レイヤ2:話題2−2−3
2best    レイヤ0:話題2 ,レイヤ1:話題2−1 ,レイヤ2:話題2−1−2
3best    レイヤ0:話題1 ,レイヤ1:話題1−3 ,レイヤ2:話題1−3−1
【0071】
推定値の大小関係を優先した場合の3best までの推定結果は、次のようになる。
【0072】
1best    レイヤ0:話題2 ,レイヤ1:話題2−2 ,レイヤ2:話題2−2−3
2best    レイヤ0:話題1 ,レイヤ1:話題2−1 ,レイヤ2:話題2−1−2
3best    レイヤ0:話題? ,レイヤ1:話題1−3 ,レイヤ2:話題1−3−1
【0073】
上記実施の形態では、話題項目と単語との関連度として、話題項目と単語の相互情報量と単語のエンロピーとの比を用いているため、各単語の情報理論的情報量の差の影響を抑え、話題項目と単語の関連性を適切に表すことができる。従来技術による相互情報量への品詞フィルタリングの付加以上に効果がある。
【0074】
また、話題項目を階層構造として扱うことにより、スパースネスの問題を回避できる。
【0075】
話題項目が階層構造化されていることにより、「詳細な分類では正確ではないが、大体正しい」推定結果が得られる。すなわち、下位階層の詳細に分類された話題項目に関する推定結果が不正確であっても、分類の粗い上位階層の話題項目に関する推定結果は正しい場合がある。これは、対話システムへの応用の際に効果的である。
【0076】
また、単語を「読み」と「品詞」のみによって識別することにより、単語をより詳細に識別する場合に比べ、音声認識誤りを含む入力文に対して頑健に話題推定を行える。「読み」と「品詞」以外の情報を使用しないことによって失われる情報を、話題項目と単語の組み合わせ毎の関連度を求めることによって補いつつ、音声認識誤りに対する過敏な反応を抑制する。
【0077】
なお、上記実施の形態では、話題項目が階層構造化されているが、話題項目は階層構造化されていなくてもよい。そのような条件下で話題推定モデルが作成されている場合に、入力文に対する話題を推定するには、話題推定モデルの各話題項目毎に入力文に含まれる各単語とその話題項目との関連度の総和を算出し、関連度の総和が最も大きな話題項目を、入力発話文に対する話題推定結果として出力すればよい。
【0078】
【発明の効果】
この発明によれば、話し言葉による対話表現に適用でき、1発話単位でかつ良好な精度で入力発話文の属する話題を推定できるようになる。
【図面の簡単な説明】
【図1】話題項目が3階層として与えられている場合の話題項目の具体例を示す模式図である。
【図2】関連度テーブルの内容を示す模式図である。
【図3】話題の階層が3階層である場合に、ある単語と各階層の話題との関連度を算出する場合の考え方を説明するための模式図である。
【図4】話題推定モデルの作成手順を示すフローチャートである。
【図5】話題推定アルゴリズムの手順を示すフローチャートである。
【図6】話題の階層構造を示す模式図である。[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a method for generating a topic estimation model and a topic estimation method, and more particularly to a method for generating a topic estimation model and a topic estimation method applicable to dialogue using spoken language.
[0002]
[Prior art]
Using a topic extraction model that holds the mutual information between the topic words included in the headline of the document and the words that appear in the text as the relevance for written words such as newspaper articles and news audio, or for documents with properties similar to those. A method has already been developed in which a sum of relevance is obtained for words included in an input sentence, and a topic word corresponding to the word having the largest sum is output (for example, see Japanese Patent Application Laid-Open No. 11-7447).
[0003]
[Problems to be solved by the invention]
Compared with newspaper articles and news voices, spoken expressions appearing in real-world dialogue generally have a short number of words per sentence of several to a dozen or so words, and are not necessarily grammatically structured. As for data that can be used for learning, dialog data cannot be collected as much as newspaper articles or news voices.
[0004]
In such a situation, even if the conventional method is applied, the relationship between the word and the topic, and further, the relationship between the input sentence and the topic cannot be appropriately expressed by the mutual information, and the accurate estimation result cannot be obtained. There was a problem that it could not be obtained.
[0005]
In a real-world dialogue, a topic may change at an unexpected timing. In order to follow this, it is necessary to estimate the topic in units of one utterance, regardless of the context of the dialogue.
[0006]
Also, when a recognition result of a dialogue sentence by a speech recognition device is used as an input sentence, it is necessary to estimate a topic without being affected as much as possible even when a sentence containing a speech recognition error is input.
[0007]
An object of the present invention is to provide a topic estimation model generation method and a topic estimation method that can be applied to dialogue expression using spoken language and that can estimate a topic to which an input utterance sentence belongs with one utterance unit and with good accuracy.
[0008]
[Means for Solving the Problems]
According to the first aspect of the present invention, a word and each topic item are provided for each word appearing in the learning dialogue based on a plurality of learning dialogues to which predefined topic items are assigned and morphologically analyzed. Is calculated from the mutual information between the word and the topic item and the entropy related to the word appearance, and a table storing the relevance to each topic item for each word is generated.
[0009]
According to a second aspect of the present invention, in the method of generating a topic estimation model according to the first aspect, words included in the learning dialogue sentence are identified only by reading and part of speech.
[0010]
According to a third aspect of the present invention, in the method for generating a topic estimation model according to any one of the first to second aspects, the topic items are hierarchically structured, and the topic items of each hierarchy are assigned in advance to each learning dialogue sentence. When calculating the relevance to the top-level topic item, the mutual information and entropy are calculated on the entire set of learning dialogue sentences, and the relevance to the topic item lower than the top-level hierarchy is calculated. In the calculation, the mutual information and entropy are calculated on a set of learning dialogue sentences to which a topic item one level higher corresponding to the topic item is assigned.
[0011]
According to a fourth aspect of the present invention, there is provided a method for estimating a topic corresponding to an input utterance sentence using a topic estimation model generated by the method according to any one of the first and second aspects. Calculating the sum of the relevance between each word included in the input utterance sentence and the topic item, and the topic item having the highest sum of the relevance as the topic estimation result for the input utterance sentence. The method further comprises the step of outputting.
[0012]
According to a fifth aspect of the present invention, there is provided a method for estimating a topic corresponding to an input utterance sentence using a topic estimation model generated by the method according to any one of the first and second aspects. Calculating the sum of the relevance of each word included in the input utterance sentence and the topic item for each topic item of the input utterance sentence; and inputting a plurality of topic items ranked in descending order of the sum of the relevance. And outputting the result as a topic estimation result.
[0013]
According to a sixth aspect of the present invention, there is provided a method for estimating a topic corresponding to an input utterance sentence using a topic estimation model generated by the method according to the third aspect. The step of calculating the sum of the relevance of each word included in the input utterance sentence and its topic item, and using this as a tentative estimation value of each topic item. Calculating an estimated value of each topic item of the lowest hierarchy by multiplying a temporary estimated value of each of a series of topic items from the topic item of the hierarchy to the top-level topic item corresponding to the topic item; The estimated value of each topic item in each hierarchy from the hierarchy one level higher than the lowest hierarchy to the highest hierarchy is calculated as the estimated value of each topic item in the hierarchy one level below the estimated value of the topic item in a certain hierarchy. Based on the rule of maximizing Step to seek in order from those for the topic fields of lower level, and in each layer, the topic fields estimated value is maximized, characterized in that it comprises a step of outputting as a topic estimation results.
[0014]
According to a seventh aspect of the present invention, there is provided a method for estimating a topic corresponding to an input utterance sentence using a topic estimation model generated by the method according to the third aspect. The step of calculating the sum of the relevance of each word included in the input utterance sentence and its topic item, and using this as a tentative estimation value of each topic item. Calculating an estimated value of each topic item of the lowest hierarchy by multiplying a temporary estimated value of each of a series of topic items from the topic item of the hierarchy to the top-level topic item corresponding to the topic item; The estimated value of each topic item in each hierarchy from the hierarchy one level higher than the lowest hierarchy to the highest hierarchy is calculated as the estimated value of each topic item in the hierarchy one level below the estimated value of the topic item in a certain hierarchy. Based on the rule of maximizing The method further comprises the steps of sequentially obtaining a topic item in a lower hierarchy, and outputting a plurality of topic items ranked in descending order of the estimated value as a topic estimation result in each hierarchy. I do.
[0015]
According to an eighth aspect of the present invention, in the topic estimation method according to any one of the fourth to seventh aspects, the words included in the input utterance sentence are identified only by the reading and the part of speech.
[0016]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[0017]
[1] Description of Method for Creating Topic Estimation Model
First, a method of creating a topic estimation model will be described.
[0019]
In order to create a topic estimation model, training data is prepared. The learning data is composed of a plurality of dialogue sentences subjected to morphological analysis. Each dialogue sentence is assigned a corresponding topic item from a plurality of predefined topic items in advance. In this embodiment, the topic items have a hierarchical structure, and each conversation sentence is assigned a topic item for each hierarchy. FIG. 1 shows a specific example in a case where topic items are given as three layers.
[0020]
Further, each word included in the learning data is identified only by “reading” and “part of speech”. For example, "cough" and "seat" are words having different meanings, but since they are both "seki / noun", they are treated as the same word. Similarly, “transfer” and “transfer” and “bottle” and “flight” are treated as the same word.
[0021]
Creating the topic estimation model means, as shown in FIG. 2, creating a relevance table storing the relevance to each topic item for each word based on the learning data.
[0022]
First, a general expression for calculating the degree of association between a word and a topic will be described.
[0023]
An event in which the word w appears / not appears is defined as W.
An event in which the topic t appears / not appears is defined as T.
The appearance probability of the word w (probability that the word w appears on a certain sentence set) is defined as p (w).
The appearance probability of the topic t (the probability that the topic t appears on a certain sentence set) is defined as p (t).
The co-occurrence probability of the topic t and the word w (the probability that the word w appears for the topic t on a certain set of sentences) is defined as p (t, w).
[0024]
The entropy H (W) of W is represented by the following equation (1).
[0025]
(Equation 1)
Figure 2004029968
[0026]
The mutual information I (T; W) between T and W is expressed by the following equation (2).
[0027]
(Equation 2)
Figure 2004029968
[0028]
The degree of association r (t; w) between the word w and the topic t is represented by the following equation (3).
[0029]
[Equation 3]
Figure 2004029968
[0030]
FIG. 3 shows the concept of calculating the degree of relevance between a certain word and the topic of each layer when there are three layers of topics.
[0031]
Here, the topic t xyz indicates the topic of the lowest hierarchy (layer 2), the topic t xy indicates the topic of the next higher hierarchy (layer 1) of the topic t xyz , and the topic t x indicates the topic of the topic t xy This indicates a topic at the next higher layer (layer 0).
[0032]
{Circle around (1)} In order to determine the degree of association between a certain word w u and the topic t x of the highest hierarchy (layer 0), p (w u ) and p (t x ) are set on the entire set of sentences of the learning data. calculate.
[0033]
For example, the set of all sentences of the training data includes the 1000 statement sentence topic t x is assumed to be present 100 therein. In addition, the sentence containing the word w u is the set of all sentences of learning data exists 50, the statement is a set of statements of the topic t x containing the word w u is to be present 25.
[0034]
In this case, p (w u ) = 50/1000, p (t x ) = 100/1000, and p (t x , w u ) = 25/1000 . Based on these and the above equations (1), (2) and (3), the degree of relevance r (t x ; w u ) between the word w u and the topic t x is obtained.
[0035]
{Circle around (2)} When determining the degree of association between the word w u and the topic t xy of the second layer (layer 1), p (w u ) and p (t xy ) have the topic t x in layer 0 Calculate on a set of sentences.
[0036]
In a set of statements of the topic t x (100 pieces of statement), it is assumed that the statement of the topic t xy is present 10. In addition, the collection of statements of topic t xy, a sentence containing the word w u five exist.
[0037]
In this case, p (w u ) = 25/100 , p (t xy ) = 10/100 , and p (t, w) = 5/100. Here, p (w u), in the set of sentences topics t x at one level corresponding to the topic t xy (layer 0), the number of sentences in which the words w u is included (this In the example, it is obtained using 25). Based on these and the above equations (1), (2), and (3), the degree of relevance r (t xy ; w u ) between the word w u and the topic t xy is obtained.
[0038]
{Circle around (3)} When calculating the degree of association between the word w u and the topic t xyz of the lowest layer (layer 2), p (w u ) and p (t xyz ) indicate that the topic is t xy in layer 1. Calculate on a set of sentences.
[0039]
It is assumed that three sentences of the topic t xyz exist in a set of sentences (ten sentences) of the topic t xy . In addition, the collection of statements of topic t xyz, a sentence containing the word w u there is one.
[0040]
In this case, p (w u ) = 5/10 , p (t xy ) = 3/10 , and p (t, w) = 1/10. Here, p (w u ) is the number of sentences (5 in this example) including the word w u in the set of sentences of the topic t xy in the next higher hierarchy corresponding to the topic t xyz. Required by using.
[0041]
Based on these and the above equations (1), (2), and (3), the degree of relevance r (t xyz ; w u ) between the word w u and the topic t xyz is obtained.
[0042]
FIG. 4 shows a procedure for creating a topic estimation model.
[0043]
First, for each word w i present on the entire set of training data, relevance r between each topic t x of the highest layer; calculating a (t x w i) (Step 1).
[0044]
In other words, on the set of the whole training data, to calculate the word of the occurrence probability p (w i) for each word w i. Further, on the set of the entire learning data, the topic appearance probability p (t x ) is calculated for each topic t x in the highest hierarchy. In addition, on the set of the whole training data is calculated as a target only topic t x of the top-level hierarchy, for each word w i, the co-occurrence probability p (t x, w i) with each topic a. Then, based on these pieces of information, the degree of relevance r (t x ; w i ) with each topic t x in the highest hierarchy is calculated for each word w i .
[0045]
Next, the target hierarchy for the relevance calculation is lowered by one (step 2). Then, for each word w i present on the entire set of training data, to calculate the relevance of each topic of interest hierarchy relevance calculation (Step 3). At this time, as described above, the appearance probability of the topic in the target hierarchy and the appearance probability of the word are calculated on the sentence set corresponding to the topic in the next higher hierarchy to which the topic of the target hierarchy belongs.
[0046]
Next, it is determined whether or not the target hierarchy for the current relevance calculation is the lowest hierarchy (step 4). If the target hierarchy for the current relevance calculation is not the lowest hierarchy, the process returns to step 2. If the target hierarchy for the current relevance calculation is the lowest hierarchy, the process ends. By performing such a procedure, an association degree table as shown in FIG. 2 is created.
[0047]
[2] Description of Topic Estimation Method
Next, a topic estimation method will be described. Topic estimation refers to estimating an appropriate topic for a topic estimation target sentence based on a topic estimation model. As the topic estimation target sentence, a word string having morpheme information of each word is used. This is, for example, a transcription of an utterance sentence after morphological analysis or a speech recognition result with morpheme information by a speech recognition device. Each word included in the topic estimation target sentence is identified only by “reading” and “part of speech”.
[0049]
FIG. 5 shows the procedure of the topic estimation algorithm.
[0050]
When a topic estimation target sentence is input (step 11), the relevance with each topic item is extracted from the relevance table for each word included in the input sentence (step 12).
[0051]
Then, for each topic item in all hierarchies, the sum of the degrees of relevance to the words included in the input sentence is calculated, and this is used as a temporary estimated value of each topic item (step 13).
[0052]
For example, when the topic item has three hierarchies and the input sentence is represented by the word sequence {w 3 , w 10 , w 165 , w 957 , w 3876 , w 4598 }, the topic item t x of layer 0, The provisional estimated values r x , r xy, and r xyz for each of the topic item t xy of the layer 1 and the topic item t xyz of the layer 2 are expressed by the following equation (4).
[0053]
(Equation 4)
Figure 2004029968
[0054]
Next, an estimated value is calculated for each topic item in the lowest hierarchy based on the temporary estimated value of each topic item calculated in step 13 (step 14).
[0055]
In other words, by multiplying each topic item of the lowest hierarchy by the tentative estimated value of each of a series of topic items from the topic item of the lowest hierarchy to the topic item of the top hierarchy corresponding to the topic item, The estimated value of each topic item in the lower hierarchy is calculated.
[0056]
For example, when the topic item has three hierarchies, first, the highest level (layer 0) corresponding to the tentative estimated value of each topic item of layer 1 which is one layer lower than the highest level Is multiplied by the tentative estimated value of the topic item, thereby updating the tentative estimated value of each topic item of layer 1. Next, the tentative estimated value of each topic item of layer 2 which is the lowest hierarchy is multiplied by the tentative estimated value (updated) of the corresponding topic item of layer 1, and the result is calculated by This is an estimated value of a topic item.
[0057]
Next, an estimated value is calculated for each topic item from the hierarchy one level higher than the lowest hierarchy to the highest hierarchy (step 15).
[0058]
In other words, the estimated value of each topic item in each hierarchy from the hierarchy one level higher than the lowest hierarchy to the highest hierarchy is defined as “the estimated value of the topic item in a certain hierarchy, Based on the rule of “estimate the maximum value of the estimated value”, it is determined in order from the topic item of the lower hierarchy.
[0059]
For example, when the topic item has three hierarchies, first, the estimated value of each topic item of layer 1 which is one layer higher than the lowest hierarchy is estimated, and the estimated value of each topic item of layer 2 corresponding thereto is estimated. This is the maximum value. Next, the estimated value of each topic item of layer 0 is set to the maximum value of the estimated value of each topic item of layer 1 corresponding thereto.
[0060]
Next, the topic item having the maximum estimated value in each layer is output as a topic estimation result (1 best) (step 16).
[0061]
FIG. 6 shows a hierarchical structure of a topic.
Topics 1 represents topics 1-3, an estimate of the temporary topic 1-3-1 at r 1, r 13, r 131, the estimated value to be represented by R 1, R 13, R 131 .
[0062]
Focusing on the tree belonging to topic 2, R 212 and R 223 are expressed as in the following equation (5).
[0063]
R 212 = r 2 r 21 r 212
R 223 = r 2 r 22 r 223 (5)
[0064]
If the maximum value of the estimate for each topic of the layer 2 belonging to the topic 2-1 is R 212 may estimate R 21 topics 2-1, the R 21 = R 212. Further, when the maximum value among the estimated values of each thread of the layer 2 belonging to the topic 2-2 is R 223 may estimate R 22 topics 2-2 becomes R 22 = R 223.
[0065]
If the maximum value of the estimate for each topic of the layer 1 which belongs to the topic 2 is R 22, the estimated value R 2 topics 2 becomes R 2 = R 22.
[0066]
If the maximum value of the estimate for each topic of the layer 0 is R 2 is the topic of the estimation result of each layer (1best) is as follows.
[0067]
Layer 0: Topic 2, Layer 1: Topic 2-2, Layer 2: Topic 2-2-3
[0068]
For example, the estimation result up to 3 best may be output. That is, an estimation result (n-best) ranked according to the magnitude relation of the estimation values may be output.
[0069]
For example, among the topic items of Layer 2, the one with the largest estimated value is R 223 , the second with the largest estimated value is R 212 , and the third with the largest estimated value is R 131. Then, the estimation result up to 3 best when the consistency between layers is prioritized is as follows.
[0070]
1best Layer 0: Topic 2, Layer 1: Topic 2-2, Layer 2: Topic 2-2-3
2best Layer 0: Topic 2, Layer 1: Topic 2-1 and Layer 2: Topic 2-1-2
3best Layer 0: Topic 1, Layer 1: Topic 1-3, Layer 2: Topic 1-3-1
[0071]
The estimation results up to 3best when the magnitude relation of the estimation values is prioritized are as follows.
[0072]
1best Layer 0: Topic 2, Layer 1: Topic 2-2, Layer 2: Topic 2-2-3
2best Layer 0: Topic 1, Layer 1: Topic 2-1 and Layer 2: Topic 2-1-2
3best Layer 0: Topic? , Layer 1: topic 1-3, layer 2: topic 1-3-1
[0073]
In the above embodiment, since the ratio of the mutual information between the topic item and the word and the entropy of the word is used as the degree of association between the topic item and the word, the effect of the difference in the information theoretical information amount of each word is considered. It is possible to appropriately suppress the relationship between the topic item and the word. This is more effective than adding the part-of-speech filtering to the mutual information amount according to the related art.
[0074]
Also, by treating topic items as a hierarchical structure, the problem of sparseness can be avoided.
[0075]
Since the topic items are hierarchically structured, an estimation result "which is not accurate by detailed classification but is almost correct" can be obtained. That is, even if the estimation result for the topic item classified in detail in the lower hierarchy is incorrect, the estimation result for the topic item in the upper hierarchy that is coarsely classified may be correct. This is effective when applied to a dialog system.
[0076]
Also, by identifying words only by “reading” and “part of speech”, topic estimation can be performed more robustly for an input sentence containing a speech recognition error than when words are identified in more detail. Information lost due to not using information other than "reading" and "part of speech" is compensated for by determining the relevance of each combination of a topic item and a word, while suppressing an excessive reaction to a speech recognition error.
[0077]
In the above embodiment, the topic items are hierarchically structured, but the topical items need not be hierarchically structured. When a topic estimation model is created under such conditions, the topic for the input sentence can be estimated by associating each word included in the input sentence with the topic item for each topic item of the topic estimation model. The sum of degrees may be calculated, and the topic item having the largest sum of relevance may be output as the topic estimation result for the input utterance sentence.
[0078]
【The invention's effect】
According to the present invention, the topic to which the input utterance sentence belongs can be estimated with good accuracy in units of one utterance, and can be applied to dialogue expression using a spoken language.
[Brief description of the drawings]
FIG. 1 is a schematic diagram showing a specific example of a topic item in a case where topic items are given as three layers.
FIG. 2 is a schematic diagram showing the contents of a relevance table.
FIG. 3 is a schematic diagram for explaining a concept of calculating the degree of relevance between a certain word and a topic in each layer when there are three layers of topics.
FIG. 4 is a flowchart illustrating a procedure for creating a topic estimation model.
FIG. 5 is a flowchart illustrating a procedure of a topic estimation algorithm.
FIG. 6 is a schematic diagram showing a hierarchical structure of a topic.

Claims (8)

予め定義された話題項目が割り当てられかつ形態素解析された複数の学習用対話文に基づいて、学習用対話文に出現する各単語毎に、単語と各話題項目との関連度を、単語と話題項目の相互情報量および単語出現に関するエントロピーから算出して、各単語毎に各話題項目に対する関連度を格納したテーブルを生成する話題推定モデルの生成方法。Based on a plurality of learning dialogue sentences to which predefined topic items are assigned and morphologically analyzed, for each word appearing in the learning dialogue sentence, the degree of relevance between the word and each topic item is determined. A method for generating a topic estimation model that calculates a mutual information amount of items and entropy related to word appearance and generates a table in which the relevance to each topic item is stored for each word. 学習用対話文に含まれる単語は、読みと品詞のみによって識別される請求項1に記載の話題推定モデルの生成方法。The method for generating a topic estimation model according to claim 1, wherein the words included in the learning dialogue sentence are identified only by reading and part of speech. 話題項目が階層構造化されており、各学習用対話文には各階層の話題項目が予め割り当てられており、最上位階層の話題項目に対する関連度を算出する際には、学習用対話文全体の集合上で相互情報量およびエントロピーを算出し、最上位階層より下位の話題項目に対する関連度を算出する際には、その話題項目に対応する1階層上位の話題項目が割り当てられている学習用対話文の集合上で相互情報量およびエントロピーを算出する請求項1および2のいずれかに記載の話題推定モデルの生成方法。Topic items are hierarchically structured. Topic items of each hierarchy are assigned in advance to each learning dialogue sentence. When calculating the relevance to the top-level hierarchy topic item, the entire learning dialogue sentence is used. When the mutual information and the entropy are calculated on the set of items, and the relevance to the topic item lower than the highest level is calculated, the learning item to which the topic item one level higher corresponding to the topic item is assigned 3. The method for generating a topic estimation model according to claim 1, wherein the mutual information and the entropy are calculated on a set of dialogue sentences. 請求項1および2のいずれかに記載した方法によって生成された話題推定モデルを用いて、入力発話文に対応する話題を推定する方法であって、
話題推定モデルの各話題項目毎に、入力発話文に含まれる各単語とその話題項目との関連度の総和を算出するステップ、ならびに
関連度の総和が最も大きな話題項目を、入力発話文に対する話題推定結果として出力するステップ、
を備えている話題推定方法。
A method of estimating a topic corresponding to an input utterance sentence, using a topic estimation model generated by the method according to claim 1.
For each topic item of the topic estimation model, the step of calculating the sum of the relevance between each word included in the input utterance sentence and the topic item, and the topic item having the largest sum of the relevance as a topic for the input utterance sentence Outputting as an estimation result,
Topic estimation method that has
請求項1および2のいずれかに記載した方法によって生成された話題推定モデルを用いて、入力発話文に対応する話題を推定する方法であって、
話題推定モデルの各話題項目毎に、入力発話文に含まれる各単語とその話題項目との関連度の総和を算出するステップ、ならびに
関連度の総和の大きい順に順位付けした複数の話題項目を、入力発話文に対する話題推定結果として出力するステップ、
を備えている話題推定方法。
A method of estimating a topic corresponding to an input utterance sentence, using a topic estimation model generated by the method according to claim 1.
For each topic item of the topic estimation model, a step of calculating the sum of relevance between each word included in the input utterance sentence and the topic item, and a plurality of topic items ranked in descending order of the sum of relevance, Outputting as a topic estimation result for the input utterance sentence,
Topic estimation method that has
請求項3に記載した方法によって生成された話題推定モデルを用いて、入力発話文に対応する話題を推定する方法であって、
話題推定モデルの各話題項目毎に、入力発話文に含まれる各単語とその話題項目との関連度の総和を算出し、これを各話題項目の仮の推定値とするステップ、
最下位階層の各話題項目毎に、最下位階層の話題項目からその話題項目に対応する最上階層の話題項目までに至る一連の話題項目それぞれの仮の推定値を乗算することにより、最下位階層の各話題項目の推定値を算出するステップ、
最下位階層より1つの上の階層から最上位階層までの各階層の各話題項目の推定値を、ある階層の話題項目の推定値を対応する1つ下の階層の各話題項目の推定値の最大値とするという規則に基づいて、下位の階層の話題項目に対するものから順番に求めていくステップ、ならびに
各階層において、推定値が最大となる話題項目を、話題推定結果として出力するステップ、
を備えている話題推定方法。
A method for estimating a topic corresponding to an input utterance sentence using a topic estimation model generated by the method according to claim 3.
For each topic item of the topic estimation model, calculating the sum of the relevance between each word included in the input utterance sentence and the topic item, and using this as a temporary estimated value of each topic item;
By multiplying each topic item of the lowest hierarchy by a tentative estimated value of each of a series of topic items from the lowest hierarchy topic item to the top hierarchy topic item corresponding to that topic item, Calculating an estimate for each topic item of
The estimated value of each topic item in each hierarchy from the hierarchy one level higher than the lowest hierarchy to the highest hierarchy is calculated as the estimated value of each topic item in the hierarchy one level below the estimated value of the topic item in a certain hierarchy. Based on the rule of setting the maximum value, the step of sequentially obtaining the topic items of the lower hierarchy, and the step of outputting the topic item having the maximum estimated value as the topic estimation result in each hierarchy,
Topic estimation method that has
請求項3に記載した方法によって生成された話題推定モデルを用いて、入力発話文に対応する話題を推定する方法であって、
話題推定モデルの各話題項目毎に、入力発話文に含まれる各単語とその話題項目との関連度の総和を算出し、これを各話題項目の仮の推定値とするステップ、
最下位階層の各話題項目毎に、最下位階層の話題項目からその話題項目に対応する最上階層の話題項目までに至る一連の話題項目それぞれの仮の推定値を乗算することにより、最下位階層の各話題項目の推定値を算出するステップ、
最下位階層より1つの上の階層から最上位階層までの各階層の各話題項目の推定値を、ある階層の話題項目の推定値を対応する1つ下の階層の各話題項目の推定値の最大値とするという規則に基づいて、下位の階層の話題項目に対するものから順番に求めていくステップ、ならびに
各階層において、推定値の大きい順に順位付けした複数の話題項目を、話題推定結果として出力するステップ、
を備えている話題推定方法。
A method for estimating a topic corresponding to an input utterance sentence using a topic estimation model generated by the method according to claim 3.
For each topic item of the topic estimation model, calculating the sum of the relevance between each word included in the input utterance sentence and the topic item, and using this as a temporary estimated value of each topic item;
By multiplying each topic item of the lowest hierarchy by a tentative estimated value of each of a series of topic items from the lowest hierarchy topic item to the top hierarchy topic item corresponding to that topic item, Calculating an estimate for each topic item of
The estimated value of each topic item in each hierarchy from the hierarchy one level higher than the lowest hierarchy to the highest hierarchy is calculated as the estimated value of each topic item in the hierarchy one level below the estimated value of the topic item in a certain hierarchy. Based on the rule of setting the maximum value, the step of sequentially obtaining the topic items in the lower hierarchy, and outputting, in each hierarchy, a plurality of topic items ranked in descending order of the estimated value as a topic estimation result Step to do,
Topic estimation method that has
入力発話文に含まれる単語は、読みと品詞のみによって識別される請求項4、5、6および7のいずれかに記載の話題推定方法。8. The topic estimation method according to claim 4, wherein words included in the input utterance sentence are identified only by reading and part of speech.
JP2002181950A 2002-06-21 2002-06-21 Method for generating topic estimation model and topic estimation method Pending JP2004029968A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002181950A JP2004029968A (en) 2002-06-21 2002-06-21 Method for generating topic estimation model and topic estimation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002181950A JP2004029968A (en) 2002-06-21 2002-06-21 Method for generating topic estimation model and topic estimation method

Publications (1)

Publication Number Publication Date
JP2004029968A true JP2004029968A (en) 2004-01-29

Family

ID=31178658

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002181950A Pending JP2004029968A (en) 2002-06-21 2002-06-21 Method for generating topic estimation model and topic estimation method

Country Status (1)

Country Link
JP (1) JP2004029968A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014178965A (en) * 2013-03-15 2014-09-25 Ntt Docomo Inc Semantic attribute estimation device, semantic attribute estimation method and semantic attribute estimation program
CN107622051A (en) * 2017-09-14 2018-01-23 马上消费金融股份有限公司 A kind of neologisms screening technique and device
CN107977363A (en) * 2017-12-20 2018-05-01 北京百度网讯科技有限公司 Title generation method, device and electronic equipment
CN108021558A (en) * 2017-12-27 2018-05-11 北京金山安全软件有限公司 Keyword recognition method and device, electronic equipment and storage medium

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014178965A (en) * 2013-03-15 2014-09-25 Ntt Docomo Inc Semantic attribute estimation device, semantic attribute estimation method and semantic attribute estimation program
CN107622051A (en) * 2017-09-14 2018-01-23 马上消费金融股份有限公司 A kind of neologisms screening technique and device
CN107977363A (en) * 2017-12-20 2018-05-01 北京百度网讯科技有限公司 Title generation method, device and electronic equipment
CN107977363B (en) * 2017-12-20 2021-12-17 北京百度网讯科技有限公司 Title generation method and device and electronic equipment
CN108021558A (en) * 2017-12-27 2018-05-11 北京金山安全软件有限公司 Keyword recognition method and device, electronic equipment and storage medium

Similar Documents

Publication Publication Date Title
Constant et al. MWU-aware part-of-speech tagging with a CRF model and lexical resources
CN109165380B (en) Neural network model training method and device and text label determining method and device
US7865356B2 (en) Method and apparatus for providing proper or partial proper name recognition
CN107315737A (en) A kind of semantic logic processing method and system
Çöltekin A set of open source tools for Turkish natural language processing.
EP0953192A1 (en) Natural language parser with dictionary-based part-of-speech probabilities
JP2005107705A (en) Document classifying device and method for plurality of languages
D’Avanzo et al. A keyphrase-based approach to summarization: the lake system at duc-2005
CN114706972A (en) Unsupervised scientific and technical information abstract automatic generation method based on multi-sentence compression
Glass et al. A naive salience-based method for speaker identification in fiction books
Aqel et al. Comparative study for recent technologies in arabic language parsing
JP3787310B2 (en) Keyword determination method, apparatus, program, and recording medium
JP2004029968A (en) Method for generating topic estimation model and topic estimation method
Wu et al. Using a knowledge base to automatically annotate speech corpora and to identify sociolinguistic variation
Khorjuvenkar et al. Parts of speech tagging for Konkani language
CN107818078B (en) Semantic association and matching method for Chinese natural language dialogue
Golding Pronouncing names by a combination of rule-based and case-based reasoning
Agrawal et al. Comparative analysis of NLP models for Google Meet Transcript summarization
Mahafdah et al. Arabic Part of speech Tagging using k-Nearest Neighbour and Naive Bayes Classifiers Combination.
Ehsan et al. Statistical Parser for Urdu
Mousa et al. Morpheme based factored language models for German LVCSR
JP2003308094A (en) Method for correcting recognition error place in speech recognition
JP5506482B2 (en) Named entity extraction apparatus, string-named expression class pair database creation apparatus, numbered entity extraction method, string-named expression class pair database creation method, program
Jebbor et al. Overview of knowledge extraction techniques in five question-answering systems
Iosif et al. A soft-clustering algorithm for automatic induction of semantic classes.

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040601

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040817

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041013

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041207