JPH117447A - 話題抽出方法及びこれに用いる話題抽出モデルとその作成方法、話題抽出プログラム記録媒体 - Google Patents

話題抽出方法及びこれに用いる話題抽出モデルとその作成方法、話題抽出プログラム記録媒体

Info

Publication number
JPH117447A
JPH117447A JP9160954A JP16095497A JPH117447A JP H117447 A JPH117447 A JP H117447A JP 9160954 A JP9160954 A JP 9160954A JP 16095497 A JP16095497 A JP 16095497A JP H117447 A JPH117447 A JP H117447A
Authority
JP
Japan
Prior art keywords
word
topic
relevance
words
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9160954A
Other languages
English (en)
Other versions
JP3794597B2 (ja
Inventor
Katsutoshi Ofu
克年 大附
Tatsuo Matsuoka
達雄 松岡
Shoichi Matsunaga
昭一 松永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP16095497A priority Critical patent/JP3794597B2/ja
Publication of JPH117447A publication Critical patent/JPH117447A/ja
Application granted granted Critical
Publication of JP3794597B2 publication Critical patent/JP3794597B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 連続音声の内容を表わす話題(見出し)を適
切に抽出する。 【解決手段】 大量の新聞記事の見出しと本文とを形態
素解析し、その見出しの各話題単語と文中単語を得、そ
の各出現頻度と、同一記事で話題単語と文中単語の組合
せの共起頻度を求め、相互情報量又はx2 法により話題
単語と文中単語との関連度を求めて格納したモデル11
を用い、連続大語彙音声を音声認識し(S1)、単語系
列を作り(S2)、各話題単語と単語系列の各単語との
関連度をモデル11が求めて、関連度系列を作り各関連
度系列における関連度の和を求め(S3)、その和の最
大のものと対応する話題単語を出力する(S4)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、連続発声された
音声の単語認識結果やテキストを形態素解析により分割
された単語などの単語列に対し、その内容を表わす話題
を抽出する方法、その話題抽出に用いる話題抽出モデル
とそのモデルの作成方法に関する。
【0002】
【従来の技術】連続発声された音声からのその内容を表
わす話題抽出では5〜10種類の分野のうちのいずれか
の分野に依存度の高いキーワードを予め選択しておき、
それらのキーワードを音声区間中から検出(キーワード
スポッティング)して、検出されたキーワード集合が最
も高い依存度を示す話題を結果として出力する方法が多
くとられる。例えば横井、河原、堂下、“キーワードス
ポッティングに基づくニュース音声の話題同定”、情処
研報、SLP6−3、1995.櫻井、有木、“キーワードスポ
ッティングによるニュース音声の索引付けと分類”、信
学技法、SP96−66、1996.R.C.Rose,E.L.Chang ,and
R.P.Lippmann,“Techniques for Information Retriev
al from Voice Messages”,Proc.ICASSP-91,pp.317-3
20,1991.などに示されている。
【0003】また従来の文章(テキスト)から話題を抽
出する方法は文中の特定の個所を抽出して行うもので、
その処理が複雑であった。
【0004】
【発明が解決しようとする課題】従来の連続音声の話題
抽出方法では、限られた数のキーワードしか用いること
ができず、またキーワードの数を増やした場合には、誤
って検出されるキーワードが増えてしまう、また話題の
分野が少ないため、情報検索や索引付けに使うことがで
きないという問題があった。また従来のテキストよりの
話題抽出方法は、特定の個所を探して行うため、その処
理が複雑であった。これを連続音声の話題抽出に適用す
ると、その所定個所についての単語認識を誤ると、話題
抽出は誤ってしまう。
【0005】この発明の目的は比較的簡単な処理で話題
を抽出することができる話題抽出方法、そのプログラム
を記録した記録媒体と、上記話題抽出に用いる話題抽出
モデルと、その作成方法を提供することにある。
【0006】
【課題を解決するための手段】この発明の話題抽出モデ
ルは、本文とその見出しよりなるテキストを多数用い
て、それぞれ形態素解析を用い、本文単語と話題単語
(見出し中の)と得、これら本文単語の出現頻度、話題
単語の出現頻度、1テキスト中に本文単語と話題単語の
組み合せが同時に存在する共起頻度をそれぞれ求め、こ
れら頻度から各話題単語と、本文単語との関連度を求
め、これらを話題抽出モデルとして格納しておく。
【0007】この発明の話題抽出方法では前記この発明
の話題抽出モデルを用い、入力音声の音声認識や入力テ
キストの形態素解析で、入力単語系列を得、各話題単語
と入力単語系列中の各単語との関連度とを話題抽出モデ
ルを参照して求めて話題単語ごとの関連度系列を得、こ
れら関連度系列から各話題単語の入力単語系列との関連
度をそれぞれ求め、これら入力単語系列の関連度中の大
きいものと対応する話題単語を入力音声又はテキストに
対する話題として出力する。
【0008】この発明の記録媒体はこの発明の話題抽出
方法をコンピュータで実行させるためのプログラムが記
録されている。
【0009】
【発明の実施の形態】まずこの発明の話題抽出モデルと
この作成方法の実施例を説明する。話題抽出モデルの学
習(作成)はある話題について述べられているテキスト
とその内容を表わす複数の話題単語との組を大量に用い
て行う。一例として新聞記事の本文と見出しを用いて話
題抽出モデルを学習(作成)する場合、約5年分の新聞
記事よりその見出しと本文とをそれぞれ取出し(S
1)、これらを形態素解析を行い(S2)、単語(形態
素)に分割し、見出しの形態素(話題単語)と、本文の
形態素(文中単語)とを得る。
【0010】これら話題単語と文中単語について、大量
のデータにおける出現頻度と、共起頻度とを用いて、文
中単語と話題単語との関連度を求める。しかし、文中単
語と話題単語の組み合わせは非常に莫大な数になる。従
ってこの実施例では話題単語については、出現回数が2
回以上の単語に限り(S3)、文中単語については出現
頻度が上位15万の単語のみを選出し(S4)、更に情
報検索という観点からより意味的情報を伝達すると考え
られる名詞、動詞などの内容語に着目し、ここでは話題
単語、文中単語の何れについても名詞、動詞、形容詞、
形容動詞、副詞のみを取出す(S5)。更に話題単語と
文中単語との組合せで同一記事に出現するのが1度しか
なかったものは除外し、つまり話題単語と文中単語の組
み合わせで同一記事に出現することが2回以上のものの
みを残した(S6)。このようにして話題単語の総頻度
12.3×106 が6.3×106 となり総数136×
103 が74×103 となり、文中単語の総頻度21
8.8×106 が90.1×106 となり総数640×
103 が147×103 となり、2回以上起きた共起の
組み合わせは約5800万種類となった。
【0011】この約5800万種類について、これら単
語の出現頻度と共起頻度を用いて文中単語と話題単語と
の関連度を求める。文中単語wi と話題単語tj との関
連度は以下のようにして求める。相互情報量に基づく関
連度 I(wi :tj )= log(P(wi ,tj )/P(wi )P(tj )) …(1) P(wi ,tj ):wi とtj が同時に出現する確率 P(wi ):wi の出現確率、P(tj ):tj の出現
確率 x2 法に基づく関連度 xij 2 =(fij−Fij2 /Fij
【0012】
【数1】 N:文中単語の種類数、M:話題単語の種類数、 fij:話題単語tj に対する文中単語wi の頻度、 Fij:話題単語tj に対する文中単語wi の理論(期
待)度数 相互情報量の計量において、学習データ中に文中単語w
i と話題単語tj の共起が観測されない場合、P
(wi ,tj )=0となり、関連度の合計を求める際に
問題が生じる。そこで、共起が観測されなかった場合に
は情報が得られなかったものとして、実際には次式のよ
うに相互情報量に基づく関連度を計算する。
【0013】 I′(wi :tj )=I(wi :tj ),P(wi ,tj )≠0の場合 0, P(wi ,tj )=0の場合 一方、x2 法における理論度数Fijとは、全ての話題単
語に対して文中単語w i が等確率で出現した場合の出現
頻度である。実際の出現頻度と理論度数とのずれが大き
ければ、その文中単語はその話題単語に対して偏って出
現していることになる。しかし、上述のx2 法の式で
は、実際の出現頻度fijが理論度数Fijより小さい場合
にも、関連度が正の値となってしまうため、実際には次
式のようにx2 法に基づく関連度を計算する。
【0014】 従って、ステップS6で得られた文中単語wi と話題単
語tj との各組み合せについて、その各頻度P
(wi ):P(tj ),P(wi ,tj )、または
ij,をそれぞれ演算し(S7)、頻度テーブル11に
格納する。これを学習データが終るまで行う(S8)。
学習データが終ると、頻度テーブル11内に演算した頻
度を用いて関連度I(wi ,tj )又はFijの計算を行
って話題抽出モデルを得る(S9 )。
【0015】従って話題抽出モデルは図2Aに示すよう
に、話題単語の種類t1 ,t2 ,…tM それぞれについ
て、これと2回以上共起する文中単語、つまりt1 につ
いてはw11,w12,w13,…との関連度r111
112 ,r113 ,…が、またt2 についてはw21
22,w23,…との関連度r211 ,r212 ,r213 ,…
が、以下同様に文中単語との関連度が格納されている。
【0016】次にこの話題抽出モデルを用いて連続入力
単語列から話題を抽出する方法を図2Bを参照して説明
する。連続発声される音声を入力とする場合、その入力
音声を単語音声認識し(S1)、認識結果として単語系
列w1 ,w2 ,…wn を得る(S2)、これら単語系列
1 ,w2 ,…wn の各単語について、話題抽出モデル
11を参照して、その各話題単語t1 ,t2 ,…tM
対する関連度を求める。つまり認識単語w1 に対する話
題単語t1 ,t2 ,…tM との各関連度r11,r21
…,rM1を求め、単語w2 に対する話題単語t1
2 ,…tM との各関連度r12,r22,…,rM2を求
め、以下同様に求める。
【0017】各話題単語t1 ,t2 ,…,tM について
の各認識単語w1 ,w2 ,…,wnとの関連度の合計、
つまり単語系列に対する関連度Rj を計算する。即ち、
話題単語t1 についてはr11,r12,…,r1nの和R1
=Σk=1 n 1kを求め、t2についてはr21,r22
…,r2nの和R2 =Σk=1 n 2kを求め、以下同様にR
3 ,…,RM を求める(S3)。これら単語系列に対す
る関連度R1 ,…,RM中で関連度が大きいものから順
にQ個(Qは1以上の整数)のものとそれぞれ対応する
話題単語tj の具合を、その単語系列に対する話題とす
る(S4)。Qは1でもよいが、通常は複数で例えば5
程度である。関連度R1 ,…,RM 中の大きいものから
順に対応する話題単語の複数個を候補として出力しても
よい。
【0018】単語系列から話題の抽出としてはテキスト
を入力し(S5)、これを形態素解析し(S6)、形態
素つまり単語列w1 ,w2 ,…,wn を得て、これを音
声入力の場合と同様に話題抽出モデル11を用いて処理
して、テキストに対する話題を抽出することもできる。
関連度をwi とtj の相互情報量に基づいて求める場合
は式(1)、つまり2点間の相互情報量に基づいて決め
た。一方、n点間の相互情報量は次式で定義される。
【0019】
【数2】 Πは、あい異なる添字の全ての組み合せについて計算す
る。従ってx1 ,x2 ,…,xn 中1つの話題単語と他
のn−1個を文中単語との相互情報量をI(x1
2 :…:xn )により求めることができる。このよう
に、複数の文中単語と1つの話題単語との関連度を求め
ておくと、例えば「コンピュータ」と「インターネッ
ト」の関連度、また「ネットワーク」と「インターネッ
ト」の関連度はそれ程大きくないが、「コンピュータ」
と「ネットワーク」が同じ文中にあった場合の「インタ
ーネット」への関連度が大きくなるような話題抽出モデ
ルの学習ができる。つまり式(1)の関連度では話題と
して「インターネット」を抽出できない場合に、式
(2)の関連度によると「インターネット」を話題とし
て抽出でき、適切な話題を抽出することができることが
ある。
【0020】話題単語tk と単語系列w1 ,w2 ,…,
n との関連度Rk はtk に対する各単語の関連度の和
k1+rk2+,…,+rknで求められるが、その加算の
際に各単語に対する重みs1 ,s2 ,…,sn をそれぞ
れ付けて、rk1×s1 +rk2×s2+,…,+rkn×s
n というようにして、より適切な関連度Rk を得るよう
にすることもできる。ここで重みs1 ,s2 ,…,sn
としては、各単語w1,w2 ,…,wn のその音声認識
時の単語の確からしさ(音響的尤度)や言語的尤度、つ
まりその単語がその前の単語に対し、文法や言語上存在
する確からしさ(大語彙音声認識に用いられる言語モデ
ルに示されている)を用いることができる。
【0021】音声認識結果の単語系列に対して話題抽出
を行う際に、認識言語系列候補の第1位だけでなく、上
位b位までの候補(w1-1 ,w1-2 ,…,w1-n1),
(w2- 1 ,w2-2 ,…,w2-n2)…(wb-1 ,wb-2
…,wb-nb)を用いて話題抽出を行う。この際、順位の
高い程重みが大きくなるようにすることもできる。この
場合第1位から第b位までの候補系列は、相互に1単語
又は2単語しか違いがない候補系列が多くなる。よって
これら候補系列を、その同一単語を排除して複数単語木
構造乃至単語ネットワークあるいは単語ラティスの配列
とし、これを用いて第1位〜第b位の候補系列について
話題抽出をするようにすれば、その複数の候補系列を少
ない容量のメモリに格納して処理することができる。
【0022】
【発明の効果】評価は、ニュース音声の書き起こし文お
よび2万語彙の大語彙連続音声認識システムによる音声
認識結果に対してこの発明の評価を行った。書き起こし
文に対して3人の被験者が人手で付与した話題を評価対
象とした。話題抽出モデルが出力した話題単語のうち上
位5単語までを出力結果とした場合の適合率(抽出した
話題単語のうち、正解の話題単語の割合)は、3人の被
験者の付与した話題に対して70%以上となった。ま
た、単語誤り率25%の音声認識結果に対する話題抽出
結果の適合率も65%以上となった。各被験者が付与し
た話題間の重複は約70%であるので、この話題抽出結
果は利用可能な精度であるといえる。関連度の尤度とし
てx2 法を用いた方が相互情報量を用いた場合より良い
結果が得られた。
【0023】この発明によれば、大量のテキストデータ
を用いて非常に多くの文中単語および話題単語間の関連
度を学習した話題抽出モデルを用いることにより、テキ
ストおよび誤りを含む大語彙連続音声認識結果から詳細
な話題抽出を行うことができるという利点がある。つま
り、音声からの話題抽出において、連続音声認識技術を
用いることにより、限られた数のキーワードを検出する
キーワードスポッティングに基づく方法に比べ、音声中
の多くの情報を用いて話題抽出を行うことが可能であ
り、また、音声の内容を表す単語(話題単語)を複数抽
出することにより、音声をいくつかの分野に分類する話
題抽出(話題同定・話題認識)に比べ、詳細な話題が抽
出できるという利点がある。
【0024】特に従来のテキストに対する話題抽出で
は、特定の関係のものを抽出するため、複雑な処理を必
要としたが、この発明では比較的簡単に行うことができ
る。特に連続音声に対する抽出ではその特定部分に対し
て認識誤りが生じると、致命的であるが、この発明は文
全体の各単語に対して関連性をみるため正しく話題を抽
出することができる。
【0025】またこのような正しい抽出ができるのは、
大量のテストデータを用いて作成した話題単語と各単語
との関連度を記憶した話題抽出モデルを用いるからであ
る。
【図面の簡単な説明】
【図1】この発明のモデル作成方法を示す流れ図。
【図2】Aはこの発明の話題抽出モデルの例を示す図、
Bはこの発明の話題抽出方法を示す図である。

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 複数の単語の系列の内容を表す話題単語
    を抽出するために用いられるモデルであって、 複数の話題単語と、その各話題単語と、各単語との関連
    度とがそれぞれ格納されている話題抽出モデル。
  2. 【請求項2】 話題単語と各単語との関連度は、話題単
    語と複数単語との関連度であることを特徴とする請求項
    1記載の話題抽出モデル。
  3. 【請求項3】 上記関連度は話題単語と、各単語との相
    互情報量に基づくものであることを特徴とする請求項1
    又は2記載の話題抽出モデル。
  4. 【請求項4】 上記関連度は話題単語と各単語とのx2
    ベクトル法にもとづくものであることを特徴とする請求
    項1記載の話題抽出モデル。
  5. 【請求項5】 請求項1乃至4の何れかに記載した話題
    抽出モデルを用いて入力された複数の単語の系列の内容
    を表す話題単語を抽出する方法であって、 上記話題抽出モデル中の各話題単語ごとに、これと上記
    入力単語系列の各単語との関連度を上記話題抽出モデル
    を参照して求めて関連度系列をそれぞれ作り、 これら各関連度系列の各関連度の和を求めて上記単語系
    列に対する各話題単語の関連度を求め、 これら単語系列に対する関連度中の大きいものから順に
    Q個(Qは1以上の整数)のものとそれぞれ対応する話
    題単語を出力することを特徴とする話題抽出方法。
  6. 【請求項6】 上記関連度系列の各関連度に対し、これ
    と対応する単語の尤度で重み付けて上記各関連度の和を
    求めることを特徴とする請求項5記載の話題抽出方法。
  7. 【請求項7】 連続した音声信号を単語音声認識して、
    上記入力単語系列を得ることを特徴とする請求項5又は
    6記載の話題抽出方法。
  8. 【請求項8】 上記認識結果として複数の上位の候補系
    列を上記入力単語系列とすることを特徴とする請求項7
    記載の話題抽出方法。
  9. 【請求項9】 入力テキストを、形態素解析し、その解
    析結果の形態素を上記入力単語系列とすることを特徴と
    する請求項5又は6に記載の話題抽出方法。
  10. 【請求項10】 本文とその見出しよりなる多数のテキ
    ストを学習データとし、この学習データの見出し、本文
    をそれぞれ形態素解析して、見出しの形態素としての話
    題単語と、本文の形態素としての文中単語を得る工程
    と、 上記各話題単語の出現頻度と、上記各文中単語の出現頻
    度と、1つのテキスト中の上記話題単語と上記文中単語
    の各組み合せが同時に得られる共起頻度とをそれぞれ計
    数する工程と、 上記話題単語の出現頻度と文中単語の出現頻度と各共起
    頻度とを用いて各話題単語と各文中単語との関連度を求
    めて話題抽出モデルを得る工程とを有する話題抽出モデ
    ル作成方法。
  11. 【請求項11】 上記出現単語中の出現頻度が所定値以
    下のものを省略し、上記文中単語中の出現頻度の順位が
    所定値以下のものを省略し、上記出現単語及び上記文中
    単語中の情報検索という観点から意味的情報を伝達する
    名詞・動詞などの品詞のもの以外を省略し、かつ1つの
    テキスト中に出現する上記話題単語及び文中単語の組み
    合せが所定回数以下の組み合せを省略して残りの話題単
    語及び文中単語を用いて上記関連度を求めることを特徴
    とする請求項10記載の話題抽出モデル作成方法。
  12. 【請求項12】 入力音声を連続音声認識して入力単語
    系列を得、 複数の話題単語と、その各話題単語と、各単語との関連
    度とがそれぞれ格納された話題抽出モデルを参照して、
    上記話題単語ごとにこれと上記入力単語系列中の各単語
    との関連度を求めて関連度系列を得、 上記各関連度系列から、上記各話題単語ごとの上記入力
    単語系列の関連度を求め、 これら入力単語系列の関連度中の関連度が最大のものか
    ら順にQ個(Qは1以上の整数)のものとそれぞれ対応
    する話題単語を上記入力単語系列の内容を表わす話題と
    して出力することをコンピュータを用いて行うためのプ
    ログラムを記録した記録媒体。
JP16095497A 1997-06-18 1997-06-18 話題抽出方法及び話題抽出プログラム記録媒体 Expired - Fee Related JP3794597B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP16095497A JP3794597B2 (ja) 1997-06-18 1997-06-18 話題抽出方法及び話題抽出プログラム記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP16095497A JP3794597B2 (ja) 1997-06-18 1997-06-18 話題抽出方法及び話題抽出プログラム記録媒体

Publications (2)

Publication Number Publication Date
JPH117447A true JPH117447A (ja) 1999-01-12
JP3794597B2 JP3794597B2 (ja) 2006-07-05

Family

ID=15725794

Family Applications (1)

Application Number Title Priority Date Filing Date
JP16095497A Expired - Fee Related JP3794597B2 (ja) 1997-06-18 1997-06-18 話題抽出方法及び話題抽出プログラム記録媒体

Country Status (1)

Country Link
JP (1) JP3794597B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6448128B1 (en) 1999-07-01 2002-09-10 Hyundai Electronics Industries Co., Ltd. Capacitor for semiconductor memory device and method of manufacturing the same
JP2006039575A (ja) * 2004-07-29 2006-02-09 Avaya Technology Corp 信頼性スコアを使用した自然言語コール・ルーティングのための方法および装置
US7310601B2 (en) 2004-06-08 2007-12-18 Matsushita Electric Industrial Co., Ltd. Speech recognition apparatus and speech recognition method
JPWO2005064592A1 (ja) * 2003-12-26 2007-12-20 株式会社ケンウッド 機器制御装置、音声認識装置、エージェント装置、車載機器制御装置、ナビゲーション装置、オーディオ装置、機器制御方法、音声認識方法、エージェント処理方法、車載機器制御方法、ナビゲーション方法、オーディオ装置制御方法及びプログラム
US7359891B2 (en) 2001-05-11 2008-04-15 Fujitsu Limited Hot topic extraction apparatus and method, storage medium therefor
JP2008209717A (ja) * 2007-02-27 2008-09-11 Toshiba Corp 入力された音声を処理する装置、方法およびプログラム
US8126712B2 (en) 2005-02-08 2012-02-28 Nippon Telegraph And Telephone Corporation Information communication terminal, information communication system, information communication method, and storage medium for storing an information communication program thereof for recognizing speech information
JP2014119977A (ja) * 2012-12-17 2014-06-30 Nippon Telegr & Teleph Corp <Ntt> デイリーワード抽出装置、方法、及びプログラム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6448128B1 (en) 1999-07-01 2002-09-10 Hyundai Electronics Industries Co., Ltd. Capacitor for semiconductor memory device and method of manufacturing the same
US6777740B2 (en) 1999-07-01 2004-08-17 Hyundai Electronics Industries Co., Ltd. Capacitor for semiconductor memory device and method of manufacturing the same
US7359891B2 (en) 2001-05-11 2008-04-15 Fujitsu Limited Hot topic extraction apparatus and method, storage medium therefor
JPWO2005064592A1 (ja) * 2003-12-26 2007-12-20 株式会社ケンウッド 機器制御装置、音声認識装置、エージェント装置、車載機器制御装置、ナビゲーション装置、オーディオ装置、機器制御方法、音声認識方法、エージェント処理方法、車載機器制御方法、ナビゲーション方法、オーディオ装置制御方法及びプログラム
US8103510B2 (en) 2003-12-26 2012-01-24 Kabushikikaisha Kenwood Device control device, speech recognition device, agent device, on-vehicle device control device, navigation device, audio device, device control method, speech recognition method, agent processing method, on-vehicle device control method, navigation method, and audio device control method, and program
US7310601B2 (en) 2004-06-08 2007-12-18 Matsushita Electric Industrial Co., Ltd. Speech recognition apparatus and speech recognition method
JP2006039575A (ja) * 2004-07-29 2006-02-09 Avaya Technology Corp 信頼性スコアを使用した自然言語コール・ルーティングのための方法および装置
US8126712B2 (en) 2005-02-08 2012-02-28 Nippon Telegraph And Telephone Corporation Information communication terminal, information communication system, information communication method, and storage medium for storing an information communication program thereof for recognizing speech information
JP2008209717A (ja) * 2007-02-27 2008-09-11 Toshiba Corp 入力された音声を処理する装置、方法およびプログラム
US8954333B2 (en) 2007-02-27 2015-02-10 Kabushiki Kaisha Toshiba Apparatus, method, and computer program product for processing input speech
JP2014119977A (ja) * 2012-12-17 2014-06-30 Nippon Telegr & Teleph Corp <Ntt> デイリーワード抽出装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP3794597B2 (ja) 2006-07-05

Similar Documents

Publication Publication Date Title
US10176804B2 (en) Analyzing textual data
Halteren et al. Improving accuracy in word class tagging through the combination of machine learning systems
US10496928B2 (en) Non-factoid question-answering system and method
KR101339103B1 (ko) 의미적 자질을 이용한 문서 분류 시스템 및 그 방법
JP5440177B2 (ja) 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
EP1462950A1 (en) Method of analysis of a text corpus
CN108538286A (zh) 一种语音识别的方法以及计算机
JP2004005600A (ja) データベースに格納された文書をインデックス付け及び検索する方法及びシステム
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
WO2003010754A1 (fr) Systeme de recherche a entree vocale
JP2004133880A (ja) インデックス付き文書のデータベースとで使用される音声認識器のための動的語彙を構成する方法
JP2006244262A (ja) 質問回答検索システム、方法およびプログラム
JP5524138B2 (ja) 同義語辞書生成装置、その方法、及びプログラム
JP2011118689A (ja) 検索方法及びシステム
Sheikh et al. Modelling semantic context of OOV words in large vocabulary continuous speech recognition
Korpusik et al. A Comparison of Deep Learning Methods for Language Understanding.
Xiong et al. HANSpeller: a unified framework for Chinese spelling correction
JPH117447A (ja) 話題抽出方法及びこれに用いる話題抽出モデルとその作成方法、話題抽出プログラム記録媒体
CN111767733A (zh) 一种基于统计分词的文献密级甄别方法
US20110106849A1 (en) New case generation device, new case generation method, and new case generation program
CN113505196B (zh) 基于词性的文本检索方法、装置、电子设备及存储介质
JP5506482B2 (ja) 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム
SAMIR et al. AMAZIGH NAMED ENTITY RECOGNITION: A NOVEL APPROACH.
CN111737422B (zh) 实体链接方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060306

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060407

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090421

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100421

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100421

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110421

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120421

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130421

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees