JPH117447A

JPH117447A - 話題抽出方法及びこれに用いる話題抽出モデルとその作成方法、話題抽出プログラム記録媒体

Info

Publication number: JPH117447A
Application number: JP9160954A
Authority: JP
Inventors: Katsutoshi Ofu; 克年大附; Tatsuo Matsuoka; 達雄松岡; Shoichi Matsunaga; 昭一松永
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1997-06-18
Filing date: 1997-06-18
Publication date: 1999-01-12
Anticipated expiration: 2017-06-18
Also published as: JP3794597B2

Abstract

(57)【要約】【課題】連続音声の内容を表わす話題（見出し）を適
切に抽出する。【解決手段】大量の新聞記事の見出しと本文とを形態
素解析し、その見出しの各話題単語と文中単語を得、そ
の各出現頻度と、同一記事で話題単語と文中単語の組合
せの共起頻度を求め、相互情報量又はｘ²法により話題
単語と文中単語との関連度を求めて格納したモデル１１
を用い、連続大語彙音声を音声認識し（Ｓ１）、単語系
列を作り（Ｓ２）、各話題単語と単語系列の各単語との
関連度をモデル１１が求めて、関連度系列を作り各関連
度系列における関連度の和を求め（Ｓ３）、その和の最
大のものと対応する話題単語を出力する（Ｓ４）。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、連続発声された
音声の単語認識結果やテキストを形態素解析により分割
された単語などの単語列に対し、その内容を表わす話題
を抽出する方法、その話題抽出に用いる話題抽出モデル
とそのモデルの作成方法に関する。

【０００２】

【従来の技術】連続発声された音声からのその内容を表
わす話題抽出では５〜１０種類の分野のうちのいずれか
の分野に依存度の高いキーワードを予め選択しておき、
それらのキーワードを音声区間中から検出（キーワード
スポッティング）して、検出されたキーワード集合が最
も高い依存度を示す話題を結果として出力する方法が多
くとられる。例えば横井、河原、堂下、“キーワードス
ポッティングに基づくニュース音声の話題同定”、情処
研報、SLP6−３、1995．櫻井、有木、“キーワードスポ
ッティングによるニュース音声の索引付けと分類”、信
学技法、SP96−66、1996．R.C.Rose，E.L.Chang ，and
R.P.Lippmann，“Techniques for Information Retriev
al from Voice Messages”，Proc.ICASSP-91，pp.317-3
20，1991．などに示されている。

【０００３】また従来の文章（テキスト）から話題を抽
出する方法は文中の特定の個所を抽出して行うもので、
その処理が複雑であった。

【０００４】

【発明が解決しようとする課題】従来の連続音声の話題
抽出方法では、限られた数のキーワードしか用いること
ができず、またキーワードの数を増やした場合には、誤
って検出されるキーワードが増えてしまう、また話題の
分野が少ないため、情報検索や索引付けに使うことがで
きないという問題があった。また従来のテキストよりの
話題抽出方法は、特定の個所を探して行うため、その処
理が複雑であった。これを連続音声の話題抽出に適用す
ると、その所定個所についての単語認識を誤ると、話題
抽出は誤ってしまう。

【０００５】この発明の目的は比較的簡単な処理で話題
を抽出することができる話題抽出方法、そのプログラム
を記録した記録媒体と、上記話題抽出に用いる話題抽出
モデルと、その作成方法を提供することにある。

【０００６】

【課題を解決するための手段】この発明の話題抽出モデ
ルは、本文とその見出しよりなるテキストを多数用い
て、それぞれ形態素解析を用い、本文単語と話題単語
（見出し中の）と得、これら本文単語の出現頻度、話題
単語の出現頻度、１テキスト中に本文単語と話題単語の
組み合せが同時に存在する共起頻度をそれぞれ求め、こ
れら頻度から各話題単語と、本文単語との関連度を求
め、これらを話題抽出モデルとして格納しておく。

【０００７】この発明の話題抽出方法では前記この発明
の話題抽出モデルを用い、入力音声の音声認識や入力テ
キストの形態素解析で、入力単語系列を得、各話題単語
と入力単語系列中の各単語との関連度とを話題抽出モデ
ルを参照して求めて話題単語ごとの関連度系列を得、こ
れら関連度系列から各話題単語の入力単語系列との関連
度をそれぞれ求め、これら入力単語系列の関連度中の大
きいものと対応する話題単語を入力音声又はテキストに
対する話題として出力する。

【０００８】この発明の記録媒体はこの発明の話題抽出
方法をコンピュータで実行させるためのプログラムが記
録されている。

【０００９】

【発明の実施の形態】まずこの発明の話題抽出モデルと
この作成方法の実施例を説明する。話題抽出モデルの学
習（作成）はある話題について述べられているテキスト
とその内容を表わす複数の話題単語との組を大量に用い
て行う。一例として新聞記事の本文と見出しを用いて話
題抽出モデルを学習（作成）する場合、約５年分の新聞
記事よりその見出しと本文とをそれぞれ取出し（Ｓ
１）、これらを形態素解析を行い（Ｓ２）、単語（形態
素）に分割し、見出しの形態素（話題単語）と、本文の
形態素（文中単語）とを得る。

【００１０】これら話題単語と文中単語について、大量
のデータにおける出現頻度と、共起頻度とを用いて、文
中単語と話題単語との関連度を求める。しかし、文中単
語と話題単語の組み合わせは非常に莫大な数になる。従
ってこの実施例では話題単語については、出現回数が２
回以上の単語に限り（Ｓ３）、文中単語については出現
頻度が上位１５万の単語のみを選出し（Ｓ４）、更に情
報検索という観点からより意味的情報を伝達すると考え
られる名詞、動詞などの内容語に着目し、ここでは話題
単語、文中単語の何れについても名詞、動詞、形容詞、
形容動詞、副詞のみを取出す（Ｓ５）。更に話題単語と
文中単語との組合せで同一記事に出現するのが１度しか
なかったものは除外し、つまり話題単語と文中単語の組
み合わせで同一記事に出現することが２回以上のものの
みを残した（Ｓ６）。このようにして話題単語の総頻度
１２．３×１０⁶が６．３×１０⁶となり総数１３６×
１０³が７４×１０³となり、文中単語の総頻度２１
８．８×１０⁶が９０．１×１０⁶となり総数６４０×
１０³が１４７×１０³となり、２回以上起きた共起の
組み合わせは約５８００万種類となった。

【００１１】この約５８００万種類について、これら単
語の出現頻度と共起頻度を用いて文中単語と話題単語と
の関連度を求める。文中単語ｗ_iと話題単語ｔ_jとの関
連度は以下のようにして求める。相互情報量に基づく関
連度Ｉ（ｗ_i：ｔ_j）＝ log（Ｐ（ｗ_i，ｔ_j）／Ｐ（ｗ_i）Ｐ（ｔ_j)) …(1) Ｐ（ｗ_i，ｔ_j）：ｗ_iとｔ_jが同時に出現する確率Ｐ（ｗ_i）：ｗ_iの出現確率、Ｐ（ｔ_j）：ｔ_jの出現
確率ｘ²法に基づく関連度ｘ_ij ²＝（ｆ_ij−Ｆ_ij）²／Ｆ_ij

【００１２】

【数１】Ｎ：文中単語の種類数、Ｍ：話題単語の種類数、ｆ_ij：話題単語ｔ_jに対する文中単語ｗ_iの頻度、Ｆ_ij：話題単語ｔ_jに対する文中単語ｗ_iの理論（期
待）度数相互情報量の計量において、学習データ中に文中単語ｗ
_iと話題単語ｔ_jの共起が観測されない場合、Ｐ
（ｗ_i，ｔ_j）＝０となり、関連度の合計を求める際に
問題が生じる。そこで、共起が観測されなかった場合に
は情報が得られなかったものとして、実際には次式のよ
うに相互情報量に基づく関連度を計算する。

【００１３】Ｉ′（ｗ_i：ｔ_j）＝Ｉ（ｗ_i：ｔ_j），Ｐ（ｗ_i，ｔ_j）≠０の場合０，Ｐ（ｗ_i，ｔ_j）＝０の場合一方、ｘ²法における理論度数Ｆ_ijとは、全ての話題単
語に対して文中単語ｗ _iが等確率で出現した場合の出現
頻度である。実際の出現頻度と理論度数とのずれが大き
ければ、その文中単語はその話題単語に対して偏って出
現していることになる。しかし、上述のｘ²法の式で
は、実際の出現頻度ｆ_ijが理論度数Ｆ_ijより小さい場合
にも、関連度が正の値となってしまうため、実際には次
式のようにｘ²法に基づく関連度を計算する。

【００１４】従って、ステップＳ６で得られた文中単語ｗ_iと話題単
語ｔ_jとの各組み合せについて、その各頻度Ｐ
（ｗ_i）：Ｐ（ｔ_j），Ｐ（ｗ_i，ｔ_j）、または
ｆ_ij，をそれぞれ演算し（Ｓ７）、頻度テーブル１１に
格納する。これを学習データが終るまで行う（Ｓ８）。
学習データが終ると、頻度テーブル１１内に演算した頻
度を用いて関連度Ｉ（ｗ_i，ｔ_j）又はＦ_ijの計算を行
って話題抽出モデルを得る（Ｓ₉）。

【００１５】従って話題抽出モデルは図２Ａに示すよう
に、話題単語の種類ｔ₁，ｔ₂，…ｔ_Mそれぞれについ
て、これと２回以上共起する文中単語、つまりｔ₁につ
いてはｗ₁₁，ｗ₁₂，ｗ₁₃，…との関連度ｒ₁₁₁，
ｒ₁₁₂，ｒ₁₁₃，…が、またｔ₂についてはｗ₂₁，
ｗ₂₂，ｗ₂₃，…との関連度ｒ₂₁₁，ｒ₂₁₂，ｒ₂₁₃，…
が、以下同様に文中単語との関連度が格納されている。

【００１６】次にこの話題抽出モデルを用いて連続入力
単語列から話題を抽出する方法を図２Ｂを参照して説明
する。連続発声される音声を入力とする場合、その入力
音声を単語音声認識し（Ｓ１）、認識結果として単語系
列ｗ₁，ｗ₂，…ｗ_nを得る（Ｓ２）、これら単語系列
ｗ₁，ｗ₂，…ｗ_nの各単語について、話題抽出モデル
１１を参照して、その各話題単語ｔ₁，ｔ₂，…ｔ_Mに
対する関連度を求める。つまり認識単語ｗ₁に対する話
題単語ｔ₁，ｔ₂，…ｔ_Mとの各関連度ｒ₁₁，ｒ₂₁，
…，ｒ_M1を求め、単語ｗ₂に対する話題単語ｔ₁，
ｔ₂，…ｔ_Mとの各関連度ｒ₁₂，ｒ₂₂，…，ｒ_M2を求
め、以下同様に求める。

【００１７】各話題単語ｔ₁，ｔ₂，…，ｔ_Mについて
の各認識単語ｗ₁，ｗ₂，…，ｗ_nとの関連度の合計、
つまり単語系列に対する関連度Ｒ_jを計算する。即ち、
話題単語ｔ₁についてはｒ₁₁，ｒ₁₂，…，ｒ_1nの和Ｒ₁
＝Σ_k=1 ⁿｒ_1kを求め、ｔ₂についてはｒ₂₁，ｒ₂₂，
…，ｒ_2nの和Ｒ₂＝Σ_k=1 ⁿｒ_2kを求め、以下同様にＲ
₃，…，Ｒ_Mを求める（Ｓ３）。これら単語系列に対す
る関連度Ｒ₁，…，Ｒ_M中で関連度が大きいものから順
にＱ個（Ｑは１以上の整数）のものとそれぞれ対応する
話題単語ｔ_jの具合を、その単語系列に対する話題とす
る（Ｓ４）。Ｑは１でもよいが、通常は複数で例えば５
程度である。関連度Ｒ₁，…，Ｒ_M中の大きいものから
順に対応する話題単語の複数個を候補として出力しても
よい。

【００１８】単語系列から話題の抽出としてはテキスト
を入力し（Ｓ５）、これを形態素解析し（Ｓ６）、形態
素つまり単語列ｗ₁，ｗ₂，…，ｗ_nを得て、これを音
声入力の場合と同様に話題抽出モデル１１を用いて処理
して、テキストに対する話題を抽出することもできる。
関連度をｗ_iとｔ_jの相互情報量に基づいて求める場合
は式（１）、つまり２点間の相互情報量に基づいて決め
た。一方、ｎ点間の相互情報量は次式で定義される。

【００１９】

【数２】 Πは、あい異なる添字の全ての組み合せについて計算す
る。従ってｘ₁，ｘ₂，…，ｘ_n中１つの話題単語と他
のｎ−１個を文中単語との相互情報量をＩ（ｘ₁：
ｘ₂：…：ｘ_n）により求めることができる。このよう
に、複数の文中単語と１つの話題単語との関連度を求め
ておくと、例えば「コンピュータ」と「インターネッ
ト」の関連度、また「ネットワーク」と「インターネッ
ト」の関連度はそれ程大きくないが、「コンピュータ」
と「ネットワーク」が同じ文中にあった場合の「インタ
ーネット」への関連度が大きくなるような話題抽出モデ
ルの学習ができる。つまり式（１）の関連度では話題と
して「インターネット」を抽出できない場合に、式
（２）の関連度によると「インターネット」を話題とし
て抽出でき、適切な話題を抽出することができることが
ある。

【００２０】話題単語ｔ_kと単語系列ｗ₁，ｗ₂，…，
ｗ_nとの関連度Ｒ_kはｔ_kに対する各単語の関連度の和
ｒ_k1＋ｒ_k2＋，…，＋ｒ_knで求められるが、その加算の
際に各単語に対する重みｓ₁，ｓ₂，…，ｓ_nをそれぞ
れ付けて、ｒ_k1×ｓ₁＋ｒ_k2×ｓ₂＋，…，＋ｒ_kn×ｓ
_nというようにして、より適切な関連度Ｒ_kを得るよう
にすることもできる。ここで重みｓ₁，ｓ₂，…，ｓ_n
としては、各単語ｗ₁，ｗ₂，…，ｗ_nのその音声認識
時の単語の確からしさ（音響的尤度）や言語的尤度、つ
まりその単語がその前の単語に対し、文法や言語上存在
する確からしさ（大語彙音声認識に用いられる言語モデ
ルに示されている）を用いることができる。

【００２１】音声認識結果の単語系列に対して話題抽出
を行う際に、認識言語系列候補の第１位だけでなく、上
位ｂ位までの候補（ｗ_1-1，ｗ_1-2，…，ｗ_1-n1），
（ｗ_2- ₁，ｗ_2-2，…，ｗ_2-n2）…（ｗ_b-1，ｗ_b-2，
…，ｗ_b-nb）を用いて話題抽出を行う。この際、順位の
高い程重みが大きくなるようにすることもできる。この
場合第１位から第ｂ位までの候補系列は、相互に１単語
又は２単語しか違いがない候補系列が多くなる。よって
これら候補系列を、その同一単語を排除して複数単語木
構造乃至単語ネットワークあるいは単語ラティスの配列
とし、これを用いて第１位〜第ｂ位の候補系列について
話題抽出をするようにすれば、その複数の候補系列を少
ない容量のメモリに格納して処理することができる。

【００２２】

【発明の効果】評価は、ニュース音声の書き起こし文お
よび２万語彙の大語彙連続音声認識システムによる音声
認識結果に対してこの発明の評価を行った。書き起こし
文に対して３人の被験者が人手で付与した話題を評価対
象とした。話題抽出モデルが出力した話題単語のうち上
位５単語までを出力結果とした場合の適合率（抽出した
話題単語のうち、正解の話題単語の割合）は、３人の被
験者の付与した話題に対して７０％以上となった。ま
た、単語誤り率２５％の音声認識結果に対する話題抽出
結果の適合率も６５％以上となった。各被験者が付与し
た話題間の重複は約７０％であるので、この話題抽出結
果は利用可能な精度であるといえる。関連度の尤度とし
てｘ²法を用いた方が相互情報量を用いた場合より良い
結果が得られた。

【００２３】この発明によれば、大量のテキストデータ
を用いて非常に多くの文中単語および話題単語間の関連
度を学習した話題抽出モデルを用いることにより、テキ
ストおよび誤りを含む大語彙連続音声認識結果から詳細
な話題抽出を行うことができるという利点がある。つま
り、音声からの話題抽出において、連続音声認識技術を
用いることにより、限られた数のキーワードを検出する
キーワードスポッティングに基づく方法に比べ、音声中
の多くの情報を用いて話題抽出を行うことが可能であ
り、また、音声の内容を表す単語（話題単語）を複数抽
出することにより、音声をいくつかの分野に分類する話
題抽出（話題同定・話題認識）に比べ、詳細な話題が抽
出できるという利点がある。

【００２４】特に従来のテキストに対する話題抽出で
は、特定の関係のものを抽出するため、複雑な処理を必
要としたが、この発明では比較的簡単に行うことができ
る。特に連続音声に対する抽出ではその特定部分に対し
て認識誤りが生じると、致命的であるが、この発明は文
全体の各単語に対して関連性をみるため正しく話題を抽
出することができる。

【００２５】またこのような正しい抽出ができるのは、
大量のテストデータを用いて作成した話題単語と各単語
との関連度を記憶した話題抽出モデルを用いるからであ
る。

【図面の簡単な説明】

【図１】この発明のモデル作成方法を示す流れ図。

【図２】Ａはこの発明の話題抽出モデルの例を示す図、
Ｂはこの発明の話題抽出方法を示す図である。

Claims

【特許請求の範囲】

【請求項１】複数の単語の系列の内容を表す話題単語
を抽出するために用いられるモデルであって、複数の話題単語と、その各話題単語と、各単語との関連
度とがそれぞれ格納されている話題抽出モデル。
【請求項２】話題単語と各単語との関連度は、話題単
語と複数単語との関連度であることを特徴とする請求項
１記載の話題抽出モデル。
【請求項３】上記関連度は話題単語と、各単語との相
互情報量に基づくものであることを特徴とする請求項１
又は２記載の話題抽出モデル。
【請求項４】上記関連度は話題単語と各単語とのｘ²
ベクトル法にもとづくものであることを特徴とする請求
項１記載の話題抽出モデル。
【請求項５】請求項１乃至４の何れかに記載した話題
抽出モデルを用いて入力された複数の単語の系列の内容
を表す話題単語を抽出する方法であって、上記話題抽出モデル中の各話題単語ごとに、これと上記
入力単語系列の各単語との関連度を上記話題抽出モデル
を参照して求めて関連度系列をそれぞれ作り、これら各関連度系列の各関連度の和を求めて上記単語系
列に対する各話題単語の関連度を求め、これら単語系列に対する関連度中の大きいものから順に
Ｑ個（Ｑは１以上の整数）のものとそれぞれ対応する話
題単語を出力することを特徴とする話題抽出方法。
【請求項６】上記関連度系列の各関連度に対し、これ
と対応する単語の尤度で重み付けて上記各関連度の和を
求めることを特徴とする請求項５記載の話題抽出方法。
【請求項７】連続した音声信号を単語音声認識して、
上記入力単語系列を得ることを特徴とする請求項５又は
６記載の話題抽出方法。
【請求項８】上記認識結果として複数の上位の候補系
列を上記入力単語系列とすることを特徴とする請求項７
記載の話題抽出方法。
【請求項９】入力テキストを、形態素解析し、その解
析結果の形態素を上記入力単語系列とすることを特徴と
する請求項５又は６に記載の話題抽出方法。
【請求項１０】本文とその見出しよりなる多数のテキ
ストを学習データとし、この学習データの見出し、本文
をそれぞれ形態素解析して、見出しの形態素としての話
題単語と、本文の形態素としての文中単語を得る工程
と、上記各話題単語の出現頻度と、上記各文中単語の出現頻
度と、１つのテキスト中の上記話題単語と上記文中単語
の各組み合せが同時に得られる共起頻度とをそれぞれ計
数する工程と、上記話題単語の出現頻度と文中単語の出現頻度と各共起
頻度とを用いて各話題単語と各文中単語との関連度を求
めて話題抽出モデルを得る工程とを有する話題抽出モデ
ル作成方法。
【請求項１１】上記出現単語中の出現頻度が所定値以
下のものを省略し、上記文中単語中の出現頻度の順位が
所定値以下のものを省略し、上記出現単語及び上記文中
単語中の情報検索という観点から意味的情報を伝達する
名詞・動詞などの品詞のもの以外を省略し、かつ１つの
テキスト中に出現する上記話題単語及び文中単語の組み
合せが所定回数以下の組み合せを省略して残りの話題単
語及び文中単語を用いて上記関連度を求めることを特徴
とする請求項１０記載の話題抽出モデル作成方法。
【請求項１２】入力音声を連続音声認識して入力単語
系列を得、複数の話題単語と、その各話題単語と、各単語との関連
度とがそれぞれ格納された話題抽出モデルを参照して、
上記話題単語ごとにこれと上記入力単語系列中の各単語
との関連度を求めて関連度系列を得、上記各関連度系列から、上記各話題単語ごとの上記入力
単語系列の関連度を求め、これら入力単語系列の関連度中の関連度が最大のものか
ら順にＱ個（Ｑは１以上の整数）のものとそれぞれ対応
する話題単語を上記入力単語系列の内容を表わす話題と
して出力することをコンピュータを用いて行うためのプ
ログラムを記録した記録媒体。