JP2010230695A

JP2010230695A - 音声の境界推定装置及び方法

Info

Publication number: JP2010230695A
Application number: JP2007274290A
Authority: JP
Inventors: Kazuhiko Abe; 一彦阿部
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-10-22
Filing date: 2007-10-22
Publication date: 2010-10-14
Also published as: US20090265166A1; WO2009054535A1; WO2009054535A4

Abstract

【課題】話者や発声場面に依存する特徴のばらつきを考慮して入力音声を所定の意味単位で区切る境界を推定する境界推定装置を提供する。
【解決手段】第１の音声と相関のある第２の音声を第１の意味単位と相関のある第２の意味単位で区切る第２の境界を推定する第１の推定部１０２と；第２の音声における第２の境界の直前及び直後の少なくとも一方の分析区間の音響的特徴及び言語的特徴の少なくとも一方を分析して分析区間の代表的な特徴を示す代表パターンを生成する生成部１１０と；代表パターンと第１の音声の複数の算出区間の特徴を示す特徴パターンとの類似度を算出する算出部１３０と；類似度が閾値より高い算出区間あるいは類似度が相対的に高い算出区間の直前、直後または当該算出区間内のいずれかの位置を第１の境界として推定する第２の推定部１４１と；を具備する。
【選択図】図１

Description

本発明は、音声を所定の意味単位で区切る境界を推定する音声の境界推定装置及び方法に関する。

例えば会議や講演などを録音した音声を文、節または発言などの所定の意味内容（意味単位）で区切って索引付けを行うと、上記索引を頭出しすることにより音声の内容を効率よく視聴できる。このような索引付けを行うには、音声を上記意味単位で区切る境界を推定する必要がある。

非特許文献１記載の手法では、録音音声を音声認識して形態素の表記または読みなどの単語情報を取得し、各単語境界について前後２単語までの範囲を参照して、当該単語境界が文境界である可能性を算出する。そして、上記可能性が予め定める閾値を超えれば当該単語境界が文境界として抽出される。

また、非特許文献２記載の手法では、上記単語情報に加えて品詞情報も特徴量として利用して単語境界が文境界となる可能性を算出することにより、精度良く文境界を抽出する。
"GLR* : A Robust Grammar-Focused Parser for Spontaneously Spoken Language" Alon Lavie, CMU-cs-96-126, School of Computer Science, Carnegie Mellon University, May, 1996 "Experiments on Sentence Boundary Detection" Mark Stevenson and Robert Gaizauskas Proceedings of the North American Chapter of the Association for Computational Linguistics annual meeting pp. 24-30, April, 2000

非特許文献１及び非特許文献２記載の手法はいずれも、単語境界が文境界となる可能性を算出するために、文境界の前後に現れる形態素の出現頻度を大規模な言語テキストを用いて学習した学習データが必要となる。即ち、非特許文献１及び非特許文献２記載の手法において文境界の抽出精度は上記学習データの量及び品質に依存する。

また、学習の対象となる話し言葉では、話者の性別、年齢または出身地などによって口癖や話し方などの特徴があったり、同一の話者であっても講演や会話といった異なる発声場面では異なる言い回しを用いたりもする。従って、話者及び発声場面によって文末や文頭に現れる特徴にばらつきがあるため、学習データを用いるだけでは文境界の判定精度に限界がある。また、上記特徴のばらつきをルールで記述することは困難である。

更に、上記手法では、話し言葉に音声認識を行って得られる単語情報を用いることを前提としているが、実際には不明瞭な発声や収録環境などの影響によって正しく音声認識を行えない場合がある。また、話し言葉では単語や言い回しのバリエーションが豊富なため、音声認識に必要な言語モデルの構築が困難であるし、笑い声やフィラーなど言語表現に変換不可能な音声情報も出現する。

従って、本発明は、話者や発声場面に依存する特徴のばらつきを考慮して入力音声を所定の意味単位で区切る境界を推定する境界推定装置を提供することを目的とする。

本発明の一態様に係る境界推定装置は、第１の音声を第１の意味単位で区切る第１の境界を推定する境界推定装置において、前記第１の音声と相関のある第２の音声を前記第１の意味単位と相関のある第２の意味単位で区切る第２の境界を推定する第１の推定部と；前記第２の音声における前記第２の境界の直前及び直後の少なくとも一方の分析区間の音響的特徴及び言語的特徴の少なくとも一方を分析して当該分析区間の代表的な特徴を示す代表パターンを生成する生成部と；前記代表パターンと前記第１の音声の複数の算出区間の特徴を示す特徴パターンとの類似度を算出する算出部と；前記類似度が閾値より高い前記算出区間あるいは前記類似度が相対的に高い前記算出区間の直前、直後または当該算出区間内のいずれかの位置を前記第１の境界として推定する第２の推定部と；を具備する。

本発明によれば、話者や発声場面に依存する特徴のばらつきを考慮して入力音声を所定の意味単位で区切る境界を推定する境界推定装置を提供できる。

以下、図面を参照して、本発明の実施形態について説明する。
（第１の実施形態）
図１に示すように、本発明の第１の実施形態に係る境界推定装置は、分析音声取得部１０１、境界推定部１０２、パターン生成部１１０、パターン記憶部１２１、音声取得部１２２、類似度算出部１３０及び境界推定部１４１を有する。図１の境界推定装置は、境界を推定する対象の入力音声１４を第１の意味単位で区切る第１の境界を推定して第１の境界情報１６を出力する機能を有する。ここで、意味単位は、文、節、句、場面または発言など所定の意味のまとまりを指すものとする。

分析音声取得部１０１は、特徴を分析する対象の音声（以下、分析音声という）１０を取得する。分析音声１０は、入力音声１４と相関のある音声である。具体的には、例えば分析音声１０と入力音声１４とは話者が同一であったり、話者の性別、年齢、出身地、社会的地位、立場または役割が同一または類似したり、発声場面が同一または類似したりしているものとする。例えば、放送番組音声を入力音声１４として境界推定を行う場合であれば、同一または類似した番組やコーナーの音声を分析音声１０として用いてよい。また、分析音声１０と入力音声１４が同一の音声であってもよい。分析音声１０は、境界推定部１０２及びパターン生成部１１０に入力される。

境界推定部１０２は、分析音声１０を第１の意味単位と相関のある第２の意味単位で区切る第２の境界を推定し、当該分析音声１０における第２の境界の位置を示す第２の境界情報１１を生成する。例えば、境界推定部１０２は分析音声１０を発言単位で区切るために、話者の交替位置を検出する。第２の境界情報１１は、パターン生成部１１０に入力される。

ここで、第１の意味単位と第２の意味単位の関係は、例えば図７Ａに示すように第２の意味単位が第１の意味単位を包含するか、図７Ｂに示すように第２の意味単位と第１の意味単位との間に共通部分があることが望ましい。すなわち、第２の意味単位は第１の意味単位の少なくとも一部を包含することが望ましい。

パターン生成部１１０は、分析音声１０から第２の境界の直前及び直後の少なくとも一方に含まれる音響的特徴及び言語的特徴の少なくとも一方を分析して、当該第２の境界の直前及び直後の少なくとも一方において典型的な特徴を示すパターンを生成する。尚、具体的な音響的特徴及び言語的特徴については後述する。

図２に示すように、パターン生成部１１０は分析区間抽出部１１１、特徴取得部１１２及びパターン選択部１１３を含む。

分析区間抽出部１１１は、分析音声１０における第２の境界の位置を第２の境界情報１１を参照して検出し、当該第２の境界の直前、直後またはこれら両方の音声を分析区間音声１７として抽出する。ここで、分析区間音声１７は、上記第２の境界の直前、直後またはこれら両方の所定時間における音声であってもよいし、ポーズと呼ばれる音響的な切れ目（音声休止点）と上記第２の境界の位置との間の区間の音声など音響的特徴に基づいて抽出される音声でもよい。分析区間音声１７は、特徴取得部１１２に入力される。

特徴取得部１１２は、分析区間音声１７の音響的特徴及び言語的特徴の少なくとも一方を分析して分析特徴１８を取得し、パターン選択部１１３に渡す。ここで、音響的特徴は、例えば分析区間音声１７における音素認識結果、話速の変化パターン、変化率、音量、声の高低及び無音区間の継続長の少なくとも１つが用いられる。言語的特徴は、例えば分析区間音声１７に音声認識を行って取得した形態素の表記、読み及び品詞情報の少なくとも１つが用いられる。

パターン選択部１１３は、特徴取得部１１２で分析された分析特徴１８から分析区間音声１７における代表的な特徴を示す代表パターン１２を選択する。パターン選択部１１３は、例えば上記分析特徴１８のうち出現頻度の高い特徴を上記代表パターン１２として選択してもよいし、音量や話速の変化率などであれば平均値を上記代表パターン１２として選択してもよい。代表パターン１２は、パターン記憶部１２１に記憶される。

即ち、図３に示すように、パターン生成部１１０は分析音声１０から第２の境界の直前、直後またはこれら両方の分析区間音声１７を抽出し、当該分析区間音声１７における分析特徴１８を取得し、当該分析特徴１８から上記分析音声区間１７における典型的な代表パターン１２を生成している。

音声取得部１２２は、入力音声１４を取得して類似度算出部１３０に渡す。類似度算出部１３０は、入力音声１４の特定区間の特徴を示す特徴パターン２０と、代表パターン１３との類似度１５を算出する。類似度１５は、境界推定部１４１に入力される。

図４に示すように、類似度算出部１３０は算出区間抽出部１３１、特徴取得部１３２及び特徴比較部１３３を含む。

算出区間抽出部１３１は、類似度１５を算出する対象となる算出区間音声１９を入力音声１４から抽出する。算出区間音声１９は、特徴取得部１３２に入力される。

特徴取得部１３２は、算出区間音声１９の音響的特徴及び言語的特徴の少なくとも一方を分析して特徴パターン２０を取得し、特徴比較部１３３に渡す。ここで、特徴取得部１３２は、特徴取得部１１２と同様の分析を行うものとする。

特徴比較部１３３は、パターン記憶部１２１に記憶されている代表パターン１３を参照し、当該代表パターン１３と特徴パターン２０とを比較し、類似度を算出する。

尚、類似度算出部１３０は、算出区間音声１９を抽出してから特徴パターン２０を取得しているが、この順序を逆にしてもよい。即ち、類似度算出部１３０は、特徴パターン２０を取得してから算出区間音声１９を抽出してもよい。

境界推定部１４１は、類似度１５に基づいて入力音声１４を第１の意味単位で区切る第１の境界を推定し、当該第１の境界の入力音声１４における位置を示す第１の境界情報１６を出力する。境界推定部１４１は、類似度１５が閾値より高い算出区間音声１９の直前、直後または算出区間内のいずれかの位置を第１の境界と推定してもよいし、所定数を限度として類似度１５の高い順に算出区間音声１９の直前、直後または算出区間内のいずれかの位置を第１の境界と推定してもよい。

以下、図１の境界推定装置の動作の一例について説明する。この例では、図１の境界推定装置は、入力音声１４を文単位で区切る文境界を推定し、入力音声１４における当該文境界の位置を示す第１の境界情報１６を出力することとする。

分析音声取得部１０１は、入力音声１４と同一話者の分析音声１０を取得する。分析音声１０は、境界推定部１０２及びパターン生成部１１０に入力される。

境界推定部１０２は、分析音声１０を発言単位で区切る発言境界を推定し、第２の境界情報１１をパターン生成部１１０に渡す。ここで、前述したように第２の意味単位には第１の意味単位との相関が必要となるが、発言末は文末でもある可能性が高いので発言には文との相関があるといえる。また、例えば分析音声１０の各チャネルに各話者の音声が収録されており、境界推定部１０２は各チャネルにおける発声区間を検出するなどして高精度に発言境界を推定できるのものとする。

分析区間抽出部１１１は、分析音声１０における発言境界の位置を第２の境界情報１６を参照して検出し、当該発言境界の例えば直前の３秒間の音声を分析区間音声１７として抽出する。

特徴取得部１１２は、分析区間音声１７に音素認識を行って分析特徴１８として分析区間音声１７の音素系列を取得し、パターン選択部１１３に渡す。尚、分析音声１０の全体に対して予め音素認識を実行し、例えば発言境界の直前の１０音素を分析特徴１８としてもよい。

パターン選択部１１３は、分析特徴１８として取得した音素系列において出現頻度の高い５連鎖以上の音素を分析区間音声１７における典型的な代表パターン１２として選択する。尚、パターン選択部１１３は、次式に示すように、音素系列の長さを考慮に入れた重み付き出現頻度を用いて代表パターン１２を選択してもよい。

ここで、音素系列の長さをＬ、出現頻度をＣ、重み付き出現頻度をＷで夫々表している。

例えば、分析区間音声１７として「〜ですので」や「〜しますので」が得られ、これらの音素認識結果に含まれる長さ５の音素系列「s, u, n, d, e」の出現頻度が４の場合、数式（１）より重み付き出現頻度は４となる。一方、分析区間音声１７として「〜そうなんですね」や「〜というわけですね」が得られ、これらの音素認識結果に含まれる長さ６の音素系列「d, e, s, u, n, e」の出現頻度が２の場合、数式（１）より重み付き出現頻度は４となる。

尚、パターン選択部１１３は、１つに限らず複数の代表パターン１２を選択してもよい。例えば、パターン選択部１１３は所定個数を限度として上記出現頻度または重み付き出現頻度の高い順に代表パターン１２を選択してもよいし、上記出現頻度または重み付き出現頻度が閾値以上であれば全て代表パターン１２として選択してもよい。

以上のようにして求められる出現頻度または重み付き出現頻度の高い音素系列には、話者の口癖や場面ごとの特徴が反映される。例えば、くだけた場面では分析区間音声１７として「〜なんだよ」「〜してるんだよ」などが得られ、これらの音素認識結果から代表パターン１２として「n, d, a, y, o」が選択される。また、発声末を伸ばす口癖のある話者であれば分析区間音声１７として「〜なのよー」「〜するのよー」などが得られ、これらの音素認識結果から代表パターン１２として「n, o, y, o, o」が選択される。パターン選択部１１３によって選択される代表パターン１２は、発言境界の直前、即ち発言末における典型的な音響的パターンに相当する。前述したように、発言末は文末でもある可能性が高く、発言末において典型的なパターンは発言末以外の文末でも出現する可能性が高い。

以下、パターン選択部１１３によって、「d, e, s, u, n, e」及び「s, u, n, d, e」の２つの音素系列が代表パターン１２として選択された場合の図１の境界推定装置の動作例について説明する。

音声取得部１２２は、入力音声１４を取得し、類似度算出部１３０に渡す。類似度算出部１３０の算出区間抽出部１３１は、類似度１５を算出する対象となる算出区間音声１９を入力音声１４から抽出する。算出区間音声１９は、特徴取得部１３２に入力される。算出区間抽出部１３１は、例えば３秒間の音声を算出区間音声１９として、開始点を０．１秒ずつずらしながら入力音声１４から抽出する。特徴取得部１３２は、算出区間音声１９に音素認識を行って特徴パターン２０として音素系列を取得し、特徴比較部１３３に渡す。

ここで、類似度算出部１３０は、入力音声１４に予め音素認識を行って音素系列を取得して開始点を１音素ずつずらしながら１０音素単位で特徴パターン２０を取得してもよく、代表パターン１２と同じ長さの音素系列を特徴パターン２０としてもよい。

特徴比較部１３３は、パターン記憶部１２１に記憶されている代表パターン１３、即ち「d, e, s, u, n, e」及び「s, u, n, d, e」を参照し、当該代表パターン１３と特徴パターン２０とを比較し、類似度１５を算出する。特徴比較部１３３は、例えば次式によって代表パターン１３と特徴パターン２０の類似度１５を算出する。

ここで、Ｘiは特徴取得部１３２によって取得された音素系列、即ち特徴パターン２０を表し、Ｙはパターン記憶部１２１に記憶されている代表パターン１３を表し、Ｓ（Ｘi，Ｙ）はＹに対するＸiの類似度１５を表す。また、数式（２）において、Ｎは代表パターン１３の音素数、Ｉは代表パターン１３に対する特徴パターン２０の音素挿入数、Ｄは代表パターン１３に対する特徴パターン２０の音素脱落数、Ｒは代表パターン１３に対する特徴パターン２０の音素置換数Ｒを夫々表す。

特徴比較部１３３は、図５に示すように各算出区間音声１９における特徴パターン２０と代表パターン１３との類似度１５を夫々算出する。例えば、代表パターン１３が「d, e, s, u, n, e」であり、特徴パターン２０が「t, e, s, u, y, o, n」である場合、代表パターン１３の音素数Ｎは６、挿入された音素は「y」及び「o」であるから音素挿入数Ｉは２、脱落した音素は「e」であるから音素脱落数Ｄは１、置換された音素は「d」であるから音素置換数Ｒは１となり、数式（２）より類似度１５として「０．５」が算出される。

尚、類似度１５の算出には数式（２）に限らず、パターン間の類似性を反映したその他の算出方法を利用できる。例えば、特徴比較部１３３は、数式（２）に代えて次式を用いて類似度１５を算出してもよい。

また、音素「ｓ」と音素「ｚ」など比較的類似した音素は同一の音素として扱ってもよいし、全く異なる音素で置換する場合に比べて類似度１５が高くなるようにしてもよい。

境界推定部１４１は、類似度１５に基づいて入力音声１４を文単位で区切る文境界を推定し、当該文境界の入力音声１４における位置を示す第１の境界情報１６を出力する。境界推定部１４１は例えば、「d, e, s, u, n, e」及び「s, u, n, d, e」、即ち代表パターン１３との類似度１５が「０．８」以上の音素系列が末尾となる算出区間音声１９の終端位置を文境界と推定する。

尚、本実施形態に係る境界推定装置では、分析区間音声１７を抽出した後、音響的パターンまたは言語的パターンを取得するようにしているが、分析音声１０から分析特徴１８を直接取得して、代表パターン１２を生成してもよい。また、分析特徴１８を利用して境界前後の分析区間音声１７の範囲を推定してもよい。また、本実施形態に係る境界推定装置では、第２の境界位置の直前、直後またはこれらの両方の音声から代表パターン１２を生成しているが、上記第２の境界位置を基準として一定区間離れた箇所の音声より代表パターン１２を生成してもよい。

また、上記説明では、文境界を推定するために発言境界を利用しているが、例えば長い無音区間が生じる場面境界を利用して代表パターン１２を生成してもよい。更に、図６に示すように、第１の意味単位、第２の意味単位及び代表パターン１２を生成するための特徴の組み合わせは多数考えられる。例えば前述した組み合わせ１の他に、発言境界を利用して取得した話速の変動パターンから代表パターン１２を生成して節境界を推定する組み合わせ２や、場面境界を利用して取得した形態素の表記、品詞情報及び音量の変動パターンから代表パターン１２を生成して文境界を推定する組み合わせ３が考えられる。その他、図６に示す組み合わせ以外であっても同様の効果が得られる。

以上説明したように、本実施形態では入力音声における第１の境界を推定するために、入力音声と相関のある分析音声において第１の境界と相関のある第２の境界を推定し、当該第２の境界の直前、直後またはこれらの両方における特徴から代表パターンを生成し、この代表パターンを利用して入力音声における第１の境界を推定している。従って、本実施形態によれば、話者や場面ごとの話し方や発声スタイルが反映された代表パターンが生成されるため、学習データに依存せずに、話者や場面ごとに異なる口癖や言い回しを考慮した境界推定が可能となる。

（第２の実施形態）
図８に示すように、本発明の第２の実施形態に係る境界推定装置は、上記図１に示す境界推定装置において、境界推定部１４１を境界推定部２４１に置き換え、音声認識部２５１、境界確率データベース２５２及び境界可能性算出部２５３を更に設けている。以下の説明では、図８において図１と同一部分には同一符号を付して示し、異なる部分を中心に述べる。

音声認識部２５１は、入力音声１４に対して音声認識を行って、当該入力音声１４に含まれる単語列を示す単語情報２１を生成して境界可能性算出部２５３に渡す。ここで、単語情報２１には形態素の表記及び読みの情報が含まれる。

境界確率データベース２５２には、単語と、当該単語の前後に第１の境界が出現する確率２２（以下、単に境界確率２２と称する）とが対応付けて記憶されている。境界確率２２は、予め大量のテキストから統計的に算出され、境界確率データベース２５２に記憶されているものとする。境界確率データベース２５２には、例えば図９に示すように、単語と当該単語の前後が文境界となる境界確率２２とが対応付けて記憶されている。

境界可能性算出部２５３は、音声認識部２５１からの単語情報２１に対応する境界確率２２を境界確率データベース２５２より取得し、単語境界が第１の境界となる可能性２３（以下、単に境界可能性２３と称する）を算出して境界推定部２４１に渡す。例えば、境界可能性算出部２５３は、単語Ａと単語Ｂとの単語境界における境界可能性２３を例えば次式によって算出する。

ここで、Ｐは境界可能性２３、Ｐaは単語Ａの直後が第１の境界となる境界確率、Ｐｂは単語Ｂの直前が第１の境界となる境界確率を夫々表す。

境界推定部２４１は、前述した第１の実施形態における境界推定部１４１とは異なり、類似度１５に加えて境界可能性２３に基づいて入力音声１４を第１の意味単位で区切る第１の境界を推定し、第１の境界情報２４を出力する。境界推定部２４１は、境界推定部１４１と同様に、類似度１５が閾値より高い算出区間音声１９の直前、直後または算出区間内のいずれかの位置を第１の境界と推定してもよいし、所定数を限度として類似度１５の高い順に算出区間音声１９の直前、直後または算出区間内のいずれかの位置を第１の境界と推定してもよい。また、境界推定部２４１は、境界可能性２３が閾値より高ければ当該単語境界を第１の境界と推定してもよいし、境界可能性２３と類似度１５の両方の値が閾値より高いか否かによって第１の境界を推定してもよい。

以下、前述した第１の実施形態における例と同様に、代表パターン１２として「d, e, s, u, n, e」及び「s, u, n, d, e」が生成された場合における、本実施形態に係る境界推定装置の動作について説明する。

音声認識部２５１は、入力音声１４に音声認識を行って、例えば「思い、ます、それ、で」及び「重要、です、の、で、さて、今日、は」といった認識結果を単語情報２１として取得する。

境界確率データベース２５２には、図９に示すように単語と当該単語の直前または直後が文境界となる境界確率２２が記憶されている。境界可能性算出部２５３は単語情報２１及び当該単語情報２１に対応する境界確率２２を用いて、図１０に示すように境界可能性２４を算出する。数式（４）及び図９より、「思い」と「ます」の間の境界可能性は０．１×０．１＝０．０１、「ます」と「それ」の間の境界可能性は０．９×０．６＝０．５４、「それ」と「で」の間の境界可能性２３は０．２×０．６＝０．１２と夫々算出される。境界可能性算出部２５３は、他の単語境界についても同様に境界可能性２３を算出する。

境界推定部２４１は、例えば（ａ）境界可能性２３が「０．５」以上または（ｂ）境界可能性２３が「０．３」以上かつ類似度１５が「０．４」以上のいずれかの条件を満たすか否かによって入力音声１４における文境界を推定する。従って、例えば図１０に示すように、「ます」と「それ」の間の境界可能性は「０．５４」であり条件（ａ）を満たすので、境界推定部２４１は「ます」と「それ」の間を文境界と推定する。

また、図１１に示すように、「重要」「です」「の」「で」「さて」「今日」「は」の各単語境界が文境界となる境界可能性２３は、「０．０１」、「０．１８」、「０．１２」、「０．３６」、「０．１２」、「０．０１」と算出される。このうち、「で」と「さて」の単語境界における境界可能性２３が「０．３」以上であり、当該単語境界の直前から得られる特徴パターン２０と代表パターン「s, u, n, d, e」との類似度１５が「０．６」以上であり条件（ｂ）を満たすので、境界推定部２４１は当該単語境界を文境界と推定する。

尚、境界推定部２４１では第１の境界の推定に閾値を用いているが、この閾値は任意に設定できる。また、境界推定部２４１が第１の境界の推定に用いる条件は、類似度１５及び境界可能性２３の少なくとも一方を用いればよい。例えば、類似度１５と境界可能性２３の積を上記条件として用いてもよい。また、境界可能性２３の算出には入力音声１４に音声認識を行って得られる単語情報２１が必要となるが、音声認識部２５１における音声認識の信頼度に応じて境界可能性２３の値を調整してもよい。

以上説明したように、本実施形態では、前述した第１の実施形態に加えて統計的に算出された境界可能性に基づき、入力音声を第１の意味単位で区切る第１境界を推定している。従って、本実施形態によれば、前述した第１の実施形態に比べてより高い精度で第１の境界を推定できる。

尚、本実施形態では、各単語境界の直前及び直後の１つの単語情報のみを利用して境界可能性を算出しているが、各単語境界の直前及び直後の複数の単語情報を利用してもよいし、品詞情報を利用してもよい。

なお、本発明は上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また上記各実施形態に開示されている複数の構成要素を適宜組み合わせることによって種々の発明を形成できる。また例えば、各実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。さらに、異なる実施形態に記載した構成要素を適宜組み合わせてもよい。

第１の実施形態に係る境界推定装置を示すブロック図。図１のパターン生成部を示すブロック図。図２のパターン生成部によるパターン生成を概念的に示す図。図１の類似度算出部を示すブロック図。図１の類似度算出部による類似度算出の一例を示す図。第１の意味単位、第２の意味単位及び特徴の組み合わせの例を示す図。第１の意味単位と第２の意味単位との関係の一例を示す図。第１の意味単位と第２の意味単位との関係の他の例を示す図。第２の実施形態に係る境界推定装置を示すブロック図。図８の境界確率データベースに記憶されている単語と境界確率の関係の一例を示す図。図８の境界可能性算出部における境界可能性の算出の一例を示す図。図８の境界推定部における境界推定の一例を示す図。

符号の説明

１０・・・分析音声
１１・・・第２の境界情報
１２・・・代表パターン
１３・・・代表パターン
１４・・・入力音声
１５・・・類似度
１６・・・第１の境界情報
１７・・・分析区間音声
１８・・・分析特徴
１９・・・算出区間音声
２０・・・特徴パターン
２１・・・単語情報
２２・・・境界確率
２３・・・境界可能性
２４・・・第１の境界情報
１０１・・・分析音声取得部
１０２・・・境界推定部
１１０・・・パターン生成部
１１１・・・分析区間抽出部
１１２・・・特徴取得部
１１３・・・パターン選択部
１２１・・・パターン記憶部
１２２・・・音声取得部
１３０・・・類似度算出部
１３１・・・算出区間抽出部
１３２・・・特徴取得部
１３３・・・特徴比較部
１４１・・・境界推定部
２４１・・・境界推定部
２５１・・・音声認識部
２５２・・・境界確率データベース
２５３・・・境界可能性算出部

Claims

第１の音声を第１の意味単位で区切る第１の境界を推定する境界推定装置において、
前記第１の音声と相関のある第２の音声を前記第１の意味単位と相関のある第２の意味単位で区切る第２の境界を推定する第１の推定部と、
前記第２の音声における前記第２の境界の直前及び直後の少なくとも一方の分析区間の音響的特徴及び言語的特徴の少なくとも一方を分析して当該分析区間の代表的な特徴を示す代表パターンを生成する生成部と、
前記代表パターンと前記第１の音声の複数の算出区間の特徴を示す特徴パターンとの類似度を算出する算出部と、
前記類似度が閾値より高い前記算出区間あるいは前記類似度が相対的に高い前記算出区間の直前、直後または当該算出区間内のいずれかの位置を前記第１の境界として推定する第２の推定部と
を具備することを特徴とする境界推定装置。
前記第２の意味単位は前記第１の意味単位の少なくとも一部を包含することを特徴とする請求項１記載の境界推定装置。
前記第１の意味単位は文であり、前記第２の意味単位は発言であることを特徴とする請求項１記載の境界推定装置。
前記第１の意味単位は、文、句、節、発言及び話題のいずれか１つであることを特徴とする請求項１記載の境界推定装置。
前記音響的特徴は、音声における音素認識結果、話速の変化、音量、声の高低及び無音区間の継続長の少なくとも１つであることを特徴とする請求項１記載の境界推定装置。
前記言語的特徴は、音声に音声認識を行って取得した形態素の表記、読み及び品詞情報の少なくとも１つであることを特徴とする請求項１記載の境界推定装置。
前記第１の音声及び前記第２の音声は同一であることを特徴とする請求項１記載の境界推定装置。
単語の直前及び直後が前記第１の境界となる統計的確率が記憶されたデータベースと、
前記第１の音声に音声認識を行って当該第１の音声に含まれる単語列を示す単語情報を生成する音声認識部と
前記単語情報及び前記統計的確率から前記単語列における単語境界が前記第１の境界となる可能性を算出する第２の算出部を更に具備し、
前記第２の推定部は、前記類似度が前記閾値より高い前記算出区間、前記類似度が相対的に高い前記算出区間、前記可能性が第２の閾値より高い前記単語境界あるいは前記可能性が相対的に高い前記単語境界の直前、直後または当該算出区間内のいずれかの位置を前記第１の境界として推定することを特徴とする請求項１記載の境界推定装置。
第１の音声を第１の意味単位で区切る第１の境界を推定する境界推定方法において、
前記第１の音声と相関のある第２の音声を前記第１の意味単位と相関のある第２の意味単位で区切る第２の境界を推定し、
前記第２の音声における前記第２の境界の直前及び直後の少なくとも一方の分析区間の音響的特徴及び言語的特徴の少なくとも一方を分析して当該分析区間の代表的な特徴を示す代表パターンを生成し、
前記代表パターンと前記第１の音声の複数の算出区間の特徴を示す特徴パターンとの類似度を算出し、
前記類似度が閾値より高い前記算出区間あるいは前記類似度が相対的に高い前記算出区間の直前、直後または当該算出区間内のいずれかの位置を前記第１の境界として推定する
ことを特徴とする境界推定方法。
コンピュータを、第１の音声を第１の意味単位で区切る第１の境界を推定する境界推定装置として機能させるための境界推定プログラムにおいて、
前記第１の音声と相関のある第２の音声を前記第１の意味単位と相関のある第２の意味単位で区切る第２の境界を推定する第１の推定手段、
前記第２の音声における前記第２の境界の直前及び直後の少なくとも一方の分析区間の音響的特徴及び言語的特徴の少なくとも一方を分析して当該分析区間の代表的な特徴を示す代表パターンを生成する生成手段、
前記代表パターンと前記第１の音声の複数の算出区間の特徴を示す特徴パターンとの類似度を算出する算出手段、
前記類似度が閾値より高い前記算出区間あるいは前記類似度が相対的に高い前記算出区間の直前、直後または当該算出区間内のいずれかの位置を前記第１の境界として推定する第２の推定手段
として前記コンピュータを機能させるための境界推定プログラム。