JP2010230695A - 音声の境界推定装置及び方法 - Google Patents

音声の境界推定装置及び方法 Download PDF

Info

Publication number
JP2010230695A
JP2010230695A JP2007274290A JP2007274290A JP2010230695A JP 2010230695 A JP2010230695 A JP 2010230695A JP 2007274290 A JP2007274290 A JP 2007274290A JP 2007274290 A JP2007274290 A JP 2007274290A JP 2010230695 A JP2010230695 A JP 2010230695A
Authority
JP
Japan
Prior art keywords
boundary
speech
unit
feature
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007274290A
Other languages
English (en)
Inventor
Kazuhiko Abe
一彦 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2007274290A priority Critical patent/JP2010230695A/ja
Priority to PCT/JP2008/069584 priority patent/WO2009054535A1/en
Priority to US12/494,859 priority patent/US20090265166A1/en
Publication of JP2010230695A publication Critical patent/JP2010230695A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

【課題】話者や発声場面に依存する特徴のばらつきを考慮して入力音声を所定の意味単位で区切る境界を推定する境界推定装置を提供する。
【解決手段】第1の音声と相関のある第2の音声を第1の意味単位と相関のある第2の意味単位で区切る第2の境界を推定する第1の推定部102と;第2の音声における第2の境界の直前及び直後の少なくとも一方の分析区間の音響的特徴及び言語的特徴の少なくとも一方を分析して分析区間の代表的な特徴を示す代表パターンを生成する生成部110と;代表パターンと第1の音声の複数の算出区間の特徴を示す特徴パターンとの類似度を算出する算出部130と;類似度が閾値より高い算出区間あるいは類似度が相対的に高い算出区間の直前、直後または当該算出区間内のいずれかの位置を第1の境界として推定する第2の推定部141と;を具備する。
【選択図】 図1

Description

本発明は、音声を所定の意味単位で区切る境界を推定する音声の境界推定装置及び方法に関する。
例えば会議や講演などを録音した音声を文、節または発言などの所定の意味内容(意味単位)で区切って索引付けを行うと、上記索引を頭出しすることにより音声の内容を効率よく視聴できる。このような索引付けを行うには、音声を上記意味単位で区切る境界を推定する必要がある。
非特許文献1記載の手法では、録音音声を音声認識して形態素の表記または読みなどの単語情報を取得し、各単語境界について前後2単語までの範囲を参照して、当該単語境界が文境界である可能性を算出する。そして、上記可能性が予め定める閾値を超えれば当該単語境界が文境界として抽出される。
また、非特許文献2記載の手法では、上記単語情報に加えて品詞情報も特徴量として利用して単語境界が文境界となる可能性を算出することにより、精度良く文境界を抽出する。
"GLR* : A Robust Grammar-Focused Parser for Spontaneously Spoken Language" Alon Lavie, CMU-cs-96-126, School of Computer Science, Carnegie Mellon University, May, 1996 "Experiments on Sentence Boundary Detection" Mark Stevenson and Robert Gaizauskas Proceedings of the North American Chapter of the Association for Computational Linguistics annual meeting pp. 24-30, April, 2000
非特許文献1及び非特許文献2記載の手法はいずれも、単語境界が文境界となる可能性を算出するために、文境界の前後に現れる形態素の出現頻度を大規模な言語テキストを用いて学習した学習データが必要となる。即ち、非特許文献1及び非特許文献2記載の手法において文境界の抽出精度は上記学習データの量及び品質に依存する。
また、学習の対象となる話し言葉では、話者の性別、年齢または出身地などによって口癖や話し方などの特徴があったり、同一の話者であっても講演や会話といった異なる発声場面では異なる言い回しを用いたりもする。従って、話者及び発声場面によって文末や文頭に現れる特徴にばらつきがあるため、学習データを用いるだけでは文境界の判定精度に限界がある。また、上記特徴のばらつきをルールで記述することは困難である。
更に、上記手法では、話し言葉に音声認識を行って得られる単語情報を用いることを前提としているが、実際には不明瞭な発声や収録環境などの影響によって正しく音声認識を行えない場合がある。また、話し言葉では単語や言い回しのバリエーションが豊富なため、音声認識に必要な言語モデルの構築が困難であるし、笑い声やフィラーなど言語表現に変換不可能な音声情報も出現する。
従って、本発明は、話者や発声場面に依存する特徴のばらつきを考慮して入力音声を所定の意味単位で区切る境界を推定する境界推定装置を提供することを目的とする。
本発明の一態様に係る境界推定装置は、第1の音声を第1の意味単位で区切る第1の境界を推定する境界推定装置において、前記第1の音声と相関のある第2の音声を前記第1の意味単位と相関のある第2の意味単位で区切る第2の境界を推定する第1の推定部と;前記第2の音声における前記第2の境界の直前及び直後の少なくとも一方の分析区間の音響的特徴及び言語的特徴の少なくとも一方を分析して当該分析区間の代表的な特徴を示す代表パターンを生成する生成部と;前記代表パターンと前記第1の音声の複数の算出区間の特徴を示す特徴パターンとの類似度を算出する算出部と;前記類似度が閾値より高い前記算出区間あるいは前記類似度が相対的に高い前記算出区間の直前、直後または当該算出区間内のいずれかの位置を前記第1の境界として推定する第2の推定部と;を具備する。
本発明によれば、話者や発声場面に依存する特徴のばらつきを考慮して入力音声を所定の意味単位で区切る境界を推定する境界推定装置を提供できる。
以下、図面を参照して、本発明の実施形態について説明する。
(第1の実施形態)
図1に示すように、本発明の第1の実施形態に係る境界推定装置は、分析音声取得部101、境界推定部102、パターン生成部110、パターン記憶部121、音声取得部122、類似度算出部130及び境界推定部141を有する。図1の境界推定装置は、境界を推定する対象の入力音声14を第1の意味単位で区切る第1の境界を推定して第1の境界情報16を出力する機能を有する。ここで、意味単位は、文、節、句、場面または発言など所定の意味のまとまりを指すものとする。
分析音声取得部101は、特徴を分析する対象の音声(以下、分析音声という)10を取得する。分析音声10は、入力音声14と相関のある音声である。具体的には、例えば分析音声10と入力音声14とは話者が同一であったり、話者の性別、年齢、出身地、社会的地位、立場または役割が同一または類似したり、発声場面が同一または類似したりしているものとする。例えば、放送番組音声を入力音声14として境界推定を行う場合であれば、同一または類似した番組やコーナーの音声を分析音声10として用いてよい。また、分析音声10と入力音声14が同一の音声であってもよい。分析音声10は、境界推定部102及びパターン生成部110に入力される。
境界推定部102は、分析音声10を第1の意味単位と相関のある第2の意味単位で区切る第2の境界を推定し、当該分析音声10における第2の境界の位置を示す第2の境界情報11を生成する。例えば、境界推定部102は分析音声10を発言単位で区切るために、話者の交替位置を検出する。第2の境界情報11は、パターン生成部110に入力される。
ここで、第1の意味単位と第2の意味単位の関係は、例えば図7Aに示すように第2の意味単位が第1の意味単位を包含するか、図7Bに示すように第2の意味単位と第1の意味単位との間に共通部分があることが望ましい。すなわち、第2の意味単位は第1の意味単位の少なくとも一部を包含することが望ましい。
パターン生成部110は、分析音声10から第2の境界の直前及び直後の少なくとも一方に含まれる音響的特徴及び言語的特徴の少なくとも一方を分析して、当該第2の境界の直前及び直後の少なくとも一方において典型的な特徴を示すパターンを生成する。尚、具体的な音響的特徴及び言語的特徴については後述する。
図2に示すように、パターン生成部110は分析区間抽出部111、特徴取得部112及びパターン選択部113を含む。
分析区間抽出部111は、分析音声10における第2の境界の位置を第2の境界情報11を参照して検出し、当該第2の境界の直前、直後またはこれら両方の音声を分析区間音声17として抽出する。ここで、分析区間音声17は、上記第2の境界の直前、直後またはこれら両方の所定時間における音声であってもよいし、ポーズと呼ばれる音響的な切れ目(音声休止点)と上記第2の境界の位置との間の区間の音声など音響的特徴に基づいて抽出される音声でもよい。分析区間音声17は、特徴取得部112に入力される。
特徴取得部112は、分析区間音声17の音響的特徴及び言語的特徴の少なくとも一方を分析して分析特徴18を取得し、パターン選択部113に渡す。ここで、音響的特徴は、例えば分析区間音声17における音素認識結果、話速の変化パターン、変化率、音量、声の高低及び無音区間の継続長の少なくとも1つが用いられる。言語的特徴は、例えば分析区間音声17に音声認識を行って取得した形態素の表記、読み及び品詞情報の少なくとも1つが用いられる。
パターン選択部113は、特徴取得部112で分析された分析特徴18から分析区間音声17における代表的な特徴を示す代表パターン12を選択する。パターン選択部113は、例えば上記分析特徴18のうち出現頻度の高い特徴を上記代表パターン12として選択してもよいし、音量や話速の変化率などであれば平均値を上記代表パターン12として選択してもよい。代表パターン12は、パターン記憶部121に記憶される。
即ち、図3に示すように、パターン生成部110は分析音声10から第2の境界の直前、直後またはこれら両方の分析区間音声17を抽出し、当該分析区間音声17における分析特徴18を取得し、当該分析特徴18から上記分析音声区間17における典型的な代表パターン12を生成している。
音声取得部122は、入力音声14を取得して類似度算出部130に渡す。類似度算出部130は、入力音声14の特定区間の特徴を示す特徴パターン20と、代表パターン13との類似度15を算出する。類似度15は、境界推定部141に入力される。
図4に示すように、類似度算出部130は算出区間抽出部131、特徴取得部132及び特徴比較部133を含む。
算出区間抽出部131は、類似度15を算出する対象となる算出区間音声19を入力音声14から抽出する。算出区間音声19は、特徴取得部132に入力される。
特徴取得部132は、算出区間音声19の音響的特徴及び言語的特徴の少なくとも一方を分析して特徴パターン20を取得し、特徴比較部133に渡す。ここで、特徴取得部132は、特徴取得部112と同様の分析を行うものとする。
特徴比較部133は、パターン記憶部121に記憶されている代表パターン13を参照し、当該代表パターン13と特徴パターン20とを比較し、類似度を算出する。
尚、類似度算出部130は、算出区間音声19を抽出してから特徴パターン20を取得しているが、この順序を逆にしてもよい。即ち、類似度算出部130は、特徴パターン20を取得してから算出区間音声19を抽出してもよい。
境界推定部141は、類似度15に基づいて入力音声14を第1の意味単位で区切る第1の境界を推定し、当該第1の境界の入力音声14における位置を示す第1の境界情報16を出力する。境界推定部141は、類似度15が閾値より高い算出区間音声19の直前、直後または算出区間内のいずれかの位置を第1の境界と推定してもよいし、所定数を限度として類似度15の高い順に算出区間音声19の直前、直後または算出区間内のいずれかの位置を第1の境界と推定してもよい。
以下、図1の境界推定装置の動作の一例について説明する。この例では、図1の境界推定装置は、入力音声14を文単位で区切る文境界を推定し、入力音声14における当該文境界の位置を示す第1の境界情報16を出力することとする。
分析音声取得部101は、入力音声14と同一話者の分析音声10を取得する。分析音声10は、境界推定部102及びパターン生成部110に入力される。
境界推定部102は、分析音声10を発言単位で区切る発言境界を推定し、第2の境界情報11をパターン生成部110に渡す。ここで、前述したように第2の意味単位には第1の意味単位との相関が必要となるが、発言末は文末でもある可能性が高いので発言には文との相関があるといえる。また、例えば分析音声10の各チャネルに各話者の音声が収録されており、境界推定部102は各チャネルにおける発声区間を検出するなどして高精度に発言境界を推定できるのものとする。
分析区間抽出部111は、分析音声10における発言境界の位置を第2の境界情報16を参照して検出し、当該発言境界の例えば直前の3秒間の音声を分析区間音声17として抽出する。
特徴取得部112は、分析区間音声17に音素認識を行って分析特徴18として分析区間音声17の音素系列を取得し、パターン選択部113に渡す。尚、分析音声10の全体に対して予め音素認識を実行し、例えば発言境界の直前の10音素を分析特徴18としてもよい。
パターン選択部113は、分析特徴18として取得した音素系列において出現頻度の高い5連鎖以上の音素を分析区間音声17における典型的な代表パターン12として選択する。尚、パターン選択部113は、次式に示すように、音素系列の長さを考慮に入れた重み付き出現頻度を用いて代表パターン12を選択してもよい。
Figure 2010230695
ここで、音素系列の長さをL、出現頻度をC、重み付き出現頻度をWで夫々表している。
例えば、分析区間音声17として「〜ですので」や「〜しますので」が得られ、これらの音素認識結果に含まれる長さ5の音素系列「s, u, n, d, e」の出現頻度が4の場合、数式(1)より重み付き出現頻度は4となる。一方、分析区間音声17として「〜そうなんですね」や「〜というわけですね」が得られ、これらの音素認識結果に含まれる長さ6の音素系列「d, e, s, u, n, e」の出現頻度が2の場合、数式(1)より重み付き出現頻度は4となる。
尚、パターン選択部113は、1つに限らず複数の代表パターン12を選択してもよい。例えば、パターン選択部113は所定個数を限度として上記出現頻度または重み付き出現頻度の高い順に代表パターン12を選択してもよいし、上記出現頻度または重み付き出現頻度が閾値以上であれば全て代表パターン12として選択してもよい。
以上のようにして求められる出現頻度または重み付き出現頻度の高い音素系列には、話者の口癖や場面ごとの特徴が反映される。例えば、くだけた場面では分析区間音声17として「〜なんだよ」「〜してるんだよ」などが得られ、これらの音素認識結果から代表パターン12として「n, d, a, y, o」が選択される。また、発声末を伸ばす口癖のある話者であれば分析区間音声17として「〜なのよー」「〜するのよー」などが得られ、これらの音素認識結果から代表パターン12として「n, o, y, o, o」が選択される。パターン選択部113によって選択される代表パターン12は、発言境界の直前、即ち発言末における典型的な音響的パターンに相当する。前述したように、発言末は文末でもある可能性が高く、発言末において典型的なパターンは発言末以外の文末でも出現する可能性が高い。
以下、パターン選択部113によって、「d, e, s, u, n, e」及び「s, u, n, d, e」の2つの音素系列が代表パターン12として選択された場合の図1の境界推定装置の動作例について説明する。
音声取得部122は、入力音声14を取得し、類似度算出部130に渡す。類似度算出部130の算出区間抽出部131は、類似度15を算出する対象となる算出区間音声19を入力音声14から抽出する。算出区間音声19は、特徴取得部132に入力される。算出区間抽出部131は、例えば3秒間の音声を算出区間音声19として、開始点を0.1秒ずつずらしながら入力音声14から抽出する。特徴取得部132は、算出区間音声19に音素認識を行って特徴パターン20として音素系列を取得し、特徴比較部133に渡す。
ここで、類似度算出部130は、入力音声14に予め音素認識を行って音素系列を取得して開始点を1音素ずつずらしながら10音素単位で特徴パターン20を取得してもよく、代表パターン12と同じ長さの音素系列を特徴パターン20としてもよい。
特徴比較部133は、パターン記憶部121に記憶されている代表パターン13、即ち「d, e, s, u, n, e」及び「s, u, n, d, e」を参照し、当該代表パターン13と特徴パターン20とを比較し、類似度15を算出する。特徴比較部133は、例えば次式によって代表パターン13と特徴パターン20の類似度15を算出する。
Figure 2010230695
ここで、Xiは特徴取得部132によって取得された音素系列、即ち特徴パターン20を表し、Yはパターン記憶部121に記憶されている代表パターン13を表し、S(Xi,Y)はYに対するXiの類似度15を表す。また、数式(2)において、Nは代表パターン13の音素数、Iは代表パターン13に対する特徴パターン20の音素挿入数、Dは代表パターン13に対する特徴パターン20の音素脱落数、Rは代表パターン13に対する特徴パターン20の音素置換数Rを夫々表す。
特徴比較部133は、図5に示すように各算出区間音声19における特徴パターン20と代表パターン13との類似度15を夫々算出する。例えば、代表パターン13が「d, e, s, u, n, e」であり、特徴パターン20が「t, e, s, u, y, o, n」である場合、代表パターン13の音素数Nは6、挿入された音素は「y」及び「o」であるから音素挿入数Iは2、脱落した音素は「e」であるから音素脱落数Dは1、置換された音素は「d」であるから音素置換数Rは1となり、数式(2)より類似度15として「0.5」が算出される。
尚、類似度15の算出には数式(2)に限らず、パターン間の類似性を反映したその他の算出方法を利用できる。例えば、特徴比較部133は、数式(2)に代えて次式を用いて類似度15を算出してもよい。
Figure 2010230695
また、音素「s」と音素「z」など比較的類似した音素は同一の音素として扱ってもよいし、全く異なる音素で置換する場合に比べて類似度15が高くなるようにしてもよい。
境界推定部141は、類似度15に基づいて入力音声14を文単位で区切る文境界を推定し、当該文境界の入力音声14における位置を示す第1の境界情報16を出力する。境界推定部141は例えば、「d, e, s, u, n, e」及び「s, u, n, d, e」、即ち代表パターン13との類似度15が「0.8」以上の音素系列が末尾となる算出区間音声19の終端位置を文境界と推定する。
尚、本実施形態に係る境界推定装置では、分析区間音声17を抽出した後、音響的パターンまたは言語的パターンを取得するようにしているが、分析音声10から分析特徴18を直接取得して、代表パターン12を生成してもよい。また、分析特徴18を利用して境界前後の分析区間音声17の範囲を推定してもよい。また、本実施形態に係る境界推定装置では、第2の境界位置の直前、直後またはこれらの両方の音声から代表パターン12を生成しているが、上記第2の境界位置を基準として一定区間離れた箇所の音声より代表パターン12を生成してもよい。
また、上記説明では、文境界を推定するために発言境界を利用しているが、例えば長い無音区間が生じる場面境界を利用して代表パターン12を生成してもよい。更に、図6に示すように、第1の意味単位、第2の意味単位及び代表パターン12を生成するための特徴の組み合わせは多数考えられる。例えば前述した組み合わせ1の他に、発言境界を利用して取得した話速の変動パターンから代表パターン12を生成して節境界を推定する組み合わせ2や、場面境界を利用して取得した形態素の表記、品詞情報及び音量の変動パターンから代表パターン12を生成して文境界を推定する組み合わせ3が考えられる。その他、図6に示す組み合わせ以外であっても同様の効果が得られる。
以上説明したように、本実施形態では入力音声における第1の境界を推定するために、入力音声と相関のある分析音声において第1の境界と相関のある第2の境界を推定し、当該第2の境界の直前、直後またはこれらの両方における特徴から代表パターンを生成し、この代表パターンを利用して入力音声における第1の境界を推定している。従って、本実施形態によれば、話者や場面ごとの話し方や発声スタイルが反映された代表パターンが生成されるため、学習データに依存せずに、話者や場面ごとに異なる口癖や言い回しを考慮した境界推定が可能となる。
(第2の実施形態)
図8に示すように、本発明の第2の実施形態に係る境界推定装置は、上記図1に示す境界推定装置において、境界推定部141を境界推定部241に置き換え、音声認識部251、境界確率データベース252及び境界可能性算出部253を更に設けている。以下の説明では、図8において図1と同一部分には同一符号を付して示し、異なる部分を中心に述べる。
音声認識部251は、入力音声14に対して音声認識を行って、当該入力音声14に含まれる単語列を示す単語情報21を生成して境界可能性算出部253に渡す。ここで、単語情報21には形態素の表記及び読みの情報が含まれる。
境界確率データベース252には、単語と、当該単語の前後に第1の境界が出現する確率22(以下、単に境界確率22と称する)とが対応付けて記憶されている。境界確率22は、予め大量のテキストから統計的に算出され、境界確率データベース252に記憶されているものとする。境界確率データベース252には、例えば図9に示すように、単語と当該単語の前後が文境界となる境界確率22とが対応付けて記憶されている。
境界可能性算出部253は、音声認識部251からの単語情報21に対応する境界確率22を境界確率データベース252より取得し、単語境界が第1の境界となる可能性23(以下、単に境界可能性23と称する)を算出して境界推定部241に渡す。例えば、境界可能性算出部253は、単語Aと単語Bとの単語境界における境界可能性23を例えば次式によって算出する。
Figure 2010230695
ここで、Pは境界可能性23、Paは単語Aの直後が第1の境界となる境界確率、Pbは単語Bの直前が第1の境界となる境界確率を夫々表す。
境界推定部241は、前述した第1の実施形態における境界推定部141とは異なり、類似度15に加えて境界可能性23に基づいて入力音声14を第1の意味単位で区切る第1の境界を推定し、第1の境界情報24を出力する。境界推定部241は、境界推定部141と同様に、類似度15が閾値より高い算出区間音声19の直前、直後または算出区間内のいずれかの位置を第1の境界と推定してもよいし、所定数を限度として類似度15の高い順に算出区間音声19の直前、直後または算出区間内のいずれかの位置を第1の境界と推定してもよい。また、境界推定部241は、境界可能性23が閾値より高ければ当該単語境界を第1の境界と推定してもよいし、境界可能性23と類似度15の両方の値が閾値より高いか否かによって第1の境界を推定してもよい。
以下、前述した第1の実施形態における例と同様に、代表パターン12として「d, e, s, u, n, e」及び「s, u, n, d, e」が生成された場合における、本実施形態に係る境界推定装置の動作について説明する。
音声認識部251は、入力音声14に音声認識を行って、例えば「思い、ます、それ、で」及び「重要、です、の、で、さて、今日、は」といった認識結果を単語情報21として取得する。
境界確率データベース252には、図9に示すように単語と当該単語の直前または直後が文境界となる境界確率22が記憶されている。境界可能性算出部253は単語情報21及び当該単語情報21に対応する境界確率22を用いて、図10に示すように境界可能性24を算出する。数式(4)及び図9より、「思い」と「ます」の間の境界可能性は0.1×0.1=0.01、「ます」と「それ」の間の境界可能性は0.9×0.6=0.54、「それ」と「で」の間の境界可能性23は0.2×0.6=0.12と夫々算出される。境界可能性算出部253は、他の単語境界についても同様に境界可能性23を算出する。
境界推定部241は、例えば(a)境界可能性23が「0.5」以上または(b)境界可能性23が「0.3」以上かつ類似度15が「0.4」以上のいずれかの条件を満たすか否かによって入力音声14における文境界を推定する。従って、例えば図10に示すように、「ます」と「それ」の間の境界可能性は「0.54」であり条件(a)を満たすので、境界推定部241は「ます」と「それ」の間を文境界と推定する。
また、図11に示すように、「重要」「です」「の」「で」「さて」「今日」「は」の各単語境界が文境界となる境界可能性23は、「0.01」、「0.18」、「0.12」、「0.36」、「0.12」、「0.01」と算出される。このうち、「で」と「さて」の単語境界における境界可能性23が「0.3」以上であり、当該単語境界の直前から得られる特徴パターン20と代表パターン「s, u, n, d, e」との類似度15が「0.6」以上であり条件(b)を満たすので、境界推定部241は当該単語境界を文境界と推定する。
尚、境界推定部241では第1の境界の推定に閾値を用いているが、この閾値は任意に設定できる。また、境界推定部241が第1の境界の推定に用いる条件は、類似度15及び境界可能性23の少なくとも一方を用いればよい。例えば、類似度15と境界可能性23の積を上記条件として用いてもよい。また、境界可能性23の算出には入力音声14に音声認識を行って得られる単語情報21が必要となるが、音声認識部251における音声認識の信頼度に応じて境界可能性23の値を調整してもよい。
以上説明したように、本実施形態では、前述した第1の実施形態に加えて統計的に算出された境界可能性に基づき、入力音声を第1の意味単位で区切る第1境界を推定している。従って、本実施形態によれば、前述した第1の実施形態に比べてより高い精度で第1の境界を推定できる。
尚、本実施形態では、各単語境界の直前及び直後の1つの単語情報のみを利用して境界可能性を算出しているが、各単語境界の直前及び直後の複数の単語情報を利用してもよいし、品詞情報を利用してもよい。
なお、本発明は上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また上記各実施形態に開示されている複数の構成要素を適宜組み合わせることによって種々の発明を形成できる。また例えば、各実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。さらに、異なる実施形態に記載した構成要素を適宜組み合わせてもよい。
第1の実施形態に係る境界推定装置を示すブロック図。 図1のパターン生成部を示すブロック図。 図2のパターン生成部によるパターン生成を概念的に示す図。 図1の類似度算出部を示すブロック図。 図1の類似度算出部による類似度算出の一例を示す図。 第1の意味単位、第2の意味単位及び特徴の組み合わせの例を示す図。 第1の意味単位と第2の意味単位との関係の一例を示す図。 第1の意味単位と第2の意味単位との関係の他の例を示す図。 第2の実施形態に係る境界推定装置を示すブロック図。 図8の境界確率データベースに記憶されている単語と境界確率の関係の一例を示す図。 図8の境界可能性算出部における境界可能性の算出の一例を示す図。 図8の境界推定部における境界推定の一例を示す図。
符号の説明
10・・・分析音声
11・・・第2の境界情報
12・・・代表パターン
13・・・代表パターン
14・・・入力音声
15・・・類似度
16・・・第1の境界情報
17・・・分析区間音声
18・・・分析特徴
19・・・算出区間音声
20・・・特徴パターン
21・・・単語情報
22・・・境界確率
23・・・境界可能性
24・・・第1の境界情報
101・・・分析音声取得部
102・・・境界推定部
110・・・パターン生成部
111・・・分析区間抽出部
112・・・特徴取得部
113・・・パターン選択部
121・・・パターン記憶部
122・・・音声取得部
130・・・類似度算出部
131・・・算出区間抽出部
132・・・特徴取得部
133・・・特徴比較部
141・・・境界推定部
241・・・境界推定部
251・・・音声認識部
252・・・境界確率データベース
253・・・境界可能性算出部

Claims (10)

  1. 第1の音声を第1の意味単位で区切る第1の境界を推定する境界推定装置において、
    前記第1の音声と相関のある第2の音声を前記第1の意味単位と相関のある第2の意味単位で区切る第2の境界を推定する第1の推定部と、
    前記第2の音声における前記第2の境界の直前及び直後の少なくとも一方の分析区間の音響的特徴及び言語的特徴の少なくとも一方を分析して当該分析区間の代表的な特徴を示す代表パターンを生成する生成部と、
    前記代表パターンと前記第1の音声の複数の算出区間の特徴を示す特徴パターンとの類似度を算出する算出部と、
    前記類似度が閾値より高い前記算出区間あるいは前記類似度が相対的に高い前記算出区間の直前、直後または当該算出区間内のいずれかの位置を前記第1の境界として推定する第2の推定部と
    を具備することを特徴とする境界推定装置。
  2. 前記第2の意味単位は前記第1の意味単位の少なくとも一部を包含することを特徴とする請求項1記載の境界推定装置。
  3. 前記第1の意味単位は文であり、前記第2の意味単位は発言であることを特徴とする請求項1記載の境界推定装置。
  4. 前記第1の意味単位は、文、句、節、発言及び話題のいずれか1つであることを特徴とする請求項1記載の境界推定装置。
  5. 前記音響的特徴は、音声における音素認識結果、話速の変化、音量、声の高低及び無音区間の継続長の少なくとも1つであることを特徴とする請求項1記載の境界推定装置。
  6. 前記言語的特徴は、音声に音声認識を行って取得した形態素の表記、読み及び品詞情報の少なくとも1つであることを特徴とする請求項1記載の境界推定装置。
  7. 前記第1の音声及び前記第2の音声は同一であることを特徴とする請求項1記載の境界推定装置。
  8. 単語の直前及び直後が前記第1の境界となる統計的確率が記憶されたデータベースと、
    前記第1の音声に音声認識を行って当該第1の音声に含まれる単語列を示す単語情報を生成する音声認識部と
    前記単語情報及び前記統計的確率から前記単語列における単語境界が前記第1の境界となる可能性を算出する第2の算出部を更に具備し、
    前記第2の推定部は、前記類似度が前記閾値より高い前記算出区間、前記類似度が相対的に高い前記算出区間、前記可能性が第2の閾値より高い前記単語境界あるいは前記可能性が相対的に高い前記単語境界の直前、直後または当該算出区間内のいずれかの位置を前記第1の境界として推定することを特徴とする請求項1記載の境界推定装置。
  9. 第1の音声を第1の意味単位で区切る第1の境界を推定する境界推定方法において、
    前記第1の音声と相関のある第2の音声を前記第1の意味単位と相関のある第2の意味単位で区切る第2の境界を推定し、
    前記第2の音声における前記第2の境界の直前及び直後の少なくとも一方の分析区間の音響的特徴及び言語的特徴の少なくとも一方を分析して当該分析区間の代表的な特徴を示す代表パターンを生成し、
    前記代表パターンと前記第1の音声の複数の算出区間の特徴を示す特徴パターンとの類似度を算出し、
    前記類似度が閾値より高い前記算出区間あるいは前記類似度が相対的に高い前記算出区間の直前、直後または当該算出区間内のいずれかの位置を前記第1の境界として推定する
    ことを特徴とする境界推定方法。
  10. コンピュータを、第1の音声を第1の意味単位で区切る第1の境界を推定する境界推定装置として機能させるための境界推定プログラムにおいて、
    前記第1の音声と相関のある第2の音声を前記第1の意味単位と相関のある第2の意味単位で区切る第2の境界を推定する第1の推定手段、
    前記第2の音声における前記第2の境界の直前及び直後の少なくとも一方の分析区間の音響的特徴及び言語的特徴の少なくとも一方を分析して当該分析区間の代表的な特徴を示す代表パターンを生成する生成手段、
    前記代表パターンと前記第1の音声の複数の算出区間の特徴を示す特徴パターンとの類似度を算出する算出手段、
    前記類似度が閾値より高い前記算出区間あるいは前記類似度が相対的に高い前記算出区間の直前、直後または当該算出区間内のいずれかの位置を前記第1の境界として推定する第2の推定手段
    として前記コンピュータを機能させるための境界推定プログラム。
JP2007274290A 2007-10-22 2007-10-22 音声の境界推定装置及び方法 Pending JP2010230695A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2007274290A JP2010230695A (ja) 2007-10-22 2007-10-22 音声の境界推定装置及び方法
PCT/JP2008/069584 WO2009054535A1 (en) 2007-10-22 2008-10-22 Boundary estimation apparatus and method
US12/494,859 US20090265166A1 (en) 2007-10-22 2009-06-30 Boundary estimation apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007274290A JP2010230695A (ja) 2007-10-22 2007-10-22 音声の境界推定装置及び方法

Publications (1)

Publication Number Publication Date
JP2010230695A true JP2010230695A (ja) 2010-10-14

Family

ID=40344690

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007274290A Pending JP2010230695A (ja) 2007-10-22 2007-10-22 音声の境界推定装置及び方法

Country Status (3)

Country Link
US (1) US20090265166A1 (ja)
JP (1) JP2010230695A (ja)
WO (1) WO2009054535A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017058507A (ja) * 2015-09-16 2017-03-23 日本電信電話株式会社 音声認識装置、音声認識方法、プログラム

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9583095B2 (en) * 2009-07-17 2017-02-28 Nec Corporation Speech processing device, method, and storage medium
CN103141095B (zh) * 2010-07-26 2017-02-15 联合大学公司 串行化数据流中的统计字边界检测
US8364709B1 (en) * 2010-11-22 2013-01-29 Google Inc. Determining word boundary likelihoods in potentially incomplete text
US8756061B2 (en) 2011-04-01 2014-06-17 Sony Computer Entertainment Inc. Speech syllable/vowel/phone boundary detection using auditory attention cues
US9031293B2 (en) 2012-10-19 2015-05-12 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface
US9020822B2 (en) 2012-10-19 2015-04-28 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice
US9672811B2 (en) * 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection
JP6235280B2 (ja) * 2013-09-19 2017-11-22 株式会社東芝 音声同時処理装置、方法およびプログラム
US9697835B1 (en) * 2016-03-31 2017-07-04 International Business Machines Corporation Acoustic model training
US11404044B2 (en) * 2019-05-14 2022-08-02 Samsung Electronics Co., Ltd. Method, apparatus, electronic device, and computer readable storage medium for voice translation
KR102208387B1 (ko) * 2020-03-10 2021-01-28 주식회사 엘솔루 음성 대화 재구성 방법 및 장치
CN112420075B (zh) * 2020-10-26 2022-08-19 四川长虹电器股份有限公司 一种基于多任务的音素检测方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5825855A (en) * 1997-01-30 1998-10-20 Toshiba America Information Systems, Inc. Method of recognizing pre-recorded announcements
US6216103B1 (en) * 1997-10-20 2001-04-10 Sony Corporation Method for implementing a speech recognition system to determine speech endpoints during conditions with background noise
US8521529B2 (en) * 2004-10-18 2013-08-27 Creative Technology Ltd Method for segmenting audio signals
JP4405418B2 (ja) * 2005-03-30 2010-01-27 株式会社東芝 情報処理装置及びその方法
US20080294433A1 (en) * 2005-05-27 2008-11-27 Minerva Yeung Automatic Text-Speech Mapping Tool

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017058507A (ja) * 2015-09-16 2017-03-23 日本電信電話株式会社 音声認識装置、音声認識方法、プログラム

Also Published As

Publication number Publication date
US20090265166A1 (en) 2009-10-22
WO2009054535A1 (en) 2009-04-30
WO2009054535A4 (en) 2009-06-11

Similar Documents

Publication Publication Date Title
JP2010230695A (ja) 音声の境界推定装置及び方法
Huang et al. Speech emotion recognition using deep neural network considering verbal and nonverbal speech sounds
US8635070B2 (en) Speech translation apparatus, method and program that generates insertion sentence explaining recognized emotion types
JP6731326B2 (ja) 音声対話装置及び音声対話方法
JP6323947B2 (ja) 音響イベント認識装置、及びプログラム
US20140067391A1 (en) Method and System for Predicting Speech Recognition Performance Using Accuracy Scores
US8892435B2 (en) Text data processing apparatus, text data processing method, and recording medium storing text data processing program
Chen et al. Characterizing phonetic transformations and acoustic differences across English dialects
EP2891147B1 (en) Method and system for predicting speech recognition performance using accuracy scores
Mirkin et al. A recorded debating dataset
Metze Articulatory features for conversational speech recognition
Urbain et al. Automatic phonetic transcription of laughter and its application to laughter synthesis
JP2013050605A (ja) 言語モデル切替装置およびそのプログラム
Wu et al. Schwa Realization in French: Using Automatic Speech Processing to Study Phonological and Socio-Linguistic Factors in Large Corpora.
JP2016080981A (ja) 応答生成装置、応答生成方法及び応答生成プログラム
JP5243886B2 (ja) 字幕出力装置、字幕出力方法及びプログラム
CN114203180A (zh) 会议纪要的生成方法、装置、电子设备及存储介质
KR102442020B1 (ko) 말하기의 자동 유창성 평가 방법 및 그 장치
JP6818082B2 (ja) 音声認識装置、認識結果出力制御装置、およびプログラム
Takeda et al. Unsupervised segmentation of phoneme sequences based on pitman-yor semi-markov model using phoneme length context
Wambacq et al. Efficiency of speech alignment for semi-automated subtitling in Dutch
JP2020008730A (ja) 感情推定システムおよびプログラム
JP5066668B2 (ja) 音声認識装置、およびプログラム
Enarvi Finnish Language Speech Recognition for Dental Health Care
Vista et al. Text Corpus Augmentation to Represent Filled Pause in Indonesian Spontaneous Speech Recognition System