JP6440967B2

JP6440967B2 - 文末記号推定装置、この方法及びプログラム

Info

Publication number: JP6440967B2
Application number: JP2014105124A
Authority: JP
Inventors: 厚志安藤; 太一浅見
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-05-21
Filing date: 2014-05-21
Publication date: 2018-12-19
Anticipated expiration: 2034-05-21
Also published as: JP2015219480A

Description

この発明は、音声認識結果に意味情報を持たせるための文末記号を推定するための技術に関する。

音声認識技術を応用し、ある会議の参加者の発話ごとに発話メモを自動作成したいという需要が存在する。音声認識により作成した発話メモは、会議中における個々の発話内容の振り返りを可能とし、議論を円滑化させる。また、会議後における会議の振り返りの容易化や議事録作成の手間の削減という利点も持つ。

発話メモの自動作成を実現するためには、音声認識による音韻情報のみのテキスト化では不十分である。その理由の一つに、音韻情報のみではどこが文章の区切りかを判断できない点が挙げられる。その結果、文章の可読性の低下による議事録の作成時間の増加、意味の取り違えによる意味誤りを含む議事録の作成などの不利益が発生する。

このため、音声認識結果に句読点を自動付与する技術が非特許文献１において開示されている。非特許文献１における句読点自動付与技術の処理の流れを図１３に示す。該当技術では、音声認識結果を形態素解析することで得られる単語・品詞・文節境界・係り受け情報と発話と発話の間の時間情報を利用し、条件付き確率場と呼ばれる機械学習の一手法を用いて句読点を付与すべき位置を推定している。その後、音声認識結果のうち、先ほどの処理から推定した句読点付与位置に句読点の付与を行っている。

会議などの二人以上の対話では、質問や強調の意味が含まれる発話が多数含まれており、結果として音韻情報が同一でも意味が異なる発話が存在する。例えば、「そうですか」という音韻情報は、質問の意味での発話「そうですか？」と、納得の意味での発話「そうですか。」のいずれからも抽出されうる。これに対し、従来技術により文末に同一の句読点を付与した場合、発話の意味の情報が失われ、発話の意味が誤解される恐れがある。上記の例であれば、「そうですか」という音韻情報を持つ全ての発話が納得の意味だととらえられてしまう可能性がある。その結果、発話の意味に誤りのある議事録が作成され、議事録を読んだ人間に誤解が生じるという不利益が発生する。以上から、会議などの二名以上の対話を想定する場合には、音声認識結果に意味情報を持たせる必要がある。

文章に意味情報を持たせる方法として、文末記号の活用が挙げられる。例えば、文末に疑問符「？」を付与することで質問の意味を持たせることが可能である。したがって、複数の文末記号を用意し、発話の意味と合致した文末記号を自動的に付与できれば、意味情報を持たせることができたといえる。

文末記号の自動付与を行う場合、従来技術の句読点自動付与の付与対象を句読点から文末記号に拡張しても、高精度に記号付与を行うことは困難である。これは、対話に参加する話者の発話の傾向や文末記号の出現傾向が、対話状況、つまり対話の場や話者の位置づけに依存するためである。

図１４に対話状況と発話の傾向及び文末記号の出現傾向の関連性の例を示す。例えば、講演における講演者は発話の韻律変動が小さい傾向にあり、発話内容も平静の発話が多く質問発話が少ないため、文末記号には句点の出現が多く疑問符の出現は少ない。したがって、講演における講演者の発話に文末記号を自動で付与する際には、韻律変動の小さな変化も検出し文末記号付与に利用する、句点が出現しやすく疑問符が出現しにくい基準を設けるなどが有効である。しかし、自由討論における参加者は発話の韻律変動が大きい傾向にあり、質問や強調などの感情表現発話が多いため文末記号にも疑問符や感嘆符が出現しやすい。したがって、自由討論における参加者の発話に文末記号を自動で付与する際には、韻律変動の大きな変化のみ検出し文末記号付与に利用する、疑問符や感嘆符が出現しやすく句点が出現しにくい基準を設けるなどの方が有効である。

秋田祐哉, 河原達也, "講演に対する読点の複数アノテーションに基づく自動挿入", 情報処理学会論文誌, Vol.54, No.2, pp.463-470, Feb. 2013.

以上から、高精度な文末記号付与を実現するためには、対話状況に合わせた文末記号の付与基準を与えるべきである。しかし、従来技術では話者が一名であることを想定しているため、対話状況は考慮されず、常に同一の基準により文末記号の付与を行うこととなる。その結果、文末記号の自動付与の精度が低下する可能性があった。

この発明の目的は、対話状況特徴を用いて文末記号を推定する文末記号推定装置、この方法及びプログラムを提供することである。

この発明の一態様による文末記号推定装置は、複数の話者によって実施される対話のそれぞれの話者の中心話者度をその対話においてそれぞれの話者の発話の割合を示す指標とし、対話の話者偏り度をその対話における話者の発話の長さの偏り度を表す指標とし、対話の対話厳格度をその対話中の話者の口調の厳格さを表す指標とし、中心話者度、話者偏り度及び対話厳格度の少なくとも１つを対話状況特徴として、対話の対話状況特徴を計算する対話状況特徴計算装置と、対話状況特徴計算装置で計算された対話状況特徴に基づいて複数の文末記号付与規範の中からその対話に対応する文末記号付与規範を選択し、選択された文末記号付与規範、その対話の音響特徴及び言語特徴を用いてその対話の発話内容を表すテキストに対する文末記号を推定する文末記号推定部と、を備えている。

発話の意味に対応する文末記号を推定するために用いる対話状況特徴を計算することができる。また、発話の意味に対応する文末記号を推定することができる。

文末記号推定装置の例を説明するためのブロック図。文末記号推定方法の例を説明するための流れ図。対話状況特徴計算装置の例を説明するためのブロック図。対話状況特徴計算方法の例を説明するための流れ図。対話厳格度・話者偏り度と実世界での対話の場との関係性の例を示す図。対話の場ごとの中心話者度と話者の位置づけの例を示す図。話者ごとの音声の発話区間の例を示す図。中心話者度と話者偏り度の例を示す図。対話における全体の発話区間と非発話区間の例を示す図。文末記号付与モデル生成部７の例を説明するためのブロック図。文末記号付与モデル生成部７の例を説明するためのブロック図。回帰係数学習部１７の例を説明するためのブロック図。従来の句読点自動付与技術を説明するためのブロック図。対話状況と発話の傾向及び文末記号の出現傾向の関連性の例を示す図。

[全体の流れ]
まず、対話に参加した話者ごとの音声を用いて、話者の発話の長さの偏り度合いと対話中の話者の口調の厳格度合いを表す尺度に基づいて対話の場を推定するとともに、対話中の各話者の発話割合を分析して、対話の場における話者の位置づけを推定する。

次に、対話の場及び話者の位置づけごとに文末記号付与モデルを学習する。まず、様々な対話の場・話者の位置づけの音声が含まれる音声データベースと、各音声データに対応した文末記号付きの書き起こしのテキストデータを用意する。推定した対話の場及び話者の位置づけの情報に基づいて、対話の場や話者の位置づけが近い音声が同じ組となるよう音声データベースを分割する。分割後の各音声データベースに対し、対話音声の音響特徴と、音声認識結果の単語境界ごとに文末記号を付与したテキストデータを学習データとして、文末記号付与モデルを学習する。この文末記号付与モデルは、ある対話の場や話者の位置づけにおける文末記号付与規範となる。なお、文末記号付与モデルの学習は必ずしも行われてなくてもよいが、その場合は文末記号付与規範として音響特徴または言語特徴のしきい値を用いる。

文末記号自動付与の際には、入力の対話音声から対話の場や話者の位置づけを推定し、対話の場や話者の位置づけの近い文末記号付与規範を用いて文末記号付与を行うことで、対話中の各話者の位置づけに即した文末記号を自動付与した音声認識結果テキストを得ることができる。

[対話状況特徴]
実世界での対話状況を表現でき、かつ対話参加者の音声から計算可能な「対話厳格度」「話者偏り度」「中心話者度」の３つの尺度を定義する。これらの３つの尺度をまとめて「対話状況特徴」とも呼ぶ。

「対話厳格度」は、対話参加者の口調が厳格かを示す尺度である。言い換えれば、ある対話の対話厳格度は、その対話の厳格さを表す指標である。これは、例えば対話参加者の韻律変化の大きさと対話全体における非発話区間の長さに基づいて求めるものとする。

「話者偏り度」は、対話において話者ごとの発話区間の長さに偏りがあるかを示す尺度である。言い換えれば、ある対話の話者偏り度は、その対話における話者の発話の長さの偏り度を表す指標である。これは、対話で最も発話した話者の、全体に占める発話割合の大きさから求めるものとする。

これらの「対話厳格度」及び「話者偏り度」の尺度は、対話が行われた場を表現する。例えば、講演の場では対話厳格度と話者偏り度が高い値をとり、議会の場では対話厳格度は高いが話者偏り度は低い値をとる。図５に、対話厳格度・話者偏り度と実世界での対話の場との関係性の例を示す。

「中心話者度」は対話における話者の発話割合の大小を示す尺度であり、ある対話の場における話者の位置づけに関連している。言い換えれば、ある対話のある話者の中心話者度は、その対話においてその話者の発話の割合を示す指標である。これは、対話参加者ごとの全体に占める発話割合の大きさから求めるものとする。例えば、講演の場で中心話者度が高い話者は講演者であり、中心話者度が低い話者は質問者である。

図６に、対話の場ごとの中心話者度と話者の位置づけの例を示す。対話厳格度や話者偏り度は対話全体に対して一つ求められるのに対し、中心話者度は対話に参加する話者ごとに求められる。また、これらの対話状況特徴は対話内では不変であるとし、対話開始から対話終了までの全ての区間を用いて一つの対話厳格度と話者偏り度、話者数分の中心話者度を求めるものとする。

対話状況特徴の値を基準として複数の文末記号付与規範を事前準備する。文末記号付与規範は、後述するように、例えば対話状況特徴が近い値をとる音声のみを収集し、それらの音声を用いて事前学習した文末記号付与モデルの確率値であってもよいし、音響特徴と言語特徴のしきい値処理であってもよい。文末記号自動付与時には、対話状況特徴を入力音声から自動推定し、それらが近い値をとる場合の文末記号付与規範を選択して文末記号推定を行う。上記の通り、対話状況特徴に基づいて文末記号付与規範を変化させることで、対話状況に合わせた文末記号付与が可能となり、文末記号付与精度が向上する。

[実施形態]
以下、文末記号推定装置及び方法の実施形態の説明をする。

文末記号推定装置は、図１に示すように、対話状況特徴計算装置１、音声認識部２、音響特徴抽出部３、テキスト解析部４、文末記号推定部５及び文末記号付与部６を例えば備えている。文末記号付与部６は設けられていなくてもよい。

文末記号推定方法は、文末記号推定装置が、図２のステップＳ１からステップＳ６の処理を行うことにより例えば実現される。

この実施形態では、複数人の話者の対話を収録した音声を入力とする。このとき、話者ごとの音声が個別に収録されているものとする。この入力は、話者ごとにヘッドセット等の接話型マイクロホンを装着させた状態で収録を行った音声でもよいし、単一又は複数マイクロホンで収録した音を話者分類や音源分離の技術（例えば、特許第4964204号）を用いて話者ごとに分離した音声であってもよい。なお、音声を収録した話者数を、対話状況特徴抽出部で用いる話者数Nとする。このとき、対話の場に存在したが一度も発言しなかった話者や個別の音声が収録されなかった話者は話者数に含まれないものとする。入力された話者ごとの音声は、対話状況特徴計算装置１及び音声認識部２に入力される。

<対話状況特徴計算装置１（図１、図３）>
対話状況特徴計算装置１は、入力された話者ごとの音声を用いて、対話状況特徴を計算する（ステップＳ１）。計算された対話状況特徴は、文末記号推定部５に出力される。

対話状況特徴計算装置１は、図３に示すように、発話区間検出部１１、基本周波数抽出部１２、全体発話区間検出部１３、中心話者度話者偏り度計算部１４、対話厳格度推定特徴計算部１５及び対話厳格度計算部１６を例えば備えている。

対話状況特徴計算方法は、対話状況特徴計算装置が、図４のステップＳ１１からステップＳ１７の処理を行うことにより例えば実現される。

以下、対話状況特徴計算装置１における各部の詳細について述べる。なお、以下の発話区間検出部１１及び基本周波数抽出部１２においては、入力された音声を例えば10msec程度の短時間ごとに区切って分析する手法が例えばとられるものとする。

<<発話区間検出部１１（図３）>>
発話区間検出部１１は、入力された話者ごとの音声を用いて、話者ごとの発話区間を検出する（ステップＳ１１）。検出された発話区間についての情報は、全体発話区間検出部１３、基本周波数抽出部１２及び中心話者度話者偏り度計算部１４に出力される。

発話区間とは話者の一発話の開始時刻から終了時刻までの区間を指し、話者ごとの音声は一つ以上の発話区間を含むとする。また、息継ぎなどの短い間は発話区間に含まれるが、他者の発話の聴取区間などの長い間は発話区間に含まれないものとする。間が発話区間に含まれるかの判別は、例えば発話と発話の間の時間のしきい値処理により実現される。例えば、1秒以下の間は発話区間に含み、１秒より長い間は発話区間に含まれないとする。図７に話者ごとの音声の発話区間の例を示す。この実施形態では、短時間音声パワーのしきい値処理により発話区間検出を行うが、既存のどの発話区間検出手法を用いてもよい。

<<基本周波数抽出部１２（図３）>>
基本周波数抽出部１２は、入力された話者ごとの音声及び入力された発話区間についての情報を用いて、話者ごとの基本周波数を抽出する（ステップＳ１２）。これにより基本周波数の時系列が生成される。抽出された基本周波数についての情報は、対話厳格度推定特徴計算部１５に出力される。

基本周波数抽出の処理は、話者ごとの音声の各発話区間に対して行われる。例えば、自己相関法を用いて基本周波数抽出は行われる。もちろん、既存のどの基本周波数抽出手法を用いてもよい。

<<全体発話区間検出部１３（図３）>>
全体発話区間検出部１３は、入力された全話者の発話区間を用いて、全体の発話区間を検出する（ステップＳ１３）。検出された全体の発話区間についての情報は、中心話者度話者偏り度計算部１４及び対話厳格度推定特徴計算部１５に出力される。

全体の発話区間とは、対話において一名以上の話者の発話区間である区間を指す。図７に、全体の発話区間の検出例を示す。このように、全体の発話区間とは、一名以上の話者の発話区間を結合した区間のことである。

<<中心話者度話者偏り度計算部１４（図３）>>
中心話者度話者偏り度計算部１４は、入力された全話者の発話区間についての情報及び入力された全体の発話区間についての情報を用いて、中心話者度及び話者偏り度を計算する（ステップＳ１４、ステップＳ１５）。中心話者度は話者ごとに計算されるため、中心話者度のことを「話者ごとの中心話者度」と表記することもある。

まず、中心話者度話者偏り度計算部１４は、話者ごとの発話割合を求める。これは、ある話者の発話区間の長さの総和を全体の発話区間の長さの総和で割ることで求められる。発話割合r_nを式で表すと以下のようになる。Nは話者数であり、n=1,…,NとしてT_nは話者nの発話区間の長さの総和であり、Tは全体の発話区間の長さの総和である。

次に、話者ごとの発話割合から中心話者度を求める（ステップＳ１４）。これは、話者ごとの発話割合を発話割合の最大値で割ることで求められる。中心話者度c_nを式で表すと以下のようになる。

最後に、中心話者度話者偏り度計算部１４は、話者偏り度を求める（ステップＳ１５）。これは、発話割合の最大値から参加者が平均的に発話した際の割合を引いたものを、０から１の値にスケーリングすることで得られる。話者偏り度Bを式で表すと以下のようになる。

中心話者度は、ある対話において最も長く発話した話者を１とする話者ごとの発話割合を表す。話者偏り度は、ある対話において最も長く発話した話者の全体の発話区間に占める発話割合を表す。話者偏り度が０のとき、対話に参加した全話者が均等に発話したことを表す。話者偏り度が１のとき、終始一人の話者が発話したことを表す。図８に中心話者度と話者偏り度の例を示す。

<<対話厳格度推定特徴計算部１５（図３）>>
対話厳格度推定特徴計算部１５は、入力された全話者の基本周波数の時系列及び入力された全体の発話区間を用いて、平均基本周波数時間変化、平均基本周波数加速度及び非発話区間の割合を計算する（ステップＳ１６）。計算された平均基本周波数時間変化、平均基本周波数加速度及び非発話区間の割合は、対話厳格度計算部１６に出力される。

対話厳格度推定特徴計算部１５は、後段の対話厳格度推定のための特徴抽出を行う。まず話者ごとの基本周波数の時系列から、基本周波数の時間変化及び加速度を求める。基本周波数は離散時間で与えられるので、時間変化の計算は一階差分を、加速度の計算は二階差分を利用する。これらの時間変化及び加速度のそれぞれの絶対値を全発話区間・全話者で平均化し、対話全体での韻律変化の大きさを表す値とする。前者を平均基本周波数時間変化、後者を平均基本周波数加速度と呼ぶ。

全体の発話区間のうち、最初の発話の開始時刻を対話開始時刻、最後の発話の終了時刻を対話終了時刻とする。対話開始時刻から対話終了時刻までの区間のうち、一人の発話もない区間を非発話区間とする。対話開始時刻から対話終了時刻までの長さに対する非発話区間の合計の長さの割合を非発話区間の割合とする。図９に対話における全体の発話区間と非発話区間の例を示す。

<<対話厳格度計算部１６（図３）>>
対話厳格度計算部１６は、入力された平均基本周波数時間変化、入力された平均基本周波数加速度及び入力された非発話区間の割合及び入力された対話厳格度推定のための回帰係数を用いて、対話厳格度を計算する（ステップＳ１７）。

一般に、厳格な対話（議会など）であるほど基本周波数の変動が小さくなり、非発話区間が長くなる傾向にある。対話厳格度は上記を表現する尺度であり、１から０までの値を取るものとする。対話厳格度が１であれば厳格な対話を、０であれば厳格でない対話（自由討論など）を表す。

対話厳格度の計算はしきい値処理により実現可能である。例えば、平均基本周波数時間変化及び平均基本周波数加速度が一定値より小さく非発話区間が別の一定値より大きい場合は対話厳格度を１とする。もちろん、ロジスティック回帰等の統計的回帰モデルにより対話厳格度の計算を行ってもよい。ただし、統計的回帰モデルを適用する場合、その出力の値を０から１に正規化する処理が加わるものとする。また統計的回帰モデルを用いて対話厳格度を推定する場合、事前に回帰係数を学習する必要がある。回帰係数の事前学習法については後述する。

<音声認識部２（図１）>
音声認識部２は、入力された話者ごとの音声を用いて、音声認識結果テキストを出力する（ステップＳ２）。音声認識結果テキストは、テキスト解析部４及び文末記号付与部６に出力される。

音声認識結果テキストは、話者ごとの音声に対し音声認識を適用し、音声波形を文字へと変換することにより例えば生成される。

<音響特徴抽出部３（図１）>
音響特徴抽出部３は、入力された話者ごとの音声を用いて、音響特徴を抽出する（ステップＳ３）。抽出された音響特徴は、文末記号推定部５に出力される。

音響特徴は、基本周波数、短時間信号パワー、音声スペクトル包絡及び間の長さの少なくとも１つである。

音響特徴抽出部３は、各時刻での音声に対し、基本周波数・短時間信号パワー・音声スペクトル包絡（MFCC）を抽出する。また、発話区間検出を用いて発話と発話の間の長さを抽出する。間の長さとは、発話区間検出部１１における「息継ぎなどの、発話区間に含まれる短い間」の時間を指す。人間が発話への意味情報を付与する場合、発話の基本周波数や短時間パワーに変化を付けることが多いが、音声スペクトル包絡にもその変化が表れることが知られている。例えば、リラックスして発声した場合と緊張して発声した場合などで音声スペクトル包絡に違いが表れる。また、間の情報は文末かどうかを判断する大きな基準となる。以上から、文末記号推定の際には例えばこれら４種類の音響特徴を用いる。

<テキスト解析部４（図１）>
テキスト解析部４は、入力された音声認識結果テキストを用いて、言語特徴を求める（ステップＳ４）。求まった言語特徴は、文末記号推定部５に出力される。

言語特徴は、単語、品詞及び係り受け構造の少なくとも１つである。例えば、単語、品詞及び係り受け構造の全てが言語特徴とされる。

テキスト解析部４は、形態素解析器を用いて音声認識結果のテキストを単語ごとに分割し、単語ごとの品詞を求める。音声認識結果に含まれる全ての三単語の連鎖及び三品詞の連鎖を作成し、これを単語および品詞の言語特徴としてもよい。また、テキスト全体を構文解析し、単語ごとの係り受け構造を求め、これも言語特徴としてもよい。なお、単語及び品詞にはそれぞれ時刻情報が付与されており、音響特徴との時間的対応が取れているものとする。

<文末記号推定部５（図１）>
文末記号推定部５は、入力された音響特徴、入力された言語特徴及び入力された対話状況特徴を用いて、単語境界ごとの文末記号付与判定を行う（ステップＳ５）。単語境界ごとの文末記号付与判定は、文末記号付与部６に出力される。

文末記号推定部５は、対話状況特徴に基づいて選択された文末記号付与規範を用いて、単語境界ごとの最適文末記号の推定を行う。文末記号付与規範は、対話状況特徴に基づいて選択される。文末記号付与規範とは、文末記号付与基準又は文末記号付与モデルのことである。文末記号付与基準は、例えば音響特徴・言語特徴のしきい値処理により最適な文末符号を推定するルールベースの手法を利用する。文末記号付与モデルは、例えば条件付き確率場やサポートベクターマシンなどの機械学習により学習した文末記号の出現確率を表すモデル及び識別器を表す。

文末記号と音響特徴及び言語特徴には強い関連性があることが知られている。例えば、疑問符が付与される場合には、基本周波数の上昇や助詞・格助詞の出現が増加する傾向がある。しかし、対話状況によって文末記号と音響特徴や言語特徴との関連性は変化する。例えば、厳格な会議では質問以外の場面での基本周波数の変化が少ないため、主に基本周波数を用いて疑問符を推定すべきである。しかし、厳格でない会議の場合は様々な場面で基本周波数の変化が生じるため、主に言語特徴を用いて疑問符を推定すべきである。上記の変化への自動的な対応を可能とすることを目的とし、対話状況特徴の自動推定と対話状況特徴を用いた文末記号推定規範の選択を導入する。

また、音響特徴及び言語特徴の複数の要因に基づいて文末記号が決定する場合も多い。例えば、基本周波数の上昇と、疑問を表す助詞の出現とが同時に発生した場合に疑問符が付与される。このため、音響特徴や言語特徴を単純にしきい値処理するだけでは誤検出が頻出する可能性がある。そのため、複合的な要因も考慮することが可能な、機械学習により学習した文末記号推定モデルを用いて文末記号推定を行うことも有効である。

なお、文末記号付与モデルを用いて最適な文末記号を推定する場合、モデルの事前学習が必要となる。このときの事前学習の概要については後述する。

例えば、付与する文末記号は、疑問符「？」、感嘆符「！」、三点リーダ「…」、笑い記号「(笑)」、句点「。」、読点「、」の６種類とし、選択された文末記号付与規範に基づいて、単語境界ごとに６種類の文末記号と「何も付与しない」の７種類のどれが適切かを分類する。

このように、文末記号推定部５は、対話状況特徴計算装置１で計算された対話状況特徴に基づいて複数の文末記号付与規範の中からその対話状況に対応する文末記号付与規範を選択し、選択された文末記号付与規範、その対話の音響特徴及び言語特徴を用いてその対話の音声認識結果テキストに対する文末記号を推定する。

<文末記号付与部６（図１）>
文末記号付与部６は、入力された単語境界ごとの文末記号付与判定及び入力された音声認識結果テキストを用いて、文末記号付き音声認識結果を生成する（ステップＳ６）。

具体的には、文末記号付与部６は、音声認識結果テキストに対し文末記号の付与を行うことにより文末記号付き音声認識結果を生成する。その際、文末付与の基準として単語境界ごとの文末記号付与判定が用いられる。

<文末記号付与モデル生成部７>
文末記号付与モデルを事前学習により生成する機能が文末記号推定装置に設けられていてもよい。

文末記号付与モデル生成部７は、図１０及び図１１に示すように、対話状況特徴計算装置７１、音声データベース分割部７２、文末記号正解ラベル作成部７３、音声認識部７４、音響特徴抽出部７５、テキスト解析部７６及び文末記号付与モデル生成部７７を例えば備えている。

文末記号付与モデル生成部７による事前学習には、話者ごとの音声が収録された音声データベースと、各音声データに対応した文末記号付きの書き起こしとが用いられる。この音声データベースは、後述する対話厳格度推定のための回帰係数の事前学習に用いる音声データベースであってもよい。また、文末記号付きの書き起こしは、人が音声を聞き作成したテキストデータであって、単語境界ごとに、話者ごとの音声データベースの音声と対応付け可能な時刻情報が付与されているものとする。

対話状況特徴計算装置７１は、対話状況特徴計算装置１と同様にして、対話状況特徴を計算する。計算された対話状況特徴は、音声データベース分割部７２に出力される。

音声データベース分割部７２は、入力された話者ごとの音声データベース、入力された文末記号付き書き起こし及び入力された対話状況特徴を用いて、対話状況特徴の閾値処理により対話状況特徴が近い音声のデータベースを出力する。例えば、中心話者度が0.7以上、話者偏り度が0.5以上、対話厳格度が0.5以上などの閾値を設定し、それらを満たす音声を一つのデータベースとする。上記の例の場合、対話厳格度・話者偏り度が高い対話の場である「講演」の、中心話者度が高い「講演者」の音声をデータベースから分割することを意図している。対話状況特徴に基づいて分割した個々のデータベースは、発話内容や発話方式が類似した音声の集合とみなすことができる。なお、各データベースに含まれる音声との対応が取れる形で文末記号付き書き起こしも分割されるものとする。

このようにして、対話状況特徴が近い音声のデータベース及び対応する文末記号付き書き起こしがグループ化される。各グループに含まれる音声データベース及び対応する文末記号付き書き起こしのそれぞれについて以下の処理が行われ、各グループの「ある対話状況での文末記号付与モデル」が生成される。

文末記号正解ラベル作成部７３は、入力された文末記号付き書き起こしを用いて、文末記号正解ラベルを生成する。生成された文末記号正解ラベルは、文末記号付与モデル生成部７７に出力される。

文末記号正解ラベルとは、単語境界に入る文末記号の種類を指し、例えば、疑問符「？」、感嘆符「！」、三点リーダ「…」、笑い記号「(笑)」、句点「。」、読点「、」、何も付与しないの７種類の何れかであるとする。

文末記号正解ラベル作成部７３は、具体的には、文末記号付き書き起こしを形態素解析し、単語ごとに分割する。その後、文末記号を除く全単語に対して単語境界にどの文末記号が入っているかを求め、文末記号正解ラベルとする。

音声認識部７４、音響特徴抽出部７５及びテキスト解析部７６の処理は、それぞれ音声認識部２、音響特徴抽出部３及びテキスト解析部４の処理と同様であるため、ここでは重複説明を省略する。音響特徴抽出部３で抽出された音響特徴及びテキスト解析部４で求められた言語特徴は、文末記号付与モデル生成部７７に出力される。

文末記号付与モデル生成部７７は、入力された音響特徴、入力された言語特徴及び入力された文末記号正解ラベルを用いて、ある対話状況での文末記号付与モデルを生成する。

文末記号付与モデル生成部７７は、対話状況特徴が近い音声のデータベースに含まれる各音声の音響特徴と言語特徴を入力データ、文末記号正解ラベルを教師データとし、機械学習により文末記号付与モデルを学習する。機械学習手法として条件付き確率場やサポートベクターマシンの利用を想定するが、分類問題を解くことが可能であればどの機械学習手法を用いてもよい。

このようにして、文末記号付与モデル生成部７７は、対話状況特徴に基づいて各対話状況を推定し、推定された対話ごとにその対話の音響特徴、言語特徴及び文末記号正解ラベルを教師データとして学習することにより、複数の文末記号付与規範である複数の文末記号付与モデルを生成する。

<対話厳格度推定のための回帰係数学習部１７>
対話厳格度推定のための回帰係数学習部１７が対話状況特徴計算装置及び文末記号推定装置に設けられていてもよい。

回帰係数学習部１７の例を図１２に示す。回帰係数学習部１７は、発話区間検出部１７１、基本周波数抽出部１７２、全体発話区間検出部１７３、対話厳格度推定特徴計算部１７４及び回帰分析部１７５を例えば備えている。

事前学習の際には、様々な対話を含む音声データベースを用意する。ただし、データベースに含まれる各対話において話者ごとの音声の個別収録と対話厳格度正解ラベルの付与が行われているものとする。対話厳格度正解ラベルは人手での付与を行い、人が対話を聞いて厳格であると感じれば１を、感じなければ０を与える。なお、対話厳格度正解ラベルは対話単位で与えるものとする。音声データベースに含まれる全ての対話と全ての対話厳格度正解ラベルを用いて回帰分析を行い、対話厳格度推定のための回帰係数を求める。

発話区間検出部１７１、基本周波数抽出部１７２、全体発話区間検出部１７３及び対話厳格度推定特徴計算部１７４の処理は、それぞれ発話区間検出部１１、基本周波数抽出部１２、全体発話区間検出部１３及び対話厳格度推定特徴計算部１５の処理と同様であるため、これらの重複説明を省略する。ここでは、回帰分析部１７５の説明のみを行う。

回帰分析部１７５は、入力された平均基本周波数変化量、非発話区間の割合及び対話厳格度正解ラベルを用いて、対話厳格度推定のための回帰係数を計算する。

具体的には、回帰分析部１７５は、例えば以下のようにして対話厳格度推定のための回帰係数の事前学習を行う。話者ごとの音声から求めた平均基本周波数時間変化、平均基本周波数加速度及び非発話区間の割合を説明変数、正解ラベルを従属変数として回帰分析を適用し、回帰係数を求める。なお、回帰分析の際には対話厳格度計算部１６と同一の回帰モデル（ロジスティック回帰モデルなど）を用いる必要がある。

[変形例等]
装置及び方法において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

また、各装置における各処理をコンピュータによって実現する場合、その各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、その各処理がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、各処理手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

発話の意味に対応した文末記号を付与することにより、意味の誤解を防止し、場の雰囲気も理解可能な議事録を作成することが可能となる。また副次的な効果として、文末符号を利用した特定発話の検索（例えば、質問部分のみを検索するなど）が可能となり、議事録作成の効率が向上する。

１対話状況特徴計算装置
１１発話区間検出部
１２基本周波数抽出部
１３全体発話区間検出部
１４中心話者度話者偏り度計算部
１５対話厳格度推定特徴計算部
１６対話厳格度計算部
１７回帰係数学習部
１７１発話区間検出部
１７２基本周波数抽出部
１７３全体発話区間検出部
１７４対話厳格度推定特徴計算部
１７５回帰分析部
２音声認識部
３音響特徴抽出部
４テキスト解析部
５文末記号推定部
６文末記号付与部
７文末記号付与モデル生成部
７１対話状況特徴計算装置
７２音声データベース分割部
７３文末記号正解ラベル作成部
７４音声認識部
７５音響特徴抽出部
７６テキスト解析部
７７文末記号付与モデル生成部

Claims

複数の話者によって実施される対話のそれぞれの話者の中心話者度をその対話において前記それぞれの話者の発話の割合を示す指標とし、前記対話の話者偏り度をその対話における話者の発話の長さの偏り度を表す指標とし、前記対話の対話厳格度をその対話中の話者の口調の厳格さを表す指標とし、上記中心話者度、上記話者偏り度及び上記対話厳格度の少なくとも１つを対話状況特徴として、前記対話の対話状況特徴を計算する対話状況特徴計算装置と、
上記対話状況特徴計算装置で計算された対話状況特徴に基づいて複数の文末記号付与規範の中からその対話に対応する文末記号付与規範を選択し、選択された文末記号付与規範、その対話の音響特徴及び言語特徴を用いてその対話の発話内容を表すテキストに対する文末記号を推定する文末記号推定部と、
を含む文末記号推定装置。
請求項１の文末記号推定装置において、
対話状況特徴に基づいて各対話の状況を推定し、推定された対話ごとにその対話の音響特徴、言語特徴及び文末記号正解ラベルを教師データとして学習することにより、上記複数の文末記号付与規範である複数の文末記号付与モデルを生成する文末記号付与モデル生成部を更に含む、
文末記号推定装置。
複数の話者によって実施される対話のそれぞれの話者の中心話者度をその対話において前記それぞれの話者の発話の割合を示す指標とし、前記対話の話者偏り度をその対話における話者の発話の長さの偏り度を表す指標とし、前記対話の対話厳格度をその対話中の話者の口調の厳格さを表す指標とし、上記中心話者度、上記話者偏り度及び上記対話厳格度の少なくとも１つを対話状況特徴として、
対話状況特徴計算装置が、前記対話の対話状況特徴を計算する対話状況特徴計算ステップと、
文末記号推定部が、上記対話状況特徴計算装置で計算された対話状況特徴に基づいて複数の文末記号付与規範の中からその対話に対応する文末記号付与規範を選択し、選択された文末記号付与規範、その対話の音響特徴及び言語特徴を用いてその対話の発話内容を表すテキストに対する文末記号を推定する文末記号推定ステップと、
を含む文末記号推定方法。
請求項３の文末記号推定方法において、
文末記号付与モデル生成部が、対話状況特徴に基づいて各対話の状況を推定し、推定された対話ごとにその対話の音響特徴、言語特徴及び文末記号正解ラベルを教師データとして学習することにより、上記複数の文末記号付与規範である複数の文末記号付与モデルを生成する文末記号付与モデル生成ステップを更に含む、
文末記号推定方法。
請求項１又は２の文末記号推定装置の各部としてコンピュータを機能させるためのプログラム。