JP6440967B2 - 文末記号推定装置、この方法及びプログラム - Google Patents

文末記号推定装置、この方法及びプログラム Download PDF

Info

Publication number
JP6440967B2
JP6440967B2 JP2014105124A JP2014105124A JP6440967B2 JP 6440967 B2 JP6440967 B2 JP 6440967B2 JP 2014105124 A JP2014105124 A JP 2014105124A JP 2014105124 A JP2014105124 A JP 2014105124A JP 6440967 B2 JP6440967 B2 JP 6440967B2
Authority
JP
Japan
Prior art keywords
dialogue
speaker
sentence
ending symbol
dialog
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014105124A
Other languages
English (en)
Other versions
JP2015219480A (ja
Inventor
厚志 安藤
厚志 安藤
太一 浅見
太一 浅見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014105124A priority Critical patent/JP6440967B2/ja
Publication of JP2015219480A publication Critical patent/JP2015219480A/ja
Application granted granted Critical
Publication of JP6440967B2 publication Critical patent/JP6440967B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

この発明は、音声認識結果に意味情報を持たせるための文末記号を推定するための技術に関する。
音声認識技術を応用し、ある会議の参加者の発話ごとに発話メモを自動作成したいという需要が存在する。音声認識により作成した発話メモは、会議中における個々の発話内容の振り返りを可能とし、議論を円滑化させる。また、会議後における会議の振り返りの容易化や議事録作成の手間の削減という利点も持つ。
発話メモの自動作成を実現するためには、音声認識による音韻情報のみのテキスト化では不十分である。その理由の一つに、音韻情報のみではどこが文章の区切りかを判断できない点が挙げられる。その結果、文章の可読性の低下による議事録の作成時間の増加、意味の取り違えによる意味誤りを含む議事録の作成などの不利益が発生する。
このため、音声認識結果に句読点を自動付与する技術が非特許文献1において開示されている。非特許文献1における句読点自動付与技術の処理の流れを図13に示す。該当技術では、音声認識結果を形態素解析することで得られる単語・品詞・文節境界・係り受け情報と発話と発話の間の時間情報を利用し、条件付き確率場と呼ばれる機械学習の一手法を用いて句読点を付与すべき位置を推定している。その後、音声認識結果のうち、先ほどの処理から推定した句読点付与位置に句読点の付与を行っている。
会議などの二人以上の対話では、質問や強調の意味が含まれる発話が多数含まれており、結果として音韻情報が同一でも意味が異なる発話が存在する。例えば、「そうですか」という音韻情報は、質問の意味での発話「そうですか?」と、納得の意味での発話「そうですか。」のいずれからも抽出されうる。これに対し、従来技術により文末に同一の句読点を付与した場合、発話の意味の情報が失われ、発話の意味が誤解される恐れがある。上記の例であれば、「そうですか」という音韻情報を持つ全ての発話が納得の意味だととらえられてしまう可能性がある。その結果、発話の意味に誤りのある議事録が作成され、議事録を読んだ人間に誤解が生じるという不利益が発生する。以上から、会議などの二名以上の対話を想定する場合には、音声認識結果に意味情報を持たせる必要がある。
文章に意味情報を持たせる方法として、文末記号の活用が挙げられる。例えば、文末に疑問符「?」を付与することで質問の意味を持たせることが可能である。したがって、複数の文末記号を用意し、発話の意味と合致した文末記号を自動的に付与できれば、意味情報を持たせることができたといえる。
文末記号の自動付与を行う場合、従来技術の句読点自動付与の付与対象を句読点から文末記号に拡張しても、高精度に記号付与を行うことは困難である。これは、対話に参加する話者の発話の傾向や文末記号の出現傾向が、対話状況、つまり対話の場や話者の位置づけに依存するためである。
図14に対話状況と発話の傾向及び文末記号の出現傾向の関連性の例を示す。例えば、講演における講演者は発話の韻律変動が小さい傾向にあり、発話内容も平静の発話が多く質問発話が少ないため、文末記号には句点の出現が多く疑問符の出現は少ない。したがって、講演における講演者の発話に文末記号を自動で付与する際には、韻律変動の小さな変化も検出し文末記号付与に利用する、句点が出現しやすく疑問符が出現しにくい基準を設けるなどが有効である。しかし、自由討論における参加者は発話の韻律変動が大きい傾向にあり、質問や強調などの感情表現発話が多いため文末記号にも疑問符や感嘆符が出現しやすい。したがって、自由討論における参加者の発話に文末記号を自動で付与する際には、韻律変動の大きな変化のみ検出し文末記号付与に利用する、疑問符や感嘆符が出現しやすく句点が出現しにくい基準を設けるなどの方が有効である。
秋田祐哉, 河原達也, "講演に対する読点の複数アノテーションに基づく自動挿入", 情報処理学会論文誌, Vol.54, No.2, pp.463-470, Feb. 2013.
以上から、高精度な文末記号付与を実現するためには、対話状況に合わせた文末記号の付与基準を与えるべきである。しかし、従来技術では話者が一名であることを想定しているため、対話状況は考慮されず、常に同一の基準により文末記号の付与を行うこととなる。その結果、文末記号の自動付与の精度が低下する可能性があった。
この発明の目的は、対話状況特徴を用いて文末記号を推定する文末記号推定装置、この方法及びプログラムを提供することである。
この発明の一態様による文末記号推定装置は、複数の話者によって実施される対話のそれぞれの話者の中心話者度をその対話においてそれぞれの話者の発話の割合を示す指標とし、対話の話者偏り度をその対話における話者の発話の長さの偏り度を表す指標とし、対話の対話厳格度をその対話中の話者の口調の厳格さを表す指標とし、中心話者度、話者偏り度及び対話厳格度の少なくとも1つを対話状況特徴として、対話の対話状況特徴を計算する対話状況特徴計算装置と、対話状況特徴計算装置で計算された対話状況特徴に基づいて複数の文末記号付与規範の中からその対話に対応する文末記号付与規範を選択し、選択された文末記号付与規範、その対話の音響特徴及び言語特徴を用いてその対話の発話内容を表すテキストに対する文末記号を推定する文末記号推定部と、を備えている。
発話の意味に対応する文末記号を推定するために用いる対話状況特徴を計算することができる。また、発話の意味に対応する文末記号を推定することができる。
文末記号推定装置の例を説明するためのブロック図。 文末記号推定方法の例を説明するための流れ図。 対話状況特徴計算装置の例を説明するためのブロック図。 対話状況特徴計算方法の例を説明するための流れ図。 対話厳格度・話者偏り度と実世界での対話の場との関係性の例を示す図。 対話の場ごとの中心話者度と話者の位置づけの例を示す図。 話者ごとの音声の発話区間の例を示す図。 中心話者度と話者偏り度の例を示す図。 対話における全体の発話区間と非発話区間の例を示す図。 文末記号付与モデル生成部7の例を説明するためのブロック図。 文末記号付与モデル生成部7の例を説明するためのブロック図。 回帰係数学習部17の例を説明するためのブロック図。 従来の句読点自動付与技術を説明するためのブロック図。 対話状況と発話の傾向及び文末記号の出現傾向の関連性の例を示す図。
[全体の流れ]
まず、対話に参加した話者ごとの音声を用いて、話者の発話の長さの偏り度合いと対話中の話者の口調の厳格度合いを表す尺度に基づいて対話の場を推定するとともに、対話中の各話者の発話割合を分析して、対話の場における話者の位置づけを推定する。
次に、対話の場及び話者の位置づけごとに文末記号付与モデルを学習する。まず、様々な対話の場・話者の位置づけの音声が含まれる音声データベースと、各音声データに対応した文末記号付きの書き起こしのテキストデータを用意する。推定した対話の場及び話者の位置づけの情報に基づいて、対話の場や話者の位置づけが近い音声が同じ組となるよう音声データベースを分割する。分割後の各音声データベースに対し、対話音声の音響特徴と、音声認識結果の単語境界ごとに文末記号を付与したテキストデータを学習データとして、文末記号付与モデルを学習する。この文末記号付与モデルは、ある対話の場や話者の位置づけにおける文末記号付与規範となる。なお、文末記号付与モデルの学習は必ずしも行われてなくてもよいが、その場合は文末記号付与規範として音響特徴または言語特徴のしきい値を用いる。
文末記号自動付与の際には、入力の対話音声から対話の場や話者の位置づけを推定し、対話の場や話者の位置づけの近い文末記号付与規範を用いて文末記号付与を行うことで、対話中の各話者の位置づけに即した文末記号を自動付与した音声認識結果テキストを得ることができる。
[対話状況特徴]
実世界での対話状況を表現でき、かつ対話参加者の音声から計算可能な「対話厳格度」「話者偏り度」「中心話者度」の3つの尺度を定義する。これらの3つの尺度をまとめて「対話状況特徴」とも呼ぶ。
「対話厳格度」は、対話参加者の口調が厳格かを示す尺度である。言い換えれば、ある対話の対話厳格度は、その対話の厳格さを表す指標である。これは、例えば対話参加者の韻律変化の大きさと対話全体における非発話区間の長さに基づいて求めるものとする。
「話者偏り度」は、対話において話者ごとの発話区間の長さに偏りがあるかを示す尺度である。言い換えれば、ある対話の話者偏り度は、その対話における話者の発話の長さの偏り度を表す指標である。これは、対話で最も発話した話者の、全体に占める発話割合の大きさから求めるものとする。
これらの「対話厳格度」及び「話者偏り度」の尺度は、対話が行われた場を表現する。例えば、講演の場では対話厳格度と話者偏り度が高い値をとり、議会の場では対話厳格度は高いが話者偏り度は低い値をとる。図5に、対話厳格度・話者偏り度と実世界での対話の場との関係性の例を示す。
「中心話者度」は対話における話者の発話割合の大小を示す尺度であり、ある対話の場における話者の位置づけに関連している。言い換えれば、ある対話のある話者の中心話者度は、その対話においてその話者の発話の割合を示す指標である。これは、対話参加者ごとの全体に占める発話割合の大きさから求めるものとする。例えば、講演の場で中心話者度が高い話者は講演者であり、中心話者度が低い話者は質問者である。
図6に、対話の場ごとの中心話者度と話者の位置づけの例を示す。対話厳格度や話者偏り度は対話全体に対して一つ求められるのに対し、中心話者度は対話に参加する話者ごとに求められる。また、これらの対話状況特徴は対話内では不変であるとし、対話開始から対話終了までの全ての区間を用いて一つの対話厳格度と話者偏り度、話者数分の中心話者度を求めるものとする。
対話状況特徴の値を基準として複数の文末記号付与規範を事前準備する。文末記号付与規範は、後述するように、例えば対話状況特徴が近い値をとる音声のみを収集し、それらの音声を用いて事前学習した文末記号付与モデルの確率値であってもよいし、音響特徴と言語特徴のしきい値処理であってもよい。文末記号自動付与時には、対話状況特徴を入力音声から自動推定し、それらが近い値をとる場合の文末記号付与規範を選択して文末記号推定を行う。上記の通り、対話状況特徴に基づいて文末記号付与規範を変化させることで、対話状況に合わせた文末記号付与が可能となり、文末記号付与精度が向上する。
[実施形態]
以下、文末記号推定装置及び方法の実施形態の説明をする。
文末記号推定装置は、図1に示すように、対話状況特徴計算装置1、音声認識部2、音響特徴抽出部3、テキスト解析部4、文末記号推定部5及び文末記号付与部6を例えば備えている。文末記号付与部6は設けられていなくてもよい。
文末記号推定方法は、文末記号推定装置が、図2のステップS1からステップS6の処理を行うことにより例えば実現される。
この実施形態では、複数人の話者の対話を収録した音声を入力とする。このとき、話者ごとの音声が個別に収録されているものとする。この入力は、話者ごとにヘッドセット等の接話型マイクロホンを装着させた状態で収録を行った音声でもよいし、単一又は複数マイクロホンで収録した音を話者分類や音源分離の技術(例えば、特許第4964204号)を用いて話者ごとに分離した音声であってもよい。なお、音声を収録した話者数を、対話状況特徴抽出部で用いる話者数Nとする。このとき、対話の場に存在したが一度も発言しなかった話者や個別の音声が収録されなかった話者は話者数に含まれないものとする。入力された話者ごとの音声は、対話状況特徴計算装置1及び音声認識部2に入力される。
<対話状況特徴計算装置1(図1、図3)>
対話状況特徴計算装置1は、入力された話者ごとの音声を用いて、対話状況特徴を計算する(ステップS1)。計算された対話状況特徴は、文末記号推定部5に出力される。
対話状況特徴計算装置1は、図3に示すように、発話区間検出部11、基本周波数抽出部12、全体発話区間検出部13、中心話者度話者偏り度計算部14、対話厳格度推定特徴計算部15及び対話厳格度計算部16を例えば備えている。
対話状況特徴計算方法は、対話状況特徴計算装置が、図4のステップS11からステップS17の処理を行うことにより例えば実現される。
以下、対話状況特徴計算装置1における各部の詳細について述べる。なお、以下の発話区間検出部11及び基本周波数抽出部12においては、入力された音声を例えば10msec程度の短時間ごとに区切って分析する手法が例えばとられるものとする。
<<発話区間検出部11(図3)>>
発話区間検出部11は、入力された話者ごとの音声を用いて、話者ごとの発話区間を検出する(ステップS11)。検出された発話区間についての情報は、全体発話区間検出部13、基本周波数抽出部12及び中心話者度話者偏り度計算部14に出力される。
発話区間とは話者の一発話の開始時刻から終了時刻までの区間を指し、話者ごとの音声は一つ以上の発話区間を含むとする。また、息継ぎなどの短い間は発話区間に含まれるが、他者の発話の聴取区間などの長い間は発話区間に含まれないものとする。間が発話区間に含まれるかの判別は、例えば発話と発話の間の時間のしきい値処理により実現される。例えば、1秒以下の間は発話区間に含み、1秒より長い間は発話区間に含まれないとする。図7に話者ごとの音声の発話区間の例を示す。この実施形態では、短時間音声パワーのしきい値処理により発話区間検出を行うが、既存のどの発話区間検出手法を用いてもよい。
<<基本周波数抽出部12(図3)>>
基本周波数抽出部12は、入力された話者ごとの音声及び入力された発話区間についての情報を用いて、話者ごとの基本周波数を抽出する(ステップS12)。これにより基本周波数の時系列が生成される。抽出された基本周波数についての情報は、対話厳格度推定特徴計算部15に出力される。
基本周波数抽出の処理は、話者ごとの音声の各発話区間に対して行われる。例えば、自己相関法を用いて基本周波数抽出は行われる。もちろん、既存のどの基本周波数抽出手法を用いてもよい。
<<全体発話区間検出部13(図3)>>
全体発話区間検出部13は、入力された全話者の発話区間を用いて、全体の発話区間を検出する(ステップS13)。検出された全体の発話区間についての情報は、中心話者度話者偏り度計算部14及び対話厳格度推定特徴計算部15に出力される。
全体の発話区間とは、対話において一名以上の話者の発話区間である区間を指す。図7に、全体の発話区間の検出例を示す。このように、全体の発話区間とは、一名以上の話者の発話区間を結合した区間のことである。
<<中心話者度話者偏り度計算部14(図3)>>
中心話者度話者偏り度計算部14は、入力された全話者の発話区間についての情報及び入力された全体の発話区間についての情報を用いて、中心話者度及び話者偏り度を計算する(ステップS14、ステップS15)。中心話者度は話者ごとに計算されるため、中心話者度のことを「話者ごとの中心話者度」と表記することもある。
まず、中心話者度話者偏り度計算部14は、話者ごとの発話割合を求める。これは、ある話者の発話区間の長さの総和を全体の発話区間の長さの総和で割ることで求められる。発話割合rnを式で表すと以下のようになる。Nは話者数であり、n=1,…,NとしてTnは話者nの発話区間の長さの総和であり、Tは全体の発話区間の長さの総和である。
Figure 0006440967
次に、話者ごとの発話割合から中心話者度を求める(ステップS14)。これは、話者ごとの発話割合を発話割合の最大値で割ることで求められる。中心話者度cnを式で表すと以下のようになる。
Figure 0006440967
最後に、中心話者度話者偏り度計算部14は、話者偏り度を求める(ステップS15)。これは、発話割合の最大値から参加者が平均的に発話した際の割合を引いたものを、0から1の値にスケーリングすることで得られる。話者偏り度Bを式で表すと以下のようになる。
Figure 0006440967
中心話者度は、ある対話において最も長く発話した話者を1とする話者ごとの発話割合を表す。話者偏り度は、ある対話において最も長く発話した話者の全体の発話区間に占める発話割合を表す。話者偏り度が0のとき、対話に参加した全話者が均等に発話したことを表す。話者偏り度が1のとき、終始一人の話者が発話したことを表す。図8に中心話者度と話者偏り度の例を示す。
<<対話厳格度推定特徴計算部15(図3)>>
対話厳格度推定特徴計算部15は、入力された全話者の基本周波数の時系列及び入力された全体の発話区間を用いて、平均基本周波数時間変化、平均基本周波数加速度及び非発話区間の割合を計算する(ステップS16)。計算された平均基本周波数時間変化、平均基本周波数加速度及び非発話区間の割合は、対話厳格度計算部16に出力される。
対話厳格度推定特徴計算部15は、後段の対話厳格度推定のための特徴抽出を行う。まず話者ごとの基本周波数の時系列から、基本周波数の時間変化及び加速度を求める。基本周波数は離散時間で与えられるので、時間変化の計算は一階差分を、加速度の計算は二階差分を利用する。これらの時間変化及び加速度のそれぞれの絶対値を全発話区間・全話者で平均化し、対話全体での韻律変化の大きさを表す値とする。前者を平均基本周波数時間変化、後者を平均基本周波数加速度と呼ぶ。
全体の発話区間のうち、最初の発話の開始時刻を対話開始時刻、最後の発話の終了時刻を対話終了時刻とする。対話開始時刻から対話終了時刻までの区間のうち、一人の発話もない区間を非発話区間とする。対話開始時刻から対話終了時刻までの長さに対する非発話区間の合計の長さの割合を非発話区間の割合とする。図9に対話における全体の発話区間と非発話区間の例を示す。
<<対話厳格度計算部16(図3)>>
対話厳格度計算部16は、入力された平均基本周波数時間変化、入力された平均基本周波数加速度及び入力された非発話区間の割合及び入力された対話厳格度推定のための回帰係数を用いて、対話厳格度を計算する(ステップS17)。
一般に、厳格な対話(議会など)であるほど基本周波数の変動が小さくなり、非発話区間が長くなる傾向にある。対話厳格度は上記を表現する尺度であり、1から0までの値を取るものとする。対話厳格度が1であれば厳格な対話を、0であれば厳格でない対話(自由討論など)を表す。
対話厳格度の計算はしきい値処理により実現可能である。例えば、平均基本周波数時間変化及び平均基本周波数加速度が一定値より小さく非発話区間が別の一定値より大きい場合は対話厳格度を1とする。もちろん、ロジスティック回帰等の統計的回帰モデルにより対話厳格度の計算を行ってもよい。ただし、統計的回帰モデルを適用する場合、その出力の値を0から1に正規化する処理が加わるものとする。また統計的回帰モデルを用いて対話厳格度を推定する場合、事前に回帰係数を学習する必要がある。回帰係数の事前学習法については後述する。
<音声認識部2(図1)>
音声認識部2は、入力された話者ごとの音声を用いて、音声認識結果テキストを出力する(ステップS2)。音声認識結果テキストは、テキスト解析部4及び文末記号付与部6に出力される。
音声認識結果テキストは、話者ごとの音声に対し音声認識を適用し、音声波形を文字へと変換することにより例えば生成される。
<音響特徴抽出部3(図1)>
音響特徴抽出部3は、入力された話者ごとの音声を用いて、音響特徴を抽出する(ステップS3)。抽出された音響特徴は、文末記号推定部5に出力される。
音響特徴は、基本周波数、短時間信号パワー、音声スペクトル包絡及び間の長さの少なくとも1つである。
音響特徴抽出部3は、各時刻での音声に対し、基本周波数・短時間信号パワー・音声スペクトル包絡(MFCC)を抽出する。また、発話区間検出を用いて発話と発話の間の長さを抽出する。間の長さとは、発話区間検出部11における「息継ぎなどの、発話区間に含まれる短い間」の時間を指す。人間が発話への意味情報を付与する場合、発話の基本周波数や短時間パワーに変化を付けることが多いが、音声スペクトル包絡にもその変化が表れることが知られている。例えば、リラックスして発声した場合と緊張して発声した場合などで音声スペクトル包絡に違いが表れる。また、間の情報は文末かどうかを判断する大きな基準となる。以上から、文末記号推定の際には例えばこれら4種類の音響特徴を用いる。
<テキスト解析部4(図1)>
テキスト解析部4は、入力された音声認識結果テキストを用いて、言語特徴を求める(ステップS4)。求まった言語特徴は、文末記号推定部5に出力される。
言語特徴は、単語、品詞及び係り受け構造の少なくとも1つである。例えば、単語、品詞及び係り受け構造の全てが言語特徴とされる。
テキスト解析部4は、形態素解析器を用いて音声認識結果のテキストを単語ごとに分割し、単語ごとの品詞を求める。音声認識結果に含まれる全ての三単語の連鎖及び三品詞の連鎖を作成し、これを単語および品詞の言語特徴としてもよい。また、テキスト全体を構文解析し、単語ごとの係り受け構造を求め、これも言語特徴としてもよい。なお、単語及び品詞にはそれぞれ時刻情報が付与されており、音響特徴との時間的対応が取れているものとする。
<文末記号推定部5(図1)>
文末記号推定部5は、入力された音響特徴、入力された言語特徴及び入力された対話状況特徴を用いて、単語境界ごとの文末記号付与判定を行う(ステップS5)。単語境界ごとの文末記号付与判定は、文末記号付与部6に出力される。
文末記号推定部5は、対話状況特徴に基づいて選択された文末記号付与規範を用いて、単語境界ごとの最適文末記号の推定を行う。文末記号付与規範は、対話状況特徴に基づいて選択される。文末記号付与規範とは、文末記号付与基準又は文末記号付与モデルのことである。文末記号付与基準は、例えば音響特徴・言語特徴のしきい値処理により最適な文末符号を推定するルールベースの手法を利用する。文末記号付与モデルは、例えば条件付き確率場やサポートベクターマシンなどの機械学習により学習した文末記号の出現確率を表すモデル及び識別器を表す。
文末記号と音響特徴及び言語特徴には強い関連性があることが知られている。例えば、疑問符が付与される場合には、基本周波数の上昇や助詞・格助詞の出現が増加する傾向がある。しかし、対話状況によって文末記号と音響特徴や言語特徴との関連性は変化する。例えば、厳格な会議では質問以外の場面での基本周波数の変化が少ないため、主に基本周波数を用いて疑問符を推定すべきである。しかし、厳格でない会議の場合は様々な場面で基本周波数の変化が生じるため、主に言語特徴を用いて疑問符を推定すべきである。上記の変化への自動的な対応を可能とすることを目的とし、対話状況特徴の自動推定と対話状況特徴を用いた文末記号推定規範の選択を導入する。
また、音響特徴及び言語特徴の複数の要因に基づいて文末記号が決定する場合も多い。例えば、基本周波数の上昇と、疑問を表す助詞の出現とが同時に発生した場合に疑問符が付与される。このため、音響特徴や言語特徴を単純にしきい値処理するだけでは誤検出が頻出する可能性がある。そのため、複合的な要因も考慮することが可能な、機械学習により学習した文末記号推定モデルを用いて文末記号推定を行うことも有効である。
なお、文末記号付与モデルを用いて最適な文末記号を推定する場合、モデルの事前学習が必要となる。このときの事前学習の概要については後述する。
例えば、付与する文末記号は、疑問符「?」、感嘆符「!」、三点リーダ「…」、笑い記号「(笑)」、句点「。」、読点「、」の6種類とし、選択された文末記号付与規範に基づいて、単語境界ごとに6種類の文末記号と「何も付与しない」の7種類のどれが適切かを分類する。
このように、文末記号推定部5は、対話状況特徴計算装置1で計算された対話状況特徴に基づいて複数の文末記号付与規範の中からその対話状況に対応する文末記号付与規範を選択し、選択された文末記号付与規範、その対話の音響特徴及び言語特徴を用いてその対話の音声認識結果テキストに対する文末記号を推定する。
<文末記号付与部6(図1)>
文末記号付与部6は、入力された単語境界ごとの文末記号付与判定及び入力された音声認識結果テキストを用いて、文末記号付き音声認識結果を生成する(ステップS6)。
具体的には、文末記号付与部6は、音声認識結果テキストに対し文末記号の付与を行うことにより文末記号付き音声認識結果を生成する。その際、文末付与の基準として単語境界ごとの文末記号付与判定が用いられる。
<文末記号付与モデル生成部7>
文末記号付与モデルを事前学習により生成する機能が文末記号推定装置に設けられていてもよい。
文末記号付与モデル生成部7は、図10及び図11に示すように、対話状況特徴計算装置71、音声データベース分割部72、文末記号正解ラベル作成部73、音声認識部74、音響特徴抽出部75、テキスト解析部76及び文末記号付与モデル生成部77を例えば備えている。
文末記号付与モデル生成部7による事前学習には、話者ごとの音声が収録された音声データベースと、各音声データに対応した文末記号付きの書き起こしとが用いられる。この音声データベースは、後述する対話厳格度推定のための回帰係数の事前学習に用いる音声データベースであってもよい。また、文末記号付きの書き起こしは、人が音声を聞き作成したテキストデータであって、単語境界ごとに、話者ごとの音声データベースの音声と対応付け可能な時刻情報が付与されているものとする。
対話状況特徴計算装置71は、対話状況特徴計算装置1と同様にして、対話状況特徴を計算する。計算された対話状況特徴は、音声データベース分割部72に出力される。
音声データベース分割部72は、入力された話者ごとの音声データベース、入力された文末記号付き書き起こし及び入力された対話状況特徴を用いて、対話状況特徴の閾値処理により対話状況特徴が近い音声のデータベースを出力する。例えば、中心話者度が0.7以上、話者偏り度が0.5以上、対話厳格度が0.5以上などの閾値を設定し、それらを満たす音声を一つのデータベースとする。上記の例の場合、対話厳格度・話者偏り度が高い対話の場である「講演」の、中心話者度が高い「講演者」の音声をデータベースから分割することを意図している。対話状況特徴に基づいて分割した個々のデータベースは、発話内容や発話方式が類似した音声の集合とみなすことができる。なお、各データベースに含まれる音声との対応が取れる形で文末記号付き書き起こしも分割されるものとする。
このようにして、対話状況特徴が近い音声のデータベース及び対応する文末記号付き書き起こしがグループ化される。各グループに含まれる音声データベース及び対応する文末記号付き書き起こしのそれぞれについて以下の処理が行われ、各グループの「ある対話状況での文末記号付与モデル」が生成される。
文末記号正解ラベル作成部73は、入力された文末記号付き書き起こしを用いて、文末記号正解ラベルを生成する。生成された文末記号正解ラベルは、文末記号付与モデル生成部77に出力される。
文末記号正解ラベルとは、単語境界に入る文末記号の種類を指し、例えば、疑問符「?」、感嘆符「!」、三点リーダ「…」、笑い記号「(笑)」、句点「。」、読点「、」、何も付与しないの7種類の何れかであるとする。
文末記号正解ラベル作成部73は、具体的には、文末記号付き書き起こしを形態素解析し、単語ごとに分割する。その後、文末記号を除く全単語に対して単語境界にどの文末記号が入っているかを求め、文末記号正解ラベルとする。
音声認識部74、音響特徴抽出部75及びテキスト解析部76の処理は、それぞれ音声認識部2、音響特徴抽出部3及びテキスト解析部4の処理と同様であるため、ここでは重複説明を省略する。音響特徴抽出部3で抽出された音響特徴及びテキスト解析部4で求められた言語特徴は、文末記号付与モデル生成部77に出力される。
文末記号付与モデル生成部77は、入力された音響特徴、入力された言語特徴及び入力された文末記号正解ラベルを用いて、ある対話状況での文末記号付与モデルを生成する。
文末記号付与モデル生成部77は、対話状況特徴が近い音声のデータベースに含まれる各音声の音響特徴と言語特徴を入力データ、文末記号正解ラベルを教師データとし、機械学習により文末記号付与モデルを学習する。機械学習手法として条件付き確率場やサポートベクターマシンの利用を想定するが、分類問題を解くことが可能であればどの機械学習手法を用いてもよい。
このようにして、文末記号付与モデル生成部77は、対話状況特徴に基づいて各対話状況を推定し、推定された対話ごとにその対話の音響特徴、言語特徴及び文末記号正解ラベルを教師データとして学習することにより、複数の文末記号付与規範である複数の文末記号付与モデルを生成する。
<対話厳格度推定のための回帰係数学習部17>
対話厳格度推定のための回帰係数学習部17が対話状況特徴計算装置及び文末記号推定装置に設けられていてもよい。
回帰係数学習部17の例を図12に示す。回帰係数学習部17は、発話区間検出部171、基本周波数抽出部172、全体発話区間検出部173、対話厳格度推定特徴計算部174及び回帰分析部175を例えば備えている。
事前学習の際には、様々な対話を含む音声データベースを用意する。ただし、データベースに含まれる各対話において話者ごとの音声の個別収録と対話厳格度正解ラベルの付与が行われているものとする。対話厳格度正解ラベルは人手での付与を行い、人が対話を聞いて厳格であると感じれば1を、感じなければ0を与える。なお、対話厳格度正解ラベルは対話単位で与えるものとする。音声データベースに含まれる全ての対話と全ての対話厳格度正解ラベルを用いて回帰分析を行い、対話厳格度推定のための回帰係数を求める。
発話区間検出部171、基本周波数抽出部172、全体発話区間検出部173及び対話厳格度推定特徴計算部174の処理は、それぞれ発話区間検出部11、基本周波数抽出部12、全体発話区間検出部13及び対話厳格度推定特徴計算部15の処理と同様であるため、これらの重複説明を省略する。ここでは、回帰分析部175の説明のみを行う。
回帰分析部175は、入力された平均基本周波数変化量、非発話区間の割合及び対話厳格度正解ラベルを用いて、対話厳格度推定のための回帰係数を計算する。
具体的には、回帰分析部175は、例えば以下のようにして対話厳格度推定のための回帰係数の事前学習を行う。話者ごとの音声から求めた平均基本周波数時間変化、平均基本周波数加速度及び非発話区間の割合を説明変数、正解ラベルを従属変数として回帰分析を適用し、回帰係数を求める。なお、回帰分析の際には対話厳格度計算部16と同一の回帰モデル(ロジスティック回帰モデルなど)を用いる必要がある。
[変形例等]
装置及び方法において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
また、各装置における各処理をコンピュータによって実現する場合、その各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、その各処理がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、各処理手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
発話の意味に対応した文末記号を付与することにより、意味の誤解を防止し、場の雰囲気も理解可能な議事録を作成することが可能となる。また副次的な効果として、文末符号を利用した特定発話の検索(例えば、質問部分のみを検索するなど)が可能となり、議事録作成の効率が向上する。
1 対話状況特徴計算装置
11 発話区間検出部
12 基本周波数抽出部
13 全体発話区間検出部
14 中心話者度話者偏り度計算部
15 対話厳格度推定特徴計算部
16 対話厳格度計算部
17 回帰係数学習部
171 発話区間検出部
172 基本周波数抽出部
173 全体発話区間検出部
174 対話厳格度推定特徴計算部
175 回帰分析部
2 音声認識部
3 音響特徴抽出部
4 テキスト解析部
5 文末記号推定部
6 文末記号付与部
7 文末記号付与モデル生成部
71 対話状況特徴計算装置
72 音声データベース分割部
73 文末記号正解ラベル作成部
74 音声認識部
75 音響特徴抽出部
76 テキスト解析部
77 文末記号付与モデル生成部

Claims (5)

  1. 複数の話者によって実施される対話のそれぞれの話者の中心話者度をその対話において前記それぞれの話者の発話の割合を示す指標とし、前記対話の話者偏り度をその対話における話者の発話の長さの偏り度を表す指標とし、前記対話の対話厳格度をその対話中の話者の口調の厳格さを表す指標とし、上記中心話者度、上記話者偏り度及び上記対話厳格度の少なくとも1つを対話状況特徴として、前記対話の対話状況特徴を計算する対話状況特徴計算装置と、
    上記対話状況特徴計算装置で計算された対話状況特徴に基づいて複数の文末記号付与規範の中からその対話に対応する文末記号付与規範を選択し、選択された文末記号付与規範、その対話の音響特徴及び言語特徴を用いてその対話の発話内容を表すテキストに対する文末記号を推定する文末記号推定部と、
    を含む文末記号推定装置。
  2. 請求項1の文末記号推定装置において、
    対話状況特徴に基づいて各対話の状況を推定し、推定された対話ごとにその対話の音響特徴、言語特徴及び文末記号正解ラベルを教師データとして学習することにより、上記複数の文末記号付与規範である複数の文末記号付与モデルを生成する文末記号付与モデル生成部を更に含む、
    文末記号推定装置。
  3. 複数の話者によって実施される対話のそれぞれの話者の中心話者度をその対話において前記それぞれの話者の発話の割合を示す指標とし、前記対話の話者偏り度をその対話における話者の発話の長さの偏り度を表す指標とし、前記対話の対話厳格度をその対話中の話者の口調の厳格さを表す指標とし、上記中心話者度、上記話者偏り度及び上記対話厳格度の少なくとも1つを対話状況特徴として、
    対話状況特徴計算装置が、前記対話の対話状況特徴を計算する対話状況特徴計算ステップと、
    文末記号推定部が、上記対話状況特徴計算装置で計算された対話状況特徴に基づいて複数の文末記号付与規範の中からその対話に対応する文末記号付与規範を選択し、選択された文末記号付与規範、その対話の音響特徴及び言語特徴を用いてその対話の発話内容を表すテキストに対する文末記号を推定する文末記号推定ステップと、
    を含む文末記号推定方法。
  4. 請求項の文末記号推定方法において、
    文末記号付与モデル生成部が、対話状況特徴に基づいて各対話の状況を推定し、推定された対話ごとにその対話の音響特徴、言語特徴及び文末記号正解ラベルを教師データとして学習することにより、上記複数の文末記号付与規範である複数の文末記号付与モデルを生成する文末記号付与モデル生成ステップを更に含む、
    文末記号推定方法。
  5. 請求項1又は2の文末記号推定装置の各部としてコンピュータを機能させるためのプログラム。
JP2014105124A 2014-05-21 2014-05-21 文末記号推定装置、この方法及びプログラム Active JP6440967B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014105124A JP6440967B2 (ja) 2014-05-21 2014-05-21 文末記号推定装置、この方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014105124A JP6440967B2 (ja) 2014-05-21 2014-05-21 文末記号推定装置、この方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2015219480A JP2015219480A (ja) 2015-12-07
JP6440967B2 true JP6440967B2 (ja) 2018-12-19

Family

ID=54778869

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014105124A Active JP6440967B2 (ja) 2014-05-21 2014-05-21 文末記号推定装置、この方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6440967B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9837069B2 (en) 2015-12-22 2017-12-05 Intel Corporation Technologies for end-of-sentence detection using syntactic coherence
JP6488453B2 (ja) * 2016-06-17 2019-03-27 株式会社ワンブリッジ プログラム及び情報伝達装置
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
JP7007617B2 (ja) * 2018-08-15 2022-01-24 日本電信電話株式会社 話し終わり判定装置、話し終わり判定方法およびプログラム
JP6605105B1 (ja) * 2018-10-15 2019-11-13 株式会社野村総合研究所 文章記号挿入装置及びその方法
CN109784398B (zh) * 2019-01-11 2023-12-05 广东奥普特科技股份有限公司 一种基于特征尺度和子类分裂的分类器
JP7229144B2 (ja) * 2019-10-11 2023-02-27 株式会社野村総合研究所 文章記号挿入装置及びその方法
US20230223017A1 (en) * 2020-04-20 2023-07-13 Ntt Docomo, Inc. Punctuation mark delete model training device, punctuation mark delete model, and determination device
WO2024029152A1 (ja) * 2022-08-05 2024-02-08 株式会社Nttドコモ 区切り記号挿入装置及び音声認識システム
CN116364062B (zh) * 2023-05-30 2023-08-25 广州小鹏汽车科技有限公司 语音识别方法、装置及车辆

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4183645B2 (ja) * 2004-03-23 2008-11-19 株式会社国際電気通信基礎技術研究所 会話先導者判別装置および会話先導者判別方法
JP2006251042A (ja) * 2005-03-08 2006-09-21 Fuji Xerox Co Ltd 情報処理装置、情報処理方法およびプログラム
JP2007219286A (ja) * 2006-02-17 2007-08-30 Tokyo Institute Of Technology 音声のスタイル検出装置、その方法およびそのプログラム
JP5302505B2 (ja) * 2006-12-04 2013-10-02 日本電気株式会社 対話状況区切り推定方法、対話状況推定方法、対話状況推定システムおよび対話状況推定プログラム
WO2009101837A1 (ja) * 2008-02-13 2009-08-20 Nec Corporation 記号挿入装置および記号挿入方法
JPWO2009122779A1 (ja) * 2008-04-03 2011-07-28 日本電気株式会社 テキストデータ処理装置、方法、プログラム
CA2680304C (en) * 2008-09-25 2017-08-22 Multimodal Technologies, Inc. Decoding-time prediction of non-verbalized tokens
JP5385677B2 (ja) * 2009-05-12 2014-01-08 日本電信電話株式会社 対話状態分割装置とその方法、そのプログラムと記録媒体

Also Published As

Publication number Publication date
JP2015219480A (ja) 2015-12-07

Similar Documents

Publication Publication Date Title
JP6440967B2 (ja) 文末記号推定装置、この方法及びプログラム
US10692500B2 (en) Diarization using linguistic labeling to create and apply a linguistic model
Jemine Real-time voice cloning
US20230036020A1 (en) Text-to-Speech Synthesis Method and System, a Method of Training a Text-to-Speech Synthesis System, and a Method of Calculating an Expressivity Score
Kopparapu Non-linguistic analysis of call center conversations
Dorn Dialect-specific models for automatic speech recognition of African American Vernacular English
EP3791388A1 (en) Computer implemented method and apparatus for recognition of speech patterns and feedback
Pervaiz et al. Emotion recognition from speech using prosodic and linguistic features
KR20100068530A (ko) 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법
Rabiee et al. Persian accents identification using an adaptive neural network
JP2020064370A (ja) 文章記号挿入装置及びその方法
KR20080018658A (ko) 사용자 선택구간에 대한 음성비교 시스템
Kumar et al. Automatic spontaneous speech recognition for Punjabi language interview speech corpus
Johar Paralinguistic profiling using speech recognition
Shahin Speaking style authentication using suprasegmental hidden Markov models
JP6367773B2 (ja) 音声強調装置、音声強調方法及び音声強調プログラム
CN114694688A (zh) 语音分析器和相关方法
Phoophuangpairoj et al. Two-Stage Gender Identification Using Pitch Frequencies, MFCCs and HMMs
Jin et al. Speech emotion recognition based on hyper-prosodic features
Shukla Keywords Extraction and Sentiment Analysis using Automatic Speech Recognition
Pravena et al. Significance of natural elicitation in developing simulated full blown speech emotion databases
JP2020064630A (ja) 文章記号挿入装置及びその方法
US20230114150A1 (en) Conversation engine and related methods
Sárosi et al. Automated transcription of conversational Call Center speech–with respect to non-verbal acoustic events
US11501091B2 (en) Real-time speech-to-speech generation (RSSG) and sign language conversion apparatus, method and a system therefore

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160914

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170905

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171102

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180410

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180604

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181121

R150 Certificate of patent or registration of utility model

Ref document number: 6440967

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150