JP2018013742A - 音声要約作成支援装置、音声要約作成支援方法、及び音声要約作成支援プログラム - Google Patents
音声要約作成支援装置、音声要約作成支援方法、及び音声要約作成支援プログラム Download PDFInfo
- Publication number
- JP2018013742A JP2018013742A JP2016144948A JP2016144948A JP2018013742A JP 2018013742 A JP2018013742 A JP 2018013742A JP 2016144948 A JP2016144948 A JP 2016144948A JP 2016144948 A JP2016144948 A JP 2016144948A JP 2018013742 A JP2018013742 A JP 2018013742A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- sound
- voice
- waveforms
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 303
- 238000000605 extraction Methods 0.000 claims abstract description 37
- 239000000284 extract Substances 0.000 claims abstract description 36
- 238000012545 processing Methods 0.000 claims description 169
- 238000012360 testing method Methods 0.000 claims description 85
- 238000000926 separation method Methods 0.000 claims description 46
- 230000008859 change Effects 0.000 claims description 41
- 230000005236 sound signal Effects 0.000 claims description 30
- 230000008569 process Effects 0.000 description 280
- 238000013075 data extraction Methods 0.000 description 37
- 238000010586 diagram Methods 0.000 description 18
- 230000004048 modification Effects 0.000 description 14
- 238000012986 modification Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 11
- 238000009434 installation Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 238000013102 re-test Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 6
- 230000004044 response Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 238000013016 damping Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】対話を録音した音声データから音声要約を作成する際の作業負担を軽減する。【解決手段】抽出部は、複数の人物のそれぞれとの位置関係が異なる複数の収音位置で複数の人物の対話を収音した複数の音声データから人物が発話している発話区間を抽出する。類似特性把握部は、複数の音声データのそれぞれから抽出した発話区間の波形同士を比較し、波形の類似度についての第1の基準値に基づいて波形の類似性の有無を把握する。減衰特性把握部は、複数の音声データのそれぞれから抽出した発話区間の波形同士を比較し、波形の減衰特性の有無を把握する。非類似特性把握部は、複数の音声データのそれぞれから抽出した発話区間の波形同士を比較し、第1の基準値とは異なる、波形の類似度についての第2の基準値に基づいて波形の非類似性の有無を把握する。話者識別部は、波形の類似性、減衰特性、及び非類似性に基づいて、発話区間の話者を識別する。【選択図】図2
Description
本発明は、音声要約作成支援装置、音声要約作成支援方法、及び音声要約作成支援プログラムに関する。
インタビューや会議等の複数の人物による対話(会話)の内容を記録して保存する方法の1つとして、録音装置で録音した音声データに基づいて対話の内容を文書化して保存する方法が知られている。対話の内容を文書化する方法としては、音声データを再生して聴いた人物が文書作成用のソフトウェア等を利用して文書を作成する方法や、音声データをテキストデータに変換するソフトウェア等を利用する方法等がある。
対話を録音した音声データには、対話に参加した複数の人物の音声(発話)が記録されている。そのため、対話の内容を文書化する際には、音声データに含まれる音声のそれぞれがどの人物の音声であるかを識別しなければならない。音声データに含まれる音声を人物毎に分離する方法の1つとして、隣接して配される音声取得手段からなる組を装着者の発声部位から異なる距離離間させて複数配置した音声取得手段群にて生成された音声信号に基づいて分離する方法が知られている(例えば、特許文献1を参照)。この方法では、生成された音声信号を発話者毎に分離し、分離した音声信号の波形を予め定められた時間差分ずらしたときの相関関係を求めることで、発話者が音声信号を生成した音声取得手段群の装着者であるか否かを判定する。
インタビュー等の、参加者が主体となる人物と、客体となる人物とに分かれている対話を行う場合、客体となる人物への収音装置や録音装置の装着をはばかられることがある。対話の参加者のうちの主体となる人物のみが収音装置を装着している場合、当該収音装置で収音した音声データでは、主体となる人物の音声のみが、他の人物の音声よりも大きくなる。このため、対話を録音した音声データを再生した場合、収音装置を装着していない人物の音声が聞き取りにくいことがある。
ところが、インタビューの内容を収録した音声データにおいては、主体となる人物の発話内容よりも、客体となる人物の発話内容のほうが重要視される。そのため、主体となる人物が装着した収音装置や録音装置で取得した音声データに基づいて対話内容の要約(音声要約)を作成する際には、客体となる人物の発話内容の了解に手間がかかり、音声要約を作成する作業の作業負担が増大することがある。
1つの側面において、本発明は、対話を録音した音声データから音声要約を作成する際の作業負担を軽減することを目的とする。
1つの態様である音声要約作成支援装置は、抽出部と、類似特性把握部と、減衰特性把握部と、非類似特性把握部と、話者識別部とを備える。抽出部は、複数の人物のそれぞれとの位置関係が異なる複数の収音位置で複数の人物の対話を収音した複数の音声データから人物が発話している発話区間を抽出する。類似特性把握部は、複数の音声データのそれぞれから抽出した発話区間の波形同士を比較し、波形の類似度についての第1の基準値に基づいて波形の類似性の有無を把握する。減衰特性把握部は、複数の音声データのそれぞれから抽出した発話区間の波形同士を比較し、波形の減衰特性の有無を把握する。非類似特性把握部は、複数の音声データのそれぞれから抽出した発話区間の波形同士を比較し、第1の基準値とは異なる、波形の類似度についての第2の基準値に基づいて波形の非類似性の有無を把握する。話者識別部は、波形の類似性、減衰特性、及び非類似性に基づいて、発話区間の話者を識別する。
上述の態様によれば、対話を録音した音声データから音声要約を作成する際の作業負担を軽減することが可能となる。
[第1の実施形態]
図1は、第1の実施形態に係る音声要約作成支援システムの構成例を示す図である。
図1は、第1の実施形態に係る音声要約作成支援システムの構成例を示す図である。
図1に示すように、本実施形態に係る音声要約作成支援システム1(1A)は、第1の録音装置2と、第2の録音装置3と、音声要約作成支援装置4と、を含む。
第1の録音装置2及び第2の録音装置3は、それぞれ、人の発声を含む音を収音し、音声データとして記録する装置である。第1の録音装置2及び第2の録音装置3は、複数の人物による対話の記録に用いる。第1の録音装置2は、対話に参加している人物のうちの対話において主体となる人物5Aの近傍に設置される。一方、第2の録音装置3は、例えば、主体である人物5Aと、他の人物(客体)5Bとの間の略中間となる位置等に設置される。このため、主体である人物5Aからの第2の録音装置3までの距離L2、及び客体である人物5Bから第2の録音装置3までの距離L3は、それぞれ、主体である人物5Aから第1の録音装置2までの距離L1よりも長くなっている。距離L1,L2,L3の組み合わせは任意であるが、距離L1を十数cmとし、距離L2,L3をそれぞれ数十cmとすることが好ましい。
音声要約作成支援装置4は、第1の録音装置2で録音して得た第1の音声データと、第2の録音装置3で録音して得た第2の音声データとに基づいて、音声データの要約の作成を支援するものである。音声要約作成支援装置4は、例えば、音声データのなかから抽出した各人物の発話区間のみを採録した支援情報を生成する。第1の音声データ及び第2の音声データは、例えば、音声要約作成支援装置4に第1の録音装置2及び第2の録音装置3を接続して、音声要約作成支援装置4に入力する。なお、第1の音声データ及び第2の音声データは、例えば、フラッシュメモリを備えたメモリカード等の可搬型記録媒体を介して各録音装置2,3から音声要約作成支援装置4に入力することも可能である。すなわち、本実施形態に係る音声要約作成支援システム1Aにおいて、音声要約作成支援装置4は、人物5A,5Bが対話を行う空間6内に設置されていなくてもよい。
図2は、第1の実施形態に係る音声要約作成支援装置の機能的構成を示す図である。
図2に示すように、本実施形態に係る音声要約作成支援装置4は、入力部401と、データ処理部402と、記憶部403と、出力部404と、を備える。
図2に示すように、本実施形態に係る音声要約作成支援装置4は、入力部401と、データ処理部402と、記憶部403と、出力部404と、を備える。
入力部401は、第1の録音装置2で録音した第1の音声データと、第2の録音装置3で録音した第2の音声データと、の入力を受け付ける。第1の音声データ及び第2の音声データは、それぞれの音声データを録音した録音装置から直接入力してもよいし、メモリカードや光ディスク等の可搬型記録媒体を介して入力してもよい。
データ処理部402は、入力された第1の音声データと、第2の音声データと、に基づいて、音声データにおける人の音声が含まれる区間(発話区間)を抽出するとともに、話者を識別する。データ処理部402は、時間管理部402Aと、調整部402Bと、区間データ抽出部402Cと、類似特性把握部402Dと、減衰特性把握部402Eと、非類似特性把握部402Fと、話者識別部402Gと、音声採録部402Hとを含む。
記憶部403は、第1の音声データ及び第2の音声データを含む各種のデータを記憶する。記憶部403には、例えば、調査資源情報403A、属性情報403B、録音音声403C、識別規則403D、話者情報403E、採録音声403F等を記憶させる。
出力部404は、データ処理部402で生成した採録音声を再生装置7に出力する。再生装置7は、レシーバやスピーカ等の音声データのみを再生する装置であってもよいし、採録音声を可視化して表示する表示装置であってもよい。
上記のように、データ処理部402は、時間管理部402Aと、調整部402Bと、区間データ抽出部402Cと、類似特性把握部402Dと、減衰特性把握部402Eと、非類似特性把握部402Fと、話者識別部402Gと、音声採録部402Hとを含む。
時間管理部402Aは、第1の音声データにおける時間と、第2の音声データにおける時間とを管理する。時間管理部402Aは、例えば、記憶部403に記憶させた録音装置の属性情報403B等に基づいて生成した時間情報を、第1の音声データ及び第2の音声データに付加する。
調整部402Bは、録音開始時刻のずれや一方の録音装置における録音の中断等により、第1の音声データと第2の音声データとの間に生じる時間方向の波形のずれを調整する。
区間データ抽出部402Cは、第1の音声データ及び第2の音声データから人物の音声を含む発話区間を抽出し、比較する区間を調整した比較区間を設定する。
類似特性把握部402Dは、第1の音声データの比較区間の波形と、第2の音声データの比較区間の波形とを比較し、波形の類似度についての第1の基準値に基づいて波形の類似性の有無を把握する(判定する)。第1の基準値は、音声波形における山及び谷の出現時刻の一致度についての閾値(第1の閾値)と、音圧の変化の類似性についての閾値(第2の閾値)とを含む。類似特性把握部402Dは、比較した波形における山及び谷の出現時刻の一致度が第1の閾値以上であり、かつ音圧の変化の類似性が第2の閾値以上である場合に、波形に類似性があると判定する。
減衰特性把握部402Eは、類似している音声波形間に減衰特性が存在するか否かを把握する。音声波形間の減衰特性は、例えば、一方の音声波形における山及び谷がシャープであり、他方の音声波形における山及び谷は緩やかであるような特性である。減衰特性把握部402Eは、類似特性把握部402Dにおいて比較した2つの比較区間の音声波形が類似していると判定された場合に、類似している音声波形間の減衰特性の有無を把握する。
非類似特性把握部402Fは、第1の音声データにおける比較区間の波形と、第2の音声データにおける比較区間の波形とを比較し、波形の類似度についての第2の基準値に基づいて波形の非類似性の有無を把握する(判定する)。第2の基準値は、音声波形における山及び谷の出現時刻の一致度についての閾値(第3の閾値)と、音圧の変化の類似性についての閾値(第4の閾値)とを含む。ここで、第3の閾値は第1の閾値よりも小さく、第4の閾値は第2の閾値よりも小さい。非類似特性把握部402Dは、比較した波形における山及び谷の出現時刻の一致度が第3の閾値以下であり、かつ音圧の変化の類似性が第4の閾値以下である場合に、波形に非類似性があると判定する。すなわち、本実施形態における波形の非類似性は、波形に類似性がなく、かつ類似度が著しく低いことを意味する。非類似特性把握部402Fは、類似特性把握部402Dにおいて比較区間の音声波形に類似性がないと判定された場合に、音声波形における山及び谷の出現時刻の非類似性、及び音圧(db)の変化の非類似性を把握する。
話者識別部402Gは、類似特性把握部402D、減衰特性把握部402E、及び非類似特性把握部402Fにより把握した比較区間の波形の特性に基づいて、比較区間の話者を識別する。
音声採録部402Hは、比較区間の話者の識別に成功した場合に、各録音装置2,3で録音した音声データの比較区間から、識別した話者の音声が良く録音できている区間を抽出して編集する(採録する)。
また、上記のように、記憶部403には、例えば、調査資源情報403A、属性情報403B、録音音声403C、識別規則403D、話者情報403E、採録音声403F等を記憶させる。
属性情報403Bは、音声データを録音した録音装置の属性を含むデータである。録音音声403Cは、入力部401により第1の録音装置2及び第2の録音装置3から取得した音声データである。識別規則403Dは、比較区間(音声波形)の類似性の有無、減衰特性の有無、非類似性の有無等の判定基準、及び話者の判定基準等を含むデータである。話者情報403Eは、話者識別部402Gにより識別した各比較区間の話者を示す情報を含むデータである。採録音声403Fは、音声採録部402Hで生成した音声データ(言い換えると音声要約の作成を支援するための音声データ)である。
本実施形態に係る音声要約作成支援装置4は、入力部401により、複数人による対話が記録された第1の音声データと、第2の音声データとの入力を受け付けると、受け付けた音声データを記憶部403に記憶させる。その後、音声要約作成支援装置4の利用者(例えば、対話において主体となった人物5A)が音声要約作成支援装置4に支援情報の作成処理を開始させる命令を入力すると、音声要約作成支援装置4は、図3に示すような処理を行う。
図3は、第1の実施形態に係る音声要約作成支援装置が行う処理を説明するフローチャートである。
図3に示した処理は、音声要約作成支援装置4のデータ処理部402が行う。データ処理部402は、まず、取得した音声データ間の調整を行う(ステップS1)。ステップS1の処理は、データ処理部402の時間管理部402Aと調整部402Bとが行う。時間管理部402Aは、記憶部403の属性情報403B等に基づいて、第1の音声データ及び第2の音声データのそれぞれに、共通の時間情報を付加する。調整部402Bは、第1の音声データ及び第2の音声データに付加した時間情報に基づいて、録音開始時刻のずれや、録音時の一時停止等による音声データ間の波形の時間的なずれを調整する。
次に、データ処理部402は、第1の音声データ及び第2の音声データのそれぞれから比較区間を抽出する比較区間抽出処理(ステップS2)を行う。ステップS2の処理は、データ処理部402の区間データ抽出部402Cが行う。区間データ抽出部402Cは、例えば、音声データにおける無音区間を検出し、2つの時間的に隣り合う無音空間で挟まれた区間を発話区間として抽出する。また、区間データ抽出部402Cは、第1の音声データから抽出した発話区間についての時間情報と、第2の音声データから抽出した発話区間についての時間情報とに基づいて、音声波形を比較する区間(比較区間)を設定する。
次に、データ処理部402は、ステップS2で抽出した第1の音声データ及び第2の音声データの比較区間における音声波形に関する特性を把握する特性把握処理(ステップS3)を行う。ステップS3の処理は、類似特性把握部402Dと、減衰特性把握部402Eと、非類似特性把握部402Fとが行う。類似特性把握部402Dは、比較区間の音声波形における山及び谷の出現時刻の類似性、並びに音圧の変化の類似性を把握する処理を行う。減衰特性把握部402Eは、類似特性把握部402Dにおいて類似性があると判定した音声波形間の減衰特性の有無を把握する処理を行う。ここで、減衰特性は、一方の音声データの波形における山及び谷がシャープであり、他方の音声データの波形における山及び谷は緩やかであるという関係を意味する。非類似特性把握部402Fは、比較区間の音声波形における山及び谷の出現時刻の非類似性、並びに音圧の変化の非類似性を把握する処理を行う。
ステップS3の処理において、データ処理部402は、まず、類似特性把握部402Dに音声波形の類似性を把握する処理を行わせる。音声波形の類似性が高い場合、類似特性把握部402Dは、減衰特性把握部402Eに、類似性の高い音声波形間の減衰特性の有無を把握する処理を行わせる。一方、音声波形の類似性が低い場合、類似特性把握部402Dは、非類似特性把握部402Fに、音声波形の非類似性を把握する処理を行わせる。
次に、データ処理部402は、ステップS3の処理結果に基づいて、各比較区間の話者を識別する話者識別処理(ステップS4)を行う。ステップS4の処理は、話者識別部402Gが行う。話者識別部402Gは、例えば、比較区間毎に、話者が、主体である人物5A(第1の録音装置2の近傍にいる人物)、客体である人物5B(第1の録音装置2から遠い位置にいる人物)、及び判定不能のいずれであるかを識別する。ここで、判定不能は、主体である人物5A及び客体である人物5Bが同時に発話している場合を含む。
次に、データ処理部402は、各音声データにおける比較区間のうち、話者の音声が最もよい状態で録音されている比較区間を選択して音声データを編集する(採録する)音声採録処理(ステップS5)を行う。ステップS5の処理は、音声採録部402Hが行う。音声採録部402Hは、例えば、話者が主体である人物の比較区間には第1の音声データの比較区間を選択し、話者が客体である人物の比較区間には第2の音声データの比較区間を選択して各比較区間を時系列に連結した音声データを生成する。
図4は、比較区間抽出処理の内容を説明するフローチャートである。
比較区間抽出処理(ステップS2)は、データ処理部402の区間データ抽出部402Cが行う。区間データ抽出部402Cは、図4に示すように、まず、第1の音声データ及び第2の音声データのそれぞれで、微小区間毎の移動平均を算出する(ステップS201)。
比較区間抽出処理(ステップS2)は、データ処理部402の区間データ抽出部402Cが行う。区間データ抽出部402Cは、図4に示すように、まず、第1の音声データ及び第2の音声データのそれぞれで、微小区間毎の移動平均を算出する(ステップS201)。
次に、区間データ抽出部402Cは、第1の音声データ及び第2の音声データのそれぞれにおける強さの要約統計量を算出し、それらを比較する(ステップS202)。
次に、区間データ抽出部402Cは、要約統計量の差が許容範囲内であるか否かを判定する(ステップS203)。要約統計量の差が許容範囲を超える場合(ステップS203;No)、区間データ抽出部402Cは、処理を中断し(ステップS204)、比較区間抽出処理を終了する。すなわち、要約統計量の差が許容範囲を超える場合、区間データ抽出部402Cは、第1の音声データと第2の音声データとの組が比較対象として不適切であると判断する。
一方、要約統計量の差が許容範囲内である場合(ステップS203;Yes)、区間データ抽出部402Cは、次に、第1の音声データ及び第2の音声データのそれぞれから発話区間を抽出する(ステップS205)。ステップS205において、区間データ抽出部402Cは、既知である発話区間の抽出方法に従って、第1の音声データにおける発話区間と、第2の音声データにおける発話区間とを抽出する。例えば、区間データ抽出部402Cは、音声データにおける無音区間を抽出した後、時間的に連続する2つの無音区間で挟まれた区間のうち、時間長が所定の時間閾値以上である区間を発話区間として抽出する。区間データ抽出部402Cが抽出した発話区間を表す情報は、起点時刻と、終点時刻と、波形情報とを含む。
次に、区間データ抽出部402Cは、第1の音声データから抽出した発話区間と、第2の音声データから抽出した発話区間とに基づいて、比較区間を設定する(ステップS206)。ステップS206において、区間データ抽出部402Cは、まず、第1の音声データの比較区間と、第2の音声データの比較区間との組に対し、起点時刻同士を比較するとともに終点時刻同士を比較して、時間についての類似性を判定する。比較した起点時刻同士及び終点時刻同士が類似している場合、区間データ抽出部402Cは、比較区間同士を相互類似区間候補としてリストに加える。また、起点時刻同士及び終点時刻同士のいずれか一方のみが類似している場合、区間データ抽出部402Cは、類似していない終点時刻又は基点時刻を、時間長が短いほうの比較区間の終点時刻又は起点時刻に揃えてからリストに加える。
区間データ抽出部402Cによる比較区間の設定を終えると、データ処理部402は、次に、特性把握処理(ステップS3)を行う。データ処理部402は、特性把握処理として、例えば、図5に示した処理を行う。
図5は、特性把握処理の内容を説明するフローチャートである。
データ処理部402は、特性把握処理を開始すると、まず、比較区間を選択する(ステップS301)。
データ処理部402は、特性把握処理を開始すると、まず、比較区間を選択する(ステップS301)。
次に、データ処理部402は、第1の音声データの比較区間における波形と、第2の音声データの比較区間における波形との類似性を把握する類似特性把握処理(ステップS302)。ステップS302の処理は、類似特性把握部402Dが行う。類似特性把握部402Dは、波形における山及び谷の出現時刻の一致度と、音圧の時間変化の相関の度合いとに基づいて、第1の音声データの比較区間における波形と、第2の音声データの比較区間における波形との類似性を把握する。
次に、類似特性把握部402Dは、波形に類似性があるか否かを判定する(ステップS303)。
波形に類似性がある場合(ステップS303;Yes)、データ処理部402は、次に、第1の音声データの比較区間における波形と、第2の音声データの比較区間における波形との間の減衰特性の有無を把握する減衰特性把握処理(ステップS304)を行う。ステップS304の処理は、減衰特性把握部402Eが行う。減衰特性把握部402Eは、類似している波形同士を比較し、一方の音声データにおける波形から他方の音声データにおける波形に減衰傾向が見られるか否かを判定することにより、減衰特性の有無を把握する。
一方、波形に類似性がない場合(ステップS303;No)、データ処理部402は、次に、波形非類似特性把握処理(ステップS305)と、音圧傾向非類似特性把握処理(ステップS306)とを行う。ステップS305及びS306の処理は、非類似特性把握部402Fが行う。非類似特性把握部402Fは、ステップS305の処理として、比較区間における波形の山及び谷の出現時刻の非類似性を把握する処理を行う。また、非類似特性把握部402Fは、ステップS306の処理は、比較区間の波形における音圧の変化の傾向についての非類似性を把握する処理を行う。
なお、ステップS305の処理と、ステップS306の処理とは、どちらの処理を先に行ってもよい。また、ステップS305の処理と、ステップS306の処理とは、並列に行ってもよい。
ステップS304の処理の後、或いはステップS305及びS306の処理の後、データ処理部402は、未処理の比較区間があるか否かを判定する(ステップS307)。未処理の比較区間がある場合(ステップS307;Yes)、データ処理部402は、ステップS301以降の処理を繰り返す。そして、全ての比較区間に対してステップS302以降の処理を行うと、データ処理部402は、特性把握処理を終了し、次に、話者識別処理(ステップS4)を行う。
ここで、図6〜図9を参照して、特性把握処理における各処理の内容を説明する。
図6は、類似特性把握処理の内容を説明するフローチャートである。
図6は、類似特性把握処理の内容を説明するフローチャートである。
特性把握処理における類似特性把握処理は、データ処理部402の類似特性把握部402Dが行う。類似特性把握部402Dは、音声データから抽出した比較区間毎に、図6に示したステップS302A〜S302Fの処理を行う。
類似特性把握部402Dは、まず、第1の音声データの比較区間と、第2の音声データの比較区間とのそれぞれにおける波形の山及び谷の出現時刻を抽出する(ステップS302A)。ステップS302Aの処理において、類似特性把握部402Dは、既知の波形分析方法に従い、各波形における山及び谷の出現時刻を抽出する。例えば、類似特性把握部402Dは、時刻tの音圧と、当該時刻tの前後における音圧とに基づいて、時刻tが波形の山であるか否か、及び波形の谷であるか否かを判定する。時刻tが波形の山である場合、類似特性把握部402Dは、当該時刻tを山の出現時刻として抽出する。時刻tが波形の谷である場合、類似特性把握部402Dは、当該時刻tを谷の出現時刻として抽出する。
次に、類似特性把握部402Dは、第1の音声データから抽出した波形の山及び谷の出現時刻と、第2の音声データから抽出した波形の山及び谷の出現時刻とを比較して一致度を算出する(ステップS302B)。ステップS302Bの処理において、類似特性把握部402Dは、例えば、ステップS302Aで抽出した山谷のうちの出現時刻が一致した山谷の数を計数し、出現時刻が一致した山谷の数を抽出した山谷の総数で除した値を一致度とする。
次に、類似特性把握部402Dは、比較区間の波形における音圧の値の変化についての相関係数R1、標本平均R2及び標本偏差R3を算出する(ステップS302C)。類似特性把握部402Dは、既知の波形分析方法に従い、各波形における音圧の値の変化についての相関係数R1を算出する。なお、上記の相関係数R1は、音圧の変化の傾向の類似性のみを表しており、絶対値としての出現音圧値の差異を測ることができない。そのため、ステップS302Cにおいて、類似特性把握部402Dは、更に、下記式(1−1)及び(1−2)により各時刻における音圧の値の関係を表す値F1,F2を算出し、それらの標本平均R21,R22及び標本偏差R31,R32を算出する。
F1=|G1−G2|/G1 (1−1)
F2=|G1−G2|/G2 (1−2)
F1=|G1−G2|/G1 (1−1)
F2=|G1−G2|/G2 (1−2)
式(1−1)及び(1−2)のG1は、第1の音声データの比較区間における音圧の値である。式(1−1)及び(1−2)のG2は、第2の音声データの比較区間における音圧の値である。
次に、類似特性把握部402Dは、算出した出現時刻の一致度と、相関係数R1、標本平均R2(R21,R22)、及び標本偏差R3(R31,R32)と、に基づいて、比較区間の波形に類似性が見られるか否かを判定する(ステップS302D)。ステップS302Dにおいて、類似特性把握部402Dは、下記の4つの条件を全て満たす場合に、比較区間の波形に類似性がある(ステップS302D;Yes)と判定する。
(条件1)ステップS302Bで算出した出現時刻の一致度が閾値TH1以上であること。
(条件2)ステップS302Cで算出した相関係数R1が閾値TH2以上であること。
(条件3)ステップS302Cで算出した標本平均R21,R22がそれぞれ閾値TH31,TH32以下であること。
(条件4)ステップS302Cで算出した標本偏差R31,R32がそれぞれ閾値TH41,TH42以下であること。
(条件1)ステップS302Bで算出した出現時刻の一致度が閾値TH1以上であること。
(条件2)ステップS302Cで算出した相関係数R1が閾値TH2以上であること。
(条件3)ステップS302Cで算出した標本平均R21,R22がそれぞれ閾値TH31,TH32以下であること。
(条件4)ステップS302Cで算出した標本偏差R31,R32がそれぞれ閾値TH41,TH42以下であること。
ここで、条件1〜条件4における閾値TH1,TH2,TH31,TH31,TH41,TH42は、前記人物から前記収音位置までの距離と、前記人物の発音を前記収音位置で収音したときの前記音声データの波形との関係に基づいて設定した値である。これら閾値は、第1の基準値に含まれる。第1の基準値は、例えば、識別規則403Dの1つとして、例えば、記憶部403に格納される。
すなわち、類似特性把握部402Dは、比較区間に波形の山及び谷の出現パターンの類似度が高く、かつ音圧の値の変化の類似性が高い場合に、当該比較区間の波形に類似性があると判定する。
音圧の値の変化に類似性がある場合(ステップS302D;Yes)、類似特性把握部402Dは、比較区間の音声波形が類似していると把握し(ステップS302E)、当該比較区間に音声波形に類似性があることを示す情報を付加する。一方、音圧の値の変化に類似性がない場合(ステップS302D;No)、類似特性把握部402Dは、比較区間の音声波形が類似していないと把握する(ステップS302F)。
ステップS302E又はS302Fにおいて比較区間の波形についての類似性を把握すると、類似特性把握部402Dは、類似特性把握処理を終了し、図5に示したステップS303の判定を行う。比較区間の音声波形が類似している場合(ステップS303;Yes)、類似特性把握部402Dは、減衰特性把握部402Eに減衰特性把握処理(ステップS304)を行わせる。減衰特性把握部402Eは、減衰特性把握処理として、図7に示した処理を行う。
図7は、減衰特性把握処理の内容を説明するフローチャートである。
減衰特性把握部402Eは、まず、比較区間から類似度の高い区間の波形情報を抽出する(ステップS304A)。
減衰特性把握部402Eは、まず、比較区間から類似度の高い区間の波形情報を抽出する(ステップS304A)。
次に、減衰特性把握部402Eは、ステップS304Aで抽出した区間の音圧に基づいて、基準音声データを特定する(ステップS304B)。ステップS304Bにおいて、減衰特性把握部402Eは、第1の音声データから抽出した区間と、第2の音声データから抽出した区間との音圧の平均値又は総和値を比較し、値が大きいほうの区間を抽出した音声データを、基準音声データとする。
次に、減衰特性把握部402Eは、各時刻における基準音声データの音圧Aと、他方の音声データの音圧Bとから、抽出した区間の各時刻における音圧の関係を表す値(A−B)/Aを算出する(ステップS304C)。
次に、減衰特性把握部402Eは、ステップS304Aで抽出した区間において値(A−B)/Aが正となる区間の比率Q1と、当該抽出した区間における値(A−B)/Aの平均Q2及び偏差Q3とを算出する(ステップS304D)。
次に、減衰特性把握部402Eは、ステップS304Aで抽出した区間全体での音圧の関係を表す値Σ(A−B)/ΣAを算出する(ステップS304E)。
次に、減衰特性把握部402Eは、算出した比率Q1、平均Q2及び偏差Q3と、値Σ(A−B)/ΣAとに基づいて、基準音声データと他方の音声データとの間に減衰傾向が見られるか否かを判定する(ステップS304F)。ステップS304Fにおいて、減衰特性把握部402Eは、下記の4つの条件を全て満たす場合に、基準音声データに対し他方の音声データが減衰傾向にある(S304F;Yes)と判定する。
(条件1)ステップS304Dで算出した比率Q1が閾値TH5以上であること。
(条件2)ステップS304Dで算出した平均Q2が閾値TH6以下であること。
(条件3)ステップS304Dで算出した偏差Q3が閾値TH7以下であること。
(条件4)ステップS304Eで算出した値Σ(A−B)/ΣAが閾値TH8以下であること。
(条件1)ステップS304Dで算出した比率Q1が閾値TH5以上であること。
(条件2)ステップS304Dで算出した平均Q2が閾値TH6以下であること。
(条件3)ステップS304Dで算出した偏差Q3が閾値TH7以下であること。
(条件4)ステップS304Eで算出した値Σ(A−B)/ΣAが閾値TH8以下であること。
ここで、条件1〜条件4における閾値TH5,TH6,TH7,TH8は、前記人物から前記収音位置までの距離と、前記人物の発音を前記収音位置で収音したときの前記音声データの波形との関係に基づいて設定した値である。これら閾値は、例えば、識別規則403の1つとして、例えば、記憶部403Dに格納される。
減衰傾向が見られる場合(ステップS304F;Yes)、減衰特性把握部402Eは、比較区間から抽出した類似性の高い区間に減衰特性があると把握し(ステップS304G)、当該区間に減衰特性があることを示す情報を付加する。一方、減衰傾向が見られない場合(ステップS304F;No)、減衰特性把握部402Eは、比較区間から抽出した類似性の高い区間には減衰特性がないと把握する(ステップS304H)。
このように、比較区間の波形に類似性があると判定した場合(ステップS303;Yes)、データ処理部402は、減衰特性把握部402Eにおいて減衰特性把握処理を行う。
これに対し、比較区間の波形に類似性がないと判定した場合(ステップS303;No)、類似特性把握部402Dは、非類似特性把握部402Fに、波形非類似特性把握処理(ステップS305)及び音圧傾向非類似特性把握処理(ステップS306)を行わせる。非類似特性把握部402Fは、波形非類似特性把握処理として、図8に示した処理を行う。また、非類似特性把握部402Fは、音圧傾向非類似特性把握処理として、図9に示した処理を行う。
図8は、波形非類似特性把握処理の内容を説明するフローチャートである。図9は、音圧傾向非類似特性把握処理の内容を説明するフローチャートである。
波形非類似特性把握処理において、非類似特性把握部402Fは、まず、図8に示すように、第1の音声データの比較区間と、第2の音声データの比較区間とのそれぞれにおける波形の山及び谷の出現時刻を抽出する(ステップS305A)。ステップS305Aの処理において、非類似特性把握部402Fは、ステップS302Aと同様の処理を行って山及び谷の出現時刻を抽出する。
次に、非類似特性把握部402Fは、第1の音声データから抽出した波形の山及び谷の出現時刻と、第2の音声データから抽出した波形の山及び谷の出現時刻とを比較して一致度を算出する(ステップS305B)。ステップS305Bの処理において、非類似特性把握部402Fは、例えば、ステップS305Aで抽出した山谷のうちの出現時刻が一致した山谷の数を計数し、出現時刻が一致した山谷の数を抽出した山谷の総数で除した値を一致度とする。
次に、非類似特性把握部402Fは、ステップS305Bで算出した出現時刻の一致度が閾値TH9以下であるか否かを判定する(ステップS305C)。閾値TH9は、波形の非類似性の有無を判定する第2の基準値の1つとして記憶部403に格納された値であり、類似特性把握部402DがステップS302Dの判定で用いる閾値TH1よりも小さい値とする。出現時刻の一致度が閾値TH9以下である場合(ステップS305C;Yes)、非類似特性把握部402Fは、比較区間における波形の山谷の出現パターンは非類似性が高いと把握し(ステップS305D)、波形非類似特性把握処理を終了する。ステップS305Dにおいて、非類似特性把握部402Fは、当該比較区間の波形は非類似性が高いことを示す情報を付加する。一方、出現時刻の一致度が閾値TH9よりも大きい場合(ステップS305C;No)、非類似特性把握部402Fは、ステップS305Dの処理をスキップして、波形非類似特性把握処理を終了する。
これに対し、音圧傾向非類似特性把握処理において、非類似特性把握部402Fは、まず、図9に示すように、比較区間の波形における音圧の値の変化についての相関係数R1、標本平均R2及び標本偏差R3を算出する(ステップS306A)。非類似特性把握部402Fが行うステップS306Aの処理は、類似特性把握部402Dが行うステップS302Cの処理と同じでよい。また、非類似特性把握部402Fが行うステップS306Aの処理は、類似特性把握部402DがステップS302Cで算出した相関係数R1、標本平均R2(R21,R22)及び標本偏差R3(R31,R32)を読み出す(取得する)処理でもよい。
次に、非類似特性把握部402Fは、ステップS306Aで算出した相関係数R1、標本平均R2(R21,R22)及び標本偏差R3(R31,R32)に基づいて、音圧の値の変化に非類似性が見られるか否かを判定する(ステップS306B)。ステップS306Bにおいて、非類似特性把握部402Fは、下記の3つの条件を全て満たす場合に、音圧の値の変化に非類似性が見られる(ステップS306B;Yes)と判定する。
(条件1)ステップS306Aで算出した相関係数R1が閾値TH10以下であること。
(条件2)ステップS306Aで算出した標本平均R21,R22がそれぞれ閾値TH111,TH112以上であること。
(条件3)ステップS306Aで算出した標本偏差R31,R32がそれぞれ閾値TH121,TH122以上であること。
(条件1)ステップS306Aで算出した相関係数R1が閾値TH10以下であること。
(条件2)ステップS306Aで算出した標本平均R21,R22がそれぞれ閾値TH111,TH112以上であること。
(条件3)ステップS306Aで算出した標本偏差R31,R32がそれぞれ閾値TH121,TH122以上であること。
ここで、条件1〜条件4における閾値TH10,TH111,TH112,TH121,TH122は、前記人物から前記収音位置までの距離と、前記人物の発音を前記収音位置で収音したときの前記音声データの波形との関係に基づいて設定した値である。これら閾値は、第2の基準値に含まれる。第2の基準値は、例えば、識別規則403Dの1つとして、例えば、記憶部403に格納される。
なお、ステップS306Bの判定に用いる閾値TH10は、ステップS302Dの判定に用いる閾値TH2よりも小さい値(TH10<TH2となる値)とする。また、ステップS306Bの判定に用いる閾値TH111,TH112は、それぞれ、ステップS302Dの判定に用いる閾値TH31,TH32及びTH4よりも大きい値とする。同様に、ステップS306Bの判定に用いる閾値TH121,TH122は、それぞれ、ステップS302Dの判定に用いる閾値TH41,TH42よりも大きい値とする。
音圧の値の変化に非類似性が見られる場合(ステップS306B;Yes)、非類似特性把握部402Fは、比較区間の音圧の変化の傾向に非類似性があると把握し(ステップS306C)、音圧傾向非類似特性把握処理を終了する。ステップS306Cにおいて、非類似特性把握部402Fは、非類似性が見られる比較区間に対し音圧の変化の傾向に非類似性があることを示す情報を付加する。一方、音圧の値の変化に非類似性がない場合(ステップS306B;No)、非類似特性把握部402Fは、ステップS302Cをスキップして音圧傾向非類似特性把握処理を終了する。
特性把握処理(ステップS3)における上記の各処理を終えると、データ処理部402は、次に、話者識別処理(ステップS4)を行う。ステップS4の処理は、データ処理部402の話者識別部402Gが行う。話者識別部402Gは、処理対象の音声データの組に対する話者識別処理として、図10に示した処理を行う。
図10は、話者識別処理の内容を説明するフローチャートである。
話者識別部402Gは、まず、比較区間を選択し、当該比較区間の類似性/非類似性を示す情報を読み出す(ステップS401)。ステップS401において、話者識別部402Gは、所定の選択規則に従って比較区間の組を選択する。選択規則は、例えば、ステップS401において選択していない比較区間のうち、音声データ内における時間順で1番目となる比較区間を選択する、という規則とする。
話者識別部402Gは、まず、比較区間を選択し、当該比較区間の類似性/非類似性を示す情報を読み出す(ステップS401)。ステップS401において、話者識別部402Gは、所定の選択規則に従って比較区間の組を選択する。選択規則は、例えば、ステップS401において選択していない比較区間のうち、音声データ内における時間順で1番目となる比較区間を選択する、という規則とする。
次に、話者識別部402Gは、読み出した情報に基づいて、選択した比較区間の波形に類似性があるか否かを判定する(ステップS402)。
選択した比較区間に類似性がある場合(ステップS402;Yes)、話者識別部402は、次に、当該比較区間の減衰特性の有無を表す情報を読み出し(ステップS403)、減衰特性があるか否かを判定する(ステップS404)。減衰特性がある場合(ステップS404;Yes)、話者識別部402Gは、選択した比較区間の話者が客体であると識別する(ステップS405)。減衰特性がない場合(ステップS404;No)、話者識別部402Gは、選択した比較区間の話者を判定不能であると識別する(ステップS406)。なお、ステップS406の「判定不能」という識別結果は、話者が客体或いは主体であると特定できない場合の他、客体と主体とが同時に発話している場合を含む。
これに対し、比較区間に類似性がない場合(ステップS402;Yes)、話者識別部402Gは、次に、当該比較区間に非類似性があるか否かを判定する(ステップS407)。比較区間に非類似性がある場合(ステップS407;Yes)、話者識別部402Gは、当該比較区間の話者が主体であると識別する(ステップS408)。比較区間に非類似性がない場合(ステップS407;No)、話者識別部402Gは、当該比較区間の話者を判定不能であると識別する(ステップS406)。
ステップS401〜S408の処理による比較区間の話者の識別を終えると、話者識別部402Gは、次に、未処理の比較区間があるか否かを判定する(ステップS409)。未処理の比較区間がある場合(ステップS409;Yes)、話者識別部402Gは、ステップS401以降の処理を繰り返す。そして、全ての比較区間の話者を識別すると(ステップS409;No)、話者識別部402Gは、話者識別処理を終了する。
なお、図10の処理では、話者が主体或いは客体のいずれかに識別できない比較区間については「判定不能」という1つの識別結果にまとめている。しかしながら、話者識別処理においては、これに限らず、例えば、ステップS406において、主体と客体とが同時に発話している状態であるか否かを判定し、識別結果を「判定不能」と「主体と客体とが同時に発話している」との2通りに分けてもよい。
上記の話者識別処理が終了すると、データ処理部402は、次に、音声採録処理(ステップS5)を行う。ステップS5の処理は、データ処理部402の音声採録部402Hが行う。音声採録部402Hは、処理対象の音声データの組における各発話区間(比較区間)の波形と、話者の識別結果とに基づいて、話者の音声がよりよい状態で録音されている音声データの発話区間を選択して抽出し、それらを連結する。
以上のように、本実施形態に係る音声要約作成支援装置4は、対話に参加する人物からの距離の関係が異なる2個の録音装置で録音した音声データに基づいて、音声データにおける各発話区間の話者を推定し識別する。この際、音声要約作成支援装置4は、主体のみが発話した区間における波形の関係と、客体のみが発話した区間における波形の関係と、に基づいて話者を推定する。
図11は、主体が発話したときの音声データと客体が発話したときの音声データとの例を示す波形図である。
図11には、二人の人物5A,5Bによる対話を第1の録音装置2で録音した第1の音声データの一部と、第2の録音装置3で録音した第2の音声データの一部とを示している。第1の録音装置2で録音した第1の音声データは、二人の人物のうちの主体となる人物5Aの口元から約15cm、客体となる人物5Bの口元から約120cmとなる位置で収音して録音した音声データである。第2の録音装置3で録音した第2の音声データは、主体となる人物5Aの口元から約80cm、客体となる人物5Bの口元から約60cmとなる位置で収音して録音した音声データである。
図11の(a)は、第1の音声データ及び第2の音声データにおける、主体である人物5Aがある言葉を発した区間(発話区間)の波形を示している。主体である人物5Aから見ると、第1の録音装置2の収音位置は自身の近傍であり、第2の録音装置3の収音位置は第1の録音装置2の収音位置よりも遠方である。更に、主体である人物5Aから第2の録音装置3の収音位置までの距離L2は、人物5Aから第1の録音装置2の収音位置までの距離L1のおよそ5倍である。
よって、第1の音声データ及び第2の音声データにおける、主体である人物5Aのみが発話した区間の波形は、図11の(a)に示したように、山谷の出現パターンの類似性及び音圧の値の変化の類似性が非常に低くなる。言い換えると、主体である人物5Aのみが発話した区間の波形は、山谷の出現パターンの非類似性及び音圧の値の変化の非類似性が非常に高くなる。
一方、図11の(b)には、第1の音声データ及び第2の音声データにおける、客体である人物5Bがある言葉を発した区間(発話区間)の波形を示している。客体である人物5Bから見ると、第2の録音装置3の収音位置は自身から約60cm離れており、第1の録音装置2の収音位置は第2の録音装置3の収音位置よりも遠方である。更に、客体である人物5Bから第1の録音装置2の収音位置までの距離(およそL3+L2)は、人物5Bから第2の録音装置3の収音位置までの距離L2のおよそ1.3倍である。
よって、第1の音声データ及び第2の音声データにおける、客体である人物5Bのみが発話した区間の波形は、図11の(b)に示したように、山谷の出現パターンの類似性及び音圧の値の変化の類似性が非常に高くなる。更に、客体である人物5Bのみが発話した区間の波形は、第1の音声データにおける音圧が第2の音声データにおける音圧よりも全体的に小さくなっており、第2の音声データから第1の音声データへの減衰傾向が見られる。
したがって、対話に参加する人物からの距離の関係が異なる2個の録音装置で録音した音声データに基づいて発話区間における波形の類似性及び減衰特性を把握することにより、発話区間の話者を識別することが可能となる。
図12は、会話中の第1の音声データと第2の音声データとの例を示す図である。
図12には、二人の人物による会話を第1の録音装置で録音した第1の音声データと、当該会話を第2の録音装置で録音した第2の音声データと、会話の内容とを示している。
図12には、二人の人物による会話を第1の録音装置で録音した第1の音声データと、当該会話を第2の録音装置で録音した第2の音声データと、会話の内容とを示している。
図12の(a)は、第1の音声データ及び第2の音声データから抽出した時刻t0〜t7の区間における会話の内容を示している。時刻t0から、時刻t3とt4との間の時刻tp付近までは、客体である人物が「埼玉 東京生まれ 埼玉育ち」と発話している。また、客体である人物が発話した後の時刻tpから時刻t7までは、主体である人物が「ああそうなんですか 生まれたのは東京ね」と発話している。
図12の(b)は、第1の録音装置で録音した第1の音声データにおける上記の会話の内容と対応する区間の波形図である。図12の(c)は、第2の録音装置で録音した第2の音声データにおける上記の会話の内容と対応する区間の波形図である。
図12に示した第1の音声データ及び第2の音声データに対し比較区間抽出処理(ステップS2)を行うと、例えば、5個の比較区間VA1〜VA5が設定される。この5個の比較区間VA1〜VA5のそれぞれに対し、本実施形態に係る特性把握処理(ステップS3)における4個の特性把握処理(ステップS302,S304,S305,及びS306)を行うと、例えば、図13のテーブルに示すような結果が得られる。
図13は、特性把握処理の結果の例を示す図である。
特性把握処理(ステップS3)は、類似特性把握処理(ステップS302)、減衰特性把握処理(ステップS304)、波形非類似特性把握処理(ステップS305)、及び音圧傾向非類似特性把握処理(ステップS306)を含む。
特性把握処理(ステップS3)は、類似特性把握処理(ステップS302)、減衰特性把握処理(ステップS304)、波形非類似特性把握処理(ステップS305)、及び音圧傾向非類似特性把握処理(ステップS306)を含む。
類似特性把握処理(ステップS302)では、上記のように、比較区間の波形における山谷の出現時刻の一致度と、音圧の値の変化について相関係数R1と、式(1−1)及び(1−2)により算出した値F1,F2についての標本平均及び標本偏差と、を算出する。図12に示した第1の音声データ及び第2の音声データにおける比較区間VA1〜VA5のそれぞれに対し類似特性把握処理を行うと、図13に示したような結果が得られる。
図13において、山谷の一致度は、比較区間の波形における山谷の出現時刻の一致度を表し、音圧の相関係数は、音圧の値の変化について相関係数R1を表す。図13において、第1の標本平均及び第1の標本偏差は、それぞれ、式(1−1)により算出した値F1についての標本平均及び標本偏差である。図13において、第2の標本平均及び第2の標本偏差は、それぞれ、式(1−2)により算出した値F2についての標本平均及び標本偏差である。
なお、図12に示すように、比較区間VA2における時刻tq以前の区間VA21は、音圧が小さく、人の発音を示すピークも見られない。このため、比較区間VA2に対する類似特性把握処理では、時刻tqよりも後の区間VA22の波形情報のみに基づく処理を行っている。
図13からわかるように、客体が発話している比較区間VA1〜VA3における山谷の一致度及び音圧の相関係数は、主体が発話している比較区間VA4,VA5における山谷の一致度及び音圧の相関係数と比べて、大きな値となっている。
また、客体が発話している比較区間VA1〜VA3における標本平均及び標本偏差は、主体が発話している比較区間VA4,VA5における標本平均及び標本偏差と比べて、小さくなる傾向が見られる。
したがって、上記の類似特性把握処理を行うことで、発話区間の話者が主体であるか客体であるかを大まかに識別することが可能である。
減衰特性把握処理(ステップS304)では、上記のように、まず、第1の音声データから抽出した区間と、第2の音声データから抽出した区間との音圧の平均値又は総和値を比較し、値が大きいほうの区間を抽出した音声データを基準音声データとする。次に、減衰特性把握処理では、各時刻における基準音声データの音圧Aと、他方の音声データの音圧Bとから、抽出した区間の各時刻における音圧の関係を表す値(A−B)/Aを算出する。その後、減衰特性把握処理では、値(A−B)/Aが正となる区間の比率Q1と、当該抽出した区間における値(A−B)/Aの平均Q2及び偏差Q3とを算出する。更に、減衰特性把握処理では、区間全体での音圧の関係を表す値Σ(A−B)/ΣAを算出する。図12に示した第1の音声データ及び第2の音声データにおける比較区間VA1,VA22,及びVA3〜VA5のそれぞれに対し類似特性把握処理を行うと、図13に示したような結果が得られる。
図13において、比率は、値(A−B)/Aが正となる区間の比率Q1である。図13において、平均及び偏差は、それぞれ、値(A−B)/Aの平均Q2及び偏差Q3である。図13において、全体値は、区間全体での音圧の関係を表す値Σ(A−B)/ΣAである。
減衰特性把握処理では、上記のように、まず基準音声データを定める。第1の音声データにおける音圧の平均値又は総和値が、第2の音声データにおける音圧の平均値又は総和値よりも大きい比較区間は、第1の音声データを基準音声データとする。一方、第2の音声データにおける音圧の平均値又は総和値が、第1の音声データにおける音圧の平均値又は総和値よりも大きい比較区間は、第2の音声データを基準音声データとする。
図12の波形図からわかるように、客体が発話している比較区間VA1,VA22,及びVA3では、第1の音声データのほうが第2の音声データに比べて全体的に音圧が高くみえる。このため、比較区間VA1,VA22,及びVA3の基準音声データを定めると、図13に示すように、比較区間VA1,VA2(VA22)の基準音声データは第1の音声データとなり、比較区間VA3の基準音声データは第2の音声データとなる。また、主体が発話している比較区間VA4,VA5は第1の音声データの音圧が高くなるため、比較区間V4,V5の基準音声データは、第1の音声データとなる。
また、減衰特性把握処理で算出した各比較区間の比率Q1のうち、客体が発話している比較区間VA1〜VA3の比率は、主体が発話している比較区間VA4,VA5の比率に比べて、小さくなる。同様に、減衰特性把握処理で算出した各比較区間の全体値Σ(A−B)/ΣAのうち、客体が発話している比較区間VA1〜VA3の全体値は、主体が発話している比較区間VA4,VA5の全体値に比べて、小さくなる。
波形非類似特性把握処理(ステップS305)では、上記のように、比較区間における波形の山及び谷の出現時刻の一致度に基づいて、比較区間の波形についての非類似性を判定する。波形非類似特性把握処理(ステップS305)では、類似特性把握処理におけるステップS302A及びS302Bと同様の処理により波形の山及び谷の出現時刻の一致度を算出する。また、音圧傾向非類似特性把握処理(ステップS306)では、上記のように、比較区間の各時刻における音圧の変化の傾向に非類似性が見られるか否かを把握する。音圧傾向非類似特性把握処理(ステップS306)では、類似特性把握処理におけるステップS302Cと同様の処理により算出した音圧の変化についての相関係数R1、標本平均R2及び標本偏差R3に基づいて、非類似性が見られるか否かを判定する。
よって、図12に示した比較区間V1〜V5のそれぞれに対し非類似特性把握処理(波形非類似特性把握処理及び音圧傾向非類似特性把握処理)を行うと、図13に示したように、類似特性把握処理の結果と同じ結果が得られる。
このように、第1の音声データ及び第2の音声データに基づいて上記の特性把握処理を行った場合、話者が主体である区間と、話者が客体である区間とでは、各処理で算出した値に違いが生じる。よって、例えば、人物及び録音装置の配置、会話の内容等が異なる複数通りの音声データの組に対する特性把握処理の結果に基づいて、判定に用いる閾値を設定することにより、話者が主体及び客体のいずれであるかを精度良く識別することが可能となる。
図14は、採録音声データの例を示す波形図である。
上記の特性把握処理及び話者識別処理が終了すると、データ処理部402は、次に、音声採録部402Hにより音声採録処理(ステップS6)を行う。音声採録部402Hは、音声データから発話区間のみを抽出して連結した(採録した)採録音声データを作成する。
上記の特性把握処理及び話者識別処理が終了すると、データ処理部402は、次に、音声採録部402Hにより音声採録処理(ステップS6)を行う。音声採録部402Hは、音声データから発話区間のみを抽出して連結した(採録した)採録音声データを作成する。
音声採録部402Hは、各発話区間(比較区間)の話者についての情報(主体、客体、及び判定不能のいずれであるか)と、第1の音声データ及び第2の音声データの波形情報とに基づいて、発話区間のみを抽出して連結した採録音声データを作成する。
ここで、第1の音声データ及び第2の音声データが、それぞれ、2チャンネルのステレオ録音による音声データであるとすると、録音装置から入力された音声データは、4種類となる。このため、音声採録部402Hは、比較区間毎に、4つの音声データのなかから録音状態が最もよい音声データの比較区間を選択し、図14に示したような採録音声データを作成する。
例えば、図12の比較区間VA1は、話者が客体である。このため、近接する主体が発する音声以外の音を含みやすい第1の音声データよりも、第2の音声データのほうが、より録音状態がよいと考えられる。このため、音声採録部402Hは、図14に示すように、第2の音声データから比較区間VA1を抽出して採録音声データに連結する。
図12の比較区間VA2は、比較区間VA1に続く発話区間であるが、時刻tp以前の区間V21の波形は、音圧が低く客体の発話を表すピークが見られない。このため、音声採録部402Hは、比較区間VA2のうちの前半部分の区間VA21を無音空間とみなし、後半の区間VA22のみを抽出し、比較区間VA1の後ろに連結する。
その後、音声採録部402Hは、第2の音声データから比較区間VA3を抽出し、比較区間VA2の後ろに連結する。以後、音声採録部402Hは、各比較区間における発話区間のみを音声データから順次抽出し、採録音声データに追加していく。
このとき、音声採録部402Hは、特性把握処理で判定した各比較区間の話者を表す情報を採録音声データに付加する。
本実施形態に係る音声要約作成支援装置4は、人物からの距離の組み合わせが異なる複数の収音位置で収音した複数の音声データにおける波形についての特性に基づいて、音声データにおける各発話区間の話者を識別する。このため、音声要約作成支援装置4は、例えば、音声データにおける発話区間を抽出して採録する際に、特定の話者の発話区間のみを採録した採録音声を作成することが可能となる。採録音声を作成する際には、上記のように、第1の音声データ及び第2の音声データのうちの録音状態がよいほうの音声データを抽出する。インタビュー等において客体となる人物5Bは録音装置を装着していないが、人物5Bの発話は、主体となる人物5Aが装着している第1の録音装置2よりも人物5Bに近い位置にある第2の録音装置3でも録音している。したがって、客体となる人物5Bの発話区間は第2の音声データのほうが第1の音声データよりも録音状態がよいと推定され、採録音声には第2の音声データの発話区間が選択される。更に、音声データにおける各発話区間の話者を識別しているので、音声要約作成支援装置4は、例えば、採録音声を可視化して表示する際に話者を示す情報を付加して表示することが可能となる。よって、本実施形態によれば、対話に参加した各人物の発話内容を了解可能な音量を維持しつつ各発話区間の話者を識別した採録音声を作成することが可能となる。これにより、音声データに基づいて対話内容の要約(音声要約)を作成する際のオペレータの作業負担を軽減することが可能となる。
なお、会話をする人物は、二人に限らず、三人以上であってもよい。会話をする人物が三人以上である場合、例えば、当該三人以上の人物のうちの一人が「主体」となり、他の人物が「客体」となる。
また、客体となる人物が二人以上である場合、例えば、図15に示す客体音声分離処理を行って、複数人の客体の音声を分離してもよい。
図15は、客体音声分離処理の内容を説明するフローチャートである。
図15に示した客体音声分離処理は、データ処理部402が、例えば、図3のフローチャートにおける話者識別処理(ステップS4)と、音声採録処理(ステップS5)との間で行う。客体音声分離処理は、データ処理部402の話者識別部402Gが行ってもよいし、図2には示していない客体音声分離処理部が行ってもよい。話者識別部402Gが客体音声分離処理を行う場合、客体音声分離処理は、ステップS4の話者識別処理に含めてもよい。
図15に示した客体音声分離処理は、データ処理部402が、例えば、図3のフローチャートにおける話者識別処理(ステップS4)と、音声採録処理(ステップS5)との間で行う。客体音声分離処理は、データ処理部402の話者識別部402Gが行ってもよいし、図2には示していない客体音声分離処理部が行ってもよい。話者識別部402Gが客体音声分離処理を行う場合、客体音声分離処理は、ステップS4の話者識別処理に含めてもよい。
客体音声分離処理において、データ処理部402は、まず、話者識別処理の結果に基づいて、比較区間のうちの話者が客体であると推定した(把握した)比較区間を抽出する(ステップS601)。
次に、データ処理部402は、目標分離数を設定する(ステップS602)。目標分離数は、会話に客体として参加している人物の数である。目標分離数は、例えば、音声要約作成支援装置4のオペレータ(例えば主体となる人物)が、図2には示していない入力装置を利用して音声要約作成支援装置4に入力する。なお、ステップS602では、目標分離数として、不定であることを示す値を設定することも可能であるとする。例えば、音声要約支援装置4のオペレータが会話に参加していない人物であり、会話に客体として参加した人物の数が不明である場合、オペレータは、目標分離数として、不定であることを示す値を設定する。
次に、データ処理部402は、話者が客体である比較区間のそれぞれから平均音圧区間を抽出する(ステップS603)。ステップS603において、データ処理部402は、まず、比較区間における音圧の移動平均を算出し、平均音圧の変化点を探索する。その後、データ処理部402は、変化点と変化点との間を平均音圧区間として抽出する。
次に、データ処理部402は、第1の録音データ及び第2の録音データのそれぞれの比較区間から抽出した平均音圧区間毎の平均音圧値と、平均音圧値の差とを算出してリスト化する(ステップS604)。
次に、データ処理部402は、リスト化した平均音圧値と、平均音圧値の差とをクラスタリングし、共通性のある複数の組に分割する(ステップS605)。ステップS605において、データ処理部402は、目標分離数に基づいてリストを複数の組に分割する。なお、目標分離数が不定である場合、データ処理部402は、例えば、分割する組数を2,3,4,・・・の順に増やしていき、確度に基づいて適切な組数を推定する。
次に、データ処理部402は、分割した複数の組に基づいて、話者が客体であると推定された各比較区間に、話者(客体)を識別する情報を付与する(ステップS606)。
以上の処理により、話者が客体であると推定された各比較区間を話者(客体)毎に分離した後、データ処理部402は、音声採録処理を行う。
なお、図3〜図10、及び図15に示した各処理は、いずれも本実施形態に係る音声要約支援装置4が行う処理の例に過ぎない。本実施形態に係る音声要約支援装置4が行う処理は、本実施形態の要旨を逸脱しない範囲において種々変更可能である。
また、図1に示した音声要約作成支援システム1A及び図2に示した音声要約作成支援装置4は、いずれも本実施形態に係る音声要約作成支援システム及び音声要約支援装置の例に過ぎない。本実施形態に係る音声要約作成支援システム1Aは、例えば、第1の収音装置及び第2の収音装置を音声要約作成支援装置4に接続し、各収音装置で収音した音声信号を音声要約作成支援装置4で音声データ化するシステムであってもよい。
[第2の実施形態]
図16は、第2の実施形態に係る音声要約作成支援装置の機能的構成を示す図である。
図16は、第2の実施形態に係る音声要約作成支援装置の機能的構成を示す図である。
図16に示すように、本実施形態に係る音声要約作成支援装置4は、入力部401と、データ処理部402と、記憶部403と、出力部404と、を備える。
入力部402は、第1の録音装置2で録音した第1の音声データと、第2の録音装置3で録音した第2の音声データとの入力を受け付ける。第1の音声データ及び第2の音声データは、それぞれの音声データを録音した録音装置から直接入力してもよいし、フラッシュメモリを搭載したメモリカードや光ディスク等の可搬型記録媒体を介して入力してもよい。
データ処理部402は、入力された第1の音声データと、第2の音声データとに基づいて、音声データにおける発話区間を抽出し、話者を識別する。データ処理部402は、時間管理部402Aと、調整部402Bと、区間データ抽出部402Cと、類似特性把握部402Dと、減衰特性把握部402Eと、非類似特性把握部402Fと、話者識別部402Gと、音声採録部402Hとを含む。また、本実施形態の音声要約作成支援装置4におけるデータ処理部402は、客体音声分離部402Jと、話者切替頻回区間抽出部402Kと、を更に含む。
記憶部403は、第1の音声データ及び第2の音声データを含む各種のデータを記憶する。記憶部403には、例えば、調査資源情報403A、属性情報403B、録音音声403C、識別規則403D、話者情報403E、及び採録音声403Fを記憶させる(図2を参照)。
出力部404は、データ処理部402で生成した採録音声を再生装置7に出力する。再生装置7は、レシーバやスピーカ等の音声データのみを再生する装置であってもよいし、採録音声を可視化して表示する表示装置であってもよい。
上記のように、データ処理部402は、時間管理部402Aと、調整部402Bと、区間データ抽出部402Cと、類似特性把握部402Dと、減衰特性把握部402Eと、非類似特性把握部402Fと、話者識別部402Gと、音声採録部402Hとを含む。データ処理部402におけるこれら各部の機能は、第1の実施形態で説明したとおりである。
本実施形態に係るデータ処理部402に含まれる客体音声分離部402Jは、複数の人物が客体として会話に参加した音声データにおいて話者が客体であると判定された発話区間を客体毎に分離する処理を行う。客体音声分離部402Jは、例えば、図15に示した客体音声分離処理を行う。
また、本実施形態に係るデータ処理部402に含まれる話者切替頻回区間抽出部402Kは、話者識別部402Jにおける話者識別処理の結果に基づいて、短時間に話者の変更が頻繁に生じている箇所を抽出する。
図17は、第2の実施形態に係る音声要約作成支援装置が行う処理を説明するフローチャートである。なお、図17のフローチャートにおいて、第1の実施形態で説明した処理と同じ処理を行うブロックには、図3のフローチャートと同じステップ番号(例えばS1,S2等)を付している。
図17に示した処理は、音声要約作成支援装置4のデータ処理部402が行う。データ処理部402は、まず、取得した音声データ間の調整を行う(ステップS1)。ステップS1の処理は、データ処理部402の時間管理部402Aと調整部402Bとが行う。
次に、データ処理部402は、第1の音声データ及び第2の音声データのそれぞれから比較区間を抽出する比較区間抽出処理(ステップS2)を行う。ステップS2の処理は、データ処理部402の区間データ抽出部402Cが行う。区間データ抽出部402Cは、例えば、図4に示したステップS201〜S206の処理を行い、比較区間を設定する。
次に、データ処理部402は、ステップS2で抽出した第1の音声データ及び第2の音声データの比較区間における波形についての特性を把握する特性把握処理(ステップS3)を行う。ステップS3の処理として、データ処理部402は、例えば、図5に示したステップS301〜S307の処理を行う。
このステップS3の処理における類似特性把握処理(ステップS302)は、類似特性把握部402Dが行う。類似特性把握部402Dは、類似特性把握処理として、例えば、図6に示したステップS302A〜S302Fの処理を行う。また、ステップS3の処理における減衰特性把握処理(ステップS304)は、減衰特性把握部402Eが行う。減衰特性把握部402Eは、減衰特性把握処理として、例えば、図7に示したステップS304A〜S304Hの処理を行う。また、ステップS3の処理における波形非類似特性把握処理(ステップS305)及び音圧傾向非類似特性把握処理(ステップS306)は、非類似特性把握部402Fが行う。非類似特性把握部402Fは、波形非類似特性把握処理として、例えば、図8に示したステップS305A〜S305Dの処理を行う。更に非類似特性把握部402Fは、音圧傾向非類似特性把握処理として、例えば、図9に示したステップS306A〜S306Cの処理を行う。
次に、データ処理部402は、ステップS3の処理結果に基づいて、各発話区間における話者を識別する話者識別処理(ステップS4)を行う。ステップS4の処理は、話者識別部402Gが行う。話者識別部402Gは、話者識別処理として、例えば、図10に示したステップS401〜S409の処理を行う。
次に、データ処理部402は、音声データに含まれる複数の客体の音声を分離する客体音声分離処理(ステップS6)を行う。ステップS6の処理は、客体音声分離部402Jが行う。客体音声分離部402Jは、客体音声分離処理として、例えば、図15に示したステップS601〜S606の処理を行う。
次に、データ処理部402は、ステップS4及びS6の処理結果に基づいて、短時間に話者が頻繁に切り替わる区間を抽出する話者切替頻回区間抽出処理(ステップS7)を行う。ステップS7の処理は、話者切替頻回区間抽出部402Kが行う。ステップS7の処理において、話者切替頻回区間抽出部402Kは、まず、時系列に並んだ各発話区間の時間と、各発話区間における話者の情報に基づいて、話者が短時間に頻繁に切り替わる区間を抽出する。ここで、話者切替頻回区間抽出部402Kが抽出する区間は、話者が主体である区間と客体である区間とが頻繁に切り替わる区間だけでなく、話者が特定された区間と話者を判定不能な区間とが頻繁に切り替わる区間も含む。その後、話者切替頻回区間抽出部402Kは、抽出した話者が頻繁に切り替わる区間に対し、話者が頻繁に切り替わることを示す情報を付与する。
次に、データ処理部402は、各音声データにおける発話区間のうち話者の音声が最もよい状態で録音されている発話区間を選択して音声データを採録する(編集する)音声採録処理(ステップS5)を行う。ステップS5の処理は、音声採録部402Hが行う。音声採録部402Hは、例えば、話者が主体である人物の発話区間には第1の音声データの発話区間を選択し、話者が客体である人物の発話区間には第2の音声データの発話区間を選択して各発話区間を時系列に連結する。また、音声採録部402Hは、ステップS4,S6,及びS7の処理結果に基づいて、採録した音声データに、話者を識別する情報や、話者が頻繁に切り替わる区間を示す情報を付与する。
このように、本実施形態に係る音声要約作成支援装置4は、第1の実施形態に係る音声要約作成支援装置4と同様の処理を行って、音声データにおける各発話区間の話者を識別する。すなわち、音声要約作成支援装置4は、人物からの距離の組み合わせが異なる複数の収音位置で収音した複数の音声データにおける波形についての特性に基づいて、音声データにおける各発話区間の話者を識別する。このため、音声要約作成支援装置4は、例えば、音声データにおける発話区間を抽出して採録する際に、特定の話者の発話区間のみを採録した採録音声を作成することが可能となる。採録音声を作成する際には、上記のように、第1の音声データ及び第2の音声データのうちの録音状態がよいほうの音声データを抽出する。インタビュー等において客体となる人物5Bは録音装置を装着していないが、人物5Bの発話は、主体となる人物5Aが装着している第1の録音装置2よりも人物5Bに近い位置にある第2の録音装置3でも録音している。したがって、客体となる人物5Bの発話区間は第2の音声データのほうが第1の音声データよりも録音状態がよいと推定され、採録音声には第2の音声データの発話区間が選択される。更に、音声データにおける各発話区間の話者を識別しているので、音声要約作成支援装置4は、例えば、採録音声を可視化して表示する際に話者を示す情報を付加して表示することが可能となる。よって、本実施形態によれば、対話に参加した各人物の発話内容を了解可能な音量を維持しつつ各発話区間の話者を識別した採録音声を作成することが可能となる。これにより、音声データに基づいて対話内容の要約(音声要約)を作成する際のオペレータの作業負担を軽減することが可能となる。
しかも、本実施形態に係る音声要約作成支援装置4は、話者切替頻回区間抽出処理(ステップS7)を行い、採録音声における話者が短時間に頻繁に切り替わる区間を表す情報を付加する。そのため、例えば、音声要約を作成する際に話者が短時間に頻繁に切り替わる区間の発話内容を重視する等、オペレータによる音声要約の作成作業の効率化を図ることが可能となる。
なお、図17に示したフローチャートは、本実施形態に係る音声要約作成支援装置4が行う処理の一例に過ぎない。本実施形態に係る音声要約作成支援装置4が行う処理は、上記の手順に限らず、本実施形態の要旨を逸脱しない範囲において適宜変更可能である。
また、本実施形態における上記の説明では、第1の実施形態と同様、第1の録音装置及び第2の録音装置により録音した2つの音声データに基づいて、各発話区間の話者を識別し、話者が頻繁に切り替わる区間を抽出している。しかしながら、本実施形態に係る音声要約支援装置4を含む音声要約作成支援システム1は、これに限らず、例えば、音声要約作成支援装置4自体が録音装置としての機能を含むものであってもよい。更に、本実施形態に係る音声要約支援装置4を含む音声要約作成支援システム1は、例えば、話者が短時間に頻繁に切り替わる区間が長期間継続した場合に、対話(会話)に介入して対話を整理する機能を含むシステムであってもよい。
図18は、第2の実施形態に係る音声要約作成支援システムの変形例を示す図である。
図18に示すように、本実施形態の変形例に係る音声要約作成支援システム1(1B)は、第1の収音装置20と、第2の収音装置30と、音声要約作成支援装置4と、再生装置70と、を含む。
図18に示すように、本実施形態の変形例に係る音声要約作成支援システム1(1B)は、第1の収音装置20と、第2の収音装置30と、音声要約作成支援装置4と、再生装置70と、を含む。
第1の収音装置20及び第2の収音装置30は、それぞれ、マイクロフォン等、人の音声を含む音を収音する装置であり、音声要約作成支援装置4に接続される。第1の収音装置20は、会話に主体として参加している人物5Aの近傍に設置される。一方、第2の収音装置30は、例えば、主体である人物5Aや、他の客体として参加している人物5B〜5Dからの距離が略同一になる位置等に設置される。
また、本実施形態の変形例に係る音声要約作成支援システム1における再生装置70は、例えば、スピーカであり、複数の人物5A〜5Dによる対話(会話)が行われる空間6に設置される。
音声要約作成支援装置4は、第1の収音装置20から入力される音声信号(第1の音声データ)と、第2の収音装置30から入力される音声信号(第2の音声データ)とに基づいて、音声データにおける発話区間の話者を識別する。なお、音声要約作成支援装置4の設置位置は、複数の人物5A〜5Dによる対話(会話)が行われる空間6内に限らず、対話が行われる空間6の外部あってもよい。
図18に示した音声要約作成支援システム1Bにおける音声要約作成支援装置4は、第1の収音装置20及び第2の収音装置30から入力された2つの音声データに基づいて、対話中に各発話区間の話者を識別し、話者が頻繁に切り替わる区間を抽出する。更に、本実施形態の変形例に係る音声要約作成支援装置4は、話者が頻繁に切り替わる区間が長期間続いた場合に、対話を整理させる音声情報を生成して再生装置70に出力する。
図19は、第2の実施形態の変形例に係る音声要約作成支援装置の機能的構成を示す図である。
図19に示すように、本実施形態の変形例に係る音声要約作成支援装置4は、入力部401と、データ処理部402と、記憶部403と、出力部404と、を備える。このうち、入力部401、記憶部403、及び出力部404については、上記のとおりである。
データ処理部402は、時間管理部402Aと、調整部402Bと、区間データ抽出部402Cと、類似特性把握部402Dと、減衰特性把握部402Eと、非類似特性把握部402Fと、話者識別部402Gと、音声採録部402Hとを含む。データ処理部402におけるこれら各部の機能は、上記のとおりである。
また、データ処理部402は、客体音声分離部402Jと、話者切替頻回区間抽出部402Kと、対話介入部402Lと、を更に含む。このうち、客体音声分離部402Jの機能は、上記のとおりである。
話者切替頻回区間抽出部402Kは、話者識別部402Hにおける話者識別処理の結果に基づいて、音声データにおいて話者が頻繁に切り替わっている区間を抽出する。更に、本実施形態の変形例に係る音声要約作成支援装置4における話者切替頻回区間抽出部402Kは、音声データにおいて話者が頻繁に切り替わっている区間が長期間継続している場合に、対話介入部402Lに対話(会話)を整理させる音声情報を生成させる。
対話介入部402Lは、話者切替頻回区間抽出部402Kから対話を整理させる音声情報を生成させる命令を受信すると、対話を整理させる音声情報を生成し、出力部404を介して再生装置70に出力する。
本実施形態の変形例に係る音声要約作成支援装置4は、上記のように、取得した音声データにおける発話区間の話者を識別する処理を対話中に行う。対話中、音声要約作成支援装置4は、例えば、図20に示す処理を行う。
図20は、第2の実施形態の変形例に係る音声要約作成支援装置が行う処理を説明するフローチャートである。なお、図20のフローチャートにおいて、図17に沿って説明した処理と同じ処理を行うブロックには、図17のフローチャートと同じステップ番号(例えばS1,S2等)を付している。
図20に示した処理は、音声要約作成支援装置4のデータ処理部402が行う。データ処理部402は、まず、音声データ(音声信号)の取得及び調整を開始する(ステップS8)。ステップS8の処理は、データ処理部402の時間管理部402Aと調整部402Bとが行う。時間管理部402A及び調整部402Bは、収音装置20,30から入力部401を介してデータ処理部402に順次入力される音声信号(音声データ)に対し、基準時間を設定して時間長等を調整する処理を順次行う。以下の説明では、第1の収音装置20で収音した音声信号及び第2の収音装置30で収音した音声信号を、それぞれ、第1の音声データ及び第2の音声データという。
次に、データ処理部402は、第1の音声データ及び第2の音声データのそれぞれから比較区間を抽出する比較区間抽出処理(ステップS2)を開始する。ステップS2の処理は、データ処理部402の区間データ抽出部402Cが行う。区間データ抽出部402Cは、例えば、図4に示したステップS201〜S206の処理を行い、比較区間を設定する。
次に、データ処理部402は、ステップS2で抽出した第1の音声データ及び第2の音声データの比較区間における波形についての特性を把握する特性把握処理(ステップS3)を行う。ステップS3の処理として、データ処理部402は、例えば、図5に示したステップS301〜S307の処理を行う。
このステップS3の処理における類似特性把握処理(ステップS302)は、類似特性把握部402Dが行う。類似特性把握部402Dは、類似特性把握処理として、例えば、図6に示したステップS302A〜S302Fの処理を行う。また、ステップS3の処理における減衰特性把握処理(ステップS304)は、減衰特性把握部402Eが行う。減衰特性把握部402Eは、減衰特性把握処理として、例えば、図7に示したステップS304A〜S304Hの処理を行う。また、ステップS3の処理における波形非類似特性把握処理(ステップS305)及び音圧傾向非類似特性把握処理(ステップS306)は、非類似特性把握部402Fが行う。非類似特性把握部402Fは、波形非類似特性把握処理として、例えば、図8に示したステップS305A〜S305Dの処理を行う。更に非類似特性把握部402Fは、音圧傾向非類似特性把握処理として、例えば、図9に示したステップS306A〜S306Cの処理を行う。
次に、データ処理部402は、ステップS3の処理結果に基づいて、各発話区間における話者を識別する話者識別処理(ステップS4)を行う。ステップS4の処理は、話者識別部402Gが行う。話者識別部402Gは、話者識別処理として、例えば、図10に示したステップS401〜S409の処理を行う。
次に、データ処理部402は、音声データに含まれる複数の客体の音声を分離する客体音声分離処理(ステップS6)を行う。ステップS6の処理は、客体音声分離部402Jが行う。客体音声分離部402Jは、客体音声分離処理として、例えば、図15に示したステップS601〜S606の処理を行う。
次に、データ処理部402は、ステップS4及びS6の処理結果に基づいて、短時間に話者が頻繁に切り替わる区間を抽出する話者切替頻回区間抽出処理(ステップS7)を行う。ステップS7の処理は、話者切替頻回区間抽出部402Kが行う。ステップS7の処理において、話者切替頻回区間抽出部402Kは、まず、時系列に並んだ各発話区間の時間と、各発話区間における話者の情報に基づいて、話者が短時間に頻繁に切り替わる区間を抽出する。ここで、話者切替頻回区間抽出部402Kが抽出する区間は、話者が主体である区間と客体である区間とが頻繁に切り替わる区間だけでなく、話者が特定された区間と話者を判定不能な区間とが頻繁に切り替わる区間も含む。その後、話者切替頻回区間抽出部402Kは、抽出した話者が頻繁に切り替わる区間に対し、話者が頻繁に切り替わることを示す情報を付与する。
次に、データ処理部402は、図20に示したように、音声採録処理(ステップS5)と並列に、ステップS9及びS10の処理を行う。図20におけるステップS7の下方の二重の横線の組は、当該二重の横線の組で挟まれた複数の処理を並列に行うことを意味する。
ステップS5の音声採録処理は、音声採録部402Hが行う。音声採録部402Hは、例えば、話者が主体である人物の発話区間には第1の音声データの発話区間を選択し、話者が客体である人物の発話区間には第2の音声データの発話区間を選択して各発話区間を時系列に連結する。また、音声採録部402Hは、ステップS4,S6,及びS7の処理結果に基づいて、採録した音声データに、話者を識別する情報や、話者が頻繁に切り替わる区間を示す情報を付与する。
これに対し、音声採録処理と並列に行われるステップS9及びステップS10の処理は、話者切替頻回区間抽出部402Kと、対話介入部402Lとが行う。ステップS9において、話者切替頻回区間抽出部402Kは、ステップS7で抽出した話者が短時間に頻繁に切り替わる区間が長期間継続しているか否かを判定する。話者が短時間に頻繁に切り替わる区間が長期間継続している場合(ステップS9;Yes)、話者切替頻回区間抽出部402Kは、対話介入部402Lを対話に介入させる(ステップS10)。ステップS10において、対話介入部402Lは、対話に整理するための音声データを生成し、再生装置70に出力する。話者が短時間に頻繁に切り替わる区間が短期間である場合(ステップS9;No)、話者切替頻回区間抽出部402Kは、ステップS10の処理をスキップする。
音声採録処理と、ステップS9及びS10の処理とを終えると、データ処理部402は、処理を続けるか否かを判定する(ステップS11)。収音装置20,30から入力された第1の音声データ及び第2の音声データから抽出した発話区間(比較区間)のなかに話者を識別していない発話区間がある場合、データ処理部402は、処理を続けると判定する。処理を続ける場合(ステップS11;Yes)、データ処理部402は、ステップS3以降の処理を繰り返す。処理を続けない場合(ステップS11;No)、データ処理部402は、処理を終了する。
このように、本実施形態の変形例では、話者が頻繁に切り替わる区間が長期間継続した場合に、対話を整理するための音声情報を出力する。これにより、例えば、グループインタビュー等で複数の客体が自由に発言をして対話が交錯した場合に、客体の発話を切り、対話を整理することが可能となる。
なお、図20に示したフローチャートは、本実施形態の変形例に係る音声要約作成支援装置4が行う処理の一例に過ぎない。本実施形態に係る音声要約作成支援装置4が行う処理は、上記の手順に限らず、本実施形態の要旨を逸脱しない範囲において適宜変更可能である。例えば、音声採録処理(ステップS5)は、ステップS9,S10と並列に行う代わりに、一連の処理を終了する(ステップS11;No)と判定した後で行ってもよい。
[第3の実施形態]
図21は、第3の実施形態に係る音声要約作成支援システムの構成例を示す図である。
図21は、第3の実施形態に係る音声要約作成支援システムの構成例を示す図である。
図21に示したように、本実施形態に係る音声要約作成支援システム1(1C)は、第1の収音装置20と、第2の収音装置30と、音声要約作成支援装置4と、再生装置70と、を含む。
第1の収音装置20及び第2の収音装置30は、それぞれ、マイクロフォン等、人の音声を含む音を収音する装置であり、音声要約作成支援装置4に接続される。第1の収音装置20は、会話に主体として参加している人物5Aの近傍に設置される。一方、第2の収音装置30は、例えば、主体である人物5Aや、客体として参加している人物5Bからの距離が略同一になる位置等に設置される。
また、本実施形態に係る音声要約作成支援システム1における再生装置70は、例えば、スピーカであり、複数の人物5A,5Bによる対話(会話)が行われる空間6に設置される。
音声要約作成支援装置4は、対話中に第1の収音装置20及び第2の収音装置30から入力される音声信号(音声データ)に基づいて、各発話区間の話者を識別し、話者の識別情報を含む採録音声データを生成する。更に、本実施形態に係る音声要約作成支援装置4は、人物5A,5Bが対話を収音する第1の収音装置20及び第2の収音装置30の設置位置の調整に利用可能である。なお、音声要約作成支援装置4の設置位置は、複数の人物5A,5Bによる対話(会話)が行われる空間6内に限らず、対話が行われる空間6の外部であってもよい。
図22は、第3の実施形態に係る音声要約作成支援装置の機能的構成を示す図である。
図22に示すように、本実施形態に係る音声要約作成支援装置4は、入力部401と、データ処理部402と、記憶部403と、出力部404と、を備える。このうち、入力部401、記憶部403、及び出力部404については、上記のとおりである。
図22に示すように、本実施形態に係る音声要約作成支援装置4は、入力部401と、データ処理部402と、記憶部403と、出力部404と、を備える。このうち、入力部401、記憶部403、及び出力部404については、上記のとおりである。
データ処理部402は、時間管理部402Aと、調整部402Bと、区間データ抽出部402Cと、類似特性把握部402Dと、減衰特性把握部402Eと、非類似特性把握部402Fと、話者識別部402Gと、音声採録部402Hとを含む。データ処理部402におけるこれら各部の機能は、上記のとおりである。
また、データ処理部402は、客体音声分離部402Jと、事前試験管理部402Mと、を更に含む。このうち、客体音声分離部402Jの機能は、上記のとおりである。
事前試験管理部402Mは、第1の収音装置20及び第2の収音装置30の設置位置を決める事前試験を管理する。事前試験管理部402Mは、対話に参加する人物に個別に発話をさせる処理、各収音装置20,30で収音した音声信号における発話区間の波形の特性と話者との対応関係に基づいて収音装置20,30の設置位置の変更等を提案する処理、等を行う。
事前試験を行うか否かは、例えば、対話に参加する人物が、図20及び図21には示していない入力装置を操作して選択する。対話において主体となる人物5A等が事前試験の実施を選択した場合、音声要約作成支援装置4は、事前試験として、図23に示した事前試験処理を行う。なお、事前試験を開始する際には、対話に参加する人物のいずれか一人(主体となる人物5A)の近傍に第1の収音装置20を設置し、各人物からの距離が略等距離となる位置等に第2の収音装置30を設置しておけばよい。
図23は、第3の実施形態に係る事前試験処理を説明するフローチャートである。
事前試験処理を行う場合、音声要約作成支援装置4は、まず、対話に参加する人物に事前試験の開始を通知する音声信号を出力する(ステップS21)。ステップS21の処理は、事前試験管理部402Mが行う。事前試験管理部402Mは、例えば、記憶部403から事前試験の開始を通知するメッセージを含む音声データを読み出し、出力部404を介して再生装置70に出力する。
事前試験処理を行う場合、音声要約作成支援装置4は、まず、対話に参加する人物に事前試験の開始を通知する音声信号を出力する(ステップS21)。ステップS21の処理は、事前試験管理部402Mが行う。事前試験管理部402Mは、例えば、記憶部403から事前試験の開始を通知するメッセージを含む音声データを読み出し、出力部404を介して再生装置70に出力する。
次に、音声要約作成支援装置4は、対話に参加する人物毎に所定の発話をさせ、第1の収音装置20及び第2の収音装置30で収音した音声データを順次取得する(ステップS22)。ステップS22の処理は、事前試験管理部402Mが行う。
対話に参加する人物が二人である場合、事前試験管理部402Mは、例えば、まず、記憶部403から、対話において主体となる人物5Aに名前等を発話させるメッセージを含む音声データを読み出し、出力部404を介して再生装置70に出力する。そして、音声データを出力してから所定の時間が経過すると、事前試験管理部402Mは、記憶部403から、対話において客体となる人物5Bに名前等を発話させるメッセージを含む音声データを読み出し、出力部404を介して再生装置70に出力する。
また、対話に参加する人物が3人以上である場合、事前試験管理部402Mは、参加する人物のうちの一人を指定して当該人物に名前等を発話させるメッセージを含む音声データの出力を、所定の時間間隔で人数分だけ繰り返し出力する。
なお、ステップS22において音声データを出力する時間間隔は、対話に参加する人物が指定された発話に要する時間に基づいて数秒〜十数秒の範囲で設定する。また、ステップS22では、例えば、指定された人物が発話を終える毎に、主体となる人物5Aが図示していない入力装置を操作して発話を終えたことを示す情報を入力してもよい。この場合、事前試験管理部402Mは、当該情報が入力される毎に、人物を指定して当該人物に名前等を発話させるメッセージを含む音声データを出力する。
次に、音声要約作成支援装置4は、取得した音声データから各人物の発話区間を抽出し、話者を識別する処理を行う(ステップS23)。ステップS23の処理は、データ処理部402の時間管理部402A、調整部402B、区間データ抽出部402C、類似特性把握部402D、減衰特性把握部402E、非類似特性把握部402F、話者識別部402G、及び客体音声分離部402Jが協働して行う。データ処理部402は、ステップS23の処理として、例えば、図17に示したステップS1〜S4、及びS6の処理を行う。
ステップS1の処理は、時間管理部402Aと調整部402Bが行う。ステップS2の処理は、区間データ抽出部402Cが行う。区間データ抽出部402Cは、ステップS2の処理として、例えば、図4に示した処理を行う。ステップS3の処理は、類似特性把握部402D、減衰特性把握部402E、及び非類似特性把握部402Fが行う。類似特性把握部402D、減衰特性把握部402E、及び非類似特性把握部402Fは、ステップS3の処理として、例えば、図5〜図9に示した各処理を行う。ステップS4の処理は、話者識別部402Gが行う。話者識別部402Gは、ステップS4の処理として、例えば、図10に示した処理を行う。ステップS6の処理は、客体音声分離部402Jが行う。客体音声分離部402Jは、ステップS6の処理として、例えば、図15に示した処理を行う。
ステップS23の処理の後、音声要約作成支援装置4は、取得した音声データにおける各比較区間の話者を正しく識別できたか否かを判定する(ステップS24)。ステップS24の判定は事前試験管理部402Mが行う。
事前試験処理においては、対話に参加する人物が一人ずつ所定の順番で発話している。このため、第1の収音装置20及び第2の収音装置30の設置位置が適切な位置である場合、各比較区間の話者は、それぞれ、一人の人物に特定される。また、対話において客体となる人物が複数である場合も、その人数を客体音声分離処理(ステップS6)における目標分離数にすることで、客体となる人物の発話区間が分離する。よって、話者を識別できなかった発話区間がある場合(ステップS24;No)、事前試験管理部402Mは、話者を識別できなかった発話区間に対する特性把握処理の結果に基づいて、対策を通知する音声信号を出力する(ステップS25)。対策を通知する音声信号は、第1の収音装置20及び第2の収音装置30の設置位置を変更させるメッセージを含む。
例えば、客体となる人物が発話した区間の話者を識別することができず、かつ減衰特性が不明瞭である場合、事前試験管理部402Mは、第2の収音装置30と第1の収音装置20との距離を広げさせるメッセージを含む音声信号を出力する。また、例えば、客体となる人物が発話した区間の話者を識別することができず、かつ音圧が低く発話内容が不明瞭である場合、事前試験管理部402Mは、第2の収音装置30を客体となる人物に近づけさせるメッセージを含む音声信号を出力する。また、例えば、主体となる人物が発話した区間の話者を識別することができず、かつ音圧の高さが不十分である場合、事前試験管理部402Mは、第1の収音装置20を主体となる人物の口元に近づけさせるメッセージを含む音声信号を出力する。
対策を通知する音声信号を選択した後、事前試験管理部402Mは、再試験の開始を通知する音声信号を出力し(ステップS26)、ステップS22以降の処理を繰り返す。
一方、全ての比較区間の話者を識別できた場合(ステップS24;Yes)、事前試験管理部402Mは、事前試験の終了を通知する音声信号を出力し(ステップS27)、事前試験処理を終了する。
事前試験が終了すると、音声要約作成支援装置4は、対話の録音を開始可能な状態となる。録音を開始可能な状態に移行した後、対話に参加する人物が入力装置を操作する等して録音開始の情報が入力されると、音声要約作成支援装置4は、第1の収音装置20及び第2の収音装置30が収音した音声信号を取得し、例えば、図17に示した処理を行う。
このように、収音位置についての事前試験を行うことにより、対話に参加する各人物の発話を良好な状態で録音可能な位置に第1の収音装置20及び第2の収音装置30を設置することが可能となる。そのため、例えば、人物の声が小さいことや、各人物から収音装置20,30までの距離のミスマッチ等による、話者の識別結果の誤りを抑制することが可能となる。また、対話に参加する各人物の発話を良好な状態で録音可能な位置に第1の収音装置20及び第2の収音装置30を設置することが可能となるため、各人物が話した内容が不明瞭になる等の録音の失敗を防止することが可能となる。
なお、本実施形態に係る音声要約作成支援システム1は、第1の収音装置20及び第2の収音装置30に代わり、第1の録音装置2及び第2の録音装置3を用いるシステムであってもよい。また、本実施形態に係る音声要約作成支援システム1における再生装置70は、例えば、第2の収音装置30又は第2の録音装置3と一体化されていてもよい。
また、図23に示したフローチャートは、本実施形態に係る事前試験処理の一例に過ぎない。本実施形態に係る事前試験処理は、上記の手順に限らず、本実施形態の要旨を逸脱しない範囲において適宜変更可能である。
[第4の実施形態]
本実施形態に係る音声要約作成支援システムは、第3の実施形態で説明した音声要約作成支援システム1Cと同様、収音位置についての事前試験を行うことにより、第1の収音装置20及び第2の収音装置30を適切な位置に設置することを可能にする。なお、本実施形態に係る音声要約作成支援システムでは、第1の収音装置と第2の収音装置との相対位置、及び対話に参加する人物間の相対位置、並びに音声データに対する特性把握処理の結果に基づいて、収音装置の適正な設置位置を算出する(推定する)。
本実施形態に係る音声要約作成支援システムは、第3の実施形態で説明した音声要約作成支援システム1Cと同様、収音位置についての事前試験を行うことにより、第1の収音装置20及び第2の収音装置30を適切な位置に設置することを可能にする。なお、本実施形態に係る音声要約作成支援システムでは、第1の収音装置と第2の収音装置との相対位置、及び対話に参加する人物間の相対位置、並びに音声データに対する特性把握処理の結果に基づいて、収音装置の適正な設置位置を算出する(推定する)。
図24は、第4の実施形態に係る音声要約作成支援装置の機能的構成を示す図である。
図24に示すように、本実施形態に係る音声要約作成支援装置4は、入力部401と、データ処理部402と、記憶部403と、出力部404と、を備える。このうち、入力部401、記憶部403、及び出力部404については、上記のとおりである。
図24に示すように、本実施形態に係る音声要約作成支援装置4は、入力部401と、データ処理部402と、記憶部403と、出力部404と、を備える。このうち、入力部401、記憶部403、及び出力部404については、上記のとおりである。
データ処理部402は、時間管理部402Aと、調整部402Bと、区間データ抽出部402Cと、類似特性把握部402Dと、減衰特性把握部402Eと、非類似特性把握部402Fと、話者識別部402Gと、音声採録部402Hとを含む。データ処理部402におけるこれら各部の機能は、上記のとおりである。
また、データ処理部402は、客体音声分離部402Jと、事前試験管理部402Mと、相対位置把握部402Nと、適正配置算出部402Pと、を更に含む。このうち、客体音声分離部402Jの機能は、上記のとおりである。
事前試験管理部402Mは、第1の収音装置20及び第2の収音装置30の設置位置を決める事前試験を管理する。事前試験管理部402Mは、対話に参加する人物に個別に発話をさせる処理、各収音装置20,30で収音した音声信号における発話区間の波形の特性と話者との対応関係に基づいて収音装置20,30の設置位置の変更等を提案する処理、等を行う。
相対位置把握部402Nは、事前試験における第1の収音装置20、第2の収音装置30、及び対話に参加する人物の相対位置を把握する。相対位置把握部402Nは、例えば、対話に参加する人物が、図24には示していない入力装置を操作して入力した情報に基づいて、第1の収音装置20、第2の収音装置30、及び対話に参加する人物の相対位置を把握する。なお、第1の収音装置20、第2の収音装置30、及び対話に参加する人物の相対位置についての情報は、人物が入力装置を操作して入力する代わりに、例えば、図24には示していない屋内位置測位システムを用いて入力してもよい。
適正配置算出部402Pは、事前試験における話者識別処理の結果と、第1の収音装置20、第2の収音装置30、及び対話に参加する人物の相対位置とに基づいて、収音装置20,30、及び対話に参加する人物の適正な相対位置を算出する(推定する)。
本実施形態においても、事前試験を行うか否かは、例えば、対話に参加する人物が、図20及び図21には示していない入力装置を操作して選択する。対話において主体となる人物5A等が事前試験の実施を選択した場合、音声要約作成支援装置4は、事前試験として、図23に示した事前試験処理を行う。なお、事前試験を開始する際には、対話に参加する人物のいずれか一人(主体となる人物5A)の近傍に第1の収音装置20を設置し、各人物からの距離が略等距離となる位置等に第2の収音装置30を設置しておけばよい。
図25Aは、第4の実施形態に係る事前試験処理を説明するフローチャート(その1)である。図25Bは、第4の実施形態に係る事前試験処理を説明するフローチャート(その2)である。図25Cは、第4の実施形態に係る事前試験処理を説明するフローチャート(その3)である。なお、図25A〜図25Cのフローチャートにおいて、第3の実施形態で説明した処理と同じ処理を行うブロックには、図23のフローチャートと同じステップ番号(例えばS21,S22等)を付している。
本実施形態に係る音声要約作成支援装置4において事前試験処理を行う場合、音声要約作成支援装置4は、まず、収音装置の相対位置、会話に参加する人物の人数及び相対位置の入力を受け付ける(ステップS31)。ステップS31において、音声要約作成支援装置4は、例えば、図24には示していない入力装置、或いは屋内位置測位システムからの収音装置の相対位置と、会話に参加する人物の人数及び相対位置の入力を受け付ける。なお、人物の人数及び相対位置についての情報の入力は任意とし、人数及び相対位置のいずれか一方の情報のみが入力されてもよいし、両方とも入力されなくてもよい。ステップS31で受け付けた入力情報は、相対位置把握部402Nが保持する。
次に、音声要約作成支援装置4は、収音位置についての試験を行うことを通知する音声信号を出力する(ステップS21)。ステップS21は、事前試験管理部402Mが行う。事前試験管理部402Mは、例えば、記憶部403から事前試験の開始を通知するメッセージを含む音声データを読み出し、出力部404を介して再生装置70に出力する。
次に、音声要約作成支援装置4は、対話に参加する人物毎に所定の発話をさせ、第1の収音装置20及び第2の収音装置30で収音した音声データを順次取得する(ステップS22)。ステップS22の処理は、事前試験管理部402Mが行う。
次に、音声要約作成支援装置4は、取得した音声データから各人物の発話区間を抽出し、話者を識別する処理を行う(ステップS23)。ステップS23の処理は、データ処理部402の時間管理部402A、調整部402B、区間データ抽出部402C、類似特性把握部402D、減衰特性把握部402E、非類似特性把握部402F、話者識別部402G、及び客体音声分離部402Jが協働して行う。データ処理部402は、ステップS23の処理として、例えば、図17に示したステップS1〜S4、及びS6の処理を行う。
ステップS1の処理は、時間管理部402Aと調整部402Bが行う。ステップS2の処理は、区間データ抽出部402Cが行う。区間データ抽出部402Cは、ステップS2の処理として、例えば、図4に示した処理を行う。ステップS3の処理は、類似特性把握部402D、減衰特性把握部402E、及び非類似特性把握部402Fが行う。類似特性把握部402D、減衰特性把握部402E、及び非類似特性把握部402Fは、ステップS3の処理として、例えば、図5〜図9に示した各処理を行う。ステップS4の処理は、話者識別部402Gが行う。話者識別部402Gは、ステップS4の処理として、例えば、図10に示した処理を行う。ステップS6の処理は、客体音声分離部402Jが行う。客体音声分離部402Jは、ステップS6の処理として、例えば、図15に示した処理を行う。この場合、ステップS23の処理において、客体音声分離部402Jは、話者が客体である発話区間における平均音圧レベルと、音声データ間の平均音圧レベルの差異とを算出しリスト化している(図15のステップS603,S604)。
次に、音声要約作成支援装置4は、ステップS23の処理結果に基づいて、話者が客体である発話区間の平均音圧レベルと、平均音圧レベルの差異とをチェックする(ステップS32)。ステップS32は、事前試験管理部402Mが行う。
次に、事前試験管理部402Mは、ステップS32のチェック結果に基づいて、平均音圧レベルが低い区間、或いは平均音圧レベルの差異が不明瞭な区間があるか否かを判定する(ステップS33)。平均音圧レベルが低い区間、及び平均音圧レベルの差異が不明瞭な区間がない場合(ステップS33;No)、事前試験管理部402Mは、事前試験の終了を通知する音声信号を出力し(ステップS27)、事前試験処理を終了する。
一方、平均音圧レベルが低い区間、或いは平均音圧レベルの差異が不明瞭な区間がある場合(ステップS33;Yes)、事前試験管理部402Mは、図25Bに示すように、適正配置算出部402Pに、収音装置20,30の適正な配置を算出させる。
適正配置算出部402Pは、まず、第2の収音装置30を移動させた場合の音声データをシミュレートし、平均音圧レベル及び平均音圧レベルの差異を算出する(ステップS34)。ステップS34において、適正配置算出部402Pは、例えば、まず、現時点における収音装置20,30、及び人物の相対位置と、平均音圧レベル及び平均音圧レベルの差異とに基づいて、客体である人物の発音についての減衰曲線を推定する。次に、適正配置算出部402Pは、第2の収音装置30と客体である人物との相対位置を変更し、変更後の相対位置と、推定した減衰曲線とに基づいて、第2の収音装置30を移動させた場合の音声データを推定する。その後、適正配置算出部402Pは、推定した音声データに基づいて、平均音圧レベル及び平均音圧レベルの差異を算出する。
次に、適正配置算出部402Pは、第2の収音装置3を移動させることにより平均音圧レベル、或いは平均音圧レベルの差異が改善するか否かを判定する(ステップS35)。
平均音圧レベル、或いは平均音圧レベルの差異が改善した場合(ステップS35;Yes)、適正配置算出部402Pは、第2の収音装置30の移動量を表す情報を事前試験管理部402Mに出力する。これを受け、事前試験管理部402Mは、図25Cに示すように、平均音圧レベル、或いは平均音圧レベルの差異が改善する対策を通知する音声信号を出力する(ステップS41)。第2の収音装置30を移動させることで平均音圧レベル、或いは平均音圧レベルの差異が改善する場合、事前試験管理部402Mは、第2の収音装置30の移動量を通知するメッセージを含む音声信号を再生装置70に出力する。この場合、事前試験管理部402Mは、対策を通知する音声信号を出力した後、再試験の開始を通知する音声信号を出力する(ステップS26)。再試験の開始を通知する音声信号を出力すると、音声要約作成支援装置4は、図25AのステップS22以降の処理を繰り返す。
一方、第2の収音装置30を移動させただけでは不十分な場合(ステップS35;No)、適正配置算出部402Pは、次に、第1の収音装置20を移動させた場合の音声データをシミュレートし、平均音圧レベル及び平均音圧レベルの差異を算出する(ステップS36)。ステップS36において、適正配置算出部402Pは、ステップS34と同様の方法で、第1の収音装置20を移動させた場合の平均音圧レベル及び平均音圧レベルの差異を算出する。
次に、適正配置算出部402Pは、第1の収音装置20を移動させることにより平均音圧レベル、或いは平均音圧レベルの差異が改善するか否かを判定する(ステップS37)。
平均音圧レベル、或いは平均音圧レベルの差異が改善した場合(ステップS37;Yes)、適正配置算出部402Pは、第2の収音装置30の移動量を表す情報を事前試験管理部402Mに出力する。これを受け、事前試験管理部402Mは、平均音圧レベル、或いは平均音圧レベルの差異が改善する対策を通知する音声信号を出力する(ステップS41)。第1の収音装置20を移動させることで平均音圧レベル、或いは平均音圧レベルの差異が改善する場合、事前試験管理部402Mは、第1の収音装置20の移動量を通知するメッセージを含む音声信号を再生装置70に出力する。この場合、事前試験管理部402Mは、対策を通知する音声信号を出力した後、再試験の開始を通知する音声信号を出力する(ステップS26)。再試験の開始を通知する音声信号を出力すると、音声要約作成支援装置4は、図25AのステップS22以降の処理を繰り返す。
これに対し、第1の収音装置20及び第2の収音装置30を移動させても十分な改善が見られない場合(ステップS37;No)、適正配置算出部402Pは、次に、客体の位置を移動させることによる改善を試みる。すなわち、収音装置20,30を移動させるだけでは十分な改善が見られない場合、適正配置算出部402Pは、次に、客体の位置を移動させた場合の音声データをシミュレートし、平均音圧レベル及び平均音圧レベルの差異を算出する(ステップS38)。ステップS38において、適正配置算出部402Pは、ステップS34と同様の方法で、客体である人物の位置を移動させた場合の平均音圧レベル及び平均音圧レベルの差異を算出する。
次に、適正配置算出部402Pは、客体を移動させることにより平均音圧レベル、或いは平均音圧レベルの差異が改善するか否かを判定する(ステップS39)。
平均音圧レベル、或いは平均音圧レベルの差異が改善した場合(ステップS39;Yes)、適正配置算出部402Pは、客体である人物の移動量を表す情報を事前試験管理部402Mに出力する。これを受け、事前試験管理部402Mは、平均音圧レベル、或いは平均音圧レベルの差異が改善する対策を通知する音声信号を出力する(ステップS41)。第1の収音装置20を移動させることで平均音圧レベル、或いは平均音圧レベルの差異が改善する場合、事前試験管理部402Mは、第1の収音装置20の移動量を通知するメッセージを含む音声信号を再生装置70に出力する。この場合、事前試験管理部402Mは、対策を通知する音声信号を出力した後、再試験の開始を通知する音声信号を出力する(ステップS26)。再試験の開始を通知する音声信号を出力すると、音声要約作成支援装置4は、図25AのステップS22以降の処理を繰り返す。
また、客体を移動させても十分な改善が見られない場合(ステップS39;No)、適正配置算出部402Pは、収音装置20,30、及び人物の配置の見直しを提案する情報を事前試験管理部402Mに出力する。これを受け、事前試験管理部402Mは、収音装置20,30、及び人物の配置の見直しを提案するメッセージを含む音声信号を再生装置70に出力する(ステップS40)。収音装置20,30、及び人物の配置の見直しを提案するメッセージを含む音声信号を出力すると、音声要約作成支援装置4は、事前処理を終了する。
このように、収音位置についての事前試験を行うことにより、対話に参加する各人物の発話を良好な状態で録音可能な位置に第1の収音装置20及び第2の収音装置30を設置することが可能となる。そのため、例えば、人物の声が小さいことや、各人物から収音装置20,30までの距離のミスマッチ等による、話者の識別結果の誤りを抑制することが可能となる。また、対話に参加する各人物の発話を良好な状態で録音可能な位置に第1の収音装置20及び第2の収音装置30を設置することが可能となるため、各人物が話した内容が不明瞭になる等の録音の失敗を防止することが可能となる。
更に、本実施形態においては、収音装置20,30の相対位置や、人物の位置及び相対位置を移動させた場合の音声データ(音声波形)をシミュレートし、収音状態(録音状態)が改善するか否かを推定する。そのため、収音状態が改善する場合に、収音装置、或いは人物を移動させる方向と移動量(距離)を具体的に通知することが可能となる。よって、本実施形態によれば、効率よく収音装置及び人物を適正な配置にすることが可能となる。
なお、本実施形態に係る音声要約作成支援システム1は、第1の収音装置20及び第2の収音装置30に代わり、第1の録音装置2及び第2の録音装置3を用いるシステムであってもよい。また、本実施形態に係る音声要約作成支援システム1における再生装置70は、例えば、第2の収音装置30又は第2の録音装置3と一体化されていてもよい。
また、図25A〜図25Cに示したフローチャートは、本実施形態に係る事前試験処理の一例に過ぎない。本実施形態に係る事前試験処理は、上記の手順に限らず、本実施形態の要旨を逸脱しない範囲において適宜変更可能である。
上記の各実施形態で説明した処理を行う音声要約作成支援装置4は、例えば、コンピュータと、当該コンピュータに実行させるプログラムとにより実現可能である。以下、図26を参照して、コンピュータとプログラムとを用いて実現される音声要約作成支援装置4について説明する。
図26は、コンピュータのハードウェア構成を示す図である。
図26に示すように、コンピュータ9は、プロセッサ901と、主記憶装置902と、補助記憶装置903と、入力装置904と、出力装置905と、入出力インタフェース906と、通信制御装置907と、媒体駆動装置908と、を備える。コンピュータ9におけるこれらの要素901〜908は、バス910により相互に接続されており、要素間でのデータの受け渡しが可能になっている。
図26に示すように、コンピュータ9は、プロセッサ901と、主記憶装置902と、補助記憶装置903と、入力装置904と、出力装置905と、入出力インタフェース906と、通信制御装置907と、媒体駆動装置908と、を備える。コンピュータ9におけるこれらの要素901〜908は、バス910により相互に接続されており、要素間でのデータの受け渡しが可能になっている。
プロセッサ901は、Central Processing Unit(CPU)やMicro Processing Unit(MPU)等である。プロセッサ901は、オペレーティングシステムを含む各種のプログラムを実行することにより、コンピュータ9の全体の動作を制御する。また、プロセッサ901は、例えば、図3〜図10に示した各処理を行う。
主記憶装置902は、図示しないRead Only Memory(ROM)及びRandom Access Memory(RAM)を含む。主記憶装置902のROMには、例えば、コンピュータ9の起動時にプロセッサ901が読み出す所定の基本制御プログラム等が予め記録されている。また、主記憶装置902のRAMは、プロセッサ901が、各種のプログラムを実行する際に必要に応じて作業用記憶領域として使用する。主記憶装置902のRAMは、例えば、録音装置2,3(或いは収音装置20,30)から取得した音声データ、特性把握処理において算出する各種の値、話者の識別に用いる閾値、採録音声データ等の記憶に利用可能である。
補助記憶装置903は、例えば、Hard Disk Drive(HDD)や、フラッシュメモリ等の不揮発性メモリ(Solid State Drive(SSD)を含む)等、主記憶装置902のRAMと比べて容量の大きい記憶装置である。補助記憶装置903は、プロセッサ901によって実行される各種のプログラムや各種のデータ等の記憶に利用可能である。補助記憶装置903は、例えば、各実施形態で説明した特性把握処理及び話者識別処理を含むプログラム等の記憶に利用可能である。また、補助記憶装置903は、例えば、録音装置2,3(或いは収音装置20,30)から取得した音声データ、特性把握処理において算出する各種の値、話者の識別に用いる閾値、採録音声データ等の記憶に利用可能である。
入力装置904は、例えば、キーボード装置やタッチパネル装置等である。コンピュータ9のオペレータ(利用者)が入力装置904に対して所定の操作を行うと、入力装置904は、その操作内容に対応付けられている入力情報をプロセッサ901に送信する。入力装置904は、例えば、図3や図17等に示した処理を開始させる命令の入力、図23や図25A〜図25Cに示した事前試験処理を開始させる命令の入力等に利用可能である。
出力装置905は、例えば、液晶表示装置等のディスプレイ装置、スピーカ等の音声再生装置を含む。出力装置905は、例えば、作成した採録音声を話者の情報とともに可視化して表示することに利用可能である。
入出力インタフェース906は、コンピュータ9と、他の電子機器とを接続する。入出力インタフェース906は、例えば、Universal Serial Bus(USB)規格のコネクタ等を備える。入出力インタフェース906は、例えば、コンピュータ9と、録音装置2,3、収音装置20,30、及び再生装置7,70との接続に利用可能である。
通信制御装置907は、コンピュータ9を通信ネットワークに接続し、通信ネットワークを介したコンピュータ9と他の電子機器との各種通信を制御する装置である。通信制御装置907は、例えば、コンピュータ9と録音装置2,3との通信、或いは録音装置2,3で録音した音声データを蓄積するサーバ等との通信に利用可能である。
媒体駆動装置908は、可搬型記憶媒体10に記録されているプログラムやデータの読み出し、補助記憶装置903に記憶されたデータ等の可搬型記憶媒体10への書き込みを行う。媒体駆動装置908には、例えば、1種類又は複数種類の規格に対応したメモリカード用リーダ/ライタが利用可能である。媒体駆動装置908としてメモリカード用リーダ/ライタを用いる場合、可搬型記憶媒体10としては、メモリカード用リーダ/ライタが対応している規格、例えば、Secure Digital(SD)規格のメモリカード(フラッシュメモリ)等を利用可能である。また、可搬型記録媒体10としては、例えば、USB規格のコネクタを備えたフラッシュメモリが利用可能である。更に、コンピュータ9が媒体駆動装置908として利用可能な光ディスクドライブを搭載している場合、当該光ディスクドライブで認識可能な各種の光ディスクを可搬型記録媒体10として利用可能である。可搬型記録媒体10として利用可能な光ディスクには、例えば、Compact Disc(CD)、Digital Versatile Disc(DVD)、Blu-ray Disc(Blu-rayは登録商標)等がある。可搬型記録媒体10は、上記の各実施形態で説明した処理を含むプログラム、録音装置2,3で録音した音声データ、コンピュータ9で作成した話者の情報を含む採録音声データ等の記録に利用可能である。
図3や図17の処理を開始する命令をコンピュータ9に入力すると、プロセッサ901が、補助記憶装置903等の非一時的な記録媒体に記憶させた特性把握処理及び話者識別処理を含むプログラムを読み出して実行する。更に、事前処理を開始する命令をコンピュータ9に入力すると、プロセッサ901が、補助記憶装置903等の非一時的な記録媒体に記憶させた特性把握処理、話者識別処理、及び収音位置の設置位置の良否を判定する処理等を含むプログラムを読み出して実行する。これらの処理において、プロセッサ901は、音声要約作成支援装置4におけるデータ処理部402として機能する(動作する)。また、主記憶装置902のRAMや補助記憶装置903等は、音声要約作成支援装置4における記憶部403や、図示していないバッファ等として機能する。
なお、音声要約作成支援装置4として動作させるコンピュータ9は、図26に示した全ての要素901〜908を含む必要はなく、用途や条件に応じて一部の要素を省略することも可能である。例えば、コンピュータ9は、通信制御装置907や媒体駆動装置908が省略されたものであってもよい。
以上記載した各実施形態に関し、更に以下の付記を開示する。
(付記1)
複数の人物のそれぞれとの位置関係が異なる複数の収音位置で前記複数の人物の対話を収音した複数の音声データから前記人物が発話している発話区間を抽出する抽出部と、
前記複数の音声データのそれぞれから抽出した前記発話区間の波形同士を比較し、前記波形の類似度についての第1の基準値に基づいて前記波形の類似性の有無を把握する類似特性把握部と、
前記複数の音声データのそれぞれから抽出した前記発話区間の波形同士を比較し、前記波形の減衰特性の有無を把握する減衰特性把握部と、
前記複数の音声データのそれぞれから抽出した前記発話区間の波形同士を比較し、前記第1の基準値とは異なる、前記波形の類似度についての第2の基準値に基づいて前記波形の非類似性の有無を把握する非類似特性把握部と、
前記波形の前記類似性、前記減衰特性、及び前記非類似性に基づいて、前記発話区間の話者を識別する話者識別部と、
を備えることを特徴とする音声要約作成支援装置。
(付記2)
前記複数の収音位置のうちの1箇所は前記複数の人物のうちの第1の人物の近傍であり、かつ前記複数の収音位置のうちの他の収音位置は、前記複数の人物のそれぞれから当該収音位置までの距離が前記第1の人物から当該第1の人物の近傍にある前記収音位置までの距離よりも長く、
前記話者識別部は、前記波形に前記類似性があり、かつ前記波形に前記減衰特性がある前記発話区間の話者を前記複数の人物のうちの前記第1の人物とは異なる人物と識別し、前記波形に前記非類似性がある前記発話区間の話者を前記第1の人物と識別する、
ことを特徴とする付記1に記載の音声要約作成支援装置。
(付記3)
前記第1の基準値は、前記人物から前記収音位置までの距離と、前記人物の発音を前記収音位置で収音したときの前記音声データの波形との関係に基づいて設定した、比較する前記発話区間の波形同士における山及び谷の出現時刻の一致度についての第1の閾値と、音圧の値の変化の相関係数についての第2の閾値と、を含み、
前記類似特性把握部は、比較する前記発話区間の波形同士における山及び谷の出現時刻の一致度と、音圧の値の変化の相関係数とを算出し、前記出現時刻の一致度が前記第1の閾値よりも大きく、かつ前記相関係数が前記第2の閾値よりも大きい場合に、前記発話区間の前記波形同士に類似性があると判定する、
ことを特徴とする付記1に記載の音声要約作成支援装置。
(付記4)
前記減衰特性把握部は、比較する前記発話区間の波形間における山及び谷の形状の鋭さの関係と、音圧の高さの関係とに基づいて、第1の音声データの前記発話区間の波形から第2の音声データの前記発話区間の波形に減衰傾向が見られるか否かを判定する、
ことを特徴とする付記1に記載の音声要約作成支援装置。
(付記5)
前記第2の基準値は、前記人物から前記収音位置までの距離と、前記人物の発音を前記収音位置で収音したときの前記音声データの波形との関係に基づいて設定した、比較する前記発話区間の波形同士における山及び谷の出現時刻の一致度についての第3の閾値と、音圧の値の変化の相関係数についての第4の閾値と、を含み、
前記非類似特性把握部は、比較する前記発話区間の波形同士における山及び谷の出現時刻の一致度と、音圧の値の変化の相関係数とを算出し、前記出現時刻の一致度が前記第3の閾値よりも小さく、かつ前記相関係数が前記第4の閾値よりも小さい場合に、前記発話区間の前記波形同士に非類似性があると判定する、
ことを特徴とする付記1に記載の音声要約作成支援装置。
(付記6)
前記複数の人物が3人以上であり、かつ前記話者識別部において前記発話区間の話者を前記第1の人物とは異なる人物であると識別した場合に、前記発話区間の話者が前記第1の人物とは異なる複数の人物のいずれであるかを識別する音声分離部、
を更に備えることを特徴とする付記2に記載の音声要約作成支援装置。
(付記7)
前記音声データにおける各発話区間の話者の情報に基づいて、所定の時間内における前記話者の切り替わり回数を計数し、前記切り替わり回数が所定回数を超える区間を抽出する話者切替頻回区間抽出部、
を更に備えることを特徴とする付記1に記載の音声要約作成支援装置。
(付記8)
前記切り替わり回数が所定回数を超える区間が、所定期間以上継続した場合に、前記複数の人物に対し前記対話の整理を促す音声情報を出力する対話介入部、
を更に備えることを特徴とする付記7に記載の音声要約作成支援装置。
(付記9)
前記複数の人物のそれぞれに個別に発話させて前記複数の収音位置で収音した複数の音声データに基づいて前記収音位置を変更するか否かを判定し、前記収音位置を変更すると判定した場合に前記収音位置の変更を促すメッセージを含む音声信号を出力する試験管理部、
を更に備えることを特徴とする付記1に記載の音声要約作成支援装置。
(付記10)
前記複数の人物のそれぞれに個別に発話させて前記複数の収音位置で収音した複数の音声データと、前記複数の収音位置及び前記複数の人物の相対位置と、に基づいて、前記収音位置及び前記人物の適正な配置を算出する適正配置算出部、
を更に備えることを特徴とする付記9に記載の音声要約作成支援装置。
(付記11)
前記音声データから前記発話区間を抽出して時系列に連結し、前記発話区間の話者の情報を付加した採録音声データを生成する採録部、
を更に備えることを特徴とする付記1に記載の音声要約作成支援装置。
(付記12)
コンピュータが、
複数の人物のそれぞれとの位置関係が異なる複数の収音位置で前記複数の人物の対話を収音した複数の音声データから前記人物が発話している発話区間を抽出し、
前記複数の音声データのそれぞれから抽出した前記発話区間の波形同士を比較し、前記波形の類似度についての第1の基準値に基づいて前記波形の類似性の有無を判定し、
前記複数の音声データのそれぞれから抽出した前記発話区間の波形同士を比較して前記波形の減衰特性の有無を判定し、
前記波形に前記類似性がない場合に、前記複数の音声データのそれぞれから抽出した前記発話区間の波形同士を比較し、前記第1の基準値とは異なる、前記波形の類似度についての第2の基準値に基づいて前記波形の非類似性の有無を判定し、
前記波形の前記類似性の有無、前記減衰特性の有無、及び前記非類似性の有無に基づいて、前記発話区間の話者を識別する、
処理を実行することを特徴とする音声要約作成支援方法。
(付記13)
前記複数の収音位置のうちの1箇所は前記複数の人物のうちの第1の人物の近傍であり、かつ前記複数の収音位置のうちの他の収音位置は、前記複数の人物のそれぞれから当該収音位置までの距離が前記第1の人物から当該第1の人物の近傍にある前記収音位置までの距離よりも長く、
前記話者を識別する処理において、前記コンピュータは、前記波形に類似性があり、かつ前記減衰特性がある前記発話区間の話者を前記複数の人物のうちの前記第1の人物とは異なる人物と識別し、前記波形に非類似性がある前記発話区間の話者を前記第1の人物と識別する、
ことを特徴とする付記12に記載の音声要約作成支援方法。
(付記14)
前記第1の基準値は、前記人物から前記収音位置までの距離と、前記人物の発音を前記収音位置で収音したときの前記音声データの波形との関係に基づいて設定した、比較する前記発話区間の波形同士における山及び谷の出現時刻の一致度についての第1の閾値と、音圧の値の変化の相関係数についての第2の閾値と、を含み、
前記波形の類似性の有無を判定する処理において、前記コンピュータは、比較する前記発話区間の波形同士における山及び谷の出現時刻の一致度と、音圧の値の変化の相関係数とを算出し、前記出現時刻の一致度が第1の閾値よりも大きく、かつ前記相関係数が第2の閾値よりも大きい場合に、前記発話区間の前記波形同士に類似性があると判定する、
ことを特徴とする付記12に記載の音声要約作成支援方法。
(付記15)
前記減衰特性の有無を判定する処理において、前記コンピュータは、比較する前記発話区間の波形間における山及び谷の形状の鋭さの関係と、音圧の高さの関係とに基づいて、第1の音声データの前記発話区間の波形から第2の音声データの前記発話区間の波形に減衰傾向が見られるか否かを判定する、
ことを特徴とする付記12に記載の音声要約作成支援方法。
(付記16)
前記第2の基準値は、前記人物から前記収音位置までの距離と、前記人物の発音を前記収音位置で収音したときの前記音声データの波形との関係に基づいて設定した、比較する前記発話区間の波形同士における山及び谷の出現時刻の一致度についての第3の閾値と、音圧の値の変化の相関係数についての第4の閾値と、を含み、
前記波形の非類似特性を判定する処理において、前記コンピュータは、比較する前記発話区間の波形同士における山及び谷の出現時刻の一致度と、音圧の値の変化の相関係数とを算出し、前記出現時刻の一致度が第3の閾値よりも小さく、かつ前記相関係数が第4の閾値よりも小さい場合に、前記発話区間の前記波形同士に非類似性があると判定する、
ことを特徴とする付記12に記載の音声要約作成支援方法。
(付記17)
前記コンピュータが、更に、
前記複数の人物が3人以上であり、かつ前記発話区間の話者を前記第1の人物とは異なる人物であると識別した場合に、前記発話区間の話者が前記第1の人物とは異なる複数の人物のいずれであるかを識別する、
処理を実行することを特徴とする付記13に記載の音声要約作成支援方法。
(付記18)
前記コンピュータが、更に
前記音声データにおける各発話区間の話者の情報に基づいて、所定の時間内における前記話者の切り替わり回数を計数し、
前記切り替わり回数が所定回数を超える区間が所定期間以上継続した場合に、前記複数の人物に対し前記対話の整理を促す音声情報を出力する、
処理を実行することを特徴とする付記12に記載の音声要約作成支援方法。
(付記19)
前記コンピュータが、更に、
前記複数の収音位置及び前記複数の人物の相対位置を含む情報と、前記複数の人物のそれぞれに個別に発話させて前記複数の収音位置で収音した複数の音声データとを取得し、
取得した前記複数の収音位置及び前記複数の人物の相対位置と、前記複数の音声データとに基づいて、前記収音位置及び前記人物の適正な配置を算出する
処理を実行することを特徴とする付記12に記載の音声要約作成支援方法。
(付記20)
複数の人物のそれぞれとの位置関係が異なる複数の収音位置で前記複数の人物の対話を収音した複数の音声データから前記人物が発話している発話区間を抽出し、
前記複数の音声データのそれぞれから抽出した前記発話区間の波形同士を比較し、前記波形の類似度についての第1の基準値に基づいて前記波形の類似性の有無を判定し、
前記複数の音声データのそれぞれから抽出した前記発話区間の波形同士を比較して前記波形の減衰特性の有無を判定し、
前記波形に前記類似性がない場合に、前記複数の音声データのそれぞれから抽出した前記発話区間の波形同士を比較し、前記第1の基準値とは異なる、前記波形の類似度についての第2の基準値に基づいて前記波形の非類似性の有無を判定し、
前記波形の前記類似性の有無、前記減衰特性の有無、及び前記非類似性の有無に基づいて、前記発話区間の話者を識別する、
処理をコンピュータに実行させる音声要約作成支援プログラム。
(付記1)
複数の人物のそれぞれとの位置関係が異なる複数の収音位置で前記複数の人物の対話を収音した複数の音声データから前記人物が発話している発話区間を抽出する抽出部と、
前記複数の音声データのそれぞれから抽出した前記発話区間の波形同士を比較し、前記波形の類似度についての第1の基準値に基づいて前記波形の類似性の有無を把握する類似特性把握部と、
前記複数の音声データのそれぞれから抽出した前記発話区間の波形同士を比較し、前記波形の減衰特性の有無を把握する減衰特性把握部と、
前記複数の音声データのそれぞれから抽出した前記発話区間の波形同士を比較し、前記第1の基準値とは異なる、前記波形の類似度についての第2の基準値に基づいて前記波形の非類似性の有無を把握する非類似特性把握部と、
前記波形の前記類似性、前記減衰特性、及び前記非類似性に基づいて、前記発話区間の話者を識別する話者識別部と、
を備えることを特徴とする音声要約作成支援装置。
(付記2)
前記複数の収音位置のうちの1箇所は前記複数の人物のうちの第1の人物の近傍であり、かつ前記複数の収音位置のうちの他の収音位置は、前記複数の人物のそれぞれから当該収音位置までの距離が前記第1の人物から当該第1の人物の近傍にある前記収音位置までの距離よりも長く、
前記話者識別部は、前記波形に前記類似性があり、かつ前記波形に前記減衰特性がある前記発話区間の話者を前記複数の人物のうちの前記第1の人物とは異なる人物と識別し、前記波形に前記非類似性がある前記発話区間の話者を前記第1の人物と識別する、
ことを特徴とする付記1に記載の音声要約作成支援装置。
(付記3)
前記第1の基準値は、前記人物から前記収音位置までの距離と、前記人物の発音を前記収音位置で収音したときの前記音声データの波形との関係に基づいて設定した、比較する前記発話区間の波形同士における山及び谷の出現時刻の一致度についての第1の閾値と、音圧の値の変化の相関係数についての第2の閾値と、を含み、
前記類似特性把握部は、比較する前記発話区間の波形同士における山及び谷の出現時刻の一致度と、音圧の値の変化の相関係数とを算出し、前記出現時刻の一致度が前記第1の閾値よりも大きく、かつ前記相関係数が前記第2の閾値よりも大きい場合に、前記発話区間の前記波形同士に類似性があると判定する、
ことを特徴とする付記1に記載の音声要約作成支援装置。
(付記4)
前記減衰特性把握部は、比較する前記発話区間の波形間における山及び谷の形状の鋭さの関係と、音圧の高さの関係とに基づいて、第1の音声データの前記発話区間の波形から第2の音声データの前記発話区間の波形に減衰傾向が見られるか否かを判定する、
ことを特徴とする付記1に記載の音声要約作成支援装置。
(付記5)
前記第2の基準値は、前記人物から前記収音位置までの距離と、前記人物の発音を前記収音位置で収音したときの前記音声データの波形との関係に基づいて設定した、比較する前記発話区間の波形同士における山及び谷の出現時刻の一致度についての第3の閾値と、音圧の値の変化の相関係数についての第4の閾値と、を含み、
前記非類似特性把握部は、比較する前記発話区間の波形同士における山及び谷の出現時刻の一致度と、音圧の値の変化の相関係数とを算出し、前記出現時刻の一致度が前記第3の閾値よりも小さく、かつ前記相関係数が前記第4の閾値よりも小さい場合に、前記発話区間の前記波形同士に非類似性があると判定する、
ことを特徴とする付記1に記載の音声要約作成支援装置。
(付記6)
前記複数の人物が3人以上であり、かつ前記話者識別部において前記発話区間の話者を前記第1の人物とは異なる人物であると識別した場合に、前記発話区間の話者が前記第1の人物とは異なる複数の人物のいずれであるかを識別する音声分離部、
を更に備えることを特徴とする付記2に記載の音声要約作成支援装置。
(付記7)
前記音声データにおける各発話区間の話者の情報に基づいて、所定の時間内における前記話者の切り替わり回数を計数し、前記切り替わり回数が所定回数を超える区間を抽出する話者切替頻回区間抽出部、
を更に備えることを特徴とする付記1に記載の音声要約作成支援装置。
(付記8)
前記切り替わり回数が所定回数を超える区間が、所定期間以上継続した場合に、前記複数の人物に対し前記対話の整理を促す音声情報を出力する対話介入部、
を更に備えることを特徴とする付記7に記載の音声要約作成支援装置。
(付記9)
前記複数の人物のそれぞれに個別に発話させて前記複数の収音位置で収音した複数の音声データに基づいて前記収音位置を変更するか否かを判定し、前記収音位置を変更すると判定した場合に前記収音位置の変更を促すメッセージを含む音声信号を出力する試験管理部、
を更に備えることを特徴とする付記1に記載の音声要約作成支援装置。
(付記10)
前記複数の人物のそれぞれに個別に発話させて前記複数の収音位置で収音した複数の音声データと、前記複数の収音位置及び前記複数の人物の相対位置と、に基づいて、前記収音位置及び前記人物の適正な配置を算出する適正配置算出部、
を更に備えることを特徴とする付記9に記載の音声要約作成支援装置。
(付記11)
前記音声データから前記発話区間を抽出して時系列に連結し、前記発話区間の話者の情報を付加した採録音声データを生成する採録部、
を更に備えることを特徴とする付記1に記載の音声要約作成支援装置。
(付記12)
コンピュータが、
複数の人物のそれぞれとの位置関係が異なる複数の収音位置で前記複数の人物の対話を収音した複数の音声データから前記人物が発話している発話区間を抽出し、
前記複数の音声データのそれぞれから抽出した前記発話区間の波形同士を比較し、前記波形の類似度についての第1の基準値に基づいて前記波形の類似性の有無を判定し、
前記複数の音声データのそれぞれから抽出した前記発話区間の波形同士を比較して前記波形の減衰特性の有無を判定し、
前記波形に前記類似性がない場合に、前記複数の音声データのそれぞれから抽出した前記発話区間の波形同士を比較し、前記第1の基準値とは異なる、前記波形の類似度についての第2の基準値に基づいて前記波形の非類似性の有無を判定し、
前記波形の前記類似性の有無、前記減衰特性の有無、及び前記非類似性の有無に基づいて、前記発話区間の話者を識別する、
処理を実行することを特徴とする音声要約作成支援方法。
(付記13)
前記複数の収音位置のうちの1箇所は前記複数の人物のうちの第1の人物の近傍であり、かつ前記複数の収音位置のうちの他の収音位置は、前記複数の人物のそれぞれから当該収音位置までの距離が前記第1の人物から当該第1の人物の近傍にある前記収音位置までの距離よりも長く、
前記話者を識別する処理において、前記コンピュータは、前記波形に類似性があり、かつ前記減衰特性がある前記発話区間の話者を前記複数の人物のうちの前記第1の人物とは異なる人物と識別し、前記波形に非類似性がある前記発話区間の話者を前記第1の人物と識別する、
ことを特徴とする付記12に記載の音声要約作成支援方法。
(付記14)
前記第1の基準値は、前記人物から前記収音位置までの距離と、前記人物の発音を前記収音位置で収音したときの前記音声データの波形との関係に基づいて設定した、比較する前記発話区間の波形同士における山及び谷の出現時刻の一致度についての第1の閾値と、音圧の値の変化の相関係数についての第2の閾値と、を含み、
前記波形の類似性の有無を判定する処理において、前記コンピュータは、比較する前記発話区間の波形同士における山及び谷の出現時刻の一致度と、音圧の値の変化の相関係数とを算出し、前記出現時刻の一致度が第1の閾値よりも大きく、かつ前記相関係数が第2の閾値よりも大きい場合に、前記発話区間の前記波形同士に類似性があると判定する、
ことを特徴とする付記12に記載の音声要約作成支援方法。
(付記15)
前記減衰特性の有無を判定する処理において、前記コンピュータは、比較する前記発話区間の波形間における山及び谷の形状の鋭さの関係と、音圧の高さの関係とに基づいて、第1の音声データの前記発話区間の波形から第2の音声データの前記発話区間の波形に減衰傾向が見られるか否かを判定する、
ことを特徴とする付記12に記載の音声要約作成支援方法。
(付記16)
前記第2の基準値は、前記人物から前記収音位置までの距離と、前記人物の発音を前記収音位置で収音したときの前記音声データの波形との関係に基づいて設定した、比較する前記発話区間の波形同士における山及び谷の出現時刻の一致度についての第3の閾値と、音圧の値の変化の相関係数についての第4の閾値と、を含み、
前記波形の非類似特性を判定する処理において、前記コンピュータは、比較する前記発話区間の波形同士における山及び谷の出現時刻の一致度と、音圧の値の変化の相関係数とを算出し、前記出現時刻の一致度が第3の閾値よりも小さく、かつ前記相関係数が第4の閾値よりも小さい場合に、前記発話区間の前記波形同士に非類似性があると判定する、
ことを特徴とする付記12に記載の音声要約作成支援方法。
(付記17)
前記コンピュータが、更に、
前記複数の人物が3人以上であり、かつ前記発話区間の話者を前記第1の人物とは異なる人物であると識別した場合に、前記発話区間の話者が前記第1の人物とは異なる複数の人物のいずれであるかを識別する、
処理を実行することを特徴とする付記13に記載の音声要約作成支援方法。
(付記18)
前記コンピュータが、更に
前記音声データにおける各発話区間の話者の情報に基づいて、所定の時間内における前記話者の切り替わり回数を計数し、
前記切り替わり回数が所定回数を超える区間が所定期間以上継続した場合に、前記複数の人物に対し前記対話の整理を促す音声情報を出力する、
処理を実行することを特徴とする付記12に記載の音声要約作成支援方法。
(付記19)
前記コンピュータが、更に、
前記複数の収音位置及び前記複数の人物の相対位置を含む情報と、前記複数の人物のそれぞれに個別に発話させて前記複数の収音位置で収音した複数の音声データとを取得し、
取得した前記複数の収音位置及び前記複数の人物の相対位置と、前記複数の音声データとに基づいて、前記収音位置及び前記人物の適正な配置を算出する
処理を実行することを特徴とする付記12に記載の音声要約作成支援方法。
(付記20)
複数の人物のそれぞれとの位置関係が異なる複数の収音位置で前記複数の人物の対話を収音した複数の音声データから前記人物が発話している発話区間を抽出し、
前記複数の音声データのそれぞれから抽出した前記発話区間の波形同士を比較し、前記波形の類似度についての第1の基準値に基づいて前記波形の類似性の有無を判定し、
前記複数の音声データのそれぞれから抽出した前記発話区間の波形同士を比較して前記波形の減衰特性の有無を判定し、
前記波形に前記類似性がない場合に、前記複数の音声データのそれぞれから抽出した前記発話区間の波形同士を比較し、前記第1の基準値とは異なる、前記波形の類似度についての第2の基準値に基づいて前記波形の非類似性の有無を判定し、
前記波形の前記類似性の有無、前記減衰特性の有無、及び前記非類似性の有無に基づいて、前記発話区間の話者を識別する、
処理をコンピュータに実行させる音声要約作成支援プログラム。
1,1A,1B,1C 音声要約作成支援システム
2,3 録音装置
4 音声要約作成支援装置
5A〜5E 人物
6 (対話を行う)空間
7,70 再生装置
9 コンピュータ
10 可搬型記録媒体
20,30 収音装置
401 入力部
402 データ処理部
402A 時間管理部
402B 調整部
402C 区間データ抽出部
402D 類似特性把握部
402E 減衰特性把握部
402F 非類似特性把握部
402G 話者識別部
402H 音声採録部
402J 客体音声分離部
402K 話者切替頻回区間抽出部
402L 対話介入部
402M 事前試験管理部
402N 相対位置把握部
402P 適正配置算出部
403 記憶部
403A 調査資源情報
403B 属性情報
403C 録音音声
403D 識別規則
403E 話者情報
403F 採録音声
404 出力部
901 プロセッサ
902 主記憶装置
903 補助記憶装置
904 入力装置
905 出力装置
906 入出力インタフェース
907 通信制御装置
908 媒体駆動装置
910 バス
2,3 録音装置
4 音声要約作成支援装置
5A〜5E 人物
6 (対話を行う)空間
7,70 再生装置
9 コンピュータ
10 可搬型記録媒体
20,30 収音装置
401 入力部
402 データ処理部
402A 時間管理部
402B 調整部
402C 区間データ抽出部
402D 類似特性把握部
402E 減衰特性把握部
402F 非類似特性把握部
402G 話者識別部
402H 音声採録部
402J 客体音声分離部
402K 話者切替頻回区間抽出部
402L 対話介入部
402M 事前試験管理部
402N 相対位置把握部
402P 適正配置算出部
403 記憶部
403A 調査資源情報
403B 属性情報
403C 録音音声
403D 識別規則
403E 話者情報
403F 採録音声
404 出力部
901 プロセッサ
902 主記憶装置
903 補助記憶装置
904 入力装置
905 出力装置
906 入出力インタフェース
907 通信制御装置
908 媒体駆動装置
910 バス
Claims (12)
- 複数の人物のそれぞれとの位置関係が異なる複数の収音位置で前記複数の人物の対話を収音した複数の音声データから前記人物が発話している発話区間を抽出する抽出部と、
前記複数の音声データのそれぞれから抽出した前記発話区間の波形同士を比較し、前記波形の類似度についての第1の基準値に基づいて前記波形の類似性の有無を把握する類似特性把握部と、
前記複数の音声データのそれぞれから抽出した前記発話区間の波形同士を比較し、前記波形の減衰特性の有無を把握する減衰特性把握部と、
前記複数の音声データのそれぞれから抽出した前記発話区間の波形同士を比較し、前記第1の基準値とは異なる、前記波形の類似度についての第2の基準値に基づいて前記波形の非類似性の有無を把握する非類似特性把握部と、
前記波形の前記類似性、前記減衰特性、及び前記非類似性に基づいて、前記発話区間の話者を識別する話者識別部と、
を備えることを特徴とする音声要約作成支援装置。 - 前記複数の収音位置のうちの1箇所は前記複数の人物のうちの第1の人物の近傍であり、かつ前記複数の収音位置のうちの他の収音位置は、前記複数の人物のそれぞれから当該収音位置までの距離が前記第1の人物から当該第1の人物の近傍にある前記収音位置までの距離よりも長く、
前記話者識別部は、前記波形に前記類似性があり、かつ前記波形に前記減衰特性がある前記発話区間の話者を前記第1の人物とは異なる人物と識別し、前記波形に前記非類似性がある前記発話区間の話者を前記第1の人物と識別する、
ことを特徴とする請求項1に記載の音声要約作成支援装置。 - 前記第1の基準値は、前記人物から前記収音位置までの距離と、前記人物の発音を前記収音位置で収音したときの前記音声データの波形との関係に基づいて設定した、比較する前記発話区間の波形同士における山及び谷の出現時刻の一致度についての第1の閾値と、音圧の値の変化の相関係数についての第2の閾値と、を含み、
前記類似特性把握部は、比較する前記発話区間の波形同士における山及び谷の出現時刻の一致度と、音圧の値の変化の相関係数とを算出し、前記出現時刻の一致度が前記第1の閾値よりも大きく、かつ前記相関係数が前記第2の閾値よりも大きい場合に、前記発話区間の前記波形同士に類似性があると判定する、
ことを特徴とする請求項1に記載の音声要約作成支援装置。 - 前記減衰特性把握部は、比較する前記発話区間の波形間における山及び谷の形状の鋭さの関係と、音圧の高さの関係とに基づいて、第1の音声データの前記発話区間の波形から第2の音声データの前記発話区間の波形に減衰傾向が見られるか否かを判定する、
ことを特徴とする請求項1に記載の音声要約作成支援装置。 - 前記第2の基準値は、前記人物から前記収音位置までの距離と、前記人物の発音を前記収音位置で収音したときの前記音声データの波形との関係に基づいて設定した、比較する前記発話区間の波形同士における山及び谷の出現時刻の一致度についての第3の閾値と、音圧の値の変化の相関係数についての第4の閾値と、を含み、
前記非類似特性把握部は、比較する前記発話区間の波形同士における山及び谷の出現時刻の一致度と、音圧の値の変化の相関係数とを算出し、前記出現時刻の一致度が前記第3の閾値よりも小さく、かつ前記相関係数が前記第4の閾値よりも小さい場合に、前記発話区間の前記波形同士に非類似性があると判定する、
ことを特徴とする請求項1に記載の音声要約作成支援装置。 - 前記複数の人物が3人以上であり、かつ前記話者識別部において前記発話区間の話者を前記第1の人物とは異なる人物であると識別した場合に、前記発話区間の話者が前記第1の人物とは異なる複数の人物のいずれであるかを識別する音声分離部、
を更に備えることを特徴とする請求項2に記載の音声要約作成支援装置。 - 前記音声データにおける各発話区間の話者の情報に基づいて、所定の時間内における前記話者の切り替わり回数を計数し、前記切り替わり回数が所定回数を超える区間を抽出する話者切替頻回区間抽出部、
を更に備えることを特徴とする請求項1に記載の音声要約作成支援装置。 - 前記切り替わり回数が所定回数を超える区間が、所定期間以上継続した場合に、前記複数の人物に対し前記対話の整理を促す音声情報を出力する対話介入部、
を更に備えることを特徴とする請求項7に記載の音声要約作成支援装置。 - 前記複数の人物のそれぞれに個別に発話させて前記複数の収音位置で収音した複数の音声データに基づいて前記収音位置を変更するか否かを判定し、前記収音位置を変更すると判定した場合に前記収音位置の変更を促すメッセージを含む音声信号を出力する試験管理部、
を更に備えることを特徴とする請求項1に記載の音声要約作成支援装置。 - 前記複数の人物のそれぞれに個別に発話させて前記複数の収音位置で収音した複数の音声データと、前記複数の収音位置及び前記複数の人物の相対位置と、に基づいて、前記収音位置及び前記人物の適正な配置を算出する適正配置算出部、
を更に備えることを特徴とする請求項9に記載の音声要約作成支援装置。 - コンピュータが、
複数の人物のそれぞれとの位置関係が異なる複数の収音位置で前記複数の人物の対話を収音した複数の音声データから前記人物が発話している発話区間を抽出し、
前記複数の音声データのそれぞれから抽出した前記発話区間の波形同士を比較し、前記波形の類似度についての第1の基準値に基づいて前記波形の類似性の有無を判定し、
前記複数の音声データのそれぞれから抽出した前記発話区間の波形同士を比較して前記波形の減衰特性の有無を判定し、
前記波形に前記類似性がない場合に、前記複数の音声データのそれぞれから抽出した前記発話区間の波形同士を比較し、前記第1の基準値とは異なる、前記波形の類似度についての第2の基準値に基づいて前記波形の非類似性の有無を判定し、
前記波形の前記類似性の有無、前記減衰特性の有無、及び前記非類似性の有無に基づいて、前記発話区間の話者を識別する、
処理を実行することを特徴とする音声要約作成支援方法。 - 複数の人物のそれぞれとの位置関係が異なる複数の収音位置で前記複数の人物の対話を収音した複数の音声データから前記人物が発話している発話区間を抽出し、
前記複数の音声データのそれぞれから抽出した前記発話区間の波形同士を比較し、前記波形の類似度についての第1の基準値に基づいて前記波形の類似性の有無を判定し、
前記複数の音声データのそれぞれから抽出した前記発話区間の波形同士を比較して前記波形の減衰特性の有無を判定し、
前記波形に前記類似性がない場合に、前記複数の音声データのそれぞれから抽出した前記発話区間の波形同士を比較し、前記第1の基準値とは異なる、前記波形の類似度についての第2の基準値に基づいて前記波形の非類似性の有無を判定し、
前記波形の前記類似性の有無、前記減衰特性の有無、及び前記非類似性の有無に基づいて、前記発話区間の話者を識別する、
処理をコンピュータに実行させる音声要約作成支援プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016144948A JP2018013742A (ja) | 2016-07-22 | 2016-07-22 | 音声要約作成支援装置、音声要約作成支援方法、及び音声要約作成支援プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016144948A JP2018013742A (ja) | 2016-07-22 | 2016-07-22 | 音声要約作成支援装置、音声要約作成支援方法、及び音声要約作成支援プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018013742A true JP2018013742A (ja) | 2018-01-25 |
Family
ID=61019371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016144948A Pending JP2018013742A (ja) | 2016-07-22 | 2016-07-22 | 音声要約作成支援装置、音声要約作成支援方法、及び音声要約作成支援プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018013742A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111899718A (zh) * | 2020-07-30 | 2020-11-06 | 北京字节跳动网络技术有限公司 | 用于识别合成语音的方法、装置、设备和介质 |
CN112562712A (zh) * | 2020-12-24 | 2021-03-26 | 上海明略人工智能(集团)有限公司 | 一种录音数据处理方法、系统、电子设备及存储介质 |
KR20230143808A (ko) * | 2022-04-06 | 2023-10-13 | 네이버 주식회사 | 음성 기록을 시각화하여 재연하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램 |
WO2024005482A1 (ko) * | 2022-06-30 | 2024-01-04 | 삼성전자 주식회사 | 동영상에 포함된 객체별로 음원을 매칭시키는 방법 및 이를 수행하기 위한 컴퓨팅 장치 |
-
2016
- 2016-07-22 JP JP2016144948A patent/JP2018013742A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111899718A (zh) * | 2020-07-30 | 2020-11-06 | 北京字节跳动网络技术有限公司 | 用于识别合成语音的方法、装置、设备和介质 |
CN112562712A (zh) * | 2020-12-24 | 2021-03-26 | 上海明略人工智能(集团)有限公司 | 一种录音数据处理方法、系统、电子设备及存储介质 |
KR20230143808A (ko) * | 2022-04-06 | 2023-10-13 | 네이버 주식회사 | 음성 기록을 시각화하여 재연하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램 |
KR102616058B1 (ko) * | 2022-04-06 | 2023-12-21 | 네이버 주식회사 | 음성 기록을 시각화하여 재연하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램 |
WO2024005482A1 (ko) * | 2022-06-30 | 2024-01-04 | 삼성전자 주식회사 | 동영상에 포함된 객체별로 음원을 매칭시키는 방법 및 이를 수행하기 위한 컴퓨팅 장치 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Richey et al. | Voices obscured in complex environmental settings (voices) corpus | |
US7716048B2 (en) | Method and apparatus for segmentation of audio interactions | |
US9595259B2 (en) | Sound source-separating device and sound source-separating method | |
US9449613B2 (en) | Room identification using acoustic features in a recording | |
US20050182627A1 (en) | Audio signal processing apparatus and audio signal processing method | |
US20150310877A1 (en) | Conversation analysis device and conversation analysis method | |
JP2018013742A (ja) | 音声要約作成支援装置、音声要約作成支援方法、及び音声要約作成支援プログラム | |
CN102388416A (zh) | 信号处理装置及信号处理方法 | |
CN104123115A (zh) | 一种音频信息处理方法及电子设备 | |
JP2005532582A (ja) | 音響信号に音響クラスを割り当てる方法及び装置 | |
Kennedy et al. | Pitch-based emphasis detection for characterization of meeting recordings | |
JP2010032792A (ja) | 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体 | |
JP2008015443A (ja) | 雑音抑圧音声品質推定装置、方法およびプログラム | |
KR102296878B1 (ko) | 외국어 학습평가장치 | |
JP2010175684A (ja) | 通話状態判定装置、通話状態判定方法、プログラム、記録媒体 | |
KR20160108874A (ko) | 대화록 자동 생성 방법 및 장치 | |
CN103053173B (zh) | 兴趣区间确定装置、兴趣区间确定方法及兴趣区间确定集成电路 | |
Egas-López et al. | Deep neural network embeddings for the estimation of the degree of sleepiness | |
JP2017062307A (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
JP6409652B2 (ja) | カラオケ装置、プログラム | |
Edlund et al. | Utterance segmentation and turn-taking in spoken dialogue systems | |
JPWO2011062071A1 (ja) | 音響画像区間分類装置および方法 | |
US20230208966A1 (en) | Determination method, information processing apparatus, and computer-readable recording medium storing determination program | |
Xiao et al. | Overlapped speech detection using long-term spectro-temporal similarity in stereo recording | |
Skantze | A testbed for examining the timing of feedback using a map task |