JP5779032B2

JP5779032B2 - 話者分類装置、話者分類方法および話者分類プログラム

Info

Publication number: JP5779032B2
Application number: JP2011166071A
Authority: JP
Inventors: 朋男池田; 学永尾; 西山　修; 修西山; 鈴木　博和; 博和鈴木; 上野　晃嗣; 晃嗣上野; 信宏下郡
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2011-07-28
Filing date: 2011-07-28
Publication date: 2015-09-16
Anticipated expiration: 2031-07-28
Also published as: US20130030794A1; US9251808B2; JP2013029690A

Description

本発明の実施形態は、話者分類装置、話者分類方法および話者分類プログラムに関する。

会議の議事録作成を支援するために、収録された会議音声に含まれる発話を話者毎に分類することが要求される。会議音声から抽出した音響的な特徴（音響特徴量）を利用して、発話を話者毎に分類する技術は多数報告されている。例えば、各発話の音響特徴量と予め学習した多数の話者モデルとの類似度を計算し、この類似度のパターンを基に各発話を話者毎にクラスタリングする技術がある。

しかしながら、上述したような音響的な特徴のみを利用した方法では、背景雑音があるなど会議音声の音質が劣化した場合に、各発話を正確に分類することができなかった。

特開２０１０−６０８５０

秋田、河原、「多数話者モデルを用いた討論音声の教師なし話者インデキシング」、電子情報通信学会論文誌、２００４年２月１日、D-II、情報・システム、II-パターン処理 J87-D-II(2)、p.495-503.

発明が解決しようとする課題は、発話に含まれる言語的な特徴を利用して、音響的な特徴による誤分類を検出する話者分類装置を提供することである。

実施形態の話者分類装置は、実施形態の話者分類装置は、音響分類手段と、言語特徴抽出手段と、誤分類検出手段とを備える。音響分類手段は、入力された音響信号に含まれる発話を、前記音響信号から抽出した音響的な特徴を利用して話者毎に分類し分類結果を取得する。言語特徴抽出手段は、前記発話の内容を表す文字列を取得し、この文字列を利用して前記分類結果に含まれる話者の言語的な特徴を抽出する。誤分類検出手段は、前記発話の内容を表す文字列が、前記分類結果においてこの発話が分類された話者の前記言語的な特徴に適合するか否かを判別し、適合しない場合は、この発話は前記音響分類手段によって誤分類された発話であると判別する。

第１の実施形態の話者分類装置を示すブロック図。実施形態の話者分類装置のハードウェア構成を示す図。実施形態の言語特徴ルールを示す図。実施形態の話者分類装置のフローチャート。実施形態の発話の分割結果を示す図。実施形態の分類結果を示す図。実施形態の文字列を示す図。実施形態の言語的な特徴の候補を示す図。実施形態の各発話が適合した言語特徴ルールを示す図。実施形態の各言語特徴ルールに適合した発話数を示す図。実施形態の各話者の言語的な特徴を示す図。実施形態のユーザに提供する情報を示す図。実施形態のユーザに提供する情報を示す図。

以下、本発明の実施形態について図面を参照しながら説明する。

（第１の実施形態）
第１の実施形態の話者分類装置は、会議等で収録済みの音響信号中の発話を話者毎に分類する装置である。発話を話者毎に分類することにより、議事録作成者（ユーザ）が、収録済みの音響信号のうち所望の話者の発話のみを選択的に聞くことができる。これによりユーザは、同一話者による発話内容の整合性を確認したり、会話の流れを確認したりすることが可能になり、議事録作成をスムーズに進めることができる。

本実施形態の話者分類装置は、まず、入力された音響信号に含まれる発話を、この音響信号から抽出した音響的な特徴（例えば、ＭＦＣＣ）を利用して話者毎に分類し分類結果を得る。次に、各発話の音響信号を音声認識して、発話内容を表す文字列を取得する。そして、分類結果に含まれる各話者の言語的な特徴を抽出する。本実施形態の言語的な特徴としては、各話者が使用する一人称表現を表す文字列がある。この場合、ある話者（例えば、話者ＩＤ１）に分類された各発話の文字列から一人称表現（たとえば、「私は」、「僕は」など）を抽出する。そして、一人称表現毎の頻度をカウントし、頻度が所定閾値を超えるような一人称表現を話者ＩＤ１の言語的な特徴とする。

次に、話者分類装置は、各発話の文字列がこの発話が分類された話者の言語的な特徴に適合するか否かを判別する。適合しない発話は、音響的な特徴を利用した分類で誤分類された発話であると判別する。例えば、発話の文字列が「僕は・・・」であり、この発話が分類された話者の一人称表現に関する言語的な特徴が「私は」である場合は、言語的な特徴が適合しないため、この発話は音響的な特徴によって誤分類された発話であると判別する。

さらに、本実施形態の話者分類装置は、誤分類と判別された発話の文字列が、他の話者の言語的な特徴に適合するか否かを判別する。他の話者の言語的な特徴に適合する場合は、この発話を当該他の話者に分類する。

このように、本実実施形態の話者分類装置は、言語的な特徴を用いて、音響的な特徴を利用した分類によって誤分類された発話を判別する。また、言語的な特徴を用いて、音響的な特徴によって誤分類された発話が本来分類されるべき話者を判別する。これにより、背景雑音を含んだ発話のように音響的な特徴だけでは分類が難しい発話を、言語的な特徴を用いて正しい話者に分類することができる。

（ブロック構成）
図１は、第１の実施形態にかかる話者分類装置を示すブロック図である。本実施形態の話者分類装置は、入力された音響信号を発話毎に分割する発話分割部１０１と、音響的な特徴を利用して分割された発話を話者毎に分類し分類結果を取得する音響分類部１０２と、音声認識を利用して各発話の内容を表す文字列を取得する文字列変換部１０３と、分類結果に含まれる各話者について発話の内容を表す文字列を取得し、この文字列を利用して各話者の言語的な特徴を抽出する言語特徴抽出部１０４と、各発話の内容を表す文字列が、分類結果においてこの発話が分類された話者の言語的な特徴に適合するか否かを判別し、適合しない場合は、この発話は前記音響分類手段によって誤った話者に分類された発話であると判別する誤分類検出部１０５と、誤った話者に分類された発話と判別された発話の文字列が、他の話者の言語的な特徴に適合するか否かを判別し、適合した場合は、この発話はこの話者に属する発話であると判別する再分類判別部１０６と、話者分類装置による分類結果をユーザに適宜提示する表示部１０７とを備える。

（ハードウェア構成）
本実施形態の読み記号列編集装置は、図２に示すような通常のコンピュータを利用したハードウェアで構成されており、装置全体を制御するＣＰＵ（Central Processing Unit）等の制御部２０１と、各種データや各種プログラムを記憶するＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）等の記憶部２０２と、各種データや各種プログラムを記憶するＨＤＤ（Hard Disk Drive）やＣＤ（Compact Disk）ドライブ装置等の外部記憶部２０３と、ユーザの指示入力を受け付けるキーボードやマウスなどの操作部２０４と、外部装置との通信を制御する通信部２０５と、音声波形を再生して再生音を発生させるスピーカ２０６と、映像を表示するディスプレイ２０７と、これらを接続するバス２０８とを備えている。

このようなハードウェア構成において、制御部２０１がＲＯＭ等の記憶部２０２や外部記憶部２０３に記憶された各種プログラムを実行することにより以下の機能が実現される。

（各ブロックの機能）
発話分割部１０１は、入力された音響信号を発話毎に分割する。発話毎への分割には、エネルギーやスペクトル特徴量を使用した音声区間検出技術を用いる。議事録作成対象となる音響信号は、ＨＤＤ等の外部記憶部２０３から取得したり、通信部２０５を介してネットワークで接続された他の端末（図示なし）から取得したりすることができる。発話分割部１０１は、それぞれの発話について、「発話ＩＤ、開始時刻、終了時刻」を取得する。ここで、発話ＩＤは、各発話に付与される通し番号であり、先頭から１、２、３・・・のように付与する。開始時刻および終了時刻は、各発話の始端および終端位置が、音響信号のどの時刻に対応するかを現す時間情報である。例えば、「3、00:00:18、00:00:25」という結果は、３番目（ＩＤ３）の発話が音響信号の１８秒から２５秒の区間に含まれることを意味する。

音響分類部１０２は、音響信号から抽出した音響的な特徴を利用して、分割された発話を話者毎に分類する。音響特徴量としてはＭＦＣＣなどがある。特許文献１のように、ＨＤＤ等の外部記憶部２０３に予め多数の話者モデルを記憶しておき、この話者モデルと各発話から抽出したＭＦＣＣとを照合した結果である類似度のパターンを利用して、各発話を話者毎に分類することができる。音響分類部１０２は、それぞれの発話について、「話者ＩＤ、発話ＩＤ、開始時刻、終了時刻」の組を分類結果として出力する。ここで、話者ＩＤは、話者を識別するための識別子であり、各発話がどの話者に分類されたかを表す。発話ＩＤ、開始時刻および終了時刻には、発話分割部１０１の結果を用いる。

文字列変換部１０３は、音声認識を利用して各発話の内容を表す文字列を取得する。音声認識にはＭＦＣＣなどの音響特徴量を利用することができ、ＭＦＣＣとの照合に利用する音響モデル／言語モデルはＨＤＤ等の外部記憶部２０３に予め記憶しておく。文字列変換部１０３は、各発話について「発話ＩＤ、文字列」の組を出力する。ここで、文字列は各発話ＩＤの認識結果を表している。

言語特徴抽出部１０４は、音響分類部１０２の分類結果に含まれる各話者について、発話の内容を表す文字列を取得し、この文字列を利用して各話者の言語的な特徴を抽出する。具体的には、ある話者ＩＤに分類された発話について、予め決められた言語特徴ルールがその発話の文字列に適合するか否かを判別する。言語特徴ルールは、過去の議事録データの形態素解析結果や一般的な辞書の内容から着目する表現（一人称表現など）を抽出することで作成できる。この他にも、人手で言語特徴ルールを作成してもよい。本実施形態において「適合」とは、文字列が一致することを意味する。

本実施形態では、言語特徴ルールとして、「一人称ルール」と「文末ルール」の２種類のルールを用いる。図３に、言語特徴ルールを示す。例えば、ある話者ＩＤに分類された発話の文字列が「私もそう思います。」であった場合、言語特徴ルールとの文字列マッチの結果、この発話の文字列は、一人称ルールＩＤ１と文末ルールＩＤ１の文字列と適合する。以上の処理を同一の話者ＩＤに分類された他の発話についても行う。そして、各話者について同一の言語特徴ルール（一人称ルールもしくは文末ルール）に適合する発話の数をカウントし、その数が所定の閾値を超えた場合にこの言語特徴ルールを話者の言語的な特徴とする。具体的な処理は、後述のフローチャートで説明する。なお、言語特徴ルールは、ＨＤＤ等の外部記憶部２０３に記憶しておく。

誤分類検出部１０５は、各発話の文字列が、音響分類部１０２の分類結果においてこの発話が分類された話者の言語的な特徴に適合するか否かを判別する。そして、適合しない場合は、この発話は音響分類部１０２によって誤って分類された発話であると判別する。例えば、ある話者ＩＤに分類された発話の文字列が「私もそう思います。」であり、この話者ＩＤの一人称ルールに関する言語的な特徴が図３(a)の一人称ルールＩＤ２（「僕」もしくは「ぼく」）であった場合を考える。この発話の文字列は一人称ルールＩＤ２の文字列に適合しないことから、この発話は音響分類部１０２によって誤分類された発話と判別する。具体的な処理は、後述のフローチャートで説明する。

再分類判別部１０６は、誤分類検出部１０５によって誤分類と判別された発話が、他の話者ＩＤに属するか否かを判別する。具体的には、誤分類と判別された発話の文字列が、他の話者ＩＤの言語的な特徴に適合するか否かを判別する。適合する他の話者ＩＤがある場合は、この話者ＩＤを正しい分類先の候補として出力する。例えば、誤分類と判別された発話の文字列が「私もそう思います。」である場合は、図３の一人称ルールＩＤ１および文末ルールＩＤ１を言語的な特徴として有する話者を正しい分類先候補とする。

表示部１０７は、ディスプレイ２０７を介して話者分類装置による処理結果を適宜ユーザに提示する。

（フローチャート）
図４は、本実施形態にかかる話者分類装置の動作を示すフローチャートである。

ステップＳ４０１では、発話分割部１０１は、入力された音響信号を発話毎に分割する。図５は、発話分割部１０１による分割結果を表している。

ステップＳ４０２では、音響分類部１０２は、音響的な特徴を利用して、ステップＳ４０１で分割された発話を話者毎に分類する。図６は、音響分類部１０２による分類結果を表している。

ステップＳ４０３では、文字列変換部１０３は、分割された各発話の音響信号を音声認識して発話の内容を表す文字列を取得する。図７は、文字列変換部１０３によって取得された各発話の文字列を表している。

ステップＳ４０４では、言語特徴抽出部１０４は、言語的な特徴を抽出する話者を一人選択する。ここでは、話者ＩＤ１、話者ＩＤ２・・・の順番で言語的な特徴を抽出する。

ステップＳ４０５では、言語特徴抽出部１０４は、ステップＳ４０４で選択された話者に分類された発話を発話ＩＤが小さなものから順次取得する。図６の分類結果より、話者ＩＤ１に分類された発話は、発話ＩＤ１、３、５である。ここでは、まず発話ＩＤ１の発話を取得する。

ステップＳ４０６では、言語特徴抽出部１０４は、ステップＳ４０５で取得された発話の文字列が予め記憶した一人称ルールに適合するか否かを判別する。適合する場合はステップＳ４０７へ、適合しない場合はステップＳ４０８へ移行する。図７より、発話ＩＤ１の文字列は「まずは私から説明します。」である。一人称として「私」を含むことから、図３(a)の一人称ルールと文字列マッチングを行うと、一人称ルールＩＤ１が適合する。

ステップＳ４０７では、言語特徴抽出部１０４は、選択された発話が分類された話者の言語的な特徴の候補に、ステップＳ４０６で適合した一人称ルールＩＤを記憶する。図８に、発話ＩＤ１、３、５の発話について記憶した一人称ルールを示す。

ステップＳ４０８では、言語特徴抽出部１０４は、ステップＳ４０５で取得された発話の文字列が予め記憶した文末ルールに適合するか否かを判別する。適合する場合は、ステップＳ４０９へ、適合しない場合はステップＳ４１０へ移行する。発話ＩＤ１の場合、「ます。」が文末表現として含まれることから、図３(b)の文末ルールＩＤ１が適合する。

ステップＳ４０９では、言語特徴抽出部１０４は、選択された発話が分類された話者の言語的な特徴の候補にステップＳ４０８で適合した文末ルールＩＤを記憶する。図８に、発話ＩＤ１、３、５の発話について記憶した文末ルールを示す。

ステップＳ４１０では、言語特徴抽出部１０４は、ステップＳ４０４で選択された話者に分類された全ての発話について処理が終了したか否かを判別する。終了していない場合はステップＳ４０５へ移行し、他の発話について処理を行う。終了している場合はステップＳ４１１へ移行する。

ステップＳ４１１では、言語特徴抽出部１０４は、全ての話者について処理が終了したか否かを判別する。終了していない場合はステップＳ４０４へ移行し、他の話者について処理を行う。終了している場合はステップＳ４１２へ移行する。

ステップＳ４１２では、言語特徴抽出部１０４は、各話者の言語的な特徴を抽出する。具体的には、ステップＳ４０７およびステップＳ４０９で記憶された一人称ルールおよび文末ルールから最終的に話者の言語的な特徴とするものを決定する。図９に、言語的な特徴の候補として記憶された一人称ルールおよび文末ルールを示す。

まず、言語特徴抽出部１０４は、図９の言語的な特徴の候補に関する情報から図１０に示すように各話者ＩＤについて適合した一人称ルールおよび文末ルールの数をカウントする。ここで、「発話数」は各話者ＩＤに分類された発話総数を、「一人称ルールの適合発話数」および「文末ルールの適合発話数」は各ルールに適合した発話数を表している。

次に、各ルールに適合した発話数が所定閾値を超えるような一人称ルールもしくは文末ルールを各話者の言語的な特徴として抽出する。ここでは、同一ルール内（例えば、一人称ルールＩＤ１〜ＩＤ３）における適合発話数が最大であり、かつ適合発話数を各話者ＩＤの発話数で正規化した値が閾値０．５以上になるようなルールを言語的な特徴として選択する。例えば、話者ＩＤ１の一人称ルールの場合、一人称ルールＩＤ１が最大の適合発話数（２）を示しており、かつ、話者ＩＤ１の発話数で正規化した値（２／３）は閾値０．５以上になる。したがって、話者ＩＤ１の言語的な特徴として、一人称ルールＩＤ１が選択される。文末ルールについても同様な処理を適用する。以上の処理を全ての話者について実行することにより、図１１に示すような話者毎の言語的な特徴を抽出できる。

次に、本実施形態の話者分類装置は、ステップＳ４１２で抽出された話者毎の言語的な特徴を利用して、音響的な特徴によって誤分類された発話を判別する。

ステップＳ４１３では、誤分類検出部１０５は、発話を１つ選択する。ここでは発話ＩＤの小さな発話から順に選択する。

ステップＳ４１４では、誤分類検出部１０５は、選択された発話の文字列がこの発話が分類された話者ＩＤの言語的な特徴に適合するか否かを判別する。適合する場合はステップＳ４１６へ、適合しない場合はステップＳ４１５へ移行する。例えば、図９より発話ＩＤ５は、話者ＩＤ１の発話として分類されている。発話ＩＤ５の文字列「僕はその意見には反対だ。」と図１１の話者ＩＤ１の言語的な特徴（一人称ルールＩＤ１および文末ルールＩＤ１）を文字列マッチングで比較すると、一人称ルールおよび文末ルールともに適合しないことが分かる。したがって、発話ＩＤ５は、音響的な特徴を使った音響分類部１０２によって誤分類された発話であると判別する。なお、本実施形態では、一人称ルールおよび文末ルールともに適合しない場合、その発話は誤って分類されたものと判別する。この他にも、一人称ルールおよび文末ルールのどちらかが適合しない場合に、誤分類された発話であると判別することもできる。

ステップＳ４１５では、再分類判別部１０６は、ステップＳ４１４で誤分類と判別された発話が本来属すべき話者を言語的な特徴を用いて判別する。具体的には、この発話の文字列が、音響分類部１０２によって分類された話者以外の他の話者の言語的な特徴に適合するか否かを判別し、適合した場合、この発話は他の話者に分類される発話であると判別する。発話ＩＤ５の場合、「僕はその意見には反対だ。」の一人称は「僕は」、文末表現は「だ。」である。これらの文字列と他の話者（話者ＩＤ２および話者ＩＤ３）の言語的な特徴を比較すると、発話ＩＤ５の文字列は話者ＩＤ３の言語的な特徴（一人称ルールＩＤ２および文末ルールＩＤ２）に適合する。したがって、発話ＩＤ５は、話者ＩＤ３に分類されるべき発話であると判別する。なお、本実施形態では、一人称ルールおよび文末ルールのどちらも適合した場合に再分類したが、どちらか一方が適合した場合に再分類するようにしてもよい。

なお、本実施形態のステップＳ４１４およびステップＳ４１５では、発話の文字列と言語的な特徴の文字列マッチングを行ったが、ステップＳ４０７、Ｓ４０９で抽出された各発話が適合する一人称ルールおよび文末ルール（図９）を用いて、各話者の言語的な特徴との適合性を判別してもよい。

ステップＳ４１６では、全ての発話について処理が終わったか否かを判別する。終わっている場合はステップＳ４１７へ、終わっていない場合はステップＳ４１３へ移行する。

ステップＳ４１７では、表示部１０７は、音響分類部１０２による分類結果および再分類判別部１０６による再分類の結果を、ディスプレイ２０７を介してユーザに提示する。図１２に、ディスプレイ２０７に表示された画面の一例を示す。この図は、音響分類部１０２による分類結果を表している。「話者情報」は話者ＩＤを表しており、この例では「話者ＩＤ１」は「話者１」と表示される。「発話内容」は音声認識によって取得された各発話の文字列を表している。図中の１２０１はカーソルを表しており、キーボードやマウスなどの操作部２０４によりフォーカスを変更することができる。１２０２は再生ボタンであり、このボタンを押下するとカーソル１２０１がフォーカスしている発話がスピーカ２０６から再生される。これにより、ユーザは、発話を聞いて音声認識の誤りを人手で修正することができる。また、各発話に話者情報が付与されていることから、収録済みの音響信号のうち所望の話者の発話のみを選択的に聞くことができる。これによりユーザは、同一話者による発話内容の整合性を確認したり、会話の流れを確認したりすることが可能になり、議事録作成をスムーズに進めることができる。

図１２において、文字列に下線が引かれた発話１２０３は、誤分類検出部１０５によって誤分類と判別された発話である。ユーザがこの発話を選択し、操作部２０４を介して所望の操作をすることにより、図１３の１２０４ように再分類判別部１０６での再分類結果をドロップダウンリストで表示させることができる。この例では、ステップＳ４１５の再分類判別部１０６によって、発話ＩＤ５は話者ＩＤ３に再分類されていることから、「話者３」が候補として表示される。ユーザは、再生ボタン１２０２を押下して発話の音声を聞いた後に、最終的にこの発話を話者１に分類するか話者３に分類するかを、操作部２０４を介して話者分類装置に指示することができる。

最後に、ステップＳ４１８では、ステップＳ４１７におけるユーザからの指示を取得し、最終的な話者分類を確定する。図１３において、ユーザが発話ＩＤ５の話者を話者３に変更した場合、音響分類装置は発話ＩＤ５の話者は話者ＩＤ３であるとして確定する。確定した話者分類の結果は、ＨＤＤ等の外部記憶部２０３に記憶する。

（効果）
このように、本実実施形態の話者分類装置は、言語的な特徴を用いて、音響的な特徴を利用した分類によって誤分類された発話を判別する。また、言語的な特徴を用いて、音響的な特徴によって誤分類された発話が本来分類されるべき話者を判別する。これにより、背景雑音を含んだ発話のように音響的な特徴だけでは分類が難しい発話を、言語的な特徴を用いて正しい話者に分類することができる。

また、本実施形態の話者分類装置は、発話の内容を表す文字列を取得し、この文字列を利用して各話者の言語的な特徴を抽出する。これにより、各話者の言語的な特徴を予め登録しておく必要がなくなる。

（変形例１）
本実施形態では、ステップＳ４１５における分類結果をユーザに提示し、最終的な話者はユーザが選択する構成であったが、再分類判別部１０６の話者分類の結果を最終的な分類結果として確定することもできる。

また、本実施形態では、発話の文字列を音声認識で取得したが、人手で付与した文字列を発話の文字列として利用することもできる。これにより、音声認識による誤りを回避することができ、話者別の言語的な特徴をより正確に抽出できる。この場合、音響信号を話者別に分類する話者インデキシング等にも本実施形態を適用することができる。

なお、以上説明した本実施形態における一部機能もしくは全ての機能は、ソフトウェア処理により実現可能である。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０１発話分割部
１０２音響分類部
１０３文字列変換部
１０４言語特徴抽出部
１０５誤分類検出部
１０６再分類判別部
１０７表示部
２０１制御部
２０２記憶部
２０３外部記憶部
２０４操作部
２０５通信部
２０６スピーカ
２０７ディスプレイ
２０８バス
１２０１カーソル
１２０２再生ボタン
１２０３発話内容
１２０４ドロップダウンリスト

Claims

入力された音響信号に含まれる発話を、前記音響信号から抽出した音響的な特徴を利用して話者毎に分類し分類結果を取得する音響分類手段と、
前記発話の内容を表す文字列を取得し、この文字列を利用して前記分類結果に含まれる話者の言語的な特徴を一人称ルール及び文末ルールを用いて抽出する言語特徴抽出手段と、
前記発話の内容を表す文字列が、前記分類結果においてこの発話が分類された話者の前記言語的な特徴に適合するか否かを判別し、適合しない場合は、この発話は前記音響分類手段によって誤分類された発話であると判別する誤分類検出手段と、
を備える話者分類装置。
前記誤分類検出手段によって誤分類と判別された発話の文字列が、前記分類結果においてこの発話が分類された話者以外の他の話者の言語的な特徴に適合するか否かを判別し、適合した場合は、この発話は前記他の話者に分類されるべき発話であると判別する再分類判別手段を更に備える請求項１記載の話者分類装置。
前記言語特徴抽出手段が、予め記憶した前記一人称ルール及び前記文末ルールと各話者の前記発話の内容を表す文字列とが適合するか否かを判別し、適合する発話の数が所定閾値を超えるルールを前記話者の言語的な特徴とする請求項１乃至請求項２記載の話者分類装置。
前記入力された音響信号に含まれる発話を音声認識して文字列に変換する文字列変換手段を更に備え、
前記発話の内容を表す文字列が、前記文字列変換手段で変換された文字列である請求項１から請求項３の何れか１項に記載の話者分類装置。
前記音響分類手段の分類結果もしくは前記再分類判別手段での判別結果を表示する表示手段を更に備える請求項２記載の話者分類装置。
入力された音響信号に含まれる発話を、前記音響信号から抽出した音響的な特徴を利用して話者毎に分類し分類結果を取得する音響分類工程と、
前記発話の内容を表す文字列を取得し、この文字列を利用して前記分類結果に含まれる話者の言語的な特徴を一人称ルール及び文末ルールを用いて抽出する言語特徴抽出工程と、
前記発話の内容を表す文字列が、前記分類結果においてこの発話が分類された話者の前記言語的な特徴に適合するか否かを判別し、適合しない場合は、この発話は前記音響分類工程によって誤分類された発話であると判別する誤分類検出工程と、
を備える話者分類方法。
話者分類装置に、
入力された音響信号に含まれる発話を、前記音響信号から抽出した音響的な特徴を利用して話者毎に分類し分類結果を取得する音響分類工程と、
前記発話の内容を表す文字列を取得し、この文字列を利用して前記分類結果に含まれる話者の言語的な特徴を一人称ルール及び文末ルールを用いて抽出する言語特徴抽出工程と、
前記発話の内容を表す文字列が、前記分類結果においてこの発話が分類された話者の前記言語的な特徴に適合するか否かを判別し、適合しない場合は、この発話は前記音響分類工程によって誤分類された発話であると判別する誤分類検出工程と、
を実現させるための話者分類プログラム。