JP5779032B2 - 話者分類装置、話者分類方法および話者分類プログラム - Google Patents

話者分類装置、話者分類方法および話者分類プログラム Download PDF

Info

Publication number
JP5779032B2
JP5779032B2 JP2011166071A JP2011166071A JP5779032B2 JP 5779032 B2 JP5779032 B2 JP 5779032B2 JP 2011166071 A JP2011166071 A JP 2011166071A JP 2011166071 A JP2011166071 A JP 2011166071A JP 5779032 B2 JP5779032 B2 JP 5779032B2
Authority
JP
Japan
Prior art keywords
speaker
utterance
classification
character string
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011166071A
Other languages
English (en)
Other versions
JP2013029690A (ja
Inventor
朋男 池田
朋男 池田
学 永尾
学 永尾
西山 修
修 西山
鈴木 博和
博和 鈴木
上野 晃嗣
晃嗣 上野
信宏 下郡
信宏 下郡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2011166071A priority Critical patent/JP5779032B2/ja
Priority to US13/412,694 priority patent/US9251808B2/en
Publication of JP2013029690A publication Critical patent/JP2013029690A/ja
Application granted granted Critical
Publication of JP5779032B2 publication Critical patent/JP5779032B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明の実施形態は、話者分類装置、話者分類方法および話者分類プログラムに関する。
会議の議事録作成を支援するために、収録された会議音声に含まれる発話を話者毎に分類することが要求される。会議音声から抽出した音響的な特徴(音響特徴量)を利用して、発話を話者毎に分類する技術は多数報告されている。例えば、各発話の音響特徴量と予め学習した多数の話者モデルとの類似度を計算し、この類似度のパターンを基に各発話を話者毎にクラスタリングする技術がある。
しかしながら、上述したような音響的な特徴のみを利用した方法では、背景雑音があるなど会議音声の音質が劣化した場合に、各発話を正確に分類することができなかった。
特開2010−60850
秋田、河原、「多数話者モデルを用いた討論音声の教師なし話者インデキシング」、電子情報通信学会論文誌、2004年2月1日、D-II、情報・システム、II-パターン処理 J87-D-II(2)、p.495-503.
発明が解決しようとする課題は、発話に含まれる言語的な特徴を利用して、音響的な特徴による誤分類を検出する話者分類装置を提供することである。
実施形態の話者分類装置は、実施形態の話者分類装置は、音響分類手段と、言語特徴抽出手段と、誤分類検出手段とを備える。音響分類手段は、入力された音響信号に含まれる発話を、前記音響信号から抽出した音響的な特徴を利用して話者毎に分類し分類結果を取得する。言語特徴抽出手段は、前記発話の内容を表す文字列を取得し、この文字列を利用して前記分類結果に含まれる話者の言語的な特徴を抽出する。誤分類検出手段は、前記発話の内容を表す文字列が、前記分類結果においてこの発話が分類された話者の前記言語的な特徴に適合するか否かを判別し、適合しない場合は、この発話は前記音響分類手段によって誤分類された発話であると判別する。
第1の実施形態の話者分類装置を示すブロック図。 実施形態の話者分類装置のハードウェア構成を示す図。 実施形態の言語特徴ルールを示す図。 実施形態の話者分類装置のフローチャート。 実施形態の発話の分割結果を示す図。 実施形態の分類結果を示す図。 実施形態の文字列を示す図。 実施形態の言語的な特徴の候補を示す図。 実施形態の各発話が適合した言語特徴ルールを示す図。 実施形態の各言語特徴ルールに適合した発話数を示す図。 実施形態の各話者の言語的な特徴を示す図。 実施形態のユーザに提供する情報を示す図。 実施形態のユーザに提供する情報を示す図。
以下、本発明の実施形態について図面を参照しながら説明する。
(第1の実施形態)
第1の実施形態の話者分類装置は、会議等で収録済みの音響信号中の発話を話者毎に分類する装置である。発話を話者毎に分類することにより、議事録作成者(ユーザ)が、収録済みの音響信号のうち所望の話者の発話のみを選択的に聞くことができる。これによりユーザは、同一話者による発話内容の整合性を確認したり、会話の流れを確認したりすることが可能になり、議事録作成をスムーズに進めることができる。
本実施形態の話者分類装置は、まず、入力された音響信号に含まれる発話を、この音響信号から抽出した音響的な特徴(例えば、MFCC)を利用して話者毎に分類し分類結果を得る。次に、各発話の音響信号を音声認識して、発話内容を表す文字列を取得する。そして、分類結果に含まれる各話者の言語的な特徴を抽出する。本実施形態の言語的な特徴としては、各話者が使用する一人称表現を表す文字列がある。この場合、ある話者(例えば、話者ID1)に分類された各発話の文字列から一人称表現(たとえば、「私は」、「僕は」など)を抽出する。そして、一人称表現毎の頻度をカウントし、頻度が所定閾値を超えるような一人称表現を話者ID1の言語的な特徴とする。
次に、話者分類装置は、各発話の文字列がこの発話が分類された話者の言語的な特徴に適合するか否かを判別する。適合しない発話は、音響的な特徴を利用した分類で誤分類された発話であると判別する。例えば、発話の文字列が「僕は・・・」であり、この発話が分類された話者の一人称表現に関する言語的な特徴が「私は」である場合は、言語的な特徴が適合しないため、この発話は音響的な特徴によって誤分類された発話であると判別する。
さらに、本実施形態の話者分類装置は、誤分類と判別された発話の文字列が、他の話者の言語的な特徴に適合するか否かを判別する。他の話者の言語的な特徴に適合する場合は、この発話を当該他の話者に分類する。
このように、本実実施形態の話者分類装置は、言語的な特徴を用いて、音響的な特徴を利用した分類によって誤分類された発話を判別する。また、言語的な特徴を用いて、音響的な特徴によって誤分類された発話が本来分類されるべき話者を判別する。これにより、背景雑音を含んだ発話のように音響的な特徴だけでは分類が難しい発話を、言語的な特徴を用いて正しい話者に分類することができる。
(ブロック構成)
図1は、第1の実施形態にかかる話者分類装置を示すブロック図である。本実施形態の話者分類装置は、入力された音響信号を発話毎に分割する発話分割部101と、音響的な特徴を利用して分割された発話を話者毎に分類し分類結果を取得する音響分類部102と、音声認識を利用して各発話の内容を表す文字列を取得する文字列変換部103と、分類結果に含まれる各話者について発話の内容を表す文字列を取得し、この文字列を利用して各話者の言語的な特徴を抽出する言語特徴抽出部104と、各発話の内容を表す文字列が、分類結果においてこの発話が分類された話者の言語的な特徴に適合するか否かを判別し、適合しない場合は、この発話は前記音響分類手段によって誤った話者に分類された発話であると判別する誤分類検出部105と、誤った話者に分類された発話と判別された発話の文字列が、他の話者の言語的な特徴に適合するか否かを判別し、適合した場合は、この発話はこの話者に属する発話であると判別する再分類判別部106と、話者分類装置による分類結果をユーザに適宜提示する表示部107とを備える。
(ハードウェア構成)
本実施形態の読み記号列編集装置は、図2に示すような通常のコンピュータを利用したハードウェアで構成されており、装置全体を制御するCPU(Central Processing Unit)等の制御部201と、各種データや各種プログラムを記憶するROM(Read Only Memory)やRAM(Random Access Memory)等の記憶部202と、各種データや各種プログラムを記憶するHDD(Hard Disk Drive)やCD(Compact Disk)ドライブ装置等の外部記憶部203と、ユーザの指示入力を受け付けるキーボードやマウスなどの操作部204と、外部装置との通信を制御する通信部205と、音声波形を再生して再生音を発生させるスピーカ206と、映像を表示するディスプレイ207と、これらを接続するバス208とを備えている。
このようなハードウェア構成において、制御部201がROM等の記憶部202や外部記憶部203に記憶された各種プログラムを実行することにより以下の機能が実現される。
(各ブロックの機能)
発話分割部101は、入力された音響信号を発話毎に分割する。発話毎への分割には、エネルギーやスペクトル特徴量を使用した音声区間検出技術を用いる。議事録作成対象となる音響信号は、HDD等の外部記憶部203から取得したり、通信部205を介してネットワークで接続された他の端末(図示なし)から取得したりすることができる。発話分割部101は、それぞれの発話について、「発話ID、開始時刻、終了時刻」を取得する。ここで、発話IDは、各発話に付与される通し番号であり、先頭から1、2、3・・・のように付与する。開始時刻および終了時刻は、各発話の始端および終端位置が、音響信号のどの時刻に対応するかを現す時間情報である。例えば、「3、00:00:18、00:00:25」という結果は、3番目(ID3)の発話が音響信号の18秒から25秒の区間に含まれることを意味する。
音響分類部102は、音響信号から抽出した音響的な特徴を利用して、分割された発話を話者毎に分類する。音響特徴量としてはMFCCなどがある。特許文献1のように、HDD等の外部記憶部203に予め多数の話者モデルを記憶しておき、この話者モデルと各発話から抽出したMFCCとを照合した結果である類似度のパターンを利用して、各発話を話者毎に分類することができる。音響分類部102は、それぞれの発話について、「話者ID、発話ID、開始時刻、終了時刻」の組を分類結果として出力する。ここで、話者IDは、話者を識別するための識別子であり、各発話がどの話者に分類されたかを表す。発話ID、開始時刻および終了時刻には、発話分割部101の結果を用いる。
文字列変換部103は、音声認識を利用して各発話の内容を表す文字列を取得する。音声認識にはMFCCなどの音響特徴量を利用することができ、MFCCとの照合に利用する音響モデル/言語モデルはHDD等の外部記憶部203に予め記憶しておく。文字列変換部103は、各発話について「発話ID、文字列」の組を出力する。ここで、文字列は各発話IDの認識結果を表している。
言語特徴抽出部104は、音響分類部102の分類結果に含まれる各話者について、発話の内容を表す文字列を取得し、この文字列を利用して各話者の言語的な特徴を抽出する。具体的には、ある話者IDに分類された発話について、予め決められた言語特徴ルールがその発話の文字列に適合するか否かを判別する。言語特徴ルールは、過去の議事録データの形態素解析結果や一般的な辞書の内容から着目する表現(一人称表現など)を抽出することで作成できる。この他にも、人手で言語特徴ルールを作成してもよい。本実施形態において「適合」とは、文字列が一致することを意味する。
本実施形態では、言語特徴ルールとして、「一人称ルール」と「文末ルール」の2種類のルールを用いる。図3に、言語特徴ルールを示す。例えば、ある話者IDに分類された発話の文字列が「私もそう思います。」であった場合、言語特徴ルールとの文字列マッチの結果、この発話の文字列は、一人称ルールID1と文末ルールID1の文字列と適合する。以上の処理を同一の話者IDに分類された他の発話についても行う。そして、各話者について同一の言語特徴ルール(一人称ルールもしくは文末ルール)に適合する発話の数をカウントし、その数が所定の閾値を超えた場合にこの言語特徴ルールを話者の言語的な特徴とする。具体的な処理は、後述のフローチャートで説明する。なお、言語特徴ルールは、HDD等の外部記憶部203に記憶しておく。
誤分類検出部105は、各発話の文字列が、音響分類部102の分類結果においてこの発話が分類された話者の言語的な特徴に適合するか否かを判別する。そして、適合しない場合は、この発話は音響分類部102によって誤って分類された発話であると判別する。例えば、ある話者IDに分類された発話の文字列が「私もそう思います。」であり、この話者IDの一人称ルールに関する言語的な特徴が図3(a)の一人称ルールID2(「僕」もしくは「ぼく」)であった場合を考える。この発話の文字列は一人称ルールID2の文字列に適合しないことから、この発話は音響分類部102によって誤分類された発話と判別する。具体的な処理は、後述のフローチャートで説明する。
再分類判別部106は、誤分類検出部105によって誤分類と判別された発話が、他の話者IDに属するか否かを判別する。具体的には、誤分類と判別された発話の文字列が、他の話者IDの言語的な特徴に適合するか否かを判別する。適合する他の話者IDがある場合は、この話者IDを正しい分類先の候補として出力する。例えば、誤分類と判別された発話の文字列が「私もそう思います。」である場合は、図3の一人称ルールID1および文末ルールID1を言語的な特徴として有する話者を正しい分類先候補とする。
表示部107は、ディスプレイ207を介して話者分類装置による処理結果を適宜ユーザに提示する。
(フローチャート)
図4は、本実施形態にかかる話者分類装置の動作を示すフローチャートである。
ステップS401では、発話分割部101は、入力された音響信号を発話毎に分割する。図5は、発話分割部101による分割結果を表している。
ステップS402では、音響分類部102は、音響的な特徴を利用して、ステップS401で分割された発話を話者毎に分類する。図6は、音響分類部102による分類結果を表している。
ステップS403では、文字列変換部103は、分割された各発話の音響信号を音声認識して発話の内容を表す文字列を取得する。図7は、文字列変換部103によって取得された各発話の文字列を表している。
ステップS404では、言語特徴抽出部104は、言語的な特徴を抽出する話者を一人選択する。ここでは、話者ID1、話者ID2・・・の順番で言語的な特徴を抽出する。
ステップS405では、言語特徴抽出部104は、ステップS404で選択された話者に分類された発話を発話IDが小さなものから順次取得する。図6の分類結果より、話者ID1に分類された発話は、発話ID1、3、5である。ここでは、まず発話ID1の発話を取得する。
ステップS406では、言語特徴抽出部104は、ステップS405で取得された発話の文字列が予め記憶した一人称ルールに適合するか否かを判別する。適合する場合はステップS407へ、適合しない場合はステップS408へ移行する。図7より、発話ID1の文字列は「まずは私から説明します。」である。一人称として「私」を含むことから、図3(a)の一人称ルールと文字列マッチングを行うと、一人称ルールID1が適合する。
ステップS407では、言語特徴抽出部104は、選択された発話が分類された話者の言語的な特徴の候補に、ステップS406で適合した一人称ルールIDを記憶する。図8に、発話ID1、3、5の発話について記憶した一人称ルールを示す。
ステップS408では、言語特徴抽出部104は、ステップS405で取得された発話の文字列が予め記憶した文末ルールに適合するか否かを判別する。適合する場合は、ステップS409へ、適合しない場合はステップS410へ移行する。発話ID1の場合、「ます。」が文末表現として含まれることから、図3(b)の文末ルールID1が適合する。
ステップS409では、言語特徴抽出部104は、選択された発話が分類された話者の言語的な特徴の候補にステップS408で適合した文末ルールIDを記憶する。図8に、発話ID1、3、5の発話について記憶した文末ルールを示す。
ステップS410では、言語特徴抽出部104は、ステップS404で選択された話者に分類された全ての発話について処理が終了したか否かを判別する。終了していない場合はステップS405へ移行し、他の発話について処理を行う。終了している場合はステップS411へ移行する。
ステップS411では、言語特徴抽出部104は、全ての話者について処理が終了したか否かを判別する。終了していない場合はステップS404へ移行し、他の話者について処理を行う。終了している場合はステップS412へ移行する。
ステップS412では、言語特徴抽出部104は、各話者の言語的な特徴を抽出する。具体的には、ステップS407およびステップS409で記憶された一人称ルールおよび文末ルールから最終的に話者の言語的な特徴とするものを決定する。図9に、言語的な特徴の候補として記憶された一人称ルールおよび文末ルールを示す。
まず、言語特徴抽出部104は、図9の言語的な特徴の候補に関する情報から図10に示すように各話者IDについて適合した一人称ルールおよび文末ルールの数をカウントする。ここで、「発話数」は各話者IDに分類された発話総数を、「一人称ルールの適合発話数」および「文末ルールの適合発話数」は各ルールに適合した発話数を表している。
次に、各ルールに適合した発話数が所定閾値を超えるような一人称ルールもしくは文末ルールを各話者の言語的な特徴として抽出する。ここでは、同一ルール内(例えば、一人称ルールID1〜ID3)における適合発話数が最大であり、かつ適合発話数を各話者IDの発話数で正規化した値が閾値0.5以上になるようなルールを言語的な特徴として選択する。例えば、話者ID1の一人称ルールの場合、一人称ルールID1が最大の適合発話数(2)を示しており、かつ、話者ID1の発話数で正規化した値(2/3)は閾値0.5以上になる。したがって、話者ID1の言語的な特徴として、一人称ルールID1が選択される。文末ルールについても同様な処理を適用する。以上の処理を全ての話者について実行することにより、図11に示すような話者毎の言語的な特徴を抽出できる。
次に、本実施形態の話者分類装置は、ステップS412で抽出された話者毎の言語的な特徴を利用して、音響的な特徴によって誤分類された発話を判別する。
ステップS413では、誤分類検出部105は、発話を1つ選択する。ここでは発話IDの小さな発話から順に選択する。
ステップS414では、誤分類検出部105は、選択された発話の文字列がこの発話が分類された話者IDの言語的な特徴に適合するか否かを判別する。適合する場合はステップS416へ、適合しない場合はステップS415へ移行する。例えば、図9より発話ID5は、話者ID1の発話として分類されている。発話ID5の文字列「僕はその意見には反対だ。」と図11の話者ID1の言語的な特徴(一人称ルールID1および文末ルールID1)を文字列マッチングで比較すると、一人称ルールおよび文末ルールともに適合しないことが分かる。したがって、発話ID5は、音響的な特徴を使った音響分類部102によって誤分類された発話であると判別する。なお、本実施形態では、一人称ルールおよび文末ルールともに適合しない場合、その発話は誤って分類されたものと判別する。この他にも、一人称ルールおよび文末ルールのどちらかが適合しない場合に、誤分類された発話であると判別することもできる。
ステップS415では、再分類判別部106は、ステップS414で誤分類と判別された発話が本来属すべき話者を言語的な特徴を用いて判別する。具体的には、この発話の文字列が、音響分類部102によって分類された話者以外の他の話者の言語的な特徴に適合するか否かを判別し、適合した場合、この発話は他の話者に分類される発話であると判別する。発話ID5の場合、「僕はその意見には反対だ。」の一人称は「僕は」、文末表現は「だ。」である。これらの文字列と他の話者(話者ID2および話者ID3)の言語的な特徴を比較すると、発話ID5の文字列は話者ID3の言語的な特徴(一人称ルールID2および文末ルールID2)に適合する。したがって、発話ID5は、話者ID3に分類されるべき発話であると判別する。なお、本実施形態では、一人称ルールおよび文末ルールのどちらも適合した場合に再分類したが、どちらか一方が適合した場合に再分類するようにしてもよい。
このように、本実実施形態の話者分類装置は、言語的な特徴を用いて、音響的な特徴を利用した分類によって誤分類された発話を判別する。また、言語的な特徴を用いて、音響的な特徴によって誤分類された発話が本来分類されるべき話者を判別する。これにより、背景雑音を含んだ発話のように音響的な特徴だけでは分類が難しい発話を、言語的な特徴を用いて正しい話者に分類することができる。
なお、本実施形態のステップS414およびステップS415では、発話の文字列と言語的な特徴の文字列マッチングを行ったが、ステップS407、S409で抽出された各発話が適合する一人称ルールおよび文末ルール(図9)を用いて、各話者の言語的な特徴との適合性を判別してもよい。
ステップS416では、全ての発話について処理が終わったか否かを判別する。終わっている場合はステップS417へ、終わっていない場合はステップS413へ移行する。
ステップS417では、表示部107は、音響分類部102による分類結果および再分類判別部106による再分類の結果を、ディスプレイ207を介してユーザに提示する。図12に、ディスプレイ207に表示された画面の一例を示す。この図は、音響分類部102による分類結果を表している。「話者情報」は話者IDを表しており、この例では「話者ID1」は「話者1」と表示される。「発話内容」は音声認識によって取得された各発話の文字列を表している。図中の1201はカーソルを表しており、キーボードやマウスなどの操作部204によりフォーカスを変更することができる。1202は再生ボタンであり、このボタンを押下するとカーソル1201がフォーカスしている発話がスピーカ206から再生される。これにより、ユーザは、発話を聞いて音声認識の誤りを人手で修正することができる。また、各発話に話者情報が付与されていることから、収録済みの音響信号のうち所望の話者の発話のみを選択的に聞くことができる。これによりユーザは、同一話者による発話内容の整合性を確認したり、会話の流れを確認したりすることが可能になり、議事録作成をスムーズに進めることができる。
図12において、文字列に下線が引かれた発話1203は、誤分類検出部105によって誤分類と判別された発話である。ユーザがこの発話を選択し、操作部204を介して所望の操作をすることにより、図13の1204ように再分類判別部106での再分類結果をドロップダウンリストで表示させることができる。この例では、ステップS415の再分類判別部106によって、発話ID5は話者ID3に再分類されていることから、「話者3」が候補として表示される。ユーザは、再生ボタン1202を押下して発話の音声を聞いた後に、最終的にこの発話を話者1に分類するか話者3に分類するかを、操作部204を介して話者分類装置に指示することができる。
最後に、ステップS418では、ステップS417におけるユーザからの指示を取得し、最終的な話者分類を確定する。図13において、ユーザが発話ID5の話者を話者3に変更した場合、音響分類装置は発話ID5の話者は話者ID3であるとして確定する。確定した話者分類の結果は、HDD等の外部記憶部203に記憶する。
(効果)
このように、本実実施形態の話者分類装置は、言語的な特徴を用いて、音響的な特徴を利用した分類によって誤分類された発話を判別する。また、言語的な特徴を用いて、音響的な特徴によって誤分類された発話が本来分類されるべき話者を判別する。これにより、背景雑音を含んだ発話のように音響的な特徴だけでは分類が難しい発話を、言語的な特徴を用いて正しい話者に分類することができる。
また、本実施形態の話者分類装置は、発話の内容を表す文字列を取得し、この文字列を利用して各話者の言語的な特徴を抽出する。これにより、各話者の言語的な特徴を予め登録しておく必要がなくなる。
(変形例1)
本実施形態では、ステップS415における分類結果をユーザに提示し、最終的な話者はユーザが選択する構成であったが、再分類判別部106の話者分類の結果を最終的な分類結果として確定することもできる。
また、本実施形態では、発話の文字列を音声認識で取得したが、人手で付与した文字列を発話の文字列として利用することもできる。これにより、音声認識による誤りを回避することができ、話者別の言語的な特徴をより正確に抽出できる。この場合、音響信号を話者別に分類する話者インデキシング等にも本実施形態を適用することができる。
なお、以上説明した本実施形態における一部機能もしくは全ての機能は、ソフトウェア処理により実現可能である。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
101 発話分割部
102 音響分類部
103 文字列変換部
104 言語特徴抽出部
105 誤分類検出部
106 再分類判別部
107 表示部
201 制御部
202 記憶部
203 外部記憶部
204 操作部
205 通信部
206 スピーカ
207 ディスプレイ
208 バス
1201 カーソル
1202 再生ボタン
1203 発話内容
1204 ドロップダウンリスト

Claims (7)

  1. 入力された音響信号に含まれる発話を、前記音響信号から抽出した音響的な特徴を利用して話者毎に分類し分類結果を取得する音響分類手段と、
    前記発話の内容を表す文字列を取得し、この文字列を利用して前記分類結果に含まれる話者の言語的な特徴を一人称ルール及び文末ルールを用いて抽出する言語特徴抽出手段と、
    前記発話の内容を表す文字列が、前記分類結果においてこの発話が分類された話者の前記言語的な特徴に適合するか否かを判別し、適合しない場合は、この発話は前記音響分類手段によって誤分類された発話であると判別する誤分類検出手段と、
    を備える話者分類装置。
  2. 前記誤分類検出手段によって誤分類と判別された発話の文字列が、前記分類結果においてこの発話が分類された話者以外の他の話者の言語的な特徴に適合するか否かを判別し、適合した場合は、この発話は前記他の話者に分類されるべき発話であると判別する再分類判別手段を更に備える請求項1記載の話者分類装置。
  3. 前記言語特徴抽出手段が、予め記憶した前記一人称ルール及び前記文末ルールと各話者の前記発話の内容を表す文字列とが適合するか否かを判別し、適合する発話の数が所定閾値を超えるルールを前記話者の言語的な特徴とする請求項1乃至請求項2記載の話者分類装置。
  4. 前記入力された音響信号に含まれる発話を音声認識して文字列に変換する文字列変換手段を更に備え、
    前記発話の内容を表す文字列が、前記文字列変換手段で変換された文字列である請求項1から請求項3の何れか1項に記載の話者分類装置。
  5. 前記音響分類手段の分類結果もしくは前記再分類判別手段での判別結果を表示する表示手段を更に備える請求項2記載の話者分類装置。
  6. 入力された音響信号に含まれる発話を、前記音響信号から抽出した音響的な特徴を利用して話者毎に分類し分類結果を取得する音響分類工程と、
    前記発話の内容を表す文字列を取得し、この文字列を利用して前記分類結果に含まれる話者の言語的な特徴を一人称ルール及び文末ルールを用いて抽出する言語特徴抽出工程と、
    前記発話の内容を表す文字列が、前記分類結果においてこの発話が分類された話者の前記言語的な特徴に適合するか否かを判別し、適合しない場合は、この発話は前記音響分類工程によって誤分類された発話であると判別する誤分類検出工程と、
    を備える話者分類方法。
  7. 話者分類装置に、
    入力された音響信号に含まれる発話を、前記音響信号から抽出した音響的な特徴を利用して話者毎に分類し分類結果を取得する音響分類工程と、
    前記発話の内容を表す文字列を取得し、この文字列を利用して前記分類結果に含まれる話者の言語的な特徴を一人称ルール及び文末ルールを用いて抽出する言語特徴抽出工程と、
    前記発話の内容を表す文字列が、前記分類結果においてこの発話が分類された話者の前記言語的な特徴に適合するか否かを判別し、適合しない場合は、この発話は前記音響分類工程によって誤分類された発話であると判別する誤分類検出工程と、
    を実現させるための話者分類プログラム。
JP2011166071A 2011-07-28 2011-07-28 話者分類装置、話者分類方法および話者分類プログラム Active JP5779032B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011166071A JP5779032B2 (ja) 2011-07-28 2011-07-28 話者分類装置、話者分類方法および話者分類プログラム
US13/412,694 US9251808B2 (en) 2011-07-28 2012-03-06 Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011166071A JP5779032B2 (ja) 2011-07-28 2011-07-28 話者分類装置、話者分類方法および話者分類プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2015138079A Division JP5997813B2 (ja) 2015-07-09 2015-07-09 話者分類装置、話者分類方法および話者分類プログラム

Publications (2)

Publication Number Publication Date
JP2013029690A JP2013029690A (ja) 2013-02-07
JP5779032B2 true JP5779032B2 (ja) 2015-09-16

Family

ID=47597960

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011166071A Active JP5779032B2 (ja) 2011-07-28 2011-07-28 話者分類装置、話者分類方法および話者分類プログラム

Country Status (2)

Country Link
US (1) US9251808B2 (ja)
JP (1) JP5779032B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014202848A (ja) * 2013-04-03 2014-10-27 株式会社東芝 テキスト生成装置、方法、及びプログラム
JP6596924B2 (ja) * 2014-05-29 2019-10-30 日本電気株式会社 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム
KR101699337B1 (ko) * 2014-08-20 2017-01-24 전자부품연구원 Shvc 기반의 uhd 영상데이터 송수신 시스템
JP6392051B2 (ja) * 2014-09-22 2018-09-19 株式会社東芝 電子機器、方法およびプログラム
US9875742B2 (en) * 2015-01-26 2018-01-23 Verint Systems Ltd. Word-level blind diarization of recorded calls with arbitrary number of speakers
JP6852470B2 (ja) * 2017-03-07 2021-03-31 コニカミノルタ株式会社 話者判定システム、話者判定方法および話者判定プログラム
JP6927308B2 (ja) * 2017-07-26 2021-08-25 日本電気株式会社 音声操作装置及びその制御方法
EP3940695A4 (en) * 2019-03-15 2022-03-30 Fujitsu Limited EDITING SUPPORT PROGRAM, EDITING SUPPORT METHOD AND EDITING SUPPORT DEVICE
CN112992175B (zh) * 2021-02-04 2023-08-11 深圳壹秘科技有限公司 一种语音区分方法及其语音记录装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3735209B2 (ja) * 1999-03-03 2006-01-18 富士通株式会社 話者認識装置及び方法
JP2000352995A (ja) * 1999-06-14 2000-12-19 Canon Inc 会議音声処理方法および記録装置、情報記憶媒体
EP1280137B1 (en) * 2001-07-24 2004-12-29 Sony International (Europe) GmbH Method for speaker identification
JP4769031B2 (ja) * 2005-06-24 2011-09-07 マイクロソフト コーポレーション 言語モデルを作成する方法、かな漢字変換方法、その装置、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体
JP4728972B2 (ja) * 2007-01-17 2011-07-20 株式会社東芝 インデキシング装置、方法及びプログラム
JP5229219B2 (ja) * 2007-03-27 2013-07-03 日本電気株式会社 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム
JP4322934B2 (ja) * 2007-03-28 2009-09-02 株式会社東芝 音声認識装置、方法およびプログラム
US8019760B2 (en) * 2007-07-09 2011-09-13 Vivisimo, Inc. Clustering system and method
JP2010060850A (ja) * 2008-09-04 2010-03-18 Nec Corp 議事録作成支援装置、議事録作成支援方法、議事録作成支援用プログラム及び議事録作成支援システム
CN101996628A (zh) * 2009-08-21 2011-03-30 索尼株式会社 提取语音信号的韵律特征的方法和装置
US8554562B2 (en) * 2009-11-15 2013-10-08 Nuance Communications, Inc. Method and system for speaker diarization
US8694304B2 (en) * 2010-03-26 2014-04-08 Virtuoz Sa Semantic clustering and user interfaces
US20120209605A1 (en) * 2011-02-14 2012-08-16 Nice Systems Ltd. Method and apparatus for data exploration of interactions
US8630860B1 (en) * 2011-03-03 2014-01-14 Nuance Communications, Inc. Speaker and call characteristic sensitive open voice search

Also Published As

Publication number Publication date
US20130030794A1 (en) 2013-01-31
US9251808B2 (en) 2016-02-02
JP2013029690A (ja) 2013-02-07

Similar Documents

Publication Publication Date Title
JP5779032B2 (ja) 話者分類装置、話者分類方法および話者分類プログラム
US11636860B2 (en) Word-level blind diarization of recorded calls with arbitrary number of speakers
US10950242B2 (en) System and method of diarization and labeling of audio data
JP6596376B2 (ja) 話者識別方法及び話者識別装置
JP4600828B2 (ja) 文書対応付け装置、および文書対応付け方法
TW202008349A (zh) 語音標註方法、裝置及設備
US8972260B2 (en) Speech recognition using multiple language models
CN107305541A (zh) 语音识别文本分段方法及装置
JP2017058483A (ja) 音声処理装置、音声処理方法及び音声処理プログラム
JP2009139862A (ja) 音声認識装置及びコンピュータプログラム
JP6495792B2 (ja) 音声認識装置、音声認識方法、プログラム
JP5099211B2 (ja) 音声データの質問発話部抽出処理プログラム,方法および装置,ならびに音声データの質問発話部を用いた顧客問い合わせ傾向推定処理プログラム,方法および装置
CN114141252A (zh) 声纹识别方法、装置、电子设备和存储介质
CN104750677A (zh) 语音传译装置、语音传译方法及语音传译程序
JP5997813B2 (ja) 話者分類装置、話者分類方法および話者分類プログラム
JP5897718B2 (ja) 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
JP5713782B2 (ja) 情報処理装置、情報処理方法及びプログラム
Schuller et al. Incremental acoustic valence recognition: an inter-corpus perspective on features, matching, and performance in a gating paradigm
EP4233045A1 (en) Embedded dictation detection
US11632345B1 (en) Message management for communal account
CN118284932A (zh) 用于对混合带宽语音信号执行说话人分割聚类的方法和装置
CN118355436A (zh) 用于基于语言识别执行说话人日志的方法及设备
Chen et al. A proof-of-concept study for automatic speech recognition to transcribe AAC speakers’ speech from high-technology AAC systems
CN113555010A (zh) 语音处理方法和语音处理装置
CN113314123A (zh) 语音处理方法、电子设备及存储装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141031

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141226

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20150216

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150612

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150710

R151 Written notification of patent or utility model registration

Ref document number: 5779032

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350