JP2022062874A - 話者予測方法、話者予測装置、およびコミュニケーションシステム - Google Patents

話者予測方法、話者予測装置、およびコミュニケーションシステム Download PDF

Info

Publication number
JP2022062874A
JP2022062874A JP2020171050A JP2020171050A JP2022062874A JP 2022062874 A JP2022062874 A JP 2022062874A JP 2020171050 A JP2020171050 A JP 2020171050A JP 2020171050 A JP2020171050 A JP 2020171050A JP 2022062874 A JP2022062874 A JP 2022062874A
Authority
JP
Japan
Prior art keywords
speaker
voice
unit
prediction
far
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020171050A
Other languages
English (en)
Inventor
訓史 鵜飼
Norifumi Ukai
良 田中
Makoto Tanaka
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2020171050A priority Critical patent/JP2022062874A/ja
Priority to EP21201060.7A priority patent/EP3982361A1/en
Priority to US17/449,983 priority patent/US11875800B2/en
Priority to CN202111170526.0A priority patent/CN114400013A/zh
Publication of JP2022062874A publication Critical patent/JP2022062874A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/10Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/326Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/06Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station
    • H04B7/0613Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission
    • H04B7/0615Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal
    • H04B7/0617Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal for beam forming

Abstract

Figure 2022062874000001
【課題】現在の話者が話している間に、次に話す話者を高い精度で予測することができる話者予測方法、話者予測装置、およびコミュニケーションシステムを提供する。
【解決手段】音声処理装置は、遠端側音信号を受信する音声取得部100と、遠端側話者画像を受信する画像取得部101と、遠端側音信号および遠端側話者画像に基づいて遠端側の話者を特定する遠端話者特定部104と、特定した話者を指す識別子とその順番を会話履歴として記録する会話履歴記録部103と、特定した話者と会話履歴に基づいて次に発話する話者を予測する予測部51と、を備える。
【選択図】図4

Description

本発明の一実施形態は、話者を予測する話者予測方法、話者予測装置、およびコミュニケーションシステムに関する。
特許文献1には、複数の人物の中から次に話す話者を予測する発話者予測装置が開示されている。
特開2012-29209号公報
現在の話者が話している間に、次に話す話者をより高い精度で予測することが望まれている。
そこで、本発明の一実施形態の目的は、現在の話者が話している間に、次に話す話者を高い精度で予測することができる話者予測方法、話者予測装置、およびコミュニケーションシステムを提供することにある。
話者予測方法は、複数の話者の音声を取得し、前記複数の話者の会話履歴を記録する、話者予測方法であって、音声を取得し、取得した前記音声の話者を特定し、前記特定した話者と前記会話履歴に基づいて、前記複数の話者の中から、次に発話する話者を予測する。
本発明の一実施形態によれば、現在の話者が話している間に、次に話す話者を高い精度で予測することができる。
音信号処理装置1の構成を示すブロック図である。 音信号処理装置1の機能的ブロック図である。 音信号処理装置1の機能的ブロック図である。 音信号処理装置1の機能的ブロック図である。 音信号処理方法の動作を示すフローチャートである。 音信号処理方法の動作を示すフローチャートである。 音信号処理方法の動作を示すフローチャートである。 カメラ11が撮影した画像の一例を示す図である。 会話履歴の一例を示す図である。 音信号処理を行なう場合の音信号処理装置1の機能的構成を示すブロック図である。
図1は、音信号処理装置1の構成を示すブロック図である。音信号処理装置1は、カメラ11、CPU12、DSP13、フラッシュメモリ14、RAM15、ユーザインタフェース(I/F)16、スピーカ17、6個のマイク18A~18F、および通信部19を備えている。なお、本実施形態において、信号とはデジタル信号を意味する。
カメラ11、スピーカ17、およびマイク18A~18Fは、例えば表示器(不図示)の上または下に配置される。カメラ11は、表示器(不図示)の前に居る利用者の画像を取得する。マイク18A~18Fは、表示器(不図示)の前に居る利用者の音声を取得する。スピーカ17は、表示器(不図示)の前に居る利用者に対して、音声を出力する。なお、マイクの数は6個に限らない。マイクは、1つのマイクであってもよい。本実施形態のマイクの数は6個であり、アレイマイクを構成する。DSP13は、マイク18A~18Fで取得した音信号にビームフォーミング処理を施す。
CPU12は、フラッシュメモリ14から動作用のプログラムをRAM15に読み出すことにより、音信号処理装置1の動作を統括的に制御する制御部として機能する。なお、プログラムは自装置のフラッシュメモリ14に記憶しておく必要はない。CPU12は、例えばサーバ等から都度ダウンロードしてRAM15に読み出してもよい。
DSP13は、CPU12の制御に従って、映像信号および音信号をそれぞれ処理する信号処理部である。DSP13は、例えば映像信号から話者の画像を切り出すフレーミング処理を行なう画像処理部として機能する。また、DSP13は、例えばビームフォーミングを行う音信号処理部としても機能する。
通信部19は、DSP13により処理された後の近端側の映像信号および音信号を、他の装置に送信する。他の装置とは、インターネット等を介して接続される遠端側の音信号処理装置である。また、通信部19は、他の装置から映像信号および音信号を受信する。通信部19は、受信した映像信号を表示器(不図示)に出力する。通信部19は、受信した音信号をスピーカ17に出力する。表示器は、他の装置のカメラで取得した映像を表示する。スピーカ17は、他の装置のマイクで取得した話者の音声を出力する。これにより、音信号処理装置1は、遠隔地との音声会話を行うためのコミュニケーションシステムとして機能する。
図2、図3、および図4は、音信号処理装置1の機能的ブロック図である。図5、図6、および図7は、音信号処理方法の動作を示すフローチャートである。図2、図3、および図4に示す機能的構成は、CPU12およびDSP13により実現される。
音信号処理装置1は、機能的に、音声取得部100、画像取得部101、近端話者特定部102、会話履歴記録部103、遠端話者特定部104、カメラ画像制御部105、および予測部51を備えている。
近端話者特定部102および遠端話者特定部104は、本発明の話者特定部に対応する。図2は、近端側の映像信号および音信号に基づいて話者特定を行ない、会話履歴として記録する場合の構成を示し、図5はその場合の動作を示す。
音声取得部100は、マイク18A~18Fから音信号を近端側音信号として入力する(S11)。また、画像取得部101は、カメラ11から映像信号を近端側話者画像として取得する(S12)。近端話者特定部102は、近端側音信号および近端側話者画像に基づいて、近端側の話者を特定する(S13)。会話履歴記録部103は、近端話者特定部102の特定した話者を指す識別子とその発話順番を会話履歴として記録する(S14)。
近端話者特定部102は、例えば音声特徴量に基づいて、話者を特定する。音声特徴量は、話者毎に異なる固有の情報である。音声特徴量は、例えば平均音量(パワー)、最高ピッチ周波数、最低ピッチ周波数、あるいは話速等を含む。近端話者特定部102は、例えばニューラルネットワーク等を用いた所定のアルゴリズムにより、音信号から音声特徴量を抽出して話者を特定する。 また、近端話者特定部102は、音声の到来方向に基づいて話者を特定してもよい。例えば、近端話者特定部102は、複数のマイクで取得した音信号の相互相関を求めることにより、話者の音声がマイクに到達したタイミングを求めることができる。近端話者特定部102は、各マイクの位置関係および音声の到達タイミングに基づいて、話者の音声の到来方向を求めることができる。
また、近端話者特定部102は、話者の顔認識処理を行なうことにより、話者を特定してもよい。話者の顔認識処理は、例えばニューラルネットワーク等を用いた所定のアルゴリズムを用いることにより、近端側話者画像から話者の顔の位置を認識する処理である。
図8は、カメラ11が撮影した画像の一例を示す図である。図8の例では、カメラ11は、机Tの長手方向(奥行き方向)に沿って居る複数の利用者の顔画像を撮影している。
机Tは、平面視して長方形状である。カメラ11は、机Tを短手方向に挟んで左側および右側に居る4人の利用者、および机Tよりも遠い位置に居る利用者を撮影している。
近端話者特定部102は、この様なカメラ11の撮影した画像から話者の顔を認識する。図8の例では、画像の左下に居る利用者A1が発話している。近端話者特定部102は、複数フレームの画像に基づいて、例えば口の画像に変化がある顔画像を、話者の顔として認識する。なお、図8の例では、他の利用者A2~A5は、顔認識されているが、話者ではない。したがって、近端話者特定部102は、利用者A1の顔を、話者の顔として認識する。
また、近端話者特定部102は、認識した話者の顔の位置に図中の四角で示す様な境界ボックス(Bounding Box)を設定してもよい。近端話者特定部102は、境界ボックスの大きさに基づいて話者との距離を求めることもできる。フラッシュメモリ14には、予め境界ボックスの大きさと距離との関係を示したテーブルまたは関数等が記憶されている。近端話者特定部102は、設定した境界ボックスの大きさと、フラッシュメモリ14に記憶されているテーブルを比較し、話者との距離を求めることもできる。
近端話者特定部102は、設定した境界ボックスの2次元座標(X,Y座標)および話者との距離を、話者の位置情報として求める。会話履歴記録部103は、話者の位置情報も記録する。
図3は、遠端側の映像信号および音信号に基づいて話者特定を行ない、会話履歴として記録する場合の構成を示し、図6はその場合の動作を示す。音声取得部100は、通信部19を介して遠端側音信号を受信する(S21)。また、画像取得部101は、通信部19を介して遠端側話者画像を受信する(S22)。遠端話者特定部104は、遠端側音信号および遠端側話者画像に基づいて、遠端側の話者を特定する(S23)。会話履歴記録部103は、遠端話者特定部104の特定した話者を指す識別子とその順番を会話履歴として記録する(S24)。
遠端話者特定部104の話者特定の手法は、近端話者特定部102の話者特定の手法と同様である。遠端話者特定部104は、例えば音声特徴量に基づいて、話者を特定する。あるいは、遠端話者特定部104は、受信した遠端側話者画像から話者の顔認識処理を行なうことにより、話者を特定してもよい。
なお、遠端側の装置が、自装置と同じ様に話者を特定することができる装置である場合、遠端話者特定部104は、遠端側の装置から話者を特定する情報を受信してもよい。この場合、遠端話者特定部104は、受信した情報に基づいて遠端側の話者を特定することができる。
また、近端話者特定部102および遠端話者特定部104は、ある一人の話者による複数の発話に対して、必ずしも単一の話者(同じ話者の発話)であると特定する必要はない。例えば、近端話者特定部102および遠端話者特定部104は、音声特徴量の似た発話であっても異なる話者として特定してもよい。近端話者特定部102および遠端話者特定部104は、少しでも音声特徴量等が異なる場合に、異なる話者として特定してもよい。仮に近端話者特定部102および遠端話者特定部104が同じ話者を異なる話者として特定して会話履歴を記録しても、予測部51が次の話者を予測することは可能である。つまり、近端話者特定部102および遠端話者特定部104は、次の話者を予測できる程度に、あるいは、一人の話者が異なる話者と特定される程度に、過剰に細分化した要素に基づいて話者を特定してもよい。また、近端話者特定部102および遠端話者特定部104は、話者の音声特徴量そのもの、話者の音声の到来方位そのもの、話者の顔画像そのもの、または話者の位置情報そのものを、話者特定の結果として、会話履歴に記録してもよい。
なお、本実施形態では、遠端側の装置が1つであり、1対1の通信を行なう例を示しているが、音信号処理装置1は、多地点の遠端側の装置と通信を行ない、多地点のコミュニケーションシステムとしても機能する。多地点の遠端側の装置と通信を行なう場合、遠端話者特定部104は、遠端側の装置毎に話者を特定する処理を行ない、全ての遠端側話者を特定する。
図9は、会話履歴の一例を示す図である。会話履歴記録部103は、時系列に会話履歴を記録する。例えば、図9の例では、時刻t1から時刻t2まで近端側の話者A1が発話し、時刻t2から時刻t3まで遠端側の話者B1が発話している。時刻t3から時刻t4まで近端側の話者A2が発話し、時刻t4から時刻t5まで遠端側の話者B2が発話している。時刻t5から時刻t6まで近端側の話者A1が発話し、時刻t6から時刻t7まで遠端側の話者B1が発話している。時刻t7から時刻t8まで近端側の話者A2が発話し、時刻t8から時刻t9まで遠端側の話者B1が発話している。その後、時刻t9から近端側の話者A4が発話している。なお、時刻情報を記録することは必須ではない。会話履歴記録部103は、話者が誰であったかを表す識別子とその話者の順番(番号)を記録するだけでもよい。
音信号処理装置1は、会話履歴に基づいて次に発話する話者を予測する。音信号処理装置1は、話者予測装置として機能する。図4は、予測を行なう場合の音信号処理装置1の機能的構成を示し、図7はその場合の動作を示す。図7の例は、現在、遠端側の話者が発話している場合の予測の動作(話者予測方法の動作)を示す。
音声取得部100は、通信部19を介して遠端側音信号を受信する(S31)。また、画像取得部101は、通信部19を介して遠端側話者画像を受信する(S32)。遠端話者特定部104は、遠端側音信号および遠端側話者画像に基づいて、遠端側の話者を特定する(S33)。なお、遠端側の装置が、自装置と同じ様に話者を特定することができる装置である場合、遠端話者特定部104は、遠端側の装置から話者を特定する情報を受信してもよい。この場合、遠端話者特定部104は、受信した情報に基づいて遠端側の話者を特定することができる。
その後、予測部51は、会話履歴記録部103の記録した会話履歴を参照して(S34)、次に発話する話者を予測する(S35)。具体的には、予測部51は、会話履歴から、遠端話者特定部104で特定した遠端側話者が発話した箇所を検出し、検出した箇所の次に発話している話者の発話確率に応じて次に発話する話者を予測する。例えば、遠端話者特定部104が遠端側の話者B1を特定した場合、予測部51は、図9に示す会話履歴では、時刻t2~t3、t6~t7、およびt8~t9を検出する。そして、予測部51は、これらの時刻の次に発話する話者の履歴に基づいて、各話者の発話確率を求める。図9の例では、話者B1の発話後に話者A2が2回発話し、話者A4が1回発話している。したがって、話者A2の発話確率が66.7%、話者A4の発話確率が33.3%となる。予測部51は、発話確率に応じて、次に発話する話者がA2であると予測する。
また、予測部51は、近端話者特定部102あるいは遠端話者特定部104が、話者の音声特徴量そのもの、話者の音声特徴量そのもの、話者の音声の到来方位そのもの、話者の顔画像そのもの、または話者の位置情報そのものなどを話者特定結果として会話履歴に記録していた場合は、現在の話者特定結果に近い話者特定結果を会話履歴記録部103から検索する。そして、予測部51は、これらの検索された現在の話者特定結果の記録された時刻の次に記録されている複数の話者特定結果に基づいて、次に発話する話者を会話履歴記録部103の記録している話者特定結果から予測してもよい。この場合、予測部51は、例えば、検索された現在の話者特定結果の記録された時刻の次に記録されている複数の話者特定結果の平均を話者予測の結果としてもよい。あるいは、予測部51は、他の話者予測結果との差分量の総和が最も小さくなるような話者特定結果を代表値として話者予測の結果としてもよい。
なお、予測部51は、さらに、通信部19で受信した画像またはカメラ11の撮影した画像に基づいて、次に発話する話者を予測してもよい。例えば、手を挙げている人は次に発話する話者であると予測する。あるいは、目を見開いている人は次に発話する話者であると予測する。また、予測部51は、通信部19で受信した音信号またはマイク18A~18Fで取得した音信号に基づいて次に発話する話者を予測してもよい。例えば、予測部51は、「あー」、「えー」等の特定の発言を認識した場合に、対応する話者が次に発話すると予測する。ただし、予測部51は、会話履歴に基づく予測を優先する。予測部51は、発話確率が同じか、近い(例えば10%以内)である話者が複数存在した場合に、さらに受信した画像に基づいて次に発話する話者を予測することが好ましい。
その後、カメラ画像制御部105は、予測部51の予測結果に応じてカメラ11の撮影した画像の制御を行なう(S36)。画像の制御は、例えばフレーミング処理である。カメラ画像制御部105は、画像取得部101で取得したカメラ11の画像から話者A4の顔画像を切り出すフレーミング処理を行なう。各話者の位置は、会話履歴記録部103に記録されている。カメラ画像制御部105は、予測された話者に対応する位置の画像を切り出す。カメラ画像制御部105は、フレーミング処理後の画像を通信部19に出力する。通信部19は、フレーミング処理後の画像を遠端側に送信する。
これにより、遠端側の表示器(不図示)には、話者A2の顔画像が表示される。したがって、遠端側の話者B1は、次に発話する可能性の高い話者を見ながら発言することができる。
なお、上記では、カメラ画像制御部105の行なうカメラ11の撮影した画像から、予測した話者の画像を切り出すフレーミング処理を示したが、カメラ画像制御部105は、例えば予測した話者以外の位置をぼかす処理を行なってもよい。また、カメラ画像制御部105は、カメラ11の撮影方向およびズームを制御することで、予測した話者の顔を拡大して撮影する様に制御してもよい。
なお、近端話者特定部102が近端側の話者を特定した場合、カメラ画像制御部105は、特定した近端側の話者を切り出すフレーミング処理を行なう。したがって、遠端側の装置には、現在発話中の話者の画像が送信される。
ただし、予測部51は、近端話者特定部102が近端側の話者を特定した場合でも、次に発話する話者を予測してもよい。カメラ画像制御部105は、次に発話すると予測した話者の画像を切り出し、通信部19を介して遠端側の装置に送信してもよい。予測部51が次に発話すると予測した話者が近端側の話者である場合、カメラ画像制御部105は、カメラ11の画像から近端側の話者の顔画像を切り出すフレーミング処理を行なう。カメラ画像制御部105は、切り出した近端側の話者の画像を遠端側の装置に送信する。
予測部51が次に発話すると予測した話者が遠端側の話者である場合、カメラ画像制御部105は、通信部19を介して受信した画像から遠端側の話者の顔画像を切り出すフレーミング処理を行なう。カメラ画像制御部105は、切り出した遠端側の話者の画像を表示器(不図示)に表示する。
ただし、カメラ画像制御部105は、切り出した近端側の話者の画像を遠端側の装置に送信する場合、現在発話している近端側の話者の画像と、次に発話すると予想した近端側の話者の画像と、を定期的に切り替えて、遠端側の装置に送信することが好ましい。例えば、カメラ画像制御部105は、10秒に1回程度、次に発話すると予想した近端側の話者の画像を送信する。あるいは、カメラ画像制御部105は、現在発話している話者の画像の中に小さく、次に発話すると予想した話者の画像を合成して、遠端側の装置に送信してもよい。
なお、音信号処理装置1は、予測部51の予測結果に基づいてマイクで取得した音信号の音信号処理を行なってもよい。図10は、予測結果に基づいて音信号処理を行なう場合の音信号処理装置1の機能的構成を示すブロック図である。音信号処理装置1は、機能的に、フィルタ生成部52および音信号処理部53を備えている。また、音信号処理部53は、機能的に、ビームフォーミング処理部501、ゲイン補正部502、およびイコライザ503を備えている。これらの機能的構成は、CPU12およびDSP13により実現される。
フィルタ生成部52は、予測部51の予測結果に基づいて、補正フィルタを生成する。補正フィルタは、少なくともビームフォーミング処理部501におけるフィルタ処理を含む。
ビームフォーミング処理部501は、マイク18A~18Fで取得した音信号に、それぞれフィルタ処理を施して合成することによりビームフォーミングを行う。ビームフォーミングに係る信号処理は、遅延和(Delay Sum)方式、Griffiths Jim型、Sidelobe Canceller型、あるいはFrost型Adaptive Beamformer等、どの様な手法であってもよい。
フィルタ生成部52は、次に発話すると予測した話者の位置に向けて指向性を形成する様なフィルタ係数を生成し、ビームフォーミング処理部501に設定する。これにより、音信号処理装置1は、次に発話すると予測した話者の音声を発話の冒頭から高いSN比で取得することができる。
また、フィルタ生成部52は、予測部51の予測結果に基づいて、ゲイン補正部502のゲインを設定する。話者の音声は、マイクとの距離が遠いほど減衰する。したがって、フィルタ生成部52は、次に発話すると予測した話者との距離が大きいほど音信号のレベルを高くする様なゲイン補正フィルタを生成し、ゲイン補正部502に設定する。これにより、音信号処理装置1は、話者との距離に関わらず、安定したレベルで次に発話すると予測した話者の音声を取得することができる。
また、フィルタ生成部52は、次に発話すると予測した話者との距離が大きいほど高域のレベルを高くする様なイコライザ503の周波数特性を設定してもよい。話者の音声は、マイクとの距離が遠いほど、高域が低域よりも大きく減衰する傾向がある。したがって、音信号処理装置1は、話者との距離に関わらず、安定した音質で次に発話すると予測した話者の音声を取得することができる。
本実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲は、特許請求の範囲と均等の範囲を含む。
1…音信号処理装置
11…カメラ
12…CPU
13…DSP
14…フラッシュメモリ
15…RAM
16…ユーザI/F
17…スピーカ
18A~18F…マイク
19…通信部
51…予測部
52…フィルタ生成部
53…音信号処理部
100…音声取得部
101…画像取得部
102…近端話者特定部
103…会話履歴記録部
104…遠端話者特定部
105…カメラ画像制御部
501…ビームフォーミング処理部
502…ゲイン補正部
503…イコライザ

Claims (21)

  1. 複数の話者の音声を取得し、
    前記複数の話者の会話履歴を記録する、
    話者予測方法であって、
    音声を取得し、
    取得した前記音声の話者を特定し、
    前記特定した話者と前記会話履歴に基づいて、前記複数の話者の中から、次に発話する話者を予測する、
    話者予測方法。
  2. 前記予測の結果に基づいて、カメラの撮影する画像の制御を行なう、
    請求項1に記載の話者予測方法。
  3. 前記予測の結果に基づいて、マイクで取得した音信号の音信号処理を行なう、
    請求項1または請求項2に記載の話者予測方法。
  4. 前記画像の制御は、フレーミング処理を含む、
    請求項2に記載の話者予測方法。
  5. 前記音信号処理は、ビームフォーミング処理を含む、
    請求項3に記載の話者予測方法。
  6. 前記取得した前記音声の音声特徴量に基づいて、取得した前記音声の話者を特定する、
    請求項1乃至請求項5のいずれか1項に記載の話者予測方法。
  7. 音声の到来方向を推定し、
    前記音声の到来方向に基づいて、取得した前記音声の話者を特定する、
    請求項1乃至請求項6のいずれか1項に記載の話者予測方法。
  8. カメラの画像を取得し、
    前記カメラの画像に基づいて、取得した前記音声の話者を特定する、
    請求項1乃至請求項7のいずれか1項に記載の話者予測方法。
  9. 前記会話履歴から前記特定した話者が発話した箇所を検出し、
    前記検出した箇所の次に発話している話者の発話確率に応じて前記次に発話する話者を予測する、
    請求項1乃至請求項8のいずれか1項に記載の話者予測方法。
  10. 前記会話履歴は、遠端側および近端側の話者の会話履歴を含み、
    少なくとも遠端側の話者の音声を特定して、次に発話する近端側の話者を予測する、
    請求項1乃至請求項9のいずれか1項に記載の話者予測方法。
  11. 複数の話者の音声を取得する音声取得部と、
    前記複数の話者の会話履歴を記録する会話履歴記録部と、
    を備えた話者予測装置であって、
    前記音声取得部は、音声を取得し、
    取得した前記音声の話者を特定する話者特定部と、
    前記特定した話者と前記会話履歴に基づいて、前記複数の話者の中から、次に発話する話者を予測する予測部と、
    を備えた話者予測装置。
  12. 前記予測の結果に基づいて、カメラの撮影する画像の制御を行なうカメラ画像制御部を備えた、
    請求項11に記載の話者予測装置。
  13. 前記予測の結果に基づいて、マイクで取得した音信号の音信号処理を行なう音信号処理部を備えた、
    請求項11または請求項12に記載の話者予測装置。
  14. 前記画像の制御は、フレーミング処理を含む、
    請求項12に記載の話者予測装置。
  15. 前記音信号処理は、ビームフォーミング処理を含む、
    請求項13に記載の話者予測装置。
  16. 前記話者特定部は、前記取得した前記音声の音声特徴量に基づいて、取得した前記音声の話者を特定する、
    請求項11乃至請求項15のいずれか1項に記載の話者予測装置。
  17. 前記話者特定部は、音声の到来方向を推定し、前記音声の到来方向に基づいて、取得した前記音声の話者を特定する、
    請求項11乃至請求項16のいずれか1項に記載の話者予測装置。
  18. カメラの画像を取得する画像取得部を備え、
    前記話者特定部は、前記カメラの画像に基づいて、取得した前記音声の話者を特定する、
    請求項11乃至請求項17のいずれか1項に記載の話者予測装置。
  19. 前記予測部は、前記会話履歴から前記特定した話者が発話した箇所を検出し、前記検出した箇所の次に発話している話者の発話確率に応じて前記次に発話する話者を予測する、
    請求項11乃至請求項18のいずれか1項に記載の話者予測装置。
  20. 前記会話履歴は、遠端側および近端側の話者の会話履歴を含み、
    前記予測部は、少なくとも遠端側の話者の音声を特定して、次に発話する近端側の話者を予測する、
    請求項11乃至請求項19のいずれか1項に記載の話者予測装置。
  21. 遠端側から話者の音声を受信する通信部と、
    近端側の話者の音声を取得するマイクと、
    前記通信部で受信した音声および前記マイクで取得した音声を含む複数の話者の会話履歴を記録する会話履歴記録部と、
    を備えたコミュニケーションシステムであって、
    前記通信部で受信した前記遠端側の前記音声、または前記マイクで取得した前記近端側の前記音声の話者を特定する話者特定部と、
    前記特定した話者と前記会話履歴に基づいて、前記複数の話者の中から、次に発話する話者を予測する予測部と、
    を備えたコミュニケーションシステム。
JP2020171050A 2020-10-09 2020-10-09 話者予測方法、話者予測装置、およびコミュニケーションシステム Pending JP2022062874A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2020171050A JP2022062874A (ja) 2020-10-09 2020-10-09 話者予測方法、話者予測装置、およびコミュニケーションシステム
EP21201060.7A EP3982361A1 (en) 2020-10-09 2021-10-05 Talker prediction method, talker prediction device, and communication system
US17/449,983 US11875800B2 (en) 2020-10-09 2021-10-05 Talker prediction method, talker prediction device, and communication system
CN202111170526.0A CN114400013A (zh) 2020-10-09 2021-10-08 说话者预测方法、说话者预测装置以及通信系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020171050A JP2022062874A (ja) 2020-10-09 2020-10-09 話者予測方法、話者予測装置、およびコミュニケーションシステム

Publications (1)

Publication Number Publication Date
JP2022062874A true JP2022062874A (ja) 2022-04-21

Family

ID=78080198

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020171050A Pending JP2022062874A (ja) 2020-10-09 2020-10-09 話者予測方法、話者予測装置、およびコミュニケーションシステム

Country Status (4)

Country Link
US (1) US11875800B2 (ja)
EP (1) EP3982361A1 (ja)
JP (1) JP2022062874A (ja)
CN (1) CN114400013A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022062874A (ja) * 2020-10-09 2022-04-21 ヤマハ株式会社 話者予測方法、話者予測装置、およびコミュニケーションシステム

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5220568A (en) * 1988-05-31 1993-06-15 Eastman Kodak Company Shift correcting code for channel encoded data
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
US7194454B2 (en) * 2001-03-12 2007-03-20 Lucent Technologies Method for organizing records of database search activity by topical relevance
US7702563B2 (en) * 2001-06-11 2010-04-20 Otc Online Partners Integrated electronic exchange of structured contracts with dynamic risk-based transaction permissioning
AU2003279037B2 (en) * 2002-09-27 2010-09-02 Callminer, Inc. Software for statistical analysis of speech
US8972266B2 (en) * 2002-11-12 2015-03-03 David Bezar User intent analysis extent of speaker intent analysis system
US8014496B2 (en) * 2004-07-28 2011-09-06 Verizon Business Global Llc Systems and methods for providing network-based voice authentication
US8078463B2 (en) * 2004-11-23 2011-12-13 Nice Systems, Ltd. Method and apparatus for speaker spotting
US7822605B2 (en) * 2006-10-19 2010-10-26 Nice Systems Ltd. Method and apparatus for large population speaker identification in telephone interactions
JP4547721B2 (ja) * 2008-05-21 2010-09-22 株式会社デンソー 自動車用情報提供システム
EP2391090B1 (en) * 2010-05-28 2013-08-21 Prim'Vision System and method for increasing relevancy of messages delivered to a device over a network
US20120010886A1 (en) * 2010-07-06 2012-01-12 Javad Razavilar Language Identification
JP2012029209A (ja) 2010-07-27 2012-02-09 Hitachi Ltd 音処理システム
JP6101684B2 (ja) * 2011-06-01 2017-03-22 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 患者を支援する方法及びシステム
US9197974B1 (en) * 2012-01-06 2015-11-24 Audience, Inc. Directional audio capture adaptation based on alternative sensory input
JP5810946B2 (ja) * 2012-01-31 2015-11-11 富士通株式会社 特定通話検出装置、特定通話検出方法及び特定通話検出用コンピュータプログラム
GB2517952B (en) * 2013-09-05 2017-05-31 Barclays Bank Plc Biometric verification using predicted signatures
EP2903387A1 (en) * 2014-01-31 2015-08-05 Vodafone GmbH Method, mobile device, computer readable medium and computer program product for establishing a communication connection in a communication network.
US9338302B2 (en) * 2014-05-01 2016-05-10 International Business Machines Corporation Phone call playback with intelligent notification
WO2016087855A2 (en) * 2014-12-02 2016-06-09 Nes Irvine Independent touch it
US10318639B2 (en) * 2017-02-03 2019-06-11 International Business Machines Corporation Intelligent action recommendation
US20170274908A1 (en) * 2017-06-12 2017-09-28 Xiaoning Huai Personalize self-driving cars
US10178490B1 (en) * 2017-06-30 2019-01-08 Apple Inc. Intelligent audio rendering for video recording
US10762136B2 (en) * 2017-09-15 2020-09-01 Telefonaktiebolaget Lm Ericsson (Publ) Tag-based, user directed media recommendations
US10657962B2 (en) * 2018-05-02 2020-05-19 International Business Machines Corporation Modeling multiparty conversation dynamics: speaker, response, addressee selection using a novel deep learning approach
US11392647B2 (en) * 2019-09-27 2022-07-19 International Business Machines Corporation Intent-based question suggestion engine to advance a transaction conducted via a chatbot
US20210097502A1 (en) * 2019-10-01 2021-04-01 Microsoft Technology Licensing, Llc Automatically determining and presenting personalized action items from an event
CN114762039A (zh) * 2019-12-31 2022-07-15 华为技术有限公司 一种会议数据处理方法及相关设备
US11924580B2 (en) * 2020-05-07 2024-03-05 Intel Corporation Generating real-time director's cuts of live-streamed events using roles
JP2022062874A (ja) * 2020-10-09 2022-04-21 ヤマハ株式会社 話者予測方法、話者予測装置、およびコミュニケーションシステム
JP2022062875A (ja) * 2020-10-09 2022-04-21 ヤマハ株式会社 音信号処理方法および音信号処理装置
US11941367B2 (en) * 2021-05-29 2024-03-26 International Business Machines Corporation Question generation by intent prediction
US11418557B1 (en) * 2021-06-16 2022-08-16 Meta Platforms, Inc. Systems and methods for automatically switching between media streams

Also Published As

Publication number Publication date
US20220115021A1 (en) 2022-04-14
US11875800B2 (en) 2024-01-16
EP3982361A1 (en) 2022-04-13
CN114400013A (zh) 2022-04-26

Similar Documents

Publication Publication Date Title
NL2021308B1 (en) Methods for a voice processing system
US11023690B2 (en) Customized output to optimize for user preference in a distributed system
CN102843540B (zh) 用于视频会议的自动摄像机选择
EP2962300B1 (en) Method and apparatus for generating a speech signal
US9197974B1 (en) Directional audio capture adaptation based on alternative sensory input
EP4345816A2 (en) Speaker attributed transcript generation
WO2015172630A1 (zh) 摄像装置及其对焦方法
WO2022022139A1 (zh) 一种基于多音区的语音检测方法、相关装置及存储介质
EP1443498A1 (en) Noise reduction and audio-visual speech activity detection
JP3537962B2 (ja) 音声収集装置及び音声収集方法
EP3963579A1 (en) Processing overlapping speech from distributed devices
WO2020222921A1 (en) Audio stream processing for distributed device meeting
US11736887B2 (en) Audio signal processing method and audio signal processing apparatus that process an audio signal based on position information
CN103685783A (zh) 信息处理系统和存储介质
CN110620895A (zh) 数据处理装置、数据处理方法以及记录介质
CN115482830A (zh) 语音增强方法及相关设备
JP2022062874A (ja) 話者予測方法、話者予測装置、およびコミュニケーションシステム
US11956606B2 (en) Audio signal processing method and audio signal processing apparatus that process an audio signal based on posture information
CN114531425A (zh) 一种处理方法和处理装置
KR101892268B1 (ko) 영상 회의 시 단말기를 제어하기 위한 방법, 장치 및 기록 매체
CN114401350A (zh) 一种音频处理方法及会议系统
CN112788278B (zh) 视频流的生成方法、装置、设备及存储介质
CN117392995A (zh) 基于多模态的话者分离方法、装置、设备及存储介质
CN116320850A (zh) 一种会议主讲人锁定方法及系统
JP2023103287A (ja) 音声処理装置、会議システム、及び音声処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230824