JP2024057730A

JP2024057730A - 情報処理装置

Info

Publication number: JP2024057730A
Application number: JP2022164583A
Authority: JP
Inventors: 純大木; Jun Oki; 和幸稲垣; Kazuyuki Inagaki
Original assignee: JVCKenwood Corp
Current assignee: JVCKenwood Corp
Priority date: 2022-10-13
Filing date: 2022-10-13
Publication date: 2024-04-25

Abstract

【課題】会話のリアルタイム性を損なうことなく、時間軸上で互いに重なる複数の発話を聞き取りやすくする技術を提供する。【解決手段】電子会議装置は、複数の利用者端末３から音声信号を受信する音声信号受信部３２と、音声信号受信部３２が異なる利用者端末３から同時に音声信号を受信したか判定する同時受信判定部３３と、音声信号受信部３２が異なる利用者端末３から同時に音声信号を受信した場合、後続の音声信号に対応する発話の始まりを強調するように後続の音声信号を加工する信号加工部３４と、先行の音声信号と後続の音声信号を混合して出力する出力部３５と、を含む。【選択図】図２

Description

本発明は、情報処理装置に関する。

特許文献１は、複数の参加者が同時に発言した場合や複数の参加者の発言が互いに重なった場合に、それらの発言を認識し理解することを容易とする会議支援システムを開示している。具体的には、同時に行われ又は互いに重なりのある複数の発言を時間軸上で重ならないようにタイムラグを設けて順次再生出力するようにしている。

特開２００６－２２９９０３号公報

上記特許文献１の構成では、互いに重なりのある複数の発言にタイムラグを設けて順次再生出力するので、互いに重なりのある複数の発言の数が少ないうちは問題ないが、多くなるとすべての発言が再生出力され終わるまでに相当の時間を要し、会話のリアルタイム性が損なわれてしまう。

本開示の目的は、会話のリアルタイム性を損なうことなく、時間軸上で互いに重なる複数の発話を聞き取りやすくする技術を提供することにある。

本開示によれば、
複数の利用者端末から音声信号を受信する音声信号受信部と、
前記音声信号受信部が異なる利用者端末から同時に音声信号を受信したか判定する同時受信判定部と、
前記音声信号受信部が異なる利用者端末から同時に音声信号を受信した場合、後続の音声信号に対応する発話の始まりを強調するように前記後続の音声信号を加工する信号加工部と、
先行の音声信号と後続の音声信号を混合して出力する出力部と、
を含む、
情報処理装置が提供される。

本開示によれば、会話のリアルタイム性を損なうことなく、時間軸上で互いに重なる複数の発話が聞き取りやすくなる。

電子会議装置の概略図である。（第１実施形態）利用者端末の機能ブロック図である。（第１実施形態）加工前の音声信号を示すグラフである。（第１実施形態）加工後の音声信号を示すグラフである。（第１実施形態）利用者端末の制御フローである。（第１実施形態）加工後の音声信号を示すグラフである。（第２実施形態）利用者端末の機能ブロック図である。（第３実施形態）加工後の音声信号を示すグラフである。（第３実施形態）利用者端末の機能ブロック図である。（第４実施形態）利用者端末の機能ブロック図である。（第５実施形態）

（第１実施形態）
以下、図１から図５を参照して、本開示の第１実施形態を説明する。

図１には、電子会議装置１の概略図を示している。本実施形態において、電子会議装置１は、複数の利用者が参加するオンライン型の電子会議装置に適用される。電子会議装置１は、サーバ２と、複数の利用者端末３と、を含む。複数の利用者端末３は、WAN４（Wide Area Network）を経由してサーバ２と双方向通信可能に構成されている。複数の利用者端末３は、WAN４を経由して互いに双方向通信可能に構成されている。本実施形態では、説明の便宜上、オンライン型の電子会議に利用者Ａ、利用者Ｂ、利用者Ｃ、利用者Ｄが参加するものとする。複数の利用者端末３は、利用者Ａが利用する利用者端末３Ａ、利用者Ｂが利用する利用者端末３Ｂ、利用者Ｃが利用する利用者端末３Ｃ、利用者Ｄが利用する利用者端末３Ｄを含む。利用者端末３Ａ、利用者端末３Ｂ、利用者端末３Ｃ、利用者端末３Ｄは何れも同一構成である。利用者端末３は、情報処理装置の一具体例である。

各利用者は、利用者端末３が備えるマイクに向かって発話し、利用者端末３が備えるスピーカを介して他のユーザの発話を聞き取る。このとき、各利用者端末３から発信された音声信号は、サーバ２を経由して、又は、サーバ２を経由しないで、他の利用者端末３に送信される。即ち、サーバ２は省略してもよい。

図２は、利用者端末３Ａの機能ブロック図を示している。図２に示すように、利用者端末３Ａは、中央演算処理器としてのCPU３ａ（Central Processing Unit）と、読み書き自由のRAM３ｂ（Random Access Memory）、読み出し専用のROM３ｃ（Read Only Memory）を備えている。利用者端末３Ａは、更に、マイク３ｄ、スピーカ３ｅ、LCD３ｆ（Liquid Crystal Display）、通信インターフェース３ｇを備えている。マイク３ｄは、音声入力手段の一具体例である。スピーカ３ｅは、音声出力手段の一具体例である。LCD３ｆは、画像表示手段の一具体例である。

そして、CPU３ａがROM３ｃに記憶されている制御プログラムを読み出して実行することで、制御プログラムは、CPU３ａなどのハードウェアを、音声信号受付部３０、音声信号送信部３１、音声信号受信部３２、同時受信判定部３３、信号加工部３４、出力部３５として機能させる。

音声信号受付部３０は、マイク３ｄから出力された音声信号を受け付ける。

音声信号送信部３１は、通信インターフェース３ｇを介して、音声信号受付部３０が受け付けた音声信号を他の利用者端末３にリアルタイムに送信する。具体的には、音声信号送信部３１は、当該音声信号を２０ｍｓｅｃ毎に符号化して音声パケットに格納し、当該音声パケットを他の利用者端末３にリアルタイムに送信する。なお、他の利用者端末３とは、具体的には、利用者端末３Ｂ、利用者端末３Ｃ、利用者端末３Ｄである。

音声信号受信部３２は、通信インターフェース３ｇを介して、他の利用者端末３から発信された音声信号を取得する。具体的には、音声信号受信部３２は、他の利用者端末３から音声パケットを受信し、音声パケットに格納されている音声信号を復号化することで、音声信号を取得する。

図３には、音声信号受信部３２が取得した音声信号の一例を示している。横軸は時間軸であり、縦軸は音声信号の振幅である。図３において、利用者端末３Ｂから発信された音声信号を音声信号ＳＢで示し、利用者端末３Ｃから発信された音声信号を音声信号ＳＣで示し、利用者端末３Ｄから発信された音声信号を音声信号ＳＤで示す。
音声信号ＳＢの始点は時刻ｔ０であり、終点は時刻ｔ１である。時刻ｔ０で始まり時刻ｔ１で終わる音声信号ＳＢは、利用者Ｂの発話ＰＢを構成する。即ち、発話ＰＢは、時刻ｔ０で始まり時刻ｔ１で終わる。
音声信号ＳＣの始点は時刻ｔ２であり、終点は時刻ｔ３である。時刻ｔ２で始まり時刻ｔ３で終わる音声信号ＳＣは、利用者Ｃの発話ＰＣを構成する。即ち、発話ＰＣは、時刻ｔ２で始まり時刻ｔ３で終わる。
音声信号ＳＤの始点は時刻ｔ４であり、終点は時刻ｔ５である。時刻ｔ４で始まり時刻ｔ５で終わる音声信号ＳＤは、利用者Ｄの発話ＰＤを構成する。即ち、発話ＰＤは、時刻ｔ４で始まり時刻ｔ５で終わる。
これらの時刻を時間軸上に順に並べると、時刻ｔ０、時刻ｔ２、時刻ｔ４、時刻ｔ１、時刻ｔ５、時刻ｔ３となる。

図３に示すように、発話ＰＢ、発話ＰＣ、発話ＰＤは、時間軸上で部分的に重複している。具体的には、以下の通りである。
時刻ｔ０から時刻ｔ２の間では、発話ＰＢ、発話ＰＣ、発話ＰＤは互いに一切重複していない。
時刻ｔ２から時刻ｔ４の間では、発話ＰＢ及び発話ＰＣが互いに重複している。
時刻ｔ４から時刻ｔ１の間では、発話ＰＢ及び発話ＰＣ、発話ＰＤが互いに重複している。
時刻ｔ１から時刻ｔ５の間では、発話ＰＣ及び発話ＰＤが互いに重複している。
時刻ｔ５から時刻ｔ３の間では、発話ＰＢ、発話ＰＣ、発話ＰＤは互いに一切重複していない。

同時受信判定部３３は、音声信号受信部３２が異なる利用者端末３から同時に音声信号を受信したか判定する。図３の例では、同時受信判定部３３は、時刻ｔ２から時刻ｔ５の間において、音声信号受信部３２が異なる利用者端末３から同時に音声信号を受信したと判定する。

信号加工部３４は、音声信号受信部３２が異なる利用者端末３から同時に音声信号を受信した場合、言い換えると、ある音声信号（先行の音声信号）を受信している間に、別の音声信号（後続の音声信号）を重複して受信した場合、後続の音声信号に対応する発話の始まりを強調するように後続の音声信号を加工する。

具体的には、以下の通りである。
時刻ｔ２において、音声信号受信部３２は、利用者端末３Ｂ及び利用者端末３Ｃから同時に音声信号を受信する。従って、信号加工部３４は、後続の音声信号である音声信号ＳＣに対応する発話ＰＣの始まりを強調するように音声信号ＳＣを加工する。ここで、「後続の音声信号」とは、時間軸上で他の音声信号に遅れて開始する音声信号を意味する。図４に示すように、信号加工部３４は、音声信号ＳＣに対応する発話ＰＣの冒頭部分に対応する音声信号ＳＣを増幅する。即ち、信号加工部３４は、時刻ｔ２から所定時間Δｔの間、音声信号ＳＣを増幅する。所定時間Δｔとは、典型的は、０．１秒から１．０秒の範囲内である。一方で、信号加工部３４は、音声信号ＳＣに対応する発話ＰＣの冒頭部分以外の部分に対応する音声信号ＳＣを増幅しない。換言すれば、信号加工部３４は、音声信号ＳＣを増幅するに際し、音声信号ＳＣに対応する発話ＰＣの冒頭部分に対応する音声信号ＳＣの利得を、音声信号ＳＣに対応する発話ＰＣの冒頭部分以外の部分に対応する音声信号ＳＣの利得よりも高くする。これにより、利用者Ａは、利用者Ｂが発話している最中に利用者Ｃが発話し始めたとき、利用者Ｃが発話し始めたことを容易に認識できるので、利用者Ｂの発話と利用者Ｃの発話を聞き分けやすくなる。

また、時刻ｔ４において、音声信号受信部３２は、利用者端末３Ｂ及び利用者端末３Ｃ、利用者端末３Ｄから同時に音声信号を受信する。従って、信号加工部３４は、後続の音声信号である音声信号ＳＤに対応する発話ＰＤの始まりを強調するように音声信号ＳＤを加工する。具体的には、図４に示すように、信号加工部３４は、音声信号ＳＤに対応する発話ＰＤの冒頭部分に対応する音声信号ＳＤを増幅する。即ち、信号加工部３４は、時刻ｔ４から所定時間Δｔの間、音声信号ＳＤを増幅する。一方で、信号加工部３４は、音声信号ＳＤに対応する発話ＰＤの冒頭部分以外の部分に対応する音声信号ＳＤを増幅しない。換言すれば、信号加工部３４は、音声信号ＳＤを増幅するに際し、音声信号ＳＤに対応する発話ＰＤの冒頭部分に対応する音声信号ＳＤの利得を、音声信号ＳＤに対応する発話ＰＤの冒頭部分以外の部分に対応する音声信号ＳＤの利得よりも高くする。これにより、利用者Ａは、利用者Ｂ及び利用者Ｃが発話している最中に利用者Ｄが発話し始めたとき、利用者Ｄが発話し始めたことを容易に認識できるので、利用者Ｂ及び利用者Ｃの発話と利用者Ｄの発話を聞き分けやすくなる。

出力部３５は、先行の音声信号と後続の音声信号を混合して出力する。ここで、「先行の音声信号」とは、時間軸上で他の音声信号に先立って開始する音声信号を意味する。

具体的には以下の通りである。
時刻ｔ０から時刻ｔ２の間では、出力部３５は、音声信号ＳＢをスピーカ３ｅに出力する。
時刻ｔ２から時刻ｔ４の間では、出力部３５は、音声信号ＳＢ及び音声信号ＳＣを混合してスピーカ３ｅに出力する。即ち、先行の音声信号は音声信号ＳＢであり、後続の音声信号は音声信号ＳＣである。そして、出力部３５は、音声信号ＳＢ及び音声信号ＳＣが時間軸上で互いに重複した状態を維持したまま、音声信号ＳＢ及び音声信号ＳＣを混合して混合音声信号を生成し、生成した混合音声信号をスピーカ３ｅに出力する。
時刻ｔ４から時刻ｔ１の間では、出力部３５は、音声信号ＳＢ及び音声信号ＳＣ、音声信号ＳＤを混合してスピーカ３ｅに出力する。即ち、先行の音声信号は音声信号ＳＢであり、後続の音声信号は音声信号ＳＣ及び音声信号ＳＤである。そして、出力部３５は、音声信号ＳＢ及び音声信号ＳＣ、音声信号ＳＤが時間軸上で互いに重複した状態を維持したまま、音声信号ＳＢ及び音声信号ＳＣ、音声信号ＳＤを混合して混合音声信号を生成し、生成した混合音声信号をスピーカ３ｅに出力する。
時刻ｔ１から時刻ｔ５の間では、出力部３５は、音声信号ＳＣ及び音声信号ＳＤを混合してスピーカ３ｅに出力する。即ち、先行の音声信号は音声信号ＳＣであり、後続の音声信号は音声信号ＳＤである。そして、出力部３５は、音声信号ＳＣ及び音声信号ＳＤが時間軸上で互いに重複した状態を維持したまま、音声信号ＳＣ及び音声信号ＳＤを混合して混合音声信号を生成し、生成した混合音声信号をスピーカ３ｅに出力する。
時刻ｔ５から時刻ｔ３の間では、出力部３５は、音声信号ＳＣをスピーカ３ｅに出力する。

次に、図５を参照して、利用者端末３Ａの動作フローを説明する。

まず、音声信号受信部３２は、他の利用者端末３から音声信号を受信する（Ｓ１００）。

次に、同時受信判定部３３は、音声信号受信部３２が異なる利用者端末３から同時に音声信号を受信したか判定する（Ｓ１１０）。

次に、信号加工部３４は、音声信号受信部３２が異なる利用者端末３から同時に音声信号を受信した場合（Ｓ１２０：ＹＥＳ）、後続の音声信号に対応する発話の始まりを強調するように後続の音声信号を加工し（Ｓ１３０）、処理をステップＳ１４０に進める。一方、信号加工部３４は、音声信号受信部３２が異なる利用者端末３から同時に音声信号を受信していない場合（Ｓ１２０：ＮＯ）、処理をステップＳ１４０に進める。

次に、出力部３５は、先行の音声信号と後続の音声信号を混合して出力する（Ｓ１４０）。

そして、利用者端末３Ａは、現在行われているオンライン型の電子会議が終了したか判定する（Ｓ１５０）。利用者端末３Ａは、ステップＳ１５０でＹＥＳの場合は処理を終了し、ステップＳ１５０でＮＯの場合は処理をステップＳ１００に戻す。

上記第１実施形態は以下の特徴を有する。
即ち、電子会議装置１は、複数の利用者端末３から音声信号を受信する音声信号受信部３２と、音声信号受信部３２が異なる利用者端末３から同時に音声信号を受信したか判定する同時受信判定部３３と、音声信号受信部３２が異なる利用者端末３から同時に音声信号を受信した場合、後続の音声信号に対応する発話の始まりを強調するように後続の音声信号を加工する信号加工部３４と、先行の音声信号と後続の音声信号を混合して出力する出力部３５と、を含む。以上の構成によれば、会話のリアルタイム性を損なうことなく、時間軸上で互いに重なる複数の発話を聞き取り易くすることができる。

（第２実施形態）
以下、図６を参照して、本開示の第２実施形態を説明する。以下、本実施形態が上記第１実施形態と相違する点を中心に説明し、重複する説明は省略する。

上記第１実施形態では、図４に示すように、信号加工部３４は、音声信号受信部３２が異なる利用者端末３から同時に音声信号を受信した場合、後続の音声信号に対応する発話の始まりを強調するように後続の音声信号を加工する。具体的には、信号加工部３４は、音声信号ＳＣに対応する発話ＰＣの冒頭部分に対応する音声信号ＳＣを増幅する。また、音声信号ＳＤについても同様にする。

これに対し、本実施形態では、図６に示すように、信号加工部３４は、音声信号ＳＣに対応する発話ＰＣの冒頭部分に所定の強調音声信号ＳＸを配置する。所定の強調音声信号ＳＸは、例えば、所定の周波数を有し所定時間Δｔ継続するビープ音の音声信号である。これに代えて、所定の強調音声信号ＳＸは、チャイム音やベル音などの音声信号であってもよい。信号加工部３４は、典型的には、音声信号ＳＣを所定時間Δｔだけ時間軸上で遅らせると共に、音声信号ＳＣの前に所定の強調音声信号ＳＸを挿入することにより、音声信号ＳＣに対応する発話ＰＣの冒頭部分に所定の強調音声信号ＳＸを配置する。これに代えて、信号加工部３４は、音声信号ＳＣを時間軸上で遅らせることなく、時刻ｔ２から所定時間Δｔの間、音声信号ＳＣを所定の強調音声信号ＳＸに置換することにより、音声信号ＳＣに対応する発話ＰＣの冒頭部分に所定の強調音声信号ＳＸを配置してもよい。また、音声信号ＳＤについても同様にする。

上記の第２実施形態によれば、上記第１実施形態と同様に、会話のリアルタイム性を損なうことなく、時間軸上で互いに重なる複数の発話を聞き取り易くすることができる。

（第３実施形態）
次に、図７及び図８を参照して、本開示の第３実施形態を説明する。以下、本実施形態が上記第１実施形態と相違する点を中心に説明し、重複する説明は省略する。

図７に示すように、利用者端末３Ａは、傾向判定部４０を更に備える。傾向判定部４０は、複数の利用者端末３から受信した音声信号を音声認識することにより、利用者端末３毎に、当該利用者端末３から発信される音声信号が他の利用者の発話に対して肯定的な傾向にあるか否定的な傾向にあるか判定する。

傾向判定部４０は、利用者端末３Ｂから発信された音声信号を音声認識して文字データに変換し、当該文字データが例えば「その通りですね」「自分も同じこと考えていました」「間違いないですね」など、他の利用者の発話に対して肯定的である場合、利用者端末３Ｂの判定ポイントをインクリメントする。

一方で、傾向判定部４０は、利用者端末３Ｂから発信された音声信号を音声認識して文字データに変換し、当該文字データが例えば「それは違います」「本当にそうですか？」「微妙ですね」など、他の利用者の発話に対して否定的である場合、利用者端末３Ｂの判定ポイントをデクリメントする。

そして、傾向判定部４０は、利用者端末３Ｂの判定ポイントが所定値以上であるとき、利用者端末３Ｂから発信される音声信号が他の利用者の発話に対して肯定的な傾向にあると判定し、利用者端末３Ｂの判定ポイントが所定値未満であるとき、利用者端末３Ｂから発信される音声信号が他の利用者の発話に対して否定的な傾向にあると判定する。

傾向判定部４０は、上記判定の精度を確保すべく、オンライン型の電子会議が開始してから３０分程度、利用者端末３毎に、上記判定ポイントの算出を実行する。

そして、信号加工部３４は、肯定的な利用者の発話が否定的な利用者の発話よりも目立つように、後続の音声信号を加工する。

具体的には、以下の通りである。ここで、図８を参照されたい。時刻ｔ４から時刻ｔ１の間では、音声信号ＳＢに対して音声信号ＳＣと音声信号ＳＤが時間軸上で重なっている。そして、傾向判定部４０は、利用者端末３Ｃ（第１の利用者端末）が否定的な傾向にあり、利用者端末３Ｄ（第２の利用者端末）が肯定的な傾向にあると判定しているとする。このとき、信号加工部３４は、音声信号ＳＤ（第２の後続音声信号）の振幅が音声信号ＳＣ（第１の後続音声信号）よりも大きくなるように当該音声信号ＳＤを増幅する。ここでいう音声信号の振幅とは、典型的には、音声信号のピークｔｏピーク値である。音声信号の振幅は、音声信号の振幅の時間平均であってもよい。

本実施形態では、信号加工部３４が肯定的な利用者の発話が否定的な利用者の発話よりも目立つように後続の音声信号を加工することで、オンライン型の電子会議の進行がスムーズになるので、限られた時間内で会議の結論を出し易くなる。
また、信号加工部３４は、否定的な利用者の発話が肯定的な利用者の発話よりも目立つように、後続の音声信号を加工してもよい。信号加工部３４が否定的な利用者の発話が肯定的な利用者の発話よりも目立つように後続の音声信号を加工することで、会議が活性化し、より深い議論や考察が可能になる。肯定的な利用者の発話と否定的な利用者の発話とのいずれかを目立つように後続の音声信号を加工するかについては、会議の目的や状況などに応じて、会議の開催者などが設定してもよい。

（第４実施形態）
次に、図９を参照して、本開示の第４実施形態を説明する。以下、本実施形態が上記第１実施形態と相違する点を中心に説明し、重複する説明は省略する。

図９に示すように、利用者端末３Ａは、発話計測部４１を更に備える。発話計測部４１は、利用者端末３毎に、総発話回数を計測する。ここで、総発話回数とは、オンライン型の電子会議が開始してから所定時間経過するまでの間の発話の累計回数である。

そして、信号加工部３４は、総発話回数が相対的に少ない利用者の発話が総発話回数が相対的に多い利用者の発話よりも目立つように後続の音声信号を加工する。

具体的には、以下の通りである。ここで、再度、図８を参照されたい。時刻ｔ４から時刻ｔ１の間では、音声信号ＳＢに対して音声信号ＳＣと音声信号ＳＤが時間軸上で重なっている。そして、利用者端末３Ｃ（第１の利用者端末）の総発話回数は１８回であり、利用者端末３Ｄ（第２の利用者端末）の総発話回数が２回であるとする。このとき、信号加工部３４は、音声信号ＳＤ（第２の後続音声信号）の振幅が音声信号ＳＣ（第１の後続音声信号）よりも大きくなるように当該音声信号ＳＤを増幅する。ここでいう音声信号の振幅とは、典型的には、音声信号のピークｔｏピーク値である。音声信号の振幅は、音声信号の振幅の時間平均であってもよい。

本実施形態では、信号加工部３４が、総発話回数が相対的に少ない利用者の発話が総発話回数が相対的に多い利用者の発話よりも目立つように後続の音声信号を加工することで、オンライン型の電子会議における当該利用者の存在感を高めることができ、もって、全員参加型の電子会議を実現することができる。
また、信号加工部３４は、総発話回数が相対的に多い利用者の発話が総発話回数が相対的に少ない利用者の発話よりも目立つように後続の音声信号を加工することで、会議を円滑に進めることができる。総発話回数が相対的に少ない利用者の発話と総発話回数が相対的に多い利用者の発話とのいずれかを目立つように後続の音声信号を加工するかについては、会議の目的や状況などに応じて、会議の開催者などが設定してもよい。

上記第４実施形態では、発話計測部４１は、利用者端末３毎に、総発話回数を計測する。しかし、これに代えて、発話計測部４１は、利用者端末３毎に、総発話時間を計測してもよい。ここで、総発話時間とは、オンライン型の電子会議が開始してから所定時間経過するまでの間の発話の累計時間である。この場合、信号加工部３４は、総発話時間が相対的に短い利用者の発話が総発話時間が相対的に長い利用者の発話よりも目立つように、後続の音声信号を加工する。

要するに、信号加工部３４は、第１の利用者端末の総発話回数が第２の利用者端末よりも多いとき、又は、第１の利用者端末の総発話時間が第２の利用者端末よりも長いとき、第２の後続音声信号の振幅が第１の後続音声信号よりも大きくなるように当該第２の後続音声信号を増幅する。

（第５実施形態）
次に、図１０を参照して、本開示の第５実施形態を説明する。

図１０に示すように、利用者端末３Ａは、中心利用者特定部４２を更に備える。中心利用者特定部４２は、オンライン型の電子会議において中心的な利用者を特定する。ここで、中心的な利用者とは、典型的には、当該電子会議において進行役となっている利用者、最も発話回数が多い利用者、最も発話時間が長い利用者の何れかである。

そして、信号加工部３４は、中心的な利用者の発話が他の利用者の発話よりも目立つように、後続の音声信号を加工する。

具体的には、以下の通りである。ここで、再度、図８を参照されたい。時刻ｔ４から時刻ｔ１の間では、音声信号ＳＢに対して音声信号ＳＣと音声信号ＳＤが時間軸上で重なっている。そして、利用者Ｄが中心的な参加者であるとする。このとき、信号加工部３４は、音声信号ＳＤの振幅が音声信号ＳＣよりも大きくなるように当該音声信号ＳＤを増幅する。

本実施形態では、信号加工部３４が、中心的な利用者の発話が他の利用者の発話よりも目立つように、後続の音声信号を加工することで、オンライン型の電子会議の進行がスムーズになるので、限られた時間内で会議の結論を出し易くなる。

以上に、本開示の第１実施形態から第５実施形態を説明した。上記各実施形態は以下のように変更できる。

即ち、各利用者端末３における情報処理は、各利用者端末３単体で実現することに代えて、サーバ２と利用者端末３で分散して実行するようにしてもよい。

上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）を含む。非一時的なコンピュータ可読媒体の例は、更に、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭを含む。非一時的なコンピュータ可読媒体の例は、更に、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（random access memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

１電子会議装置
２サーバ
３利用者端末
３Ａ利用者端末
３Ｂ利用者端末
３Ｃ利用者端末
３Ｄ利用者端末
４ WAN４
３０音声信号受付部
３１音声信号送信部
３２音声信号受信部
３３同時受信判定部
３４信号加工部
３５出力部
４０傾向判定部
４１発話計測部
４２中心利用者特定部
Ａ利用者
Ｂ利用者
Ｃ利用者
Ｄ利用者
ＳＢ音声信号
ＳＣ音声信号
ＳＤ音声信号
ＳＸ強調音声信号
ＰＢ発話
ＰＣ発話
ＰＤ発話

Claims

複数の利用者端末から音声信号を受信する音声信号受信部と、
前記音声信号受信部が異なる利用者端末から同時に音声信号を受信したか判定する同時受信判定部と、
前記音声信号受信部が異なる利用者端末から同時に音声信号を受信した場合、後続の音声信号に対応する発話の始まりを強調するように前記後続の音声信号を加工する信号加工部と、
先行の音声信号と後続の音声信号を混合して出力する出力部と、
を含む、
情報処理装置。
前記信号加工部は、前記後続の音声信号に対応する発話の冒頭部分に対応する音声信号を増幅する、
請求項１に記載の情報処理装置。
前記信号加工部は、前記後続の音声信号に対応する発話の冒頭部分に所定の強調音声信号を配置する、
請求項１に記載の情報処理装置。
前記複数の利用者端末から受信した音声信号を音声認識することにより、利用者端末毎に、当該利用者端末から発信される音声信号が他の利用者の発話に対して肯定的な傾向にあるか否定的な傾向にあるか判定する傾向判定部を更に備え、
前記信号加工部は、前記傾向判定部で判定された結果に基づき、前記後続の音声信号の振幅を増幅する、
請求項１に記載の情報処理装置。
利用者端末毎に、総発話回数又は総発話時間を計測する発話計測部を更に備え、
前記信号加工部は、前記発話計測部で計測された結果に基づき、前記後続の音声信号の振幅を増幅する、
請求項１に記載の情報処理装置。