JP2024057730A - 情報処理装置 - Google Patents
情報処理装置 Download PDFInfo
- Publication number
- JP2024057730A JP2024057730A JP2022164583A JP2022164583A JP2024057730A JP 2024057730 A JP2024057730 A JP 2024057730A JP 2022164583 A JP2022164583 A JP 2022164583A JP 2022164583 A JP2022164583 A JP 2022164583A JP 2024057730 A JP2024057730 A JP 2024057730A
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- signal
- voice
- time
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims description 10
- 230000005236 sound signal Effects 0.000 claims abstract description 159
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000005259 measurement Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 230000001186 cumulative effect Effects 0.000 description 2
- 230000001934 delay Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
【課題】会話のリアルタイム性を損なうことなく、時間軸上で互いに重なる複数の発話を聞き取りやすくする技術を提供する。【解決手段】電子会議装置は、複数の利用者端末3から音声信号を受信する音声信号受信部32と、音声信号受信部32が異なる利用者端末3から同時に音声信号を受信したか判定する同時受信判定部33と、音声信号受信部32が異なる利用者端末3から同時に音声信号を受信した場合、後続の音声信号に対応する発話の始まりを強調するように後続の音声信号を加工する信号加工部34と、先行の音声信号と後続の音声信号を混合して出力する出力部35と、を含む。【選択図】図2
Description
本発明は、情報処理装置に関する。
特許文献1は、複数の参加者が同時に発言した場合や複数の参加者の発言が互いに重なった場合に、それらの発言を認識し理解することを容易とする会議支援システムを開示している。具体的には、同時に行われ又は互いに重なりのある複数の発言を時間軸上で重ならないようにタイムラグを設けて順次再生出力するようにしている。
上記特許文献1の構成では、互いに重なりのある複数の発言にタイムラグを設けて順次再生出力するので、互いに重なりのある複数の発言の数が少ないうちは問題ないが、多くなるとすべての発言が再生出力され終わるまでに相当の時間を要し、会話のリアルタイム性が損なわれてしまう。
本開示の目的は、会話のリアルタイム性を損なうことなく、時間軸上で互いに重なる複数の発話を聞き取りやすくする技術を提供することにある。
本開示によれば、
複数の利用者端末から音声信号を受信する音声信号受信部と、
前記音声信号受信部が異なる利用者端末から同時に音声信号を受信したか判定する同時受信判定部と、
前記音声信号受信部が異なる利用者端末から同時に音声信号を受信した場合、後続の音声信号に対応する発話の始まりを強調するように前記後続の音声信号を加工する信号加工部と、
先行の音声信号と後続の音声信号を混合して出力する出力部と、
を含む、
情報処理装置が提供される。
複数の利用者端末から音声信号を受信する音声信号受信部と、
前記音声信号受信部が異なる利用者端末から同時に音声信号を受信したか判定する同時受信判定部と、
前記音声信号受信部が異なる利用者端末から同時に音声信号を受信した場合、後続の音声信号に対応する発話の始まりを強調するように前記後続の音声信号を加工する信号加工部と、
先行の音声信号と後続の音声信号を混合して出力する出力部と、
を含む、
情報処理装置が提供される。
本開示によれば、会話のリアルタイム性を損なうことなく、時間軸上で互いに重なる複数の発話が聞き取りやすくなる。
(第1実施形態)
以下、図1から図5を参照して、本開示の第1実施形態を説明する。
以下、図1から図5を参照して、本開示の第1実施形態を説明する。
図1には、電子会議装置1の概略図を示している。本実施形態において、電子会議装置1は、複数の利用者が参加するオンライン型の電子会議装置に適用される。電子会議装置1は、サーバ2と、複数の利用者端末3と、を含む。複数の利用者端末3は、WAN4(Wide Area Network)を経由してサーバ2と双方向通信可能に構成されている。複数の利用者端末3は、WAN4を経由して互いに双方向通信可能に構成されている。本実施形態では、説明の便宜上、オンライン型の電子会議に利用者A、利用者B、利用者C、利用者Dが参加するものとする。複数の利用者端末3は、利用者Aが利用する利用者端末3A、利用者Bが利用する利用者端末3B、利用者Cが利用する利用者端末3C、利用者Dが利用する利用者端末3Dを含む。利用者端末3A、利用者端末3B、利用者端末3C、利用者端末3Dは何れも同一構成である。利用者端末3は、情報処理装置の一具体例である。
各利用者は、利用者端末3が備えるマイクに向かって発話し、利用者端末3が備えるスピーカを介して他のユーザの発話を聞き取る。このとき、各利用者端末3から発信された音声信号は、サーバ2を経由して、又は、サーバ2を経由しないで、他の利用者端末3に送信される。即ち、サーバ2は省略してもよい。
図2は、利用者端末3Aの機能ブロック図を示している。図2に示すように、利用者端末3Aは、中央演算処理器としてのCPU3a(Central Processing Unit)と、読み書き自由のRAM3b(Random Access Memory)、読み出し専用のROM3c(Read Only Memory)を備えている。利用者端末3Aは、更に、マイク3d、スピーカ3e、LCD3f(Liquid Crystal Display)、通信インターフェース3gを備えている。マイク3dは、音声入力手段の一具体例である。スピーカ3eは、音声出力手段の一具体例である。LCD3fは、画像表示手段の一具体例である。
そして、CPU3aがROM3cに記憶されている制御プログラムを読み出して実行することで、制御プログラムは、CPU3aなどのハードウェアを、音声信号受付部30、音声信号送信部31、音声信号受信部32、同時受信判定部33、信号加工部34、出力部35として機能させる。
音声信号受付部30は、マイク3dから出力された音声信号を受け付ける。
音声信号送信部31は、通信インターフェース3gを介して、音声信号受付部30が受け付けた音声信号を他の利用者端末3にリアルタイムに送信する。具体的には、音声信号送信部31は、当該音声信号を20msec毎に符号化して音声パケットに格納し、当該音声パケットを他の利用者端末3にリアルタイムに送信する。なお、他の利用者端末3とは、具体的には、利用者端末3B、利用者端末3C、利用者端末3Dである。
音声信号受信部32は、通信インターフェース3gを介して、他の利用者端末3から発信された音声信号を取得する。具体的には、音声信号受信部32は、他の利用者端末3から音声パケットを受信し、音声パケットに格納されている音声信号を復号化することで、音声信号を取得する。
図3には、音声信号受信部32が取得した音声信号の一例を示している。横軸は時間軸であり、縦軸は音声信号の振幅である。図3において、利用者端末3Bから発信された音声信号を音声信号SBで示し、利用者端末3Cから発信された音声信号を音声信号SCで示し、利用者端末3Dから発信された音声信号を音声信号SDで示す。
音声信号SBの始点は時刻t0であり、終点は時刻t1である。時刻t0で始まり時刻t1で終わる音声信号SBは、利用者Bの発話PBを構成する。即ち、発話PBは、時刻t0で始まり時刻t1で終わる。
音声信号SCの始点は時刻t2であり、終点は時刻t3である。時刻t2で始まり時刻t3で終わる音声信号SCは、利用者Cの発話PCを構成する。即ち、発話PCは、時刻t2で始まり時刻t3で終わる。
音声信号SDの始点は時刻t4であり、終点は時刻t5である。時刻t4で始まり時刻t5で終わる音声信号SDは、利用者Dの発話PDを構成する。即ち、発話PDは、時刻t4で始まり時刻t5で終わる。
これらの時刻を時間軸上に順に並べると、時刻t0、時刻t2、時刻t4、時刻t1、時刻t5、時刻t3となる。
音声信号SBの始点は時刻t0であり、終点は時刻t1である。時刻t0で始まり時刻t1で終わる音声信号SBは、利用者Bの発話PBを構成する。即ち、発話PBは、時刻t0で始まり時刻t1で終わる。
音声信号SCの始点は時刻t2であり、終点は時刻t3である。時刻t2で始まり時刻t3で終わる音声信号SCは、利用者Cの発話PCを構成する。即ち、発話PCは、時刻t2で始まり時刻t3で終わる。
音声信号SDの始点は時刻t4であり、終点は時刻t5である。時刻t4で始まり時刻t5で終わる音声信号SDは、利用者Dの発話PDを構成する。即ち、発話PDは、時刻t4で始まり時刻t5で終わる。
これらの時刻を時間軸上に順に並べると、時刻t0、時刻t2、時刻t4、時刻t1、時刻t5、時刻t3となる。
図3に示すように、発話PB、発話PC、発話PDは、時間軸上で部分的に重複している。具体的には、以下の通りである。
時刻t0から時刻t2の間では、発話PB、発話PC、発話PDは互いに一切重複していない。
時刻t2から時刻t4の間では、発話PB及び発話PCが互いに重複している。
時刻t4から時刻t1の間では、発話PB及び発話PC、発話PDが互いに重複している。
時刻t1から時刻t5の間では、発話PC及び発話PDが互いに重複している。
時刻t5から時刻t3の間では、発話PB、発話PC、発話PDは互いに一切重複していない。
時刻t0から時刻t2の間では、発話PB、発話PC、発話PDは互いに一切重複していない。
時刻t2から時刻t4の間では、発話PB及び発話PCが互いに重複している。
時刻t4から時刻t1の間では、発話PB及び発話PC、発話PDが互いに重複している。
時刻t1から時刻t5の間では、発話PC及び発話PDが互いに重複している。
時刻t5から時刻t3の間では、発話PB、発話PC、発話PDは互いに一切重複していない。
同時受信判定部33は、音声信号受信部32が異なる利用者端末3から同時に音声信号を受信したか判定する。図3の例では、同時受信判定部33は、時刻t2から時刻t5の間において、音声信号受信部32が異なる利用者端末3から同時に音声信号を受信したと判定する。
信号加工部34は、音声信号受信部32が異なる利用者端末3から同時に音声信号を受信した場合、言い換えると、ある音声信号(先行の音声信号)を受信している間に、別の音声信号(後続の音声信号)を重複して受信した場合、後続の音声信号に対応する発話の始まりを強調するように後続の音声信号を加工する。
具体的には、以下の通りである。
時刻t2において、音声信号受信部32は、利用者端末3B及び利用者端末3Cから同時に音声信号を受信する。従って、信号加工部34は、後続の音声信号である音声信号SCに対応する発話PCの始まりを強調するように音声信号SCを加工する。ここで、「後続の音声信号」とは、時間軸上で他の音声信号に遅れて開始する音声信号を意味する。図4に示すように、信号加工部34は、音声信号SCに対応する発話PCの冒頭部分に対応する音声信号SCを増幅する。即ち、信号加工部34は、時刻t2から所定時間Δtの間、音声信号SCを増幅する。所定時間Δtとは、典型的は、0.1秒から1.0秒の範囲内である。一方で、信号加工部34は、音声信号SCに対応する発話PCの冒頭部分以外の部分に対応する音声信号SCを増幅しない。換言すれば、信号加工部34は、音声信号SCを増幅するに際し、音声信号SCに対応する発話PCの冒頭部分に対応する音声信号SCの利得を、音声信号SCに対応する発話PCの冒頭部分以外の部分に対応する音声信号SCの利得よりも高くする。これにより、利用者Aは、利用者Bが発話している最中に利用者Cが発話し始めたとき、利用者Cが発話し始めたことを容易に認識できるので、利用者Bの発話と利用者Cの発話を聞き分けやすくなる。
時刻t2において、音声信号受信部32は、利用者端末3B及び利用者端末3Cから同時に音声信号を受信する。従って、信号加工部34は、後続の音声信号である音声信号SCに対応する発話PCの始まりを強調するように音声信号SCを加工する。ここで、「後続の音声信号」とは、時間軸上で他の音声信号に遅れて開始する音声信号を意味する。図4に示すように、信号加工部34は、音声信号SCに対応する発話PCの冒頭部分に対応する音声信号SCを増幅する。即ち、信号加工部34は、時刻t2から所定時間Δtの間、音声信号SCを増幅する。所定時間Δtとは、典型的は、0.1秒から1.0秒の範囲内である。一方で、信号加工部34は、音声信号SCに対応する発話PCの冒頭部分以外の部分に対応する音声信号SCを増幅しない。換言すれば、信号加工部34は、音声信号SCを増幅するに際し、音声信号SCに対応する発話PCの冒頭部分に対応する音声信号SCの利得を、音声信号SCに対応する発話PCの冒頭部分以外の部分に対応する音声信号SCの利得よりも高くする。これにより、利用者Aは、利用者Bが発話している最中に利用者Cが発話し始めたとき、利用者Cが発話し始めたことを容易に認識できるので、利用者Bの発話と利用者Cの発話を聞き分けやすくなる。
また、時刻t4において、音声信号受信部32は、利用者端末3B及び利用者端末3C、利用者端末3Dから同時に音声信号を受信する。従って、信号加工部34は、後続の音声信号である音声信号SDに対応する発話PDの始まりを強調するように音声信号SDを加工する。具体的には、図4に示すように、信号加工部34は、音声信号SDに対応する発話PDの冒頭部分に対応する音声信号SDを増幅する。即ち、信号加工部34は、時刻t4から所定時間Δtの間、音声信号SDを増幅する。一方で、信号加工部34は、音声信号SDに対応する発話PDの冒頭部分以外の部分に対応する音声信号SDを増幅しない。換言すれば、信号加工部34は、音声信号SDを増幅するに際し、音声信号SDに対応する発話PDの冒頭部分に対応する音声信号SDの利得を、音声信号SDに対応する発話PDの冒頭部分以外の部分に対応する音声信号SDの利得よりも高くする。これにより、利用者Aは、利用者B及び利用者Cが発話している最中に利用者Dが発話し始めたとき、利用者Dが発話し始めたことを容易に認識できるので、利用者B及び利用者Cの発話と利用者Dの発話を聞き分けやすくなる。
出力部35は、先行の音声信号と後続の音声信号を混合して出力する。ここで、「先行の音声信号」とは、時間軸上で他の音声信号に先立って開始する音声信号を意味する。
具体的には以下の通りである。
時刻t0から時刻t2の間では、出力部35は、音声信号SBをスピーカ3eに出力する。
時刻t2から時刻t4の間では、出力部35は、音声信号SB及び音声信号SCを混合してスピーカ3eに出力する。即ち、先行の音声信号は音声信号SBであり、後続の音声信号は音声信号SCである。そして、出力部35は、音声信号SB及び音声信号SCが時間軸上で互いに重複した状態を維持したまま、音声信号SB及び音声信号SCを混合して混合音声信号を生成し、生成した混合音声信号をスピーカ3eに出力する。
時刻t4から時刻t1の間では、出力部35は、音声信号SB及び音声信号SC、音声信号SDを混合してスピーカ3eに出力する。即ち、先行の音声信号は音声信号SBであり、後続の音声信号は音声信号SC及び音声信号SDである。そして、出力部35は、音声信号SB及び音声信号SC、音声信号SDが時間軸上で互いに重複した状態を維持したまま、音声信号SB及び音声信号SC、音声信号SDを混合して混合音声信号を生成し、生成した混合音声信号をスピーカ3eに出力する。
時刻t1から時刻t5の間では、出力部35は、音声信号SC及び音声信号SDを混合してスピーカ3eに出力する。即ち、先行の音声信号は音声信号SCであり、後続の音声信号は音声信号SDである。そして、出力部35は、音声信号SC及び音声信号SDが時間軸上で互いに重複した状態を維持したまま、音声信号SC及び音声信号SDを混合して混合音声信号を生成し、生成した混合音声信号をスピーカ3eに出力する。
時刻t5から時刻t3の間では、出力部35は、音声信号SCをスピーカ3eに出力する。
時刻t0から時刻t2の間では、出力部35は、音声信号SBをスピーカ3eに出力する。
時刻t2から時刻t4の間では、出力部35は、音声信号SB及び音声信号SCを混合してスピーカ3eに出力する。即ち、先行の音声信号は音声信号SBであり、後続の音声信号は音声信号SCである。そして、出力部35は、音声信号SB及び音声信号SCが時間軸上で互いに重複した状態を維持したまま、音声信号SB及び音声信号SCを混合して混合音声信号を生成し、生成した混合音声信号をスピーカ3eに出力する。
時刻t4から時刻t1の間では、出力部35は、音声信号SB及び音声信号SC、音声信号SDを混合してスピーカ3eに出力する。即ち、先行の音声信号は音声信号SBであり、後続の音声信号は音声信号SC及び音声信号SDである。そして、出力部35は、音声信号SB及び音声信号SC、音声信号SDが時間軸上で互いに重複した状態を維持したまま、音声信号SB及び音声信号SC、音声信号SDを混合して混合音声信号を生成し、生成した混合音声信号をスピーカ3eに出力する。
時刻t1から時刻t5の間では、出力部35は、音声信号SC及び音声信号SDを混合してスピーカ3eに出力する。即ち、先行の音声信号は音声信号SCであり、後続の音声信号は音声信号SDである。そして、出力部35は、音声信号SC及び音声信号SDが時間軸上で互いに重複した状態を維持したまま、音声信号SC及び音声信号SDを混合して混合音声信号を生成し、生成した混合音声信号をスピーカ3eに出力する。
時刻t5から時刻t3の間では、出力部35は、音声信号SCをスピーカ3eに出力する。
次に、図5を参照して、利用者端末3Aの動作フローを説明する。
まず、音声信号受信部32は、他の利用者端末3から音声信号を受信する(S100)。
次に、同時受信判定部33は、音声信号受信部32が異なる利用者端末3から同時に音声信号を受信したか判定する(S110)。
次に、信号加工部34は、音声信号受信部32が異なる利用者端末3から同時に音声信号を受信した場合(S120:YES)、後続の音声信号に対応する発話の始まりを強調するように後続の音声信号を加工し(S130)、処理をステップS140に進める。一方、信号加工部34は、音声信号受信部32が異なる利用者端末3から同時に音声信号を受信していない場合(S120:NO)、処理をステップS140に進める。
次に、出力部35は、先行の音声信号と後続の音声信号を混合して出力する(S140)。
そして、利用者端末3Aは、現在行われているオンライン型の電子会議が終了したか判定する(S150)。利用者端末3Aは、ステップS150でYESの場合は処理を終了し、ステップS150でNOの場合は処理をステップS100に戻す。
上記第1実施形態は以下の特徴を有する。
即ち、電子会議装置1は、複数の利用者端末3から音声信号を受信する音声信号受信部32と、音声信号受信部32が異なる利用者端末3から同時に音声信号を受信したか判定する同時受信判定部33と、音声信号受信部32が異なる利用者端末3から同時に音声信号を受信した場合、後続の音声信号に対応する発話の始まりを強調するように後続の音声信号を加工する信号加工部34と、先行の音声信号と後続の音声信号を混合して出力する出力部35と、を含む。以上の構成によれば、会話のリアルタイム性を損なうことなく、時間軸上で互いに重なる複数の発話を聞き取り易くすることができる。
即ち、電子会議装置1は、複数の利用者端末3から音声信号を受信する音声信号受信部32と、音声信号受信部32が異なる利用者端末3から同時に音声信号を受信したか判定する同時受信判定部33と、音声信号受信部32が異なる利用者端末3から同時に音声信号を受信した場合、後続の音声信号に対応する発話の始まりを強調するように後続の音声信号を加工する信号加工部34と、先行の音声信号と後続の音声信号を混合して出力する出力部35と、を含む。以上の構成によれば、会話のリアルタイム性を損なうことなく、時間軸上で互いに重なる複数の発話を聞き取り易くすることができる。
(第2実施形態)
以下、図6を参照して、本開示の第2実施形態を説明する。以下、本実施形態が上記第1実施形態と相違する点を中心に説明し、重複する説明は省略する。
以下、図6を参照して、本開示の第2実施形態を説明する。以下、本実施形態が上記第1実施形態と相違する点を中心に説明し、重複する説明は省略する。
上記第1実施形態では、図4に示すように、信号加工部34は、音声信号受信部32が異なる利用者端末3から同時に音声信号を受信した場合、後続の音声信号に対応する発話の始まりを強調するように後続の音声信号を加工する。具体的には、信号加工部34は、音声信号SCに対応する発話PCの冒頭部分に対応する音声信号SCを増幅する。また、音声信号SDについても同様にする。
これに対し、本実施形態では、図6に示すように、信号加工部34は、音声信号SCに対応する発話PCの冒頭部分に所定の強調音声信号SXを配置する。所定の強調音声信号SXは、例えば、所定の周波数を有し所定時間Δt継続するビープ音の音声信号である。これに代えて、所定の強調音声信号SXは、チャイム音やベル音などの音声信号であってもよい。信号加工部34は、典型的には、音声信号SCを所定時間Δtだけ時間軸上で遅らせると共に、音声信号SCの前に所定の強調音声信号SXを挿入することにより、音声信号SCに対応する発話PCの冒頭部分に所定の強調音声信号SXを配置する。これに代えて、信号加工部34は、音声信号SCを時間軸上で遅らせることなく、時刻t2から所定時間Δtの間、音声信号SCを所定の強調音声信号SXに置換することにより、音声信号SCに対応する発話PCの冒頭部分に所定の強調音声信号SXを配置してもよい。また、音声信号SDについても同様にする。
上記の第2実施形態によれば、上記第1実施形態と同様に、会話のリアルタイム性を損なうことなく、時間軸上で互いに重なる複数の発話を聞き取り易くすることができる。
(第3実施形態)
次に、図7及び図8を参照して、本開示の第3実施形態を説明する。以下、本実施形態が上記第1実施形態と相違する点を中心に説明し、重複する説明は省略する。
次に、図7及び図8を参照して、本開示の第3実施形態を説明する。以下、本実施形態が上記第1実施形態と相違する点を中心に説明し、重複する説明は省略する。
図7に示すように、利用者端末3Aは、傾向判定部40を更に備える。傾向判定部40は、複数の利用者端末3から受信した音声信号を音声認識することにより、利用者端末3毎に、当該利用者端末3から発信される音声信号が他の利用者の発話に対して肯定的な傾向にあるか否定的な傾向にあるか判定する。
傾向判定部40は、利用者端末3Bから発信された音声信号を音声認識して文字データに変換し、当該文字データが例えば「その通りですね」「自分も同じこと考えていました」「間違いないですね」など、他の利用者の発話に対して肯定的である場合、利用者端末3Bの判定ポイントをインクリメントする。
一方で、傾向判定部40は、利用者端末3Bから発信された音声信号を音声認識して文字データに変換し、当該文字データが例えば「それは違います」「本当にそうですか?」「微妙ですね」など、他の利用者の発話に対して否定的である場合、利用者端末3Bの判定ポイントをデクリメントする。
そして、傾向判定部40は、利用者端末3Bの判定ポイントが所定値以上であるとき、利用者端末3Bから発信される音声信号が他の利用者の発話に対して肯定的な傾向にあると判定し、利用者端末3Bの判定ポイントが所定値未満であるとき、利用者端末3Bから発信される音声信号が他の利用者の発話に対して否定的な傾向にあると判定する。
傾向判定部40は、上記判定の精度を確保すべく、オンライン型の電子会議が開始してから30分程度、利用者端末3毎に、上記判定ポイントの算出を実行する。
そして、信号加工部34は、肯定的な利用者の発話が否定的な利用者の発話よりも目立つように、後続の音声信号を加工する。
具体的には、以下の通りである。ここで、図8を参照されたい。時刻t4から時刻t1の間では、音声信号SBに対して音声信号SCと音声信号SDが時間軸上で重なっている。そして、傾向判定部40は、利用者端末3C(第1の利用者端末)が否定的な傾向にあり、利用者端末3D(第2の利用者端末)が肯定的な傾向にあると判定しているとする。このとき、信号加工部34は、音声信号SD(第2の後続音声信号)の振幅が音声信号SC(第1の後続音声信号)よりも大きくなるように当該音声信号SDを増幅する。ここでいう音声信号の振幅とは、典型的には、音声信号のピークtoピーク値である。音声信号の振幅は、音声信号の振幅の時間平均であってもよい。
本実施形態では、信号加工部34が肯定的な利用者の発話が否定的な利用者の発話よりも目立つように後続の音声信号を加工することで、オンライン型の電子会議の進行がスムーズになるので、限られた時間内で会議の結論を出し易くなる。
また、信号加工部34は、否定的な利用者の発話が肯定的な利用者の発話よりも目立つように、後続の音声信号を加工してもよい。信号加工部34が否定的な利用者の発話が肯定的な利用者の発話よりも目立つように後続の音声信号を加工することで、会議が活性化し、より深い議論や考察が可能になる。肯定的な利用者の発話と否定的な利用者の発話とのいずれかを目立つように後続の音声信号を加工するかについては、会議の目的や状況などに応じて、会議の開催者などが設定してもよい。
また、信号加工部34は、否定的な利用者の発話が肯定的な利用者の発話よりも目立つように、後続の音声信号を加工してもよい。信号加工部34が否定的な利用者の発話が肯定的な利用者の発話よりも目立つように後続の音声信号を加工することで、会議が活性化し、より深い議論や考察が可能になる。肯定的な利用者の発話と否定的な利用者の発話とのいずれかを目立つように後続の音声信号を加工するかについては、会議の目的や状況などに応じて、会議の開催者などが設定してもよい。
(第4実施形態)
次に、図9を参照して、本開示の第4実施形態を説明する。以下、本実施形態が上記第1実施形態と相違する点を中心に説明し、重複する説明は省略する。
次に、図9を参照して、本開示の第4実施形態を説明する。以下、本実施形態が上記第1実施形態と相違する点を中心に説明し、重複する説明は省略する。
図9に示すように、利用者端末3Aは、発話計測部41を更に備える。発話計測部41は、利用者端末3毎に、総発話回数を計測する。ここで、総発話回数とは、オンライン型の電子会議が開始してから所定時間経過するまでの間の発話の累計回数である。
そして、信号加工部34は、総発話回数が相対的に少ない利用者の発話が総発話回数が相対的に多い利用者の発話よりも目立つように後続の音声信号を加工する。
具体的には、以下の通りである。ここで、再度、図8を参照されたい。時刻t4から時刻t1の間では、音声信号SBに対して音声信号SCと音声信号SDが時間軸上で重なっている。そして、利用者端末3C(第1の利用者端末)の総発話回数は18回であり、利用者端末3D(第2の利用者端末)の総発話回数が2回であるとする。このとき、信号加工部34は、音声信号SD(第2の後続音声信号)の振幅が音声信号SC(第1の後続音声信号)よりも大きくなるように当該音声信号SDを増幅する。ここでいう音声信号の振幅とは、典型的には、音声信号のピークtoピーク値である。音声信号の振幅は、音声信号の振幅の時間平均であってもよい。
本実施形態では、信号加工部34が、総発話回数が相対的に少ない利用者の発話が総発話回数が相対的に多い利用者の発話よりも目立つように後続の音声信号を加工することで、オンライン型の電子会議における当該利用者の存在感を高めることができ、もって、全員参加型の電子会議を実現することができる。
また、信号加工部34は、総発話回数が相対的に多い利用者の発話が総発話回数が相対的に少ない利用者の発話よりも目立つように後続の音声信号を加工することで、会議を円滑に進めることができる。総発話回数が相対的に少ない利用者の発話と総発話回数が相対的に多い利用者の発話とのいずれかを目立つように後続の音声信号を加工するかについては、会議の目的や状況などに応じて、会議の開催者などが設定してもよい。
また、信号加工部34は、総発話回数が相対的に多い利用者の発話が総発話回数が相対的に少ない利用者の発話よりも目立つように後続の音声信号を加工することで、会議を円滑に進めることができる。総発話回数が相対的に少ない利用者の発話と総発話回数が相対的に多い利用者の発話とのいずれかを目立つように後続の音声信号を加工するかについては、会議の目的や状況などに応じて、会議の開催者などが設定してもよい。
上記第4実施形態では、発話計測部41は、利用者端末3毎に、総発話回数を計測する。しかし、これに代えて、発話計測部41は、利用者端末3毎に、総発話時間を計測してもよい。ここで、総発話時間とは、オンライン型の電子会議が開始してから所定時間経過するまでの間の発話の累計時間である。この場合、信号加工部34は、総発話時間が相対的に短い利用者の発話が総発話時間が相対的に長い利用者の発話よりも目立つように、後続の音声信号を加工する。
要するに、信号加工部34は、第1の利用者端末の総発話回数が第2の利用者端末よりも多いとき、又は、第1の利用者端末の総発話時間が第2の利用者端末よりも長いとき、第2の後続音声信号の振幅が第1の後続音声信号よりも大きくなるように当該第2の後続音声信号を増幅する。
(第5実施形態)
次に、図10を参照して、本開示の第5実施形態を説明する。
次に、図10を参照して、本開示の第5実施形態を説明する。
図10に示すように、利用者端末3Aは、中心利用者特定部42を更に備える。中心利用者特定部42は、オンライン型の電子会議において中心的な利用者を特定する。ここで、中心的な利用者とは、典型的には、当該電子会議において進行役となっている利用者、最も発話回数が多い利用者、最も発話時間が長い利用者の何れかである。
そして、信号加工部34は、中心的な利用者の発話が他の利用者の発話よりも目立つように、後続の音声信号を加工する。
具体的には、以下の通りである。ここで、再度、図8を参照されたい。時刻t4から時刻t1の間では、音声信号SBに対して音声信号SCと音声信号SDが時間軸上で重なっている。そして、利用者Dが中心的な参加者であるとする。このとき、信号加工部34は、音声信号SDの振幅が音声信号SCよりも大きくなるように当該音声信号SDを増幅する。
本実施形態では、信号加工部34が、中心的な利用者の発話が他の利用者の発話よりも目立つように、後続の音声信号を加工することで、オンライン型の電子会議の進行がスムーズになるので、限られた時間内で会議の結論を出し易くなる。
以上に、本開示の第1実施形態から第5実施形態を説明した。上記各実施形態は以下のように変更できる。
即ち、各利用者端末3における情報処理は、各利用者端末3単体で実現することに代えて、サーバ2と利用者端末3で分散して実行するようにしてもよい。
上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)を含む。非一時的なコンピュータ可読媒体の例は、更に、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROMを含む。非一時的なコンピュータ可読媒体の例は、更に、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
1 電子会議装置
2 サーバ
3 利用者端末
3A 利用者端末
3B 利用者端末
3C 利用者端末
3D 利用者端末
4 WAN4
30 音声信号受付部
31 音声信号送信部
32 音声信号受信部
33 同時受信判定部
34 信号加工部
35 出力部
40 傾向判定部
41 発話計測部
42 中心利用者特定部
A 利用者
B 利用者
C 利用者
D 利用者
SB 音声信号
SC 音声信号
SD 音声信号
SX 強調音声信号
PB 発話
PC 発話
PD 発話
2 サーバ
3 利用者端末
3A 利用者端末
3B 利用者端末
3C 利用者端末
3D 利用者端末
4 WAN4
30 音声信号受付部
31 音声信号送信部
32 音声信号受信部
33 同時受信判定部
34 信号加工部
35 出力部
40 傾向判定部
41 発話計測部
42 中心利用者特定部
A 利用者
B 利用者
C 利用者
D 利用者
SB 音声信号
SC 音声信号
SD 音声信号
SX 強調音声信号
PB 発話
PC 発話
PD 発話
Claims (5)
- 複数の利用者端末から音声信号を受信する音声信号受信部と、
前記音声信号受信部が異なる利用者端末から同時に音声信号を受信したか判定する同時受信判定部と、
前記音声信号受信部が異なる利用者端末から同時に音声信号を受信した場合、後続の音声信号に対応する発話の始まりを強調するように前記後続の音声信号を加工する信号加工部と、
先行の音声信号と後続の音声信号を混合して出力する出力部と、
を含む、
情報処理装置。 - 前記信号加工部は、前記後続の音声信号に対応する発話の冒頭部分に対応する音声信号を増幅する、
請求項1に記載の情報処理装置。 - 前記信号加工部は、前記後続の音声信号に対応する発話の冒頭部分に所定の強調音声信号を配置する、
請求項1に記載の情報処理装置。 - 前記複数の利用者端末から受信した音声信号を音声認識することにより、利用者端末毎に、当該利用者端末から発信される音声信号が他の利用者の発話に対して肯定的な傾向にあるか否定的な傾向にあるか判定する傾向判定部を更に備え、
前記信号加工部は、前記傾向判定部で判定された結果に基づき、前記後続の音声信号の振幅を増幅する、
請求項1に記載の情報処理装置。 - 利用者端末毎に、総発話回数又は総発話時間を計測する発話計測部を更に備え、
前記信号加工部は、前記発話計測部で計測された結果に基づき、前記後続の音声信号の振幅を増幅する、
請求項1に記載の情報処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022164583A JP2024057730A (ja) | 2022-10-13 | 2022-10-13 | 情報処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022164583A JP2024057730A (ja) | 2022-10-13 | 2022-10-13 | 情報処理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024057730A true JP2024057730A (ja) | 2024-04-25 |
Family
ID=90789986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022164583A Pending JP2024057730A (ja) | 2022-10-13 | 2022-10-13 | 情報処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2024057730A (ja) |
-
2022
- 2022-10-13 JP JP2022164583A patent/JP2024057730A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI527024B (zh) | 傳送語音數據之方法及非暫態電腦可讀取媒體 | |
JP5581329B2 (ja) | 会話検出装置、補聴器及び会話検出方法 | |
JP5533854B2 (ja) | 音声認識処理システム、および音声認識処理方法 | |
US8547880B2 (en) | Method and system for replaying a portion of a multi-party audio interaction | |
US11782674B2 (en) | Centrally controlling communication at a venue | |
JP2005055668A (ja) | 音声処理装置 | |
US9959881B2 (en) | Voice processing device, audio and video output apparatus, communication system, and sound processing method | |
EP3819904B1 (en) | Method of determining the speech in a web-rtc audio or video communication and/or collaboration session and communication system | |
JP2024057730A (ja) | 情報処理装置 | |
JP4402644B2 (ja) | 発話抑制装置、発話抑制方法および発話抑制装置のプログラム | |
JP2007259293A (ja) | 多者間通話システム、通話機能付き端末装置、多者間通話方法、プログラム及び記録媒体 | |
US11094328B2 (en) | Conferencing audio manipulation for inclusion and accessibility | |
JP2022016997A (ja) | 情報処理方法、情報処理装置及び情報処理プログラム | |
JP4531013B2 (ja) | 映像音声会議システムおよび端末装置 | |
JP2023107364A (ja) | コミュニケーション装置及びコミュニケーション方法 | |
US20230290356A1 (en) | Hearing aid for cognitive help using speaker recognition | |
JP7540489B2 (ja) | 音声登録装置、制御方法、プログラム及び記憶媒体 | |
JP6854170B2 (ja) | インターホン装置 | |
JP2023044901A (ja) | 通信システム、管理サーバ、通信方法及び通信プログラム | |
JP2007336395A (ja) | 音声処理装置及び音声通信システム | |
JP2023118335A (ja) | 通信端末、通信システム、及び通信サーバ | |
JP2023047178A (ja) | 情報処理装置及び情報処理プログラム | |
JP2015055790A (ja) | 音声応答システム、音声処理装置、音声応答装置、音声応答方法、及び音声処理プログラム | |
JP2012089000A (ja) | 遠隔会議方法、遠隔会議システム及び遠隔会議プログラム | |
TW202341703A (zh) | 用於改進的群通訊通信期的系統和方法 |