JP2002135642A - 音声翻訳システム - Google Patents

音声翻訳システム

Info

Publication number
JP2002135642A
JP2002135642A JP2000324063A JP2000324063A JP2002135642A JP 2002135642 A JP2002135642 A JP 2002135642A JP 2000324063 A JP2000324063 A JP 2000324063A JP 2000324063 A JP2000324063 A JP 2000324063A JP 2002135642 A JP2002135642 A JP 2002135642A
Authority
JP
Japan
Prior art keywords
speech
speaker
voice
imaging
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000324063A
Other languages
English (en)
Inventor
Keishin Nishiura
敬信 西浦
Gruhn Rainer
ライナー・グルーン
Tomoko Matsui
知子 松井
Satoru Nakamura
哲 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR ONSEI GENGO TSUSHIN KENKYU
ATR Spoken Language Translation Research Laboratories
Original Assignee
ATR ONSEI GENGO TSUSHIN KENKYU
ATR Spoken Language Translation Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR ONSEI GENGO TSUSHIN KENKYU, ATR Spoken Language Translation Research Laboratories filed Critical ATR ONSEI GENGO TSUSHIN KENKYU
Priority to JP2000324063A priority Critical patent/JP2002135642A/ja
Publication of JP2002135642A publication Critical patent/JP2002135642A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 発話者の方向を推定し、CCDカメラなどの
撮像手段の撮像方向を発話者に向け、発話者の映像を見
ながら発話者の発話内容の翻訳された音声を聞くことが
できる音声翻訳システムを提供する。 【解決手段】 マイクロホンアレー10を用いて発話者
の方向を方向推定部13により推定し、その方向にビー
ムフォーミング部14によりマイクロホンアレー10の
指向性を制御して音声を受音する。同時に、回転機構制
御部32により発話者の方向にCCDカメラ30の撮像
方向を制御し発話者の画像を抽出してCRTディスプレ
イ34に表示する。次に、受音した音声を音声認識部1
6により音声認識を行い、音声認識結果に対して音声翻
訳部17により音声翻訳を行い、音声翻訳結果を音声合
成部18により音声合成して、音声結果の音声信号をス
ピーカ20から出力する。これにより、発話者の画像と
発話音声の翻訳された合成音声を遠隔地でリアルタイム
に出力して視聴できる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、マイクロホンアレ
ー及び撮像手段を備えた音声翻訳システムに関する。
【0002】
【従来の技術】テレビ会議システムや音声による機器の
制御において、発話者から離れた位置にあるマイクロホ
ンで発話者の音声を高音質に受音することは極めて重要
である。そこで発話者から離れた位置にあるマイクロホ
ンでも発話者の音声を高音質に受音する方法としてマイ
クロホンアレーが注目されている。しかし、マイクロホ
ンアレーを用いて高音質に発話者の音声を受音するため
には、発話者の方向又は位置を推定することが必要とな
る。
【0003】
【発明が解決しようとする課題】しかしながら、これま
での方向又は位置推定に関する研究では、音源位置を推
定(例えば、従来技術文献1「安部正人,“多数センサ
による音源推定”,音響学会論文誌,Vol.51,N
o.5,pp.384−389,1995年」など参
照。)することは多数試みられているが、話者の方向や
位置を推定することは困難であった。従って、テレビ会
議システムにおいて、発話者に対して、自動的に発話者
を撮像するCCDカメラの撮像方向を方向付けることは
難しいという問題点があった。また、音声翻訳システム
と、話者を撮像する撮像システムとはそれぞれ単独で存
在するが、組み合わせられたシステムは存在しなかっ
た。
【0004】本発明の目的は以上の問題点を解決し、発
話者の方向を推定し、CCDカメラなどの撮像手段の撮
像方向を自動的に発話者に向け、発話者の映像を見なが
ら発話者の発話内容の翻訳を聞くことができる音声翻訳
システムを提供することにある。
【0005】
【課題を解決するための手段】本発明に係る音声翻訳シ
ステムは、発話者が発話する音声を受信する複数のマイ
クロホンを所定の間隔で並置してなるマイクロホンアレ
ーと、上記各マイクロホンから出力される電気信号に基
づいて上記マイクロホンアレーで受信される音声を発話
する発話者の方位角を推定する推定手段と、上記推定手
段により推定された発話者の方位角の方向に対応するビ
ーム信号を生成するビームフォーミング手段と、上記ビ
ームフォーミング手段によって生成されたビーム信号に
対して音声認識を行って音声認識結果を出力する音声認
識手段と、上記音声認識結果に対して音声翻訳を行って
異なる言語の翻訳文の文字列情報を出力する音声翻訳手
段と、上記翻訳文の文字列情報に対して音声合成を行っ
て音声合成結果の音声信号を出力する音声合成手段と、
上記発話者を撮像して映像信号を出力する撮像手段と、
上記推定手段により推定された発話者の方位角の方向に
基づいて、当該発話者の方位角の方向に上記撮像手段の
撮像方向を向ける方向制御手段とを備えたことを特徴と
する。
【0006】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。
【0007】図1は、本発明に係る一実施形態である音
声翻訳システムの構成を示すブロック図である。この実
施形態に係る音声翻訳システムは、特に、マイクロホン
アレー10とCCDカメラ30を備え、方向推定部13
と、ビームフォーミング部14と、回転機構制御部32
とをさらに備えたことを特徴としている。すなわち、本
実施形態では、マイクロホンアレー10を用いて発話者
の方向を方向推定部13により推定し、その方向にビー
ムフォーミング部14によりマイクロホンアレー10の
指向性を制御して高音質に音声を受音する。同時に、回
転機構制御部32により発話者の方向にCCDカメラ3
0の撮像方向を制御し発話者の画像を抽出してCRTデ
ィスプレイ34に表示する。次に、高音質で受音した音
声を音声認識部16により音声認識を行い、音声認識結
果に対して音声翻訳部17により音声翻訳を行い、音声
翻訳結果を音声合成部18により音声合成して、音声結
果の音声信号をスピーカ20から出力する。これによ
り、発話者の画像と、発話音声の翻訳された合成音声を
遠隔地でリアルタイムに出力して視聴できる。
【0008】以下、図1を参照して、本実施形態に係る
音声翻訳システムについて説明する。図1において、マ
イクロホンアレー10は、複数のマイクロホン11を所
定の間隔で1直線上に並置して構成され、各マイクロホ
ン11は入力される発話者の音声を受信した後、それぞ
れ音声信号である電気信号に変換してA/D変換器12
に出力する。次いで、A/D変換器12は、各マイクロ
ホン11から出力される電気信号を所定のサンプリング
周波数でディジタルデータ信号にA/D変換して方向推
定部13及びビームフォーミング部14に出力する。
【0009】方向推定部13は、入力されるディジタル
データ信号のうち所定のしきい値レベル以上の信号を計
算対象とし、例えば公知の白色化相互相関法(以下、C
SP法という。)(例えば、従来技術文献2「T. Nishi
ura et al., "Localizationof Multiple Sound Sources
Based on a CSP Analysis with a Microphone Array",
Proceedings of ICASSP2000, pp.1053-1056, 2000」参
照。)を用いて、複数のディジタルデータ信号のCSP
係数及び到来時間差(DOA:Delay of Arrivals)を
推定する。具体的には、以下の数1に示すように、複数
のディジタルデータ信号をフーリエ変換して振幅で正規
化を行った後、位相差を計算し、逆フーリエ変換を行っ
てCSP係数を計算する。次いで、CSP係数の大きく
なる時間差(相関の強い時間差)τを計算することによ
り、到来時間差の推定を行うことができる。ここで、音
源が1つしか存在しないときは、音源方向を推定すると
きは、数1及び数2により時間差τを計算した後、数3
を用いて方位角θを推定する。推定された方位角θは方
向推定部13からビームフォーミング部14及び回転機
構制御部32に出力される。なお、以下の式では、マイ
クロホンi,jで信号si(n),sj(n)を受信した
ものとし、cは音速、dはマイクロホン間隔、Fsはサ
ンプリング周波数である。
【0010】
【数1】CSPi,j(k)=DFT−1[(DFT[si
(n)]DFT[sj(n)]*)/(|DFT[s
i(n)]||DFT[sj(n)]|)]
【数2】τ=argmax(CSPij(k))
【数3】θ=cos-1(c・τ/(Fs・d))
【0011】また、音源が複数存在する場合においても
公知の方法により同様に方位角θを計算でき、この場
合、複数の方位角θの情報がビームフォーミング部14
に出力され、ビームフォーミング部14は複数のビーム
信号を生成する。なお、方向推定においては、CSP法
を用いているが、本発明はこれに限らず、CSP係数の
加算法とビームフォーミングを用いた複数音源方向のク
ラスタリングを組み合わせた改善法、ビームフォーミン
グによる音源推定法、MUSIC法による音源方向推定
法や、最小分散法による音源方向推定法などの公知の方
法を用いてもよい。また、本実施形態においては、方向
推定のみを行っているが、マイクロホンアレー10を2
組備え、互いに並置された2組のマイクロホンアレー1
0を用いて2本のビームの交差点を音源の位置として特
定するように構成してもよい。
【0012】一方、発話者の顔などを撮像するためのC
CDカメラ30が鉛直方向の軸を中心として回転可能に
支持され、当該CCDカメラ30は、例えばステッピン
グモータを備えて構成されてなる回転機構部31により
回転される。ここで、回転制御部32は、方向推定部1
3から出力される発話者の方位角に基づいて、CCDカ
メラ30が現在発話している発話者の顔などを撮像する
ように、すなわち、CCDカメラ30の撮像方向を自動
的に上記推定された方位角に向けるように回転機構部3
1を制御する。CCDカメラ30により撮像された発話
者の画像信号は、映像信号処理部33において増幅など
の画像処理がなされた後、当該画像信号の画像がCRT
ディスプレイ34に表示される。
【0013】また、ビームフォーミング部14は、方向
推定部13からの方位角情報に基づいて重み係数を計算
する制御部と、互いに縦続接続された複数の遅延線と、
各遅延線のタップからの信号を上記重み係数で乗算する
乗算器と、各乗算器からの出力信号を加算する加算器と
を備えて構成され、いわゆるトランスバーサルフィルタ
回路又は遅延和アレー回路と呼ばれる回路である。ビー
ムフォーミング部14は、A/D変換器12から出力さ
れる各ディジタルデータ信号と、方位角情報に基づい
て、方向推定部13で推定された少なくとも1つの方位
角における少なくとも1つのビーム信号を生成して特徴
抽出部15に出力する。次いで、特徴抽出部15は、入
力される少なくとも1つのビーム信号に基づいて、例え
ば16次のメルケプストラム係数と、16次のΔメルケ
プストラム係数と、1次のΔパワーとを含む特徴ベクト
ルを抽出して音声認識部16に出力する。
【0014】本実施形態では、音声認識部16における
音声認識処理のために、不特定話者の音素ベースの単語
HMMが予め公知の方法で生成されて、音素ベース単語
HMMメモリ21に格納されている。また、音声翻訳部
17における、例えば英語から日本語への音声翻訳処理
のために、英語と日本語の音声翻訳用対訳用例が予め公
知の方法で生成されて、音声翻訳対訳用例メモリ22に
格納されている。
【0015】さらに、音声認識部16は、特許出願人所
有の公知の音声認識装置であり、特徴抽出部15から順
次出力される特徴ベクトルに基づいて、音素ベース単語
HMMメモリ51内の単語HMMを用いて尤度を計算し
て最尤基準により音声認識を行い、音声認識結果の文字
列を出力する。次いで、音声翻訳部17は、例えば従来
技術文献3「Reaves et al.,"ATR-MATRIX: A Speech Tr
anslation System between English and Japanese", 情
報処理学会論文集, Vol. 2, pp.87-88, 1999」において
開示された公知の音声翻訳装置であり、音声翻訳対訳用
例メモリ22内の音声翻訳用対訳用例を参照して、音声
認識部16から出力される音声認識結果の文字列に対し
て音声翻訳を行って異なる言語の翻訳文の文字列を生成
して音声合成部18に出力する。さらに、音声合成部1
8は、例えば従来技術文献4「Nick Campbell, "音声合
成CHATRのしくみ", 電子情報通信学会研究報告, v
ol. 98, no. 423, pp.47-54, 1998」において開示され
た公知の音節セグメント結合型の音声合成装置であり、
音声翻訳部17から出力される翻訳文の文字列情報に対
して音声合成処理を行って音声合成結果の音声信号を、
低周波増幅器19を介してスピーカ20に出力すること
により、スピーカ20から発話者の発話音声を所定の言
語に翻訳された音声が出力される。
【0016】以上の実施形態において、方向推定部13
と、ビームフォーミング部14と、特徴抽出部15と、
音声認識部16と、音声翻訳部17と、音声合成部18
と、回転機構制御部32とは、例えばディジタル計算機
などのコンピュータで構成され、また、音素ベース単語
HMMメモリ21と、音声翻訳対訳用例メモリ22と
は、例えばハードディスクメモリなどの記憶装置で構成
される。
【0017】以上説明したように、本実施形態に係る音
声翻訳システムによれば、方向推定部13により発話者
の方向を推定することにより、音声認識率を従来技術に
比較して向上させることができる。また、音声認識部1
6に加えて音声翻訳部17及び音声合成部18を備えた
ので、発話者の音声の翻訳された音声合成信号を生成し
て出力できる。さらに、方向推定部13に加えて、CC
Dカメラ30、回転機構部31及び回転機構制御部32
を備えたので、CCDカメラ30が現在発話している発
話者の顔などを撮像するように、すなわち、CCDカメ
ラ30の撮像方向を上記推定された方位角に向けるよう
に回転機構部31を制御し、CCDカメラ30により撮
像された発話者の画像をCRTディスプレイ34に表示
できる。以上の構成により、発話者の画像と、発話音声
の翻訳された合成音声を同時にかつリアルタイムに出力
することができ、臨場感あふれる状態で発話者の画像と
発話音声の翻訳された合成音声を視聴できる。
【0018】以上の実施形態において、低周波増幅器1
9の後に、低周波の音声信号を伝送する送信機、通信回
線を介して遠隔地の受信機で音声信号を受信してもよ
く、この場合、遠隔地のスピーカ20で発話者の翻訳さ
れた音声を聞くことができる。また、映像信号処理部3
3の後に、映像信号を伝送する送信機、通信回線を介し
て遠隔地の受信機で映像信号を受信してもよく、この場
合、遠隔地のCRTディスプレイ34で発話者の顔など
の映像を見ることができる。ここで、音声信号と映像信
号の伝送は同時に行われる。以上の構成により、遠隔地
で発話者を見ると同時に、当該発話者の翻訳された音声
を聞くことができる。
【0019】
【発明の効果】以上詳述したように本発明によれば、マ
イクロホンアレーと撮像手段に加えて、方向推定手段
と、ビームフォーミング手段と、撮像手段のための回転
機構の制御手段とをさらに備えたので、発話者の画像
と、発話音声の翻訳された合成音声を同時にかつリアル
タイムに出力することができ、翻訳した音声に同期して
元言語ではあるが発話者の映像が写し出されることによ
って、臨場感あふれる状態で発話者の画像と発話音声の
翻訳された合成音声を視聴できる。
【図面の簡単な説明】
【図1】 本発明に係る一実施形態である音声翻訳シス
テムの構成を示すブロック図である。
【符号の説明】
10…マイクロホンアレー、 11…マイクロホン、 12…A/D変換器、 13…方向推定部、 14…ビームフォーミング部、 15…特徴抽出部、 16…音声認識部、 17…音声翻訳部、 18…音声合成部、 19…低周波増幅器、 20…スピーカ、 21…音素ベース単語HMMメモリ、 22…音声翻訳対訳用例メモリ、 30…CCDカメラ、 31…回転機構部、 32…回転機構制御部、 33…映像信号処理部、 34…CRTディスプレイ。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04N 7/15 630 G10L 3/00 511 5J083 // G01S 3/802 551C (72)発明者 ライナー・グルーン 京都府相楽郡精華町光台二丁目2番地2 株式会社エイ・ティ・アール音声言語通信 研究所内 (72)発明者 松井 知子 京都府相楽郡精華町光台二丁目2番地2 株式会社エイ・ティ・アール音声言語通信 研究所内 (72)発明者 中村 哲 京都府相楽郡精華町光台二丁目2番地2 株式会社エイ・ティ・アール音声言語通信 研究所内 Fターム(参考) 5B091 CB12 CB32 CD03 CD15 5C022 AB63 5C064 AA06 AB04 AC09 AC13 AD03 AD13 5D015 AA01 AA05 BB01 DD02 KK01 KK04 LL06 LL12 5D045 AB03 5J083 AA05 AD17 BC01

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 発話者が発話する音声を受信する複数の
    マイクロホンを所定の間隔で並置してなるマイクロホン
    アレーと、 上記各マイクロホンから出力される電気信号に基づいて
    上記マイクロホンアレーで受信される音声を発話する発
    話者の方位角を推定する推定手段と、 上記推定手段により推定された発話者の方位角の方向に
    対応するビーム信号を生成するビームフォーミング手段
    と、 上記ビームフォーミング手段によって生成されたビーム
    信号に対して音声認識を行って音声認識結果を出力する
    音声認識手段と、 上記音声認識結果に対して音声翻訳を行って異なる言語
    の翻訳文の文字列情報を出力する音声翻訳手段と、 上記翻訳文の文字列情報に対して音声合成を行って音声
    合成結果の音声信号を出力する音声合成手段と、 上記発話者を撮像して映像信号を出力する撮像手段と、 上記推定手段により推定された発話者の方位角の方向に
    基づいて、当該発話者の方位角の方向に上記撮像手段の
    撮像方向を向ける方向制御手段とを備えたことを特徴と
    する音声翻訳システム。
JP2000324063A 2000-10-24 2000-10-24 音声翻訳システム Pending JP2002135642A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000324063A JP2002135642A (ja) 2000-10-24 2000-10-24 音声翻訳システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000324063A JP2002135642A (ja) 2000-10-24 2000-10-24 音声翻訳システム

Publications (1)

Publication Number Publication Date
JP2002135642A true JP2002135642A (ja) 2002-05-10

Family

ID=18801651

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000324063A Pending JP2002135642A (ja) 2000-10-24 2000-10-24 音声翻訳システム

Country Status (1)

Country Link
JP (1) JP2002135642A (ja)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005148301A (ja) * 2003-11-13 2005-06-09 Sony Corp 音声処理装置と音声処理方法
JP2006194959A (ja) * 2005-01-11 2006-07-27 Sony Corp 音声検出装置、自動撮像装置、および音声検出方法
JP2006194700A (ja) * 2005-01-12 2006-07-27 Hiroshima Industrial Promotion Organization 音源方向推定システム、音源方向推定方法及び音源方向推定プログラム
JP2010021854A (ja) * 2008-07-11 2010-01-28 Internatl Business Mach Corp <Ibm> 音源の位置検出方法及びシステム
JP2010026361A (ja) * 2008-07-23 2010-02-04 Internatl Business Mach Corp <Ibm> 音声収集方法、システム及びプログラム
JP2012211768A (ja) * 2011-03-30 2012-11-01 Advanced Telecommunication Research Institute International 音源定位装置
US8363119B2 (en) 2007-05-10 2013-01-29 Huawei Technologies Co., Ltd. System and method for controlling an image collecting device to carry out a target location
US9132331B2 (en) 2010-03-19 2015-09-15 Nike, Inc. Microphone array and method of use
JP2015173502A (ja) * 2011-02-23 2015-10-01 クゥアルコム・インコーポレイテッドQualcomm Incorporated 空間的選択音声拡張のためのシステム、方法、装置、およびコンピュータ可読媒体
WO2017035768A1 (zh) * 2015-09-01 2017-03-09 涂悦 一种基于视觉唤醒的语音控制方法
JP2017067666A (ja) * 2015-09-30 2017-04-06 パナソニックIpマネジメント株式会社 物体検出装置、物体検出システム、及び物体検出方法
US10880643B2 (en) 2018-09-27 2020-12-29 Fujitsu Limited Sound-source-direction determining apparatus, sound-source-direction determining method, and storage medium
CN113312985A (zh) * 2021-05-10 2021-08-27 中国地质大学(武汉) 一种视听双模态的360度全方位说话人定位方法
JP2021533423A (ja) * 2018-11-30 2021-12-02 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 オーディオ認識方法、ターゲットオーディオを位置決める方法、それらの装置、およびデバイスとコンピュータプログラム
JP7429107B2 (ja) 2019-03-25 2024-02-07 パナソニックホールディングス株式会社 音声翻訳装置、音声翻訳方法及びそのプログラム

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005148301A (ja) * 2003-11-13 2005-06-09 Sony Corp 音声処理装置と音声処理方法
JP2006194959A (ja) * 2005-01-11 2006-07-27 Sony Corp 音声検出装置、自動撮像装置、および音声検出方法
JP2006194700A (ja) * 2005-01-12 2006-07-27 Hiroshima Industrial Promotion Organization 音源方向推定システム、音源方向推定方法及び音源方向推定プログラム
US8363119B2 (en) 2007-05-10 2013-01-29 Huawei Technologies Co., Ltd. System and method for controlling an image collecting device to carry out a target location
JP2010021854A (ja) * 2008-07-11 2010-01-28 Internatl Business Mach Corp <Ibm> 音源の位置検出方法及びシステム
JP2010026361A (ja) * 2008-07-23 2010-02-04 Internatl Business Mach Corp <Ibm> 音声収集方法、システム及びプログラム
US9132331B2 (en) 2010-03-19 2015-09-15 Nike, Inc. Microphone array and method of use
JP2015173502A (ja) * 2011-02-23 2015-10-01 クゥアルコム・インコーポレイテッドQualcomm Incorporated 空間的選択音声拡張のためのシステム、方法、装置、およびコンピュータ可読媒体
JP2012211768A (ja) * 2011-03-30 2012-11-01 Advanced Telecommunication Research Institute International 音源定位装置
WO2017035768A1 (zh) * 2015-09-01 2017-03-09 涂悦 一种基于视觉唤醒的语音控制方法
JP2017067666A (ja) * 2015-09-30 2017-04-06 パナソニックIpマネジメント株式会社 物体検出装置、物体検出システム、及び物体検出方法
WO2017056380A1 (ja) * 2015-09-30 2017-04-06 パナソニックIpマネジメント株式会社 物体検出装置、物体検出システム、及び物体検出方法
US10880643B2 (en) 2018-09-27 2020-12-29 Fujitsu Limited Sound-source-direction determining apparatus, sound-source-direction determining method, and storage medium
JP2021533423A (ja) * 2018-11-30 2021-12-02 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 オーディオ認識方法、ターゲットオーディオを位置決める方法、それらの装置、およびデバイスとコンピュータプログラム
JP7158806B2 (ja) 2018-11-30 2022-10-24 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 オーディオ認識方法、ターゲットオーディオを位置決める方法、それらの装置、およびデバイスとコンピュータプログラム
US11967316B2 (en) 2018-11-30 2024-04-23 Tencent Technology (Shenzhen) Company Limited Audio recognition method, method, apparatus for positioning target audio, and device
JP7429107B2 (ja) 2019-03-25 2024-02-07 パナソニックホールディングス株式会社 音声翻訳装置、音声翻訳方法及びそのプログラム
CN113312985A (zh) * 2021-05-10 2021-08-27 中国地质大学(武汉) 一种视听双模态的360度全方位说话人定位方法
CN113312985B (zh) * 2021-05-10 2023-05-26 中国地质大学(武汉) 一种视听双模态的360度全方位说话人定位方法

Similar Documents

Publication Publication Date Title
CN108369811B (zh) 分布式音频捕获和混合
JP2002135642A (ja) 音声翻訳システム
US9864745B2 (en) Universal language translator
EP2984852B1 (en) Method and apparatus for recording spatial audio
EP2446642B1 (en) Method and apparatus for processing audio signals
US20110096915A1 (en) Audio spatialization for conference calls with multiple and moving talkers
Donley et al. Easycom: An augmented reality dataset to support algorithms for easy communication in noisy environments
JP3537962B2 (ja) 音声収集装置及び音声収集方法
CN110858476B (zh) 一种基于麦克风阵列的声音采集方法及装置
CN110349582B (zh) 显示装置与远场语音处理电路
CN113203988B (zh) 声源定位方法及装置
US20230260525A1 (en) Transform ambisonic coefficients using an adaptive network for preserving spatial direction
CN110169082B (zh) 用于组合音频信号输出的方法和装置、及计算机可读介质
KR101976937B1 (ko) 마이크로폰 어레이를 이용한 회의록 자동작성장치
CN111429916B (zh) 一种声音信号记录系统
JP7400364B2 (ja) 音声認識システム及び情報処理方法
WO2023056905A1 (zh) 声源定位方法、装置及设备
JP2001313992A (ja) 収音装置および収音方法
JP2022062874A (ja) 話者予測方法、話者予測装置、およびコミュニケーションシステム
Pasha et al. A survey on ad hoc signal processing: Applications, challenges and state-of-the-art techniques
WO2021206679A1 (en) Audio-visual multi-speacer speech separation
JP3518579B2 (ja) 発言者追随型場内拡声装置と音声入力方法
CN114762039A (zh) 一种会议数据处理方法及相关设备
Lin et al. Description of the caip speech corpus.
Nishiura et al. Automatic Steering Of Microphone Array And Video Camera Toward Multi-Lingual Tele-Conference Through Speech-To-Speech Translation.

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040914

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050412