JP2008275987A - 音声認識装置および会議システム - Google Patents
音声認識装置および会議システム Download PDFInfo
- Publication number
- JP2008275987A JP2008275987A JP2007120734A JP2007120734A JP2008275987A JP 2008275987 A JP2008275987 A JP 2008275987A JP 2007120734 A JP2007120734 A JP 2007120734A JP 2007120734 A JP2007120734 A JP 2007120734A JP 2008275987 A JP2008275987 A JP 2008275987A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- dictionary
- sound collection
- speaker
- position information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【解決手段】制御部11は、アレイマイク12を用いて収音方向毎に音声信号を順次収音し、最も音声レベルの大きい音声信号をこれに対応する収音方向ともに記憶部13の収音領域に記憶させる。次に、制御部11は方向・辞書テーブル13cを参照し、記憶部13に記憶させた収音方向に対応する辞書を辞書群13bから選択する。制御部11は、選択した辞書と標準辞書13aを読み出し、音声信号の音声認識処理(音声区間検出、音素認識、単語認識、文章認識)を行う。また、制御部11は選択した辞書に記述されていない要素については標準辞書13aを用いるとともに当該辞書にその要素を追加記録し、さらに音声信号に関して話者に固有な特徴も記録する。
【選択図】図1
Description
本発明は、このような事情に鑑みてなされたものであり、会議参加者に負担をかけず、かつ、複数音声に対してその認識の精度を上げることができる音声認識装置及び会議システムを提供する。
(A)構成
図1は音声認識装置1の全体構成を示すブロック図である。音声認識装置1は、制御部11、アレイマイク12、記憶部13、操作部14、表示部15、外部機器IF16を備えており、これらはバス19で接続されている。制御部11は、例えばCPU(Central Processing Unit)などの演算装置とROM(Read Only Memory)やRAM(Random Access Memory)などの各種メモリを備えている。演算装置がこれらのメモリや記憶部に記憶されているコンピュータプログラムを読み出して実行することにより、音声認識装置1の各部を制御する。
(B)動作
図4は本実施形態に係る音声認識装置1の動作を示すフローチャートである。利用者が操作部14の図示しないスイッチを押下して収音開始の指示をすると、制御部11はこの指示を受けて、アレイマイク12を収音可能にする。アレイマイク12の各マイクロフォンM、M…はそれぞれの収音位置で収音された音を音声信号に変換して出力する。制御部11は、収音方向L(L1、L2、…、L8)のそれぞれに対応するパラメータMCPを出力し、アレイマイク12の上述したアンプ、遅延回路、演算回路はこれに応じて上述の8つの収音方向L毎に音声信号S(S1、S2、…、S8)を順次収音する。
収音方向L2から発言した話者が発言を続けている間は(ステップSA108;NO)、制御部11はステップSA105に戻り音声認識を続ける。また、当該話者が発言をやめると(ステップSA108;YES)、制御部11は所定時間の無声状態を検知して音声信号S2の音声認識を終了し、ステップSA101に戻り、次の発言が開始されるまで待機する。
また、利用者は操作部14を介して上述の文章を印刷させることができる。制御部11は利用者から印刷指示を受け取ると上述のRAMに記憶された文章データを、外部機器IF16を介してプリンタ2に送信する。プリンタ2は送信された文章データを文字列として紙に印刷する。
このようにして、各話者の発言は収音方向L毎に音声信号Sとして記録され、各音声信号Sは収音方向L毎に用意された辞書D(D1〜D8)を用いて音声認識されて文章化され、外部機器IF16を介してプリンタ2から印刷される。なお、印刷機能が会議システムに備わっていることで、利用者は会議内容を紙面で確認することができるが、会議システムに印刷機能が備わっていなくてもよい。
また、本実施形態の場合、方向・辞書テーブル13cについて、その方向に着席する参加者と辞書との対応関係を事前に整合させておくことができるから、音声認識は本人の音声特徴に応じた辞書を用いることができ、音声認識の精度を向上させることができる。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。なお、以下の各態様を適宜に組み合わせてもよい。
上記実施形態では、収音方向Lは制御部11が8つの音声信号Sを比較して、音声の大きさによって決定したが、収音方向Lの決定方法はこれに限られない。例えば、音声信号Sの特徴情報Cを当該音声信号Sに対応する収音方向Lと関連付けて記憶し、現在収音している音声信号から特徴情報を抽出して上述の記憶内容と比較することにより収音方向Lを検証し、対応関係に不整合が見つかったときは収音方向Lを訂正するようにしてもよい。この場合の一例を、図6及び図7を用いて説明する。図6はこの変形例における音声認識装置1の全体構成を示すブロック図である。図6において、記憶部13には特徴記憶領域13fが設けられている。特徴記憶領域13fは音声信号Sから抽出した音声の特徴情報Cを収音方向L毎に記憶する領域である。また、図7はこの変形例における音声認識装置1の動作を示すフローチャートであり、上述の実施形態と同じステップについては同じ符号を付し、説明を省略する。
制御部11は音声信号S2から音声の特徴情報C2を抽出し、これを収音方向L毎に特徴記憶領域13fに記憶させる(ステップSD101)。このとき特徴情報C2は収音方向L2に対応付けて記憶される。所定の情報量が特徴記憶領域13fに記憶されたら、制御部11は、音声信号Sから抽出した音声の特徴情報Cをキーにして特徴記憶領域13fを検索し、特徴情報Cが収音方向Lと関連付けられて記憶されているか否かによって収音方向が正しいかどうかを判定する(ステップSD102)。ここで、音声信号S2が収音方向L1とともに制御部11に入力されたとすると、制御部11は音声信号S2から特徴情報C2を抽出するため、特徴記憶領域13fに記憶された特徴情報C2と収音方向L2の組み合わせと収音方向L1が整合せず、上述の判定結果は否定的になる(ステップSD102;NO)。この否定的な判定結果を受けて制御部11は収音方向L1を収音方向L2に訂正し(ステップSD103)、これに対応した辞書D2を辞書群13bから選択して、音声認識を行うことができる。
以上のように、この変形例においては、音声の収音方向の正否を判断したが、収音方向が特定出来ない場合に、特徴情報Cを用いて辞書Dを選択してもよい。また、収音方向の検出に代えて特徴情報Cだけを用いて辞書Dを特定してもよい。さらに、特徴情報Cと収音方向Lとの関係を検出結果に応じて関連付けて記憶することに代えて、事前に特徴情報Cと収音方向Lとの関係を設定してもよい。
図8に示すような全体構成としてもよい。この構成において、まず、制御部11はアレイマイク12によって収音方向Lに対応する音声信号Sを生成する。次に、音声信号Sから音声の特徴情報Cを抽出して、話者・特徴DB13dを参照することにより、当該音声信号Sの音声を発生した話者Pを特定し、収音方向Lとともに話者・方向テーブル13eに記述する。このようにして、話者・方向テーブル13eが一度記述されると、これを参照することによって制御部11は収音方向Lが決定された時点で話者Pを特定することができる。そして、話者Pが特定できると、話者・辞書テーブル13gを参照することによって辞書群13bから当該話者Pに対応する辞書Dを選択することができる。なお、話者・方向テーブル13eと話者・辞書テーブル13gは一つにしてもよい。要するに特徴情報と辞書とが対応付けられていれば良い。
音声信号Sに対して収音方向L毎に所定の処理を施してもよい。所定の処理とは例えば録音レベルの調整、ノイズ音質と量の調整、イコライザによる特定周波数の調整などである。また、収音方向L毎にノイズのパターンを学習することにより、収音方向L毎にノイズリダクション処理を行ってもよい。さらにこの会議システムで収音した音声をスピーカによって放音させる場合には、収音方向毎にエコーキャンセル処理を行ってもよい。この場合、図9に示すように、収音方向Lと音声信号Sをともに記憶部13に記憶させるステップSA103の直前にこれらの音響処理を行ってもよい(ステップSE101)。
上述の実施形態において、音声認識の方法として、音素を単位としてDPマッチングを行う方法を用いたが、音声認識の方法はこれに限られない。例えば、隠れマルコフモデル(Hidden Markov Model)法やニューラルネットワークによる方法などであってもよい。
上述の実施形態において、音声認識装置1は会議システムを構成したが、音声認識装置1の用途は会議の音声認識のみに限られない。例えば、この音声認識装置1を自動車に搭載するカーナビゲーションシステムに用いてもよい。この場合、上述した変形例2の音声認識装置1を用いれば、家族一人一人に固有の音声特徴情報(話者・特徴DB13d)と音声認識用辞書(話者・辞書テーブル13g及び辞書群13b)を記憶部13に記憶させ、車内の収音方向L毎に音声の特徴情報Cを分析することにより、誰がどこに着席しているか(話者・方向テーブル13e)がわかり、運転席、助手席など座席(収音方向L)毎に音声認識のための辞書Dを切り替えることができる。
上述の実施形態において、音声認識装置1は単独で一つの会議システムを構成したが、本発明の会議システムは単独の音声認識装置1で構成される場合に限られない。例えば通信回線を用いて複数の音声認識装置1を接続し、全体で一つの会議システムを構成してもよい。
上述の実施形態において、収音装置としてアレイマイク12を用いたが、収音装置はアレイマイクに限られない。例えば、各話者に配布した個別のマイクなどでもよい。この場合、話者の数だけマイクの入力端子が存在するので、入力端子毎に音声信号を入力することによって、制御部11は入力端子を識別することにより、方向情報L(座席情報)と同じ機能を持つ情報を得ることができる。要するに、音声信号Sと方向情報L(話者位置が特定できる情報)が対になって入力され、この方向情報Lによって辞書Dを選択することができればよい。このように、入力音声信号に基づく収音位置の特定は種々の態様がある。すなわち、アレイマイクのように最大音量の入力音声信号の方向を収音位置とする態様もあり、また、複数マイクを用いた場合のように、どの入力端子から入力音声信号が入力されたかを識別することにより収音方向を特定することもできる。このような入力音声信号に基づく収音方向の特定ができない場合は、前述した変形例1の場合のように音声の特徴量を用いて収音方向を特定してもよい。また、収音方向を特定せず、特徴情報だけを用いて辞書選択を行ってもよい。
上述の実施形態において、アレイマイク12は音声認識装置1においてバス19に直結された入力装置であったが、会議システムの構成はこれに限られない。例えば、図10に示すように、アレイマイクを搭載した会議端末3を音声認識装置1の外部機器として会議システムを構成しても良い。この場合では、会議端末3には制御部31、アレイマイク32、通信部33を備え、音声認識装置1には上述のアレイマイク12に替えて通信部18を備えており、通信部18と通信部33とでデータの送受信を行う。そして、制御部11は会議端末3から送信された音声データに対して音声認識処理を行い、制御部31はアレイマイク32に収音方向Lに対応するパラメータMCPの出力を行うなど、制御する内容を分担させてもよい。
Claims (5)
- 複数位置からの収音が可能に構成され、収音した音を音声信号に変換して出力する収音手段と、
前記収音手段が出力する前記音声信号に基づいて収音位置を特定し、特定した収音位置を示す位置情報を出力する位置情報特定手段と、
音声認識処理に用いられる複数の辞書を記憶する辞書記憶手段と、
前記収音位置と前記各辞書との対応関係を記憶する対応関係記憶手段と、
前記位置情報特定手段が出力した位置情報に対応する辞書を、前記対応関係記憶手段の記憶内容を参照して選択する辞書選択手段と、
前記辞書選択手段が選択した辞書を用いて、前記収音手段が出力する音声信号に対して音声認識処理を行い、処理結果を出力する音声認識手段と
を具備することを特徴とする音声認識装置。 - 前記収音手段は、収音方向が可変であるアレイマイクと、前記アレイマイクの収音方向を制御する収音方向制御手段と、前記アレイマイクが収音した音声を音声信号に変換して出力する音声信号生成手段とを有し、
前記位置情報特定手段は前記収音方向制御手段により制御される前記アレイマイクの収音方向を示す方向データに基づいて前記収音位置を特定することにより前記位置情報を出力することを特徴とする請求項1記載の音声認識装置。 - 前記収音手段が出力した音声信号から特徴量を抽出する特徴量抽出手段と、
話者の発声する音声の特徴量と話者の位置を示す話者位置情報との対応関係を記憶する位置対応関係記憶手段と
を具備し、
前記収音手段が出力する音声信号に基づいて収音位置の特定ができない場合に、
前記特徴量抽出手段が抽出した特徴量に対応する話者位置情報を前記位置対応関係記憶手段の記憶内容を参照して特定し、特定した話者位置情報を前記位置情報とすることを特徴とする請求項1記載の音声認識装置。 - 複数位置からの収音が可能に構成され、収音した音を音声信号に変換して出力する収音手段と、
前記収音手段が出力した音声信号から特徴量を抽出する特徴量抽出手段と、
音声認識処理に用いられる複数の辞書を記憶する辞書記憶手段と、
話者の発声する音声の特徴量と前記各辞書とを対応付ける対応付け手段と、
前記特徴量抽出手段が抽出した特徴量に対応する辞書を、前記対応付け手段による対応付けを参照して選択する辞書選択手段と、
前記辞書選択手段が選択した辞書を用いて、前記収音手段が出力する音声信号に対して音声認識処理を行い、処理結果を出力する音声認識手段と
を具備することを特徴とする音声認識装置。 - 請求項1乃至4いずれかに記載の音声認識装置と、
前記音声認識装置の音声認識結果を記憶する認識結果記憶手段と
を具備することを特徴とする会議システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007120734A JP2008275987A (ja) | 2007-05-01 | 2007-05-01 | 音声認識装置および会議システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007120734A JP2008275987A (ja) | 2007-05-01 | 2007-05-01 | 音声認識装置および会議システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008275987A true JP2008275987A (ja) | 2008-11-13 |
Family
ID=40054006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007120734A Pending JP2008275987A (ja) | 2007-05-01 | 2007-05-01 | 音声認識装置および会議システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008275987A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011165056A (ja) * | 2010-02-12 | 2011-08-25 | Nec Casio Mobile Communications Ltd | 情報処理装置及びプログラム |
JP2011244454A (ja) * | 2010-05-18 | 2011-12-01 | Polycom Inc | 複数の音声追跡カメラを有するビデオ会議端末 |
WO2014069798A1 (en) * | 2012-10-29 | 2014-05-08 | Samsung Electronics Co., Ltd. | Voice recognition apparatus and voice recognition method thereof |
US9305555B2 (en) | 2012-06-25 | 2016-04-05 | Mitsubishi Electric Corporation | Onboard information device |
JP2018156047A (ja) * | 2017-03-21 | 2018-10-04 | 株式会社東芝 | 信号処理装置、信号処理方法および属性付与装置 |
KR102147811B1 (ko) * | 2020-01-14 | 2020-08-25 | 김승모 | 회의장 발언자 음성인식 및 문자정보변환시스템 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6356698A (ja) * | 1986-08-27 | 1988-03-11 | 沖電気工業株式会社 | 多数話者音声認識装置 |
JP2000075887A (ja) * | 1998-08-31 | 2000-03-14 | Sony Corp | パターン認識装置、方法及びシステム |
JP2001005482A (ja) * | 1999-06-21 | 2001-01-12 | Matsushita Electric Ind Co Ltd | 音声認識方法及び装置 |
JP2007011380A (ja) * | 2005-07-01 | 2007-01-18 | Bose Corp | 自動車インターフェース |
JP2007033901A (ja) * | 2005-07-27 | 2007-02-08 | Nec Corp | 音声認識システム、音声認識方法、および音声認識用プログラム |
-
2007
- 2007-05-01 JP JP2007120734A patent/JP2008275987A/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6356698A (ja) * | 1986-08-27 | 1988-03-11 | 沖電気工業株式会社 | 多数話者音声認識装置 |
JP2000075887A (ja) * | 1998-08-31 | 2000-03-14 | Sony Corp | パターン認識装置、方法及びシステム |
JP2001005482A (ja) * | 1999-06-21 | 2001-01-12 | Matsushita Electric Ind Co Ltd | 音声認識方法及び装置 |
JP2007011380A (ja) * | 2005-07-01 | 2007-01-18 | Bose Corp | 自動車インターフェース |
JP2007033901A (ja) * | 2005-07-27 | 2007-02-08 | Nec Corp | 音声認識システム、音声認識方法、および音声認識用プログラム |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011165056A (ja) * | 2010-02-12 | 2011-08-25 | Nec Casio Mobile Communications Ltd | 情報処理装置及びプログラム |
JP2011244454A (ja) * | 2010-05-18 | 2011-12-01 | Polycom Inc | 複数の音声追跡カメラを有するビデオ会議端末 |
US9305555B2 (en) | 2012-06-25 | 2016-04-05 | Mitsubishi Electric Corporation | Onboard information device |
WO2014069798A1 (en) * | 2012-10-29 | 2014-05-08 | Samsung Electronics Co., Ltd. | Voice recognition apparatus and voice recognition method thereof |
JP2018156047A (ja) * | 2017-03-21 | 2018-10-04 | 株式会社東芝 | 信号処理装置、信号処理方法および属性付与装置 |
KR102147811B1 (ko) * | 2020-01-14 | 2020-08-25 | 김승모 | 회의장 발언자 음성인식 및 문자정보변환시스템 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4867804B2 (ja) | 音声認識装置及び会議システム | |
JP3968133B2 (ja) | 音声認識対話処理方法および音声認識対話装置 | |
US7949523B2 (en) | Apparatus, method, and computer program product for processing voice in speech | |
JP3674990B2 (ja) | 音声認識対話装置および音声認識対話処理方法 | |
JP3263392B2 (ja) | テキスト処理装置 | |
EP0865651B1 (en) | Method of and system for recognizing a spoken text | |
JP6654611B2 (ja) | 成長型対話装置 | |
JP2008275987A (ja) | 音声認識装置および会議システム | |
JP2004037721A (ja) | 音声応答システム、音声応答プログラム及びそのための記憶媒体 | |
US20080154591A1 (en) | Audio Recognition System For Generating Response Audio by Using Audio Data Extracted | |
JP2003330485A (ja) | 音声認識装置、音声認識システム及び音声認識方法 | |
Park et al. | Towards understanding speaker discrimination abilities in humans and machines for text-independent short utterances of different speech styles | |
JP2005283647A (ja) | 感情認識装置 | |
CN112309406A (zh) | 声纹注册方法、装置和计算机可读存储介质 | |
US7146317B2 (en) | Speech recognition device with reference transformation means | |
US10963548B2 (en) | Information acquisition device, information acquisition system, and information acquisition method | |
US7177806B2 (en) | Sound signal recognition system and sound signal recognition method, and dialog control system and dialog control method using sound signal recognition system | |
JP2003330491A (ja) | 音声認識装置および音声認識方法ならびにプログラム | |
JPH1020883A (ja) | ユーザ認証装置 | |
JP7172120B2 (ja) | 音声認識装置及び音声認識方法 | |
JP2000206987A (ja) | 音声認識装置 | |
JP4779365B2 (ja) | 発音矯正支援装置 | |
JP3846500B2 (ja) | 音声認識対話装置および音声認識対話処理方法 | |
JPH04324499A (ja) | 音声認識装置 | |
CN113228170B (zh) | 信息处理装置及非易失性存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100315 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110920 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110927 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120807 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20121204 |