JP2020086048A

JP2020086048A - 音声認識システム、及び音声認識方法

Info

Publication number: JP2020086048A
Application number: JP2018217921A
Authority: JP
Inventors: 能勢　将樹; Masaki Nose; 将樹能勢; 紘之長野; Hiroyuki Nagano; 悠斗後藤; Yuto Goto
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2018-11-21
Filing date: 2018-11-21
Publication date: 2020-06-04
Anticipated expiration: 2038-11-21
Also published as: JP7095569B2; JP7420166B2; JP2022120164A

Abstract

【課題】ユーザの音声がマイクの指向範囲から外れた場合であっても、音声認識の精度低下を抑制することが可能な、音声認識システム、及び音声認識方法を提供する。【解決手段】本発明により提供される音声認識システムは、同一空間内にて複数のユーザが発話した音声の音声データを、前記複数のユーザそれぞれが装着した複数の収音機器から取得する取得手段と、前記取得した複数の音声データの音量が閾値未満であるか否かを判定する判定手段と、前記判定手段により、前記複数の音声データの音量が何れも閾値未満であると判定された場合に、前記複数の音声データを併用した所定の処理と共に、音声認識処理を行なう音声認識処理手段と、を備える。【選択図】図１

Description

本発明は、音声認識システム、及び音声認識方法に関する。

近年、音声認識技術が広く用いられている。例えば、ＡＩ（Artificial Intelligence）スピーカにおけるユーザの音声操作の受け付けや、コールセンターでの顧客との会話内容の記録といった用途で、音声認識技術が広く用いられている。
これらの用途では、発話するユーザの口元と、ユーザの発話した音声を収音するマイクとの距離が近い。そのため、音声と、雑音の比を示すＳ／Ｎ比(signal-noise ratio)が高い状態となり、精度良く音声認識をすることができる。

一方で、例えば、会議における議事録の作成の用途で、会議卓の中央にテーブルマイクを配し、会議参加者の発話をまとめて収音する場合がある。この場合、発話者とマイクの距離が数十ｃｍ以上離れる。そのため、Ｓ／Ｎ比が低い状態となり、音声認識の精度が低下してしまうという問題が生じる。
このような問題を考慮した技術の一例が、特許文献１に開示されている。特許文献１に開示の技術では、会議に参加するユーザそれぞれに、ユーザの口元に対する指向性を有するマイクを装着させる。そして、これら複数のマイクそれぞれが収音した音声データを適宜選択して音声認識処理を行なう。これにより、発話者とマイクの距離が離れてしまうという問題を生じさせることなく、音声認識を行なうことができる。

しかしながら、特許文献１に開示の技術では、ユーザが、マイクの方向と異なる方向に発話してしまい、ユーザの音声がマイクの指向範囲から外れる場合を考慮していなかった。このようにユーザの音声がマイクの指向範囲から外れた場合、ユーザの音声は、他のユーザの音声や雑音に埋もれて収音されてしまうので、音声認識の精度が低下してしまう。

本発明は、このような状況に鑑みてなされたものであり、ユーザの音声がマイクの指向範囲から外れた場合であっても、音声認識の精度低下を抑制することが可能な、音声認識システム、及び音声認識方法を提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明により提供される音声認識システムは、同一空間内にて複数のユーザが発話した音声の音声データを、前記複数のユーザそれぞれが装着した複数の収音機器から取得する取得手段と、前記取得した複数の音声データの音量が閾値未満であるか否かを判定する判定手段と、前記判定手段により、前記複数の音声データの音量が何れも閾値未満であると判定された場合に、前記複数の音声データを併用した所定の処理と共に、音声認識処理を行なう音声認識処理手段と、を備える。

本発明によれば、ユーザの音声がマイクの指向範囲から外れた場合であっても、音声認識の精度低下を抑制することが可能な、音声認識システム、及び音声認識方法を提供することができる。

本発明の一実施形態に係る音声認識システムの全体構成と、音声認識システムを利用するユーザが存在する空間とを俯瞰した模式図である。首掛け型のウェアラブルマイクにより本発明の一実施形態におけるマイクを実現した場合の装着例を示す模式図である。各ユーザの発話の状況の一例を示すタイミングチャートである。各ユーザの発話の状況の一例を示すタイミングチャートである。音声認識システムに含まれる、各マイク、会議端末、及び音声認識サーバそれぞれのハードウェア構成を示すブロック図である。音声認識システムに含まれる、各マイク、会議端末、及び音声認識サーバの機能的構成のうち、複数音声併用処理を実行するための機能的構成を示す機能ブロック図である。会議端末の外観構成及び表示例を示す模式図である。本発明の一実施形態における第１複数音声併用処理の流れを説明するフローチャートである。本発明の一実施形態における第２複数音声併用処理の流れを説明するフローチャートである。第１の変形例における会議端末の外観構成及び表示例を示す模式図である。第１の変形例及び第２の変形例における画像解析に関して示す模式図である。第１の変形例における会議端末での表示例を示す模式図である。第２の変形例における音声認識部の構成例を示す模式図である。第２の変形例における処理の流れを説明するフローチャートである。

以下、本発明の実施形態について、図面を用いて詳細に説明する。
［システム構成］
図１は、本実施形態に係る音声認識システムＳの全体構成と、音声認識システムＳを利用するユーザが存在する空間（ここでは、一例として会議室）とを俯瞰した模式図である。図１に示すように、音声認識システムＳは、複数のマイク１０（ここでは、一例としてマイク１０Ａ〜マイク１０Ｆ）、会議端末２０、及び音声認識サーバ３０を含む。

また、窓やドアを含む会議室の中央には、テーブルが配置され、テーブル周囲には、会議に参加する複数のユーザＵ（ここでは、一例としてユーザＵＡ〜ユーザＵＦ）が位置する。これらユーザＵそれぞれは、符号の末尾のアルファベットが、自身の符号と共通するマイク１０を装着している。なお、これらユーザＵの人数や各マイク１０等の台数は一例に過ぎず、特に限定されない。

各マイク１０は、各ユーザＵの音声を収音する収音機器として機能する。各マイク１０の形状は特に限定されないが、例えば、首掛け型、又は、バッジ型としてユーザＵに装着されるウェアラブルマイクにより、各マイク１０を実現することができる。このようなウェアラブルマイクであれば、例えば、ヘッドセットやピンマイクを煩わしく感じるユーザＵや、他人が装着したマイクの使い回しを嫌がるユーザＵであっても、気にかけることなく装着することができる。

マイク１０の装着例について、図２を参照して説明する。図２は、首掛け型のウェアラブルマイクによりマイク１０を実現した場合の装着例を示す模式図である。本例では、マイク１０は、マイク１０の上方、すなわち、マイク１０を装着したユーザＵの口から発話される音声を集中的に収音するために、口元への指向性を有している。

そのため、図２（Ａ）に示すように、ユーザＵが正面を向いて発話した場合、ユーザＵの発話する音声を適切に収音することできる。一方で、図２（Ｂ）に示すように、ユーザＵが、横や上を向いて、マイクの指向方向と異なる方向に発話してしまい、ユーザＵの音声がマイクの指向範囲から外れる場合、このユーザＵの音声は、他のユーザＵの音声や雑音に埋もれて収音されてしまう。本実施形態では、「複数音声併用処理」を行なうことにより、この図２（Ｂ）に示すように、ユーザＵの音声がマイクの指向範囲から外れる場合であっても、音声認識の精度低下を抑制する。この複数音声併用処理の詳細については後述する。

各マイク１０は、収音した音声に対応するアナログ信号を、Ａ／Ｄ変換回路にてアナログ−デジタル変換することにより、デジタル信号の音声データを作成する。そして、各マイク１０は、作成した音声データを会議端末２０に対して通信により送信する。かかる通信方法は特に限定されないが、例えば、多対多で接続が可能なＢｌｕｅｔｏｏｔｈ（登録商標）等の無線通信により実現することができる。このように、多対多で接続が可能な通信方法を用いることにより、各ユーザＵの発話した音声を同時並行して収集することができる。

会議端末２０は、各マイク１０から受信した音声データを、音声認識サーバ３０に対して送信する。かかる通信方法は特に限定されないが、例えば、インターネットや、ＬＡＮ（Local Area Network）等のネットワークを介した、有線又は無線の通信により実現することができる。会議端末２０は、通信機能を有する中継装置等で実現してもよいし、ディスプレイ上での入力操作により、ユーザＵが文字等を入力できる電子情報ボード等の装置で実現してもよい。以下の説明では、会議端末２０を電子情報ボードにより実現する場合を例に取って説明をする。なお、電子情報ボードは、インタラクティブ・ホワイトボード（ＩＷＢ：Interactive Whiteboard）、または電子黒板等と称されることもある。

音声認識サーバ３０は、各マイク１０から受信した複数の音声データに対して、音声認識処理を行なうサーバである。音声認識サーバ３０では、マイク１０から受信した複数の音声データに対応した、複数の音声認識エンジンが並列に動作する。これにより、各ユーザＵの音声データに対して並列的な音声認識処理をリアルタイムに実現できる。音声認識処理の結果は、例えば、テキスト化された上で、会議端末２０等の表示部にリアルタイムで表示されたり、会議終了後に紙媒体に印刷されたりすることにより利用される。音声認識サーバ３０は、例えば、クラウド上に設けられたクラウドサーバにより実現することができる。

［複数音声併用処理］
このような構成を有する音声認識システムＳは、上述したように複数音声併用処理を行う。ここで、複数音声併用処理とは、複数のユーザＵの音声データを併用することにより、音声認識の精度低下を抑制する一連の処理である。

具体的に、複数音声併用処理において音声認識システムＳは、同一空間内にて複数のユーザＵが発話した音声の音声データを、複数のユーザＵそれぞれが装着した複数のマイク１０から取得する。また、音声認識システムＳは、取得した複数の音声データの音量が閾値未満であるか否かを判定する。ここで、取得した複数の音声データの音量が閾値未満である場合とは、例えば、上述した図２（Ｂ）に示すように、ユーザＵの音声がマイクの指向範囲から外れる場合である。

そして、音声認識システムＳは、複数の音声データの音量が何れも閾値未満であると判定された場合に、複数の音声データを併用した所定の処理と共に、音声認識処理を行なう。この複数の音声データを併用した所定の処理として、例えば、第１複数音声併用処理と、第２複数音声併用処理の２つの処理が挙げられる。

（第１複数音声併用処理）
第１複数音声併用処理では、音声認識システムＳは、複数の音声データを合算し、合算した音声データに対して音声認識処理を行なう。これにより、合算によりＳ／Ｎ比が向上した音声データに対して音声認識処理を行なうことにできるので、音声認識の精度低下を抑制することができる。

第１複数音声併用処理について、図３及び図４を参照して説明する。図３及び図４は、各ユーザＵの発話の状況の一例を示すタイミングチャートである。
本例では、図４に示すように、３人のユーザＵ（ユーザＵＡ、ユーザＵＢ、及びユーザＵＣ）が、それぞれ異なるタイミング（一部重複したタイミングを含む）で、順番に発話する場合を想定する。具体的には、時系列に沿って「ユーザＵＡ→ユーザＵＢ→ユーザＵＣ→ユーザＵＢ→ユーザＵＡ」の順番で発話する場合を想定する。ただし、この発話の中で最後に発話したユーザＵＡが横を向き、上述した図２（Ｂ）に示すように、マイクの指向範囲から外れてしまったものとする。

これら３人のユーザＵそれぞれが装着しているマイク１０（マイク１０Ａ、マイク１０Ｂ、及びマイク１０Ｃ）はそれぞれ、マイク１０を装着しているユーザＵの発話した音声を最も大きく収音している一方で、他のユーザＵの発話した音声も少量ながら収音している。例えば、図中のＴ１〜Ｔ２の間、マイク１０ＡはユーザＵＡの発話した音声を大きく収音しており、マイク１０Ｂ及びマイク１０ＣもユーザＵＡの発話した音声を少量ながら収音している。なお、図中における図示を省略するが、マイク１０は、実際には、会議室内のノイズ（例えば、空調やプロジェクタ等の稼動音）も少量ながら収音している。

このような状況において、本実施形態では、上述したように音量に閾値を設定し、少なくとも１つのマイク１０の音声データの音量が閾値以上であれば、この閾値以上の音量の音声データに対して音声認識を行なう。すなわち、少なくとも１つのマイク１０において、装着しているユーザＵの発話した音声を適切に収音できている場合には、この音声の音声データに対して音声認識を行なう。そして、他のマイク１０が収音した閾値未満の音量の音声データには音声認識を行わない。

例えば、Ｔ１〜Ｔ２の期間はマイク１０Ａが収音したユーザＵＡの発話した音声の音声データに対して音声認識を行なう。また、Ｔ２〜Ｔ３の期間はマイク１０Ｂが収音したユーザＵＢの発話した音声の音声データに対して音声認識を行なう。更に、Ｔ３〜Ｔ４の期間はマイク１０Ｃが収音したユーザＵＣの発話した音声の音声データに対して音声認識を行なう。更に、Ｔ４〜Ｔ５の期間はマイク１０Ｂが収音したユーザＵＢの発話した音声の音声データに対して音声認識を行なう。そして、それ以外の閾値未満の音量の音声データは音声認識の対象から除外する。

なお、Ｔ１〜Ｔ２の期間において、マイク１０Ａが収音したユーザＵＡの発話した音声と、マイク１０Ｂが収音したユーザＵＢの発話した音声とは、時間的に一部重複しているが、それぞれのマイク１０で閾値以上の音量で収音できている。そのため、この重複期間においてユーザＵＡの発話した音声の音声データと、ユーザＵＢの発話した音声の音声データはそれぞれ音声認識に用いられる。

ここで、本実施形態における、複数の音声データを併用した所定の処理が適用されるのは、ユーザＵＡが横を向いて発話しているＴ６〜Ｔ７の期間である。このＴ６〜Ｔ７の期間は、マイク１０Ａ、マイク１０Ｂ、及びマイク１０Ｃの何れも閾値未満の音量の音声しか収音していない。そのため、各マイク１０が収音した音声のＳ／Ｎ比は低く、このまま各マイク１０が収音した音声の音声データに対して音声認識を行ったとしても、ユーザＵＡの発話した音声は、適切に音声認識されない。

このように、ユーザＵが横や上を向いて発話して、ユーザＵの音声がマイクの指向範囲から外れ、何れのマイク１０の音声データも閾値未満の音量である場合は、複数の音声データを併用した所定の処理を行なう。具体的には、図４に示すように、複数のマイク１０で収音した音声の音声データを合算してＳ／Ｎ比を向上させる。そして、Ｓ／Ｎ比が向上することにより音声が強調された音声データに対して音声認識を行う。
これにより、ユーザＵの音声がマイクの指向範囲から外れた場合であっても、音声認識の精度低下を抑制することが可能となる。

この場合に、複数の音声データの音量の比較結果に基づいて、発話したユーザＵを推定するようにしてもよい。例えば、マイク１０Ａの音声データの音量が、マイク１０Ｂやマイク１０の音声データの音量よりも相対的に大きい場合には、マイク１０Ａに対応するユーザＵＡが発話したと推定してもよい。ただし、推定が困難な場合には、図４に示すように、発話者不特定として、後述の音声合算部２３０から出力するようにしてもよい。

（第２複数音声併用処理）
上述した第１複数音声併用処理により、音声認識の精度低下を抑制することができるが、音声データの合算を行なうために、各マイク１０から取得した音声データの厳密なタイミング制御（例えば、μｓｅｃオーダーの厳密な同期制御等）が必要になる。また、加算処理を行なうための処理部も必要となる。そこで、他のより簡易な処理として、第２複数音声併用処理を行なうことも考えられる。

第２複数音声併用処理においても、第１複数音声併用処理と同様に、複数の音声データを併用した所定の処理を行なう。すなわち、図３に示すＴ６〜Ｔ７の期間のようにユーザＵが横や上を向いて発話して、ユーザＵの音声がマイクの指向範囲から外れ、何れのマイク１０の音声データも閾値未満の音量である場合は、複数の音声データを併用した所定の処理を行なう。

具体的には、音声認識システムＳは、複数の音声データそれぞれに対して音声認識処理を行い、複数の音声データそれぞれの音声認識結果の比較に基づいて、音声認識結果を補正する。これにより、或る１つの音声データの音声認識結果のみならず、複数の音声データそれぞれの音声認識結果を踏まえて補正を行なうことができるので、音声認識の精度低下を抑制することができる。

ここで、補正処理の例としては、或る区間（例えば、音声認識結果に基づいて特定される文節に対応する区間等）において、複数の音声データについての音声認識結果が共通している場合は、この共通する音声認識結果が正しいものとして補正を行う。

また、この場合に、例えば３つの音声データについての音声認識結果のうち、２つの音声認識結果が同じ結果だった場合は、この音声認識結果が正しいものとして補正を行うというように、いわゆる多数決に基づいた処理としてもよい。

あるいは、複数の音声認識処理の結果が全て異なるような場合は、複数の音声データそれぞれの音量を比較し、音量が最も大きい音声データについての音声認識結果を正しいものとして補正を行うようにしてもよい。
これにより、第２複数音声併用処理においても、ユーザＵの音声がマイクの指向範囲から外れた場合であっても、音声認識の精度低下を抑制することが可能となる。

［ハードウェア構成］
次に、図５を参照して、本実施形態における各装置のハードウェア構成について説明をする。図５は、音声認識システムＳに含まれる、各マイク１０、会議端末２０、及び音声認識サーバ３０それぞれのハードウェア構成を示すブロック図である。

マイク１０は、ＣＰＵ（Central Processing Unit）１１、ＲＯＭ（Read Only Memory）１２、ＲＡＭ（Random Access Memory)１３、通信Ｉ／Ｆ(Interface)１４、操作部１５、及び収音部１６を含む。これら各部は、バス接続により相互に通信可能に接続される。

ＣＰＵ１１は、マイク１０全体を制御する。具体的には、ＣＰＵ１１は、ＲＡＭ１３をワークエリア（すなわち、作業領域）として、ＲＯＭ１２等に格納されたファームウェアや、ＯＳ（Operating System）や、各種のプログラムに基づいた演算処理を行う。そして、ＣＰＵ１１は、この演算処理の結果に基づいて、マイク１０に含まれる各ハードウェアを制御する。ここで、各種のプログラムとは、例えば、上述した複数音声併用処理において、音声データを会議端末２０に対して送信するためのプログラムである。

ＲＯＭ１２は、ファームウェアや、ＯＳや、各種のプログラムや、これらのプログラムにおいて利用する各種のデータ（例えば、上述した複数音声併用処理において利用する音声データ）を記憶する。

ＲＡＭ１３は、上述したように、ＣＰＵ１１のワークエリアとして機能する。
通信Ｉ／Ｆ１４は、マイク１０が、音声認識システムＳに含まれる他の各装置と通信するためのインターフェースである。

操作部１５は、例えば、各種の釦等で実現され、ユーザＵの操作を受け付ける。例えば、操作部１５は、マイク１０の電源のオンオフの切り替え操作や、収音の開始指示操作を受け付ける。そして、操作部１５は、受け付けたユーザＵの操作の内容をＣＰＵ１１に対して出力する。

収音部１６は、収音した音声をアナログの電気信号に変換するデバイスと、この音声をデジタル変換するためのＡ／Ｄ変換回路とを含む。収音部１６は、デジタル変換した音声データを、ＣＰＵ１１に対して出力する。

会議端末２０は、ＣＰＵ２１、ＲＯＭ２２、ＲＡＭ２３、ＨＤＤ２４、通信Ｉ／Ｆ２５、操作部２６、表示部２７、及び撮像部２８を含む。これら各部は、バス接続により相互に通信可能に接続される。

ＣＰＵ２１は、会議端末２０全体を制御する。具体的には、ＣＰＵ２１は、ＲＡＭ２３をワークエリアとして、ＲＯＭ２２やＨＤＤ２４等に格納されたファームウェアや、ＯＳや、各種のプログラムに基づいた演算処理を行う。そして、ＣＰＵ２１は、この演算処理の結果に基づいて、会議端末２０に含まれる各ハードウェアを制御する。ここで、各種のプログラムとは、例えば、上述した複数音声併用処理を実現するためのプログラムや、電子情報ボードの機能を実現するプログラムである。

ＲＯＭ２２及びＨＤＤ２４は、ファームウェアや、ＯＳや、各種のプログラムや、これらのプログラムにおいて利用する各種のデータ（例えば、上述した複数音声併用処理や、電子情報ボードの機能において利用する各種のデータ）を記憶する。

ＲＡＭ２３は、上述したように、ＣＰＵ２１のワークエリアとして機能する。
通信Ｉ／Ｆ２５は、会議端末２０が、音声認識システムＳに含まれる他の各装置と通信するためのインターフェースである。

操作部２６は、例えば、各種の釦等で実現され、ユーザＵの操作を受け付ける。例えば、操作部１５は、会議端末２０の電源のオンオフの切り替え操作や、収音の開始指示操作や、電子情報ボードの機能に関する操作を受け付ける。そして、操作部２６は、受け付けたユーザＵの操作の内容をＣＰＵ２１に対して出力する。

表示部２７は、液晶ディスプレイ（ＬＣＤ：Liquid Crystal Display）や有機ＥＬディスプレイ（Organic Electro Luminescence Display）等で実現され、ＣＰＵ２１から出力された所定の情報をユーザＵに対して表示する。表示部２７は、所定の情報として、例えば、音声認識結果をテキスト化した情報や、各種のユーザインタフェースをユーザＵに対して表示する。
なお、操作部２６及び表示部２７を、電子情報ボード用のペンやユーザＵの手によるタッチ操作を受付可能な、タッチパネルにより一体として実現してもよい。
撮像部２８は、カメラを実現するための各種デバイスにより実現され、会議端末２０が設置された場所において、例えば、会議に参加しているユーザＵを撮像する。撮像部２８は、撮像により作成した画像データをＣＰＵ２１に対して出力する。

音声認識サーバ３０は、ＣＰＵ３１、ＲＯＭ３２、ＲＡＭ３３、ＨＤＤ３４、及び通信Ｉ／Ｆ３５を含む。これら各部は、バス接続により相互に通信可能に接続される。

ＣＰＵ３１は、音声認識サーバ３０全体を制御する。具体的には、ＣＰＵ３１は、ＲＡＭ３３をワークエリアとして、ＲＯＭ３２やＨＤＤ３４等に格納されたファームウェアや、ＯＳや、各種のプログラムに基づいた演算処理を行う。そして、ＣＰＵ３１は、この演算処理の結果に基づいて、音声認識サーバ３０に含まれる各ハードウェアを制御する。ここで、各種のプログラムとは、例えば、上述した複数音声併用処理を実現するためのプログラムである。

ＲＯＭ３２及びＨＤＤ３４は、ファームウェアや、ＯＳや、各種のプログラムや、これらのプログラムにおいて利用する各種のデータ（例えば、上述した複数音声併用処理において利用する各種のデータ）を記憶する。

ＲＡＭ３３は、上述したように、ＣＰＵ３１のワークエリアとして機能する。
通信Ｉ／Ｆ３５は、音声認識サーバ３０が、音声認識システムＳに含まれる他の各装置と通信するためのインターフェースである。

［機能的構成］
次に、図５を参照して上述した各ハードウェアによって実現される機能的構成について図６を参照して説明をする。図６は、音声認識システムＳに含まれる、各マイク１０、会議端末２０、及び音声認識サーバ３０の機能的構成のうち、複数音声併用処理を実行するための機能的構成を示す機能ブロック図である。

なお、これら機能ブロックは、上述した各マイク１０、会議端末２０、及び音声認識サーバ３０に含まれる各ＣＰＵが、複数音声併用処理を実現するためのプログラムに基づいて、各装置に含まれる各ハードウェアを制御することにより実現される。なお、以下で特に言及しない場合も含め、これら機能ブロック間では、複数音声併用処理を実現するために必要なデータを、適切なタイミングで適宜送受信する。

また、本実施形態では、各音声データに対して並列的に処理を行なうために、一部の機能ブロックが並列的に複数設けられている。ただし、並列的に複数設けられた同名の機能ブロックの機能はそれぞれ共通している。そのため、以下の説明では、各機能ブロック末尾のアルファベットを省略して説明する。

まず、各マイク１０の機能ブロックについて説明をする。
複数音声併用処理が実行される場合、図６に示すように、各マイク１０において、音声収音部１１０と、音声送信部１２０とが機能する。

音声収音部１１０は、各ユーザＵの音声を収音及びアナログ−デジタル変換することにより、デジタル信号の音声データを作成する。
音声送信部１２０は、音声収音部１１０が作成した音声データを会議端末２０に対して送信する。

次に、会議端末２０の機能ブロックについて説明をする。
複数音声併用処理が実行される場合、図６に示すように、会議端末２０において、音声取得部２１０と、音量判定部２２０と、音声合算部２３０と、文字列表示部２４０とが機能する。

音声取得部２１０は、音声送信部１２０が送信した音声データを受信することにより、音声データを取得する。

音量判定部２２０は、音声取得部２１０が受信した音声データの音量が閾値未満であるか否かを判定する。この閾値の値は、本実施形態を実装する環境等に応じて、予め設定しておくものとする。また、この閾値の値は、各音声データの音量の平均値等に基づいて適宜変更されてもよい。
なお、音量判定部２２０は、一時的に（例えば、数秒程度）ユーザＵの発話が途切れる場合も考慮して、この一時的に途切れる期間よりも長い、一定期間における音声データの音量の平均値が、閾値未満であるか否かを判定するとよい。

音声合算部２３０は、もっぱら第１複数音声併用処理を行なう場合に機能する。第１複数音声併用処理を行なう場合、音声合算部２３０は、音量判定部２２０により、複数の音声データの音量が何れも閾値未満であると判定された場合に、複数の音声データを合算する。そして、音声合算部２３０は、合算した音声データを音声認識サーバ３０に対して送信する。一方で、音声合算部２３０は、音量判定部２２０により、複数の音声データの内の何れかの音声データの音量が閾値以上であると判定された場合に、この閾値以上であると判定された音声データを音声認識サーバ３０に対して送信し、閾値未満であると判定された音声データは送信しない。
なお、第２複数音声併用処理を行なう場合には、音声合算部２３０は、音量判定部２２０の判定結果に関わらず、複数の音声データの全てを音声認識サーバ３０に対して送信する。

文字列表示部２４０は、音声認識サーバ３０から受信した、音声認識結果を表示する。音声認識結果は、例えば、テキスト化した文字列として表示される。文字列表示部２４０による表示の一例を図７に示す。図７に示すように会議端末２０は、例えば、電子情報ボードとして実現される。この場合、操作部２６及び表示部２７はタッチパネルとして実現される。そして、表示部２７には処理の表示領域として、例えば、表示領域２７１が設けられる。文字列表示部２４０は、この表示領域２７１に、例えば、ユーザＵが発話した時系列に沿って文字列を表示する。

この場合に、ユーザＵ（の装着しているマイク１０）を識別する情報（例えば、予め登録したユーザＵの名前やマイク１０の番号等）を、対応するテキストと共に表示するようにしてもよい。このように表示をする場合には、音声合算部２３０等と同様に、文字列表示部２４０も、複数のマイク１０に対応して複数設けるようにしてもよい。
このような表示を行うことにより、複数人の発話者が存在する会議シーンにおいて、誰がどのような発言を行ったかという発話履歴が表示される。

次に、音声認識サーバ３０の機能ブロックについて説明をする。
複数音声併用処理が実行される場合、図６に示すように、音声認識サーバ３０において、音声認識部３１０と、認識結果補正部３２０とが機能する。

音声認識部３１０は、会議端末２０から受信した音声データに対して、音声認識処理を行なう。音声認識処理に用いる音声認識エンジンは特に限定されず、本実施形態特有の音声認識エンジンを利用してもよいし、汎用の音声認識エンジンを利用してもよい。

認識結果補正部３２０は、もっぱら第２複数音声併用処理を行なう場合に機能する。第２複数音声併用処理を行なう場合、認識結果補正部３２０は、音量判定部２２０により、複数の音声データの音量が何れも閾値未満であると判定された場合に、複数の音声データの音声認識結果の比較に基づいて、音声認識結果を補正（アンサンブル）する。そして、認識結果補正部３２０は、補正した音声認識結果を会議端末２０に対して送信する。一方で、音声合算部２３０は、音量判定部２２０により、複数の音声データの内の何れかの音声データの音量が閾値以上であると判定された場合に、この閾値以上であると判定された音声データに関する音声認識結果を会議端末２０に対して送信する。音声認識結果は、例えば、テキスト化した文字列として送信される。

なお、第１複数音声併用処理を行なう場合には、音量が閾値以上の音声データや、合算されてＳ／Ｎ比が向上した音声データといった、適切に音声認識できる音声データのみが音声認識の対象となっている。そのため、認識結果補正部３２０は、音量判定部２２０の判定結果に関わらず、音声認識部３１０による音声認識結果の全てを会議端末２０に対して送信する。

［動作］
次に、本実施形態における複数音声併用処理の流れについて説明をする。なお、下記の説明にて特に言及しない場合であっても、図６を参照して上述した各機能ブロックは、複数音声併用処理に必要となる処理を適宜実行する。なお、第１複数音声併用処理と、第２複数音声併用処理の何れが行われるかは、予めなされた設定や、ユーザＵによる選択操作に応じて決定される。

（第１複数音声併用処理）
図８は、第１複数音声併用処理の流れを説明するフローチャートである。第１複数音声併用処理は、例えば、マイク１０による収音が開始されて音声データの取得が開始された場合や、ユーザＵによる開始指示操作応じて実行される。

ステップＳ１１において、第１音声併用処理のループ処理が開始される。
ステップＳ１２において、会議端末２０の各音声取得部２１０は、各マイク１０から音声データを取得する。

ステップＳ１３において、会議端末２０の各音量判定部２２０は、一定期間における音声データの音量の平均値が、閾値未満であるか否かを判定する。

ステップＳ１４において、会議端末２０の音声合算部２３０は、ステップＳ１３における判定結果に基づいて、一定期間における、全ての音声データの音量の平均値が、閾値未満であったか否かを判断する。全ての音声データの音量の平均値が、閾値未満であった場合は、ステップＳ１４においてＹｅｓと判定され、処理はステップＳ１５に進む。一方で、少なくとも何れかの音声データの音量の平均値が、閾値以上であった場合は、ステップＳ１４においてＮｏと判定され、処理はステップＳ１７に進む。

ステップＳ１５において、会議端末２０の音声合算部２３０は、各マイク１０が収音した各音声データを選択する。この処理は、各音声データに対して並列的に行われる（ここでは、一例としてステップＳ１５Ａ〜ステップＳ１５Ｃが行われる）。
ステップＳ１６において、会議端末２０の音声合算部２３０は、ステップＳ１５において選択された各音声データを合算する。
一方で、ステップＳ１７において、会議端末２０の音声合算部２３０は、閾値以上の音量の音声データを選択する。

ステップＳ１８において、音声認識サーバ３０の音声認識部３１０は、ステップＳ１６において合算されてＳ／Ｎ比の向上した音声データ、あるいは、ステップＳ１７において選択された閾値以上の音量の音声データに対して音声認識処理を行う。

ステップＳ１９において、会議端末２０の文字列表示部２４０は、ステップＳ１８における音声認識結果をテキスト化した文字列を出力する。この場合、出力は、例えば、図７を参照して上述したような表示や、紙媒体への印刷等により行われる。

ステップＳ２０において、第１複数音声併用処理のループ処理が終了する条件が満たされていない場合には、ステップＳ１１から上述のループ処理が繰り返される。一方で、第１複数音声併用処理のループ処理が終了する条件が満たされた場合には、ループ処理は終了する。終了条件は、例えば、マイク１０による収音が終了して音声データの取得が終了したことや、ユーザＵによる終了指示操作を受け付けたことである。
以上説明した第１複数音声併用処理により、ユーザＵの音声がマイクの指向範囲から外れた場合であっても、音声認識の精度低下を抑制することが可能となる。

（第２複数音声併用処理）
図９は、第２複数音声併用処理の流れを説明するフローチャートである。第２複数音声併用処理は、例えば、マイク１０による収音が開始されて音声データの取得が開始された場合や、ユーザＵによる開始指示操作応じて実行される。

ステップＳ３１において、第２音声併用処理のループ処理が開始される。
ステップＳ３２において、会議端末２０の各音声取得部２１０は、各マイク１０から音声データを取得する。

ステップＳ３３において、会議端末２０の各音量判定部２２０は、一定期間における音声データの音量の平均値が、閾値未満であるか否かを判定する。
ステップＳ３４において、会議端末２０の音声合算部２３０は、ステップＳ３３における判定結果に基づいて、一定期間における、全ての音声データの音量の平均値が、閾値未満であったか否かを判断する。全ての音声データの音量の平均値が、閾値未満であった場合は、ステップＳ３４においてＹｅｓと判定され、処理はステップＳ３５に進む。一方で、少なくとも何れかの音声データの音量の平均値が、閾値以上であった場合は、ステップＳ３４においてＮｏと判定され、処理はステップＳ３９に進む。

ステップＳ３５において、会議端末２０の音声合算部２３０は、各マイク１０が収音した各音声データを選択する。この処理及び以後のステップＳ３６及びステップＳ３７の処理は、各音声データに対して並列的に行われる。ここでは、一例としてステップＳ３５Ａ〜ステップＳ３５Ｃ、ステップＳ３６Ａ〜ステップＳ３６Ｃ、及びステップＳ３７Ａ〜ステップＳ３７Ｃが行われる。

ステップＳ３６において、音声認識サーバ３０の音声認識部３１０は、ステップＳ３５において選択された各音声データに対して音声認識処理を行う。
ステップＳ３７において、音声認識サーバ３０の音声認識部３１０は、ステップＳ３６における音声認識処理の結果を、テキスト化した文字列として出力する。

ステップＳ３８において、音声認識サーバ３０の認識結果補正部３２０は、複数の音声データそれぞれの音声認識結果の比較に基づいて、音声認識結果を補正する。

一方で、ステップＳ３９において、会議端末２０の音声合算部２３０は、閾値以上の音量の音声データを選択する。
ステップＳ４０において、音声認識サーバ３０の音声認識部３１０は、ステップＳ３９において選択された閾値以上の音量の音声データに対して音声認識処理を行う。

ステップＳ４１において、会議端末２０の文字列表示部２４０は、ステップＳ３８における補正後の文字列、又は、ステップＳ４０における音声認識結果をテキスト化した文字列を出力する。この場合、出力は、例えば、図７を参照して上述したような表示や、紙媒体への印刷等により行われる。

ステップＳ４２において、第２複数音声併用処理のループ処理が終了する条件が満たされていない場合には、ステップＳ３１から上述のループ処理が繰り返される。一方で、第２複数音声併用処理のループ処理が終了する条件が満たされた場合には、ループ処理は終了する。終了条件は、例えば、マイク１０による収音が終了して音声データの取得が終了したことや、ユーザＵによる終了指示操作を受け付けたことである。
以上説明した第２複数音声併用処理により、ユーザＵの音声がマイクの指向範囲から外れた場合であっても、音声認識の精度低下を抑制することが可能となる。

［変形例］
本発明は、上述の実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものである。

［第１の変形例］
上述した実施形態では、音声認識処理に基づいて文字列を表示していた。これに限らず、更に他の情報を表示するようにしてもよい。例えば、文字列に対応する発話を行ったユーザＵの画像を対応付けて表示するようにしてもよい。

本変形例について図１０、図１１、及び図１２を参照して説明をする。まず、表示の前提として、図１０に示すように、撮像部２８を、会議に参加している各ユーザＵを撮像可能な位置に配置する。例えば、電子情報ボードとして実現された会議端末２０の正面上部等に撮像部２８を配置する。これにより、会議端末２０に正対した位置で会議を行っている各ユーザＵを撮像することができる。

次に、図１１に示すようにして、撮像部２８が撮像することにより作成される各ユーザＵが被写体となった画像（あるいは、動画）に対して、画像解析を行うことにより、各ユーザＵの顔等を検出し、この各ユーザＵの内の誰が発話しているかを特定する。この特定は、一般的に知られているアルゴリズムに基づいた画像解析による、顔検知、あるいは動作検知により実現することができる。これらの画像解析を行う機能は、例えば、会議端末２０の音声合算部２３０に実装する。そして、音声合算部２３０は、このように特定した発話中のユーザＵの顔画像と、同時刻に収音した音声とを紐づけて音声認識サーバ３０に送信する。

そして、音声認識サーバ３０の認識結果補正部３２０は、音声認識処理の結果である文字列と、紐付けられている発話したユーザＵの顔画像とを、会議端末２０の文字列表示部２４０に対して送信する。そして、会議端末２０の文字列表示部２４０は、表示領域２７１に、文字列と、発話したユーザＵの顔画像とを紐づけて表示する。例えば、図１２に示すようにして表示する。これにより、表示を参照したユーザＵの、発話内容の理解や臨場感が向上する。すなわち、音声認識システムＳの利便性が向上する。

なお、今回の会議に参加しているユーザＵの、画像や特徴量等のデータを予め登録しておくことにより、より高い精度で、参加しているユーザＵを特定することができる。

［第２の変形例］
上述した第１の変形例のようにして、会議に参加しているユーザＵを特定した場合に、特定したユーザＵ個人に特化した音声認識のモデルに切り替えることで、音声認識の精度を向上させることができる。この場合に、仮にユーザＵ個人までは特定できなくても、男性か女性等の属性が分かれば、それぞれの音声認識のモデルを用いることでも、音声認識の精度を向上させることができる。

本変形例について図１３及び図１４を参照して説明する。本変形例では、音声認識サーバ３０の音声認識部３１０に、複数の機能ブロックを含ませる。具体的には、図１３に示すように、顔認証結果受信部３１１、第１音声認識モデル３１２、第２音声認識モデル３１３、第３音声認識モデル３１４、及び音声認識処理部３１５を含ませる。

そして、図８におけるステップＳ１８において、図１４に示す各処理を行う。具体的には、ステップＳ１８１において、顔認証結果受信部３１１が、会議端末２０の音声合算部２３０による顔認証の結果を受信する。そして、受信した顔認証の結果に基づいて、顔認証結果受信部３１１が、論理的なスイッチを切り替えることにより、音声認識のモデルを切り替える。例えば、以下のようにして切り替える。

ステップＳ１８２において、顔認証の結果が「男性」であるか否かを判定する。「男性」である場合は、ステップＳ１８２においてＹｅｓと判定され、処理はステップＳ１８３に進む。ステップＳ１８３では、顔認証結果受信部３１１が男性用の音声認識モデルである第１音声認識モデル３１２に切り替えた上で、音声認識処理部３１５が音声認識処理を行う。一方で、「男性」でない場合は、ステップＳ１８２においてＮｏと判定され、処理はステップＳ１８４に進む。

ステップＳ１８４において、顔認証の結果が「女性」であるか否かを判定する。「女性」である場合は、ステップＳ１８４においてＹｅｓと判定され、処理はステップＳ１８５に進む。ステップＳ１８５では、顔認証結果受信部３１１が女性用の音声認識モデルである第２音声認識モデル３１３に切り替えた上で、音声認識処理部３１５が音声認識処理を行う。一方で、「女性」でない場合は、ステップＳ１８４においてＮｏと判定され、処理はステップＳ１８６に進む。ステップＳ１８５では、顔認証結果受信部３１１が汎用の音声認識モデルである第３音声認識モデル３１４に切り替えた上で、音声認識処理部３１５が音声認識処理を行う。

このように、顔認証の結果に基づいて、適切な音声モデルを利用することにより、音声認識の精度を向上させることができる。
なお、ステップＳ１８のみならず、図９におけるステップＳ３６やステップＳ４０にも本変形例を適用し、上述したようにして、音声モデルの切り替えを行ってもよい。

［第３の変形例］
上述した実施形態における装置構成や、機能ブロックの切り分けは一例に過ぎず、これに限られない。例えば、会議端末２０に音声認識サーバ３０の機能を実装し、単一の装置として実現してもよい。あるいは、エッジデバイスである会議端末２０を単なる通信中継装置により実現し、音声認識サーバ３０に会議端末２０の機能を実装するようにしてもよい。この場合に、例えば、音声認識処理の結果は、会議端末２０以外の他の装置により表示されてもよい。
あるいは、会議端末２０や音声認識サーバ３０のそれぞれを、複数の装置により実現してもよい。例えば、音声認識サーバ３０を、複数のクラウドサーバが協働することにより実現してもよい。

つまり、上述した各装置が備える機能ブロック、あるいは代替となる機能ブロックを、音声認識システムＳに含まれる何れかの装置により実現するようにすればよい。換言すると、図６の機能的構成は例示に過ぎず、特に限定されない。すなわち、上述した一連の処理を全体として実行できる機能が音声認識システムＳに含まれる各装置に備えられていれば足り、この機能を実現するためにどのような機能ブロックを用いるのかは特に図６の例に限定されない。

なお、一例として上述した実施形態における機能的構成で機能ブロックを実現した場合、音声認識システムＳは、本発明における「音声認識システム」に相当する。またこの場合、マイク１０は、本発明における「収音機器」に相当する。更にこの場合、音声取得部２１０は、本発明における「取得手段」に相当する。更にこの場合、音量判定部２２０は、本発明における「判定手段」に相当する。更にこの場合、音声合算部２３０、音声認識部３１０、及び認識結果補正部３２０は、本発明における「音声認識処理手段」や「識別手段」に相当する。

［他の変形例］
上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。また、１つの機能ブロックは、ハードウェア単体で構成してもよいし、ソフトウェア単体で構成してもよいし、それらの組み合わせで構成してもよい。例えば、本実施形態における機能的構成は、演算処理を実行するプロセッサによって実現される。

本実施形態に用いることが可能なプロセッサには、シングルプロセッサ、マルチプロセッサ及びマルチコアプロセッサ等の各種処理装置単体によって構成されるものを含む。また、他にも、これら各種処理装置と、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field‐Programmable Gate Array）等の処理回路とが組み合わせられたものを含む。

一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、コンピュータ等にネットワークや記録媒体からインストールされる。コンピュータは、専用のハードウェアに組み込まれているコンピュータであってもよい。また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えば汎用のパーソナルコンピュータであってもよい。

このようなプログラムを含む記録媒体は、ユーザにプログラムを提供するために装置本体とは別に配布されるリムーバブルメディアにより構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される記録媒体等で構成される。リムーバブルメディアは、例えば、磁気ディスク（フロッピディスクを含む）、光ディスク、又は光磁気ディスク等により構成される。

光ディスクは、例えば、ＣＤ−ＲＯＭ（Compact Disk-Read Only Memory），ＤＶＤ（Digital Versatile Disk），Ｂｌｕ−ｒａｙ（登録商標）Ｄｉｓｃ（ブルーレイディスク）等により構成される。光磁気ディスクは、ＭＤ（Mini-Disk）等により構成される。また、装置本体に予め組み込まれた状態でユーザに提供される記録媒体は、例えば、プログラムが記録されている、図５の、ＲＯＭ１２、ＲＯＭ２２、及びＲＯＭ３２、あるいは、ＨＤＤ２４、及びＨＤＤ３４等で構成される。

なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。また、本明細書において、システムの用語は、複数の装置や複数の手段等より構成される全体的な装置を意味するものとする。

以上、本発明のいくつかの実施形態について説明したが、これらの実施形態は、例示に過ぎず、本発明の技術的範囲を限定するものではない。本発明はその他の様々な実施形態を取ることが可能であり、更に、本発明の要旨を逸脱しない範囲で、省略や置換等種々の変更を行うことができる。これら実施形態やその変形は、本明細書等に記載された発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

Ｓ印刷システム
１０マイク
２０会議端末
３０音声認識サーバ
１１、２１、３１、４１ＣＰＵ
１２、２２、３２、４２ＲＯＭ
１３、２３、３３、４３ＲＡＭ
１４、２５、３５通信Ｉ／Ｆ
１６収音部
２４、３４ＨＤＤ
２６操作部
２７表示部
２８撮像部
１１０音声収音部
１２０音声送信部
２１０音声取得部
２２０音量判定部
２３０音声合算部
２４０文字列表示部
３１０音声認識部
３１１顔認証結果受信部
３１２第１音声認識モデル
３１３第２音声認識モデル
３１４第３音声認識モデル
３１５音声認識処理部
３２０認識結果補正部

特開２０１７−１６７３１８号公報

Claims

同一空間内にて複数のユーザが発話した音声の音声データを、前記複数のユーザそれぞれが装着した複数の収音機器から取得する取得手段と、
前記取得した複数の音声データの音量が閾値未満であるか否かを判定する判定手段と、
前記判定手段により、前記複数の音声データの音量が何れも閾値未満であると判定された場合に、前記複数の音声データを併用した所定の処理と共に、音声認識処理を行なう音声認識処理手段と、
を備える音声認識システム。
前記音声認識処理手段は、
前記複数の音声データを併用した所定の処理として、前記複数の音声データを合算し、
前記合算した音声データに対して音声認識処理を行なう、
請求項１に記載の音声認識システム。
前記音声認識処理手段は、
前記複数の音声データそれぞれに対して音声認識処理を行い、
前記複数の音声データを併用した所定の処理として、前記複数の音声データそれぞれの音声認識結果の比較に基づいて、音声認識結果を補正する、
請求項１に記載の音声認識システム。
前記音声認識処理手段は、前記比較において前記複数の音声データそれぞれの音声認識結果が異なる場合に、最も多い音声認識結果に基づいて音声認識結果を補正する、
請求項３に記載の音声認識システム。
前記音声認識処理手段は、前記判定手段により、前記複数の音声データの音量の少なくとも何れかが閾値以上であると判定された場合に、該閾値以上と判定された音声データに対して音声認識処理を行なう一方で、他の音声データに対しては音声認識処理を行わない、
請求項１乃至４の何れか１項に記載の音声認識システム。
前記音声認識処理手段は、前記複数の音声データの音量が何れも閾値未満であると判定された場合に、前記複数の音声データそれぞれの音量の比較結果に基づいて、発話したユーザを推定する、
請求項１乃至５の何れか１項に記載の音声認識システム。
前記複数の収音機器を更に備え、
前記複数の収音機器は、首掛け型、又は、バッジ型の収音機器である、
請求項１乃至６の何れか１項に記載の音声認識システム。
前記複数のユーザが被写体となった画像に基づいて、前記ユーザを識別する識別手段を更に備え、
前記音声認識処理手段は、前記ユーザの識別結果に基づいて、前記ユーザそれぞれに対する音声認識処理の方法を異ならせる、
請求項１乃至７の何れか１項に記載の音声認識システム。
音声認識システムが行なう音声認識方法であって、
同一空間内にて複数のユーザが発話した音声の音声データを、前記複数のユーザそれぞれが装着した複数の収音機器から取得する取得ステップと、
前記取得した複数の音声データの音量が閾値未満であるか否かを判定する判定ステップと、
前記判定ステップにより、前記複数の音声データの音量が何れも閾値未満であると判定された場合に、前記複数の音声データを併用した所定の処理と共に、音声認識処理を行なう音声認識処理ステップと、
有する音声認識方法。