JP2020086048A - 音声認識システム、及び音声認識方法 - Google Patents
音声認識システム、及び音声認識方法 Download PDFInfo
- Publication number
- JP2020086048A JP2020086048A JP2018217921A JP2018217921A JP2020086048A JP 2020086048 A JP2020086048 A JP 2020086048A JP 2018217921 A JP2018217921 A JP 2018217921A JP 2018217921 A JP2018217921 A JP 2018217921A JP 2020086048 A JP2020086048 A JP 2020086048A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- voice recognition
- voice data
- user
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Description
これらの用途では、発話するユーザの口元と、ユーザの発話した音声を収音するマイクとの距離が近い。そのため、音声と、雑音の比を示すS/N比(signal-noise ratio)が高い状態となり、精度良く音声認識をすることができる。
このような問題を考慮した技術の一例が、特許文献1に開示されている。特許文献1に開示の技術では、会議に参加するユーザそれぞれに、ユーザの口元に対する指向性を有するマイクを装着させる。そして、これら複数のマイクそれぞれが収音した音声データを適宜選択して音声認識処理を行なう。これにより、発話者とマイクの距離が離れてしまうという問題を生じさせることなく、音声認識を行なうことができる。
[システム構成]
図1は、本実施形態に係る音声認識システムSの全体構成と、音声認識システムSを利用するユーザが存在する空間(ここでは、一例として会議室)とを俯瞰した模式図である。図1に示すように、音声認識システムSは、複数のマイク10(ここでは、一例としてマイク10A〜マイク10F)、会議端末20、及び音声認識サーバ30を含む。
このような構成を有する音声認識システムSは、上述したように複数音声併用処理を行う。ここで、複数音声併用処理とは、複数のユーザUの音声データを併用することにより、音声認識の精度低下を抑制する一連の処理である。
第1複数音声併用処理では、音声認識システムSは、複数の音声データを合算し、合算した音声データに対して音声認識処理を行なう。これにより、合算によりS/N比が向上した音声データに対して音声認識処理を行なうことにできるので、音声認識の精度低下を抑制することができる。
本例では、図4に示すように、3人のユーザU(ユーザUA、ユーザUB、及びユーザUC)が、それぞれ異なるタイミング(一部重複したタイミングを含む)で、順番に発話する場合を想定する。具体的には、時系列に沿って「ユーザUA→ユーザUB→ユーザUC→ユーザUB→ユーザUA」の順番で発話する場合を想定する。ただし、この発話の中で最後に発話したユーザUAが横を向き、上述した図2(B)に示すように、マイクの指向範囲から外れてしまったものとする。
これにより、ユーザUの音声がマイクの指向範囲から外れた場合であっても、音声認識の精度低下を抑制することが可能となる。
上述した第1複数音声併用処理により、音声認識の精度低下を抑制することができるが、音声データの合算を行なうために、各マイク10から取得した音声データの厳密なタイミング制御(例えば、μsecオーダーの厳密な同期制御等)が必要になる。また、加算処理を行なうための処理部も必要となる。そこで、他のより簡易な処理として、第2複数音声併用処理を行なうことも考えられる。
これにより、第2複数音声併用処理においても、ユーザUの音声がマイクの指向範囲から外れた場合であっても、音声認識の精度低下を抑制することが可能となる。
次に、図5を参照して、本実施形態における各装置のハードウェア構成について説明をする。図5は、音声認識システムSに含まれる、各マイク10、会議端末20、及び音声認識サーバ30それぞれのハードウェア構成を示すブロック図である。
通信I/F14は、マイク10が、音声認識システムSに含まれる他の各装置と通信するためのインターフェースである。
通信I/F25は、会議端末20が、音声認識システムSに含まれる他の各装置と通信するためのインターフェースである。
なお、操作部26及び表示部27を、電子情報ボード用のペンやユーザUの手によるタッチ操作を受付可能な、タッチパネルにより一体として実現してもよい。
撮像部28は、カメラを実現するための各種デバイスにより実現され、会議端末20が設置された場所において、例えば、会議に参加しているユーザUを撮像する。撮像部28は、撮像により作成した画像データをCPU21に対して出力する。
通信I/F35は、音声認識サーバ30が、音声認識システムSに含まれる他の各装置と通信するためのインターフェースである。
次に、図5を参照して上述した各ハードウェアによって実現される機能的構成について図6を参照して説明をする。図6は、音声認識システムSに含まれる、各マイク10、会議端末20、及び音声認識サーバ30の機能的構成のうち、複数音声併用処理を実行するための機能的構成を示す機能ブロック図である。
複数音声併用処理が実行される場合、図6に示すように、各マイク10において、音声収音部110と、音声送信部120とが機能する。
音声送信部120は、音声収音部110が作成した音声データを会議端末20に対して送信する。
複数音声併用処理が実行される場合、図6に示すように、会議端末20において、音声取得部210と、音量判定部220と、音声合算部230と、文字列表示部240とが機能する。
なお、音量判定部220は、一時的に(例えば、数秒程度)ユーザUの発話が途切れる場合も考慮して、この一時的に途切れる期間よりも長い、一定期間における音声データの音量の平均値が、閾値未満であるか否かを判定するとよい。
なお、第2複数音声併用処理を行なう場合には、音声合算部230は、音量判定部220の判定結果に関わらず、複数の音声データの全てを音声認識サーバ30に対して送信する。
このような表示を行うことにより、複数人の発話者が存在する会議シーンにおいて、誰がどのような発言を行ったかという発話履歴が表示される。
複数音声併用処理が実行される場合、図6に示すように、音声認識サーバ30において、音声認識部310と、認識結果補正部320とが機能する。
次に、本実施形態における複数音声併用処理の流れについて説明をする。なお、下記の説明にて特に言及しない場合であっても、図6を参照して上述した各機能ブロックは、複数音声併用処理に必要となる処理を適宜実行する。なお、第1複数音声併用処理と、第2複数音声併用処理の何れが行われるかは、予めなされた設定や、ユーザUによる選択操作に応じて決定される。
図8は、第1複数音声併用処理の流れを説明するフローチャートである。第1複数音声併用処理は、例えば、マイク10による収音が開始されて音声データの取得が開始された場合や、ユーザUによる開始指示操作応じて実行される。
ステップS12において、会議端末20の各音声取得部210は、各マイク10から音声データを取得する。
ステップS16において、会議端末20の音声合算部230は、ステップS15において選択された各音声データを合算する。
一方で、ステップS17において、会議端末20の音声合算部230は、閾値以上の音量の音声データを選択する。
以上説明した第1複数音声併用処理により、ユーザUの音声がマイクの指向範囲から外れた場合であっても、音声認識の精度低下を抑制することが可能となる。
図9は、第2複数音声併用処理の流れを説明するフローチャートである。第2複数音声併用処理は、例えば、マイク10による収音が開始されて音声データの取得が開始された場合や、ユーザUによる開始指示操作応じて実行される。
ステップS32において、会議端末20の各音声取得部210は、各マイク10から音声データを取得する。
ステップS34において、会議端末20の音声合算部230は、ステップS33における判定結果に基づいて、一定期間における、全ての音声データの音量の平均値が、閾値未満であったか否かを判断する。全ての音声データの音量の平均値が、閾値未満であった場合は、ステップS34においてYesと判定され、処理はステップS35に進む。一方で、少なくとも何れかの音声データの音量の平均値が、閾値以上であった場合は、ステップS34においてNoと判定され、処理はステップS39に進む。
ステップS37において、音声認識サーバ30の音声認識部310は、ステップS36における音声認識処理の結果を、テキスト化した文字列として出力する。
ステップS40において、音声認識サーバ30の音声認識部310は、ステップS39において選択された閾値以上の音量の音声データに対して音声認識処理を行う。
以上説明した第2複数音声併用処理により、ユーザUの音声がマイクの指向範囲から外れた場合であっても、音声認識の精度低下を抑制することが可能となる。
本発明は、上述の実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものである。
上述した実施形態では、音声認識処理に基づいて文字列を表示していた。これに限らず、更に他の情報を表示するようにしてもよい。例えば、文字列に対応する発話を行ったユーザUの画像を対応付けて表示するようにしてもよい。
上述した第1の変形例のようにして、会議に参加しているユーザUを特定した場合に、特定したユーザU個人に特化した音声認識のモデルに切り替えることで、音声認識の精度を向上させることができる。この場合に、仮にユーザU個人までは特定できなくても、男性か女性等の属性が分かれば、それぞれの音声認識のモデルを用いることでも、音声認識の精度を向上させることができる。
なお、ステップS18のみならず、図9におけるステップS36やステップS40にも本変形例を適用し、上述したようにして、音声モデルの切り替えを行ってもよい。
上述した実施形態における装置構成や、機能ブロックの切り分けは一例に過ぎず、これに限られない。例えば、会議端末20に音声認識サーバ30の機能を実装し、単一の装置として実現してもよい。あるいは、エッジデバイスである会議端末20を単なる通信中継装置により実現し、音声認識サーバ30に会議端末20の機能を実装するようにしてもよい。この場合に、例えば、音声認識処理の結果は、会議端末20以外の他の装置により表示されてもよい。
あるいは、会議端末20や音声認識サーバ30のそれぞれを、複数の装置により実現してもよい。例えば、音声認識サーバ30を、複数のクラウドサーバが協働することにより実現してもよい。
上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。また、1つの機能ブロックは、ハードウェア単体で構成してもよいし、ソフトウェア単体で構成してもよいし、それらの組み合わせで構成してもよい。例えば、本実施形態における機能的構成は、演算処理を実行するプロセッサによって実現される。
10 マイク
20 会議端末
30 音声認識サーバ
11、21、31、41 CPU
12、22、32、42 ROM
13、23、33、43 RAM
14、25、35 通信I/F
16 収音部
24、34 HDD
26 操作部
27 表示部
28 撮像部
110 音声収音部
120 音声送信部
210 音声取得部
220 音量判定部
230 音声合算部
240 文字列表示部
310 音声認識部
311 顔認証結果受信部
312 第1音声認識モデル
313 第2音声認識モデル
314 第3音声認識モデル
315 音声認識処理部
320 認識結果補正部
Claims (9)
- 同一空間内にて複数のユーザが発話した音声の音声データを、前記複数のユーザそれぞれが装着した複数の収音機器から取得する取得手段と、
前記取得した複数の音声データの音量が閾値未満であるか否かを判定する判定手段と、
前記判定手段により、前記複数の音声データの音量が何れも閾値未満であると判定された場合に、前記複数の音声データを併用した所定の処理と共に、音声認識処理を行なう音声認識処理手段と、
を備える音声認識システム。 - 前記音声認識処理手段は、
前記複数の音声データを併用した所定の処理として、前記複数の音声データを合算し、
前記合算した音声データに対して音声認識処理を行なう、
請求項1に記載の音声認識システム。 - 前記音声認識処理手段は、
前記複数の音声データそれぞれに対して音声認識処理を行い、
前記複数の音声データを併用した所定の処理として、前記複数の音声データそれぞれの音声認識結果の比較に基づいて、音声認識結果を補正する、
請求項1に記載の音声認識システム。 - 前記音声認識処理手段は、前記比較において前記複数の音声データそれぞれの音声認識結果が異なる場合に、最も多い音声認識結果に基づいて音声認識結果を補正する、
請求項3に記載の音声認識システム。 - 前記音声認識処理手段は、前記判定手段により、前記複数の音声データの音量の少なくとも何れかが閾値以上であると判定された場合に、該閾値以上と判定された音声データに対して音声認識処理を行なう一方で、他の音声データに対しては音声認識処理を行わない、
請求項1乃至4の何れか1項に記載の音声認識システム。 - 前記音声認識処理手段は、前記複数の音声データの音量が何れも閾値未満であると判定された場合に、前記複数の音声データそれぞれの音量の比較結果に基づいて、発話したユーザを推定する、
請求項1乃至5の何れか1項に記載の音声認識システム。 - 前記複数の収音機器を更に備え、
前記複数の収音機器は、首掛け型、又は、バッジ型の収音機器である、
請求項1乃至6の何れか1項に記載の音声認識システム。 - 前記複数のユーザが被写体となった画像に基づいて、前記ユーザを識別する識別手段を更に備え、
前記音声認識処理手段は、前記ユーザの識別結果に基づいて、前記ユーザそれぞれに対する音声認識処理の方法を異ならせる、
請求項1乃至7の何れか1項に記載の音声認識システム。 - 音声認識システムが行なう音声認識方法であって、
同一空間内にて複数のユーザが発話した音声の音声データを、前記複数のユーザそれぞれが装着した複数の収音機器から取得する取得ステップと、
前記取得した複数の音声データの音量が閾値未満であるか否かを判定する判定ステップと、
前記判定ステップにより、前記複数の音声データの音量が何れも閾値未満であると判定された場合に、前記複数の音声データを併用した所定の処理と共に、音声認識処理を行なう音声認識処理ステップと、
有する音声認識方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018217921A JP7095569B2 (ja) | 2018-11-21 | 2018-11-21 | 音声認識システム、及び音声認識方法 |
JP2022097190A JP7420166B2 (ja) | 2018-11-21 | 2022-06-16 | 音声認識システム、音声認識方法、及び音声処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018217921A JP7095569B2 (ja) | 2018-11-21 | 2018-11-21 | 音声認識システム、及び音声認識方法 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022097190A Division JP7420166B2 (ja) | 2018-11-21 | 2022-06-16 | 音声認識システム、音声認識方法、及び音声処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020086048A true JP2020086048A (ja) | 2020-06-04 |
JP7095569B2 JP7095569B2 (ja) | 2022-07-05 |
Family
ID=70907772
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018217921A Active JP7095569B2 (ja) | 2018-11-21 | 2018-11-21 | 音声認識システム、及び音声認識方法 |
JP2022097190A Active JP7420166B2 (ja) | 2018-11-21 | 2022-06-16 | 音声認識システム、音声認識方法、及び音声処理装置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022097190A Active JP7420166B2 (ja) | 2018-11-21 | 2022-06-16 | 音声認識システム、音声認識方法、及び音声処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (2) | JP7095569B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021256318A1 (ja) * | 2020-06-15 | 2021-12-23 | ソニーグループ株式会社 | 情報処理装置、情報処理方法及びコンピュータプログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0683388A (ja) * | 1992-09-04 | 1994-03-25 | Fujitsu Ten Ltd | 音声認識装置 |
JP2004309965A (ja) * | 2003-04-10 | 2004-11-04 | Advanced Media Inc | 会議録音・書き起こしシステム |
JP2005338571A (ja) * | 2004-05-28 | 2005-12-08 | Sanyo Electric Co Ltd | 音声認識装置および音声認識方法 |
JP2017167318A (ja) * | 2016-03-16 | 2017-09-21 | 株式会社アドバンスト・メディア | 議事録生成装置、及び議事録生成プログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4867804B2 (ja) * | 2007-06-12 | 2012-02-01 | ヤマハ株式会社 | 音声認識装置及び会議システム |
JP6721298B2 (ja) * | 2014-07-16 | 2020-07-15 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声情報制御方法及び端末装置 |
-
2018
- 2018-11-21 JP JP2018217921A patent/JP7095569B2/ja active Active
-
2022
- 2022-06-16 JP JP2022097190A patent/JP7420166B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0683388A (ja) * | 1992-09-04 | 1994-03-25 | Fujitsu Ten Ltd | 音声認識装置 |
JP2004309965A (ja) * | 2003-04-10 | 2004-11-04 | Advanced Media Inc | 会議録音・書き起こしシステム |
JP2005338571A (ja) * | 2004-05-28 | 2005-12-08 | Sanyo Electric Co Ltd | 音声認識装置および音声認識方法 |
JP2017167318A (ja) * | 2016-03-16 | 2017-09-21 | 株式会社アドバンスト・メディア | 議事録生成装置、及び議事録生成プログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021256318A1 (ja) * | 2020-06-15 | 2021-12-23 | ソニーグループ株式会社 | 情報処理装置、情報処理方法及びコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP7095569B2 (ja) | 2022-07-05 |
JP7420166B2 (ja) | 2024-01-23 |
JP2022120164A (ja) | 2022-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7525304B2 (ja) | 映像データを用いて容易化された音源強調 | |
JP6464449B2 (ja) | 音源分離装置、及び音源分離方法 | |
WO2019206186A1 (zh) | 唇语识别方法及其装置、增强现实设备以及存储介质 | |
JP5456832B2 (ja) | 入力された発話の関連性を判定するための装置および方法 | |
WO2017130486A1 (ja) | 情報処理装置、情報処理方法およびプログラム | |
KR20100062207A (ko) | 화상통화 중 애니메이션 효과 제공 방법 및 장치 | |
CN110096251B (zh) | 交互方法及装置 | |
JPWO2005109830A1 (ja) | 会話支援装置及び会話支援方法 | |
JP7420166B2 (ja) | 音声認識システム、音声認識方法、及び音声処理装置 | |
US20210065405A1 (en) | Identifying objects of interest in augmented reality | |
JP7204337B2 (ja) | 会議支援装置、会議支援システム、会議支援方法及びプログラム | |
US11700325B1 (en) | Telephone system for the hearing impaired | |
JP7400364B2 (ja) | 音声認識システム及び情報処理方法 | |
JP6730651B1 (ja) | 音声変換装置、音声変換システム及びプログラム | |
JP2010134507A (ja) | 再生装置 | |
JP2020086027A (ja) | 音声再生システムおよびプログラム | |
JP2009060220A (ja) | コミュニケーションシステム及びコミュニケーションプログラム | |
CN113448432B (zh) | 管理虚拟会议方法、头戴式显示器、计算机可读存储介质 | |
JP2021197658A (ja) | 収音装置、収音システム及び収音方法 | |
EP3288035B1 (en) | Personal audio analytics and behavior modification feedback | |
JP7293863B2 (ja) | 音声処理装置、音声処理方法およびプログラム | |
JP2020178150A (ja) | 音声処理装置及び音声処理方法 | |
JP2018063352A (ja) | フレーム選択装置、フレーム選択方法及びプログラム | |
JP2020025221A (ja) | コミュニケーション支援装置、コミュニケーション支援システム及び通信方法 | |
US20230083358A1 (en) | Earphone smartcase with audio processor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20190814 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210819 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20220203 |
|
TRDD | Decision of grant or rejection written | ||
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220517 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220524 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220606 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7095569 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |