JP2023046127A

JP2023046127A - 発話認識システム、通信システム、発話認識装置、移動体制御システム、発話認識方法及びプログラム

Info

Publication number: JP2023046127A
Application number: JP2021154862A
Authority: JP
Inventors: 悠斗後藤; Yuto Goto
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2021-09-22
Filing date: 2021-09-22
Publication date: 2023-04-03

Abstract

【課題】マルチモーダル認識を利用して一度の処理で特定の発話者の認識と特定の発話内容の認識とを実行する発話認識システム、通信システム、発話認識装置、移動体制御システム、発話認識方法及びプログラムを提供する。【解決手段】発話認識システムの発話認識装置において、処理部は、予め得られた口唇特徴量算出モデルを用いて口唇特徴量を算出する口唇特徴量算出部と、音声入力部で入力された音声波形から音声特徴量を抽出する音声特徴量算出部と、音声特徴量と口唇特徴量を結合しマルチモーダル特徴量を得る特徴量統合部と、予め得られたマルチモーダル認識モデルを用いてマルチモーダル認識を行うマルチモーダル認識部と、を備える。【選択図】図６

Description

本発明は、発話認識システム、通信システム、発話認識装置、移動体制御システム、発話認識方法及びプログラムに関する。

音響雑音の影響を抑制させるために、発声された音声信号に加えて発声時の口唇動画像を用いたマルチモーダル音声認識によって音声信号をテキストに変換する音声認識技術が存在する。このマルチモーダル音声認識において、取得した音声情報と画像情報を総合的に用いて、実際に発話がされている区間を特定するマルチモーダル音声区間検出技術が知られている（例えば、特許文献１参照）。

しかしながら、従来の技術では、マルチモーダル認識を利用した発話認識処理において、一度の処理で特定の発話者の認識と特定の発話内容の認識とを実行することができないという課題があった。

上述した課題を解決するために、請求項１に係る発明は、一以上の発話者による発話に伴う画像及び音声を集録する集録装置と、前記集録装置が送信した前記画像に係る画像情報及び前記音声に係る音声情報を受信して発話内容を認識する発話認識装置と、を含む発話認識システムであって、前記発話認識装置は、前記一以上の発話者が発話した際に変化する各々の口唇画像に基づいて得られた口唇特徴量と、前記一以上の発話者が発話した各々の音声に基づいて得られた音声特徴量と、を用いて並列にマルチモーダル認識処理を行うことにより、前記一以上の発話者から特定の発話者を認識するとともに前記特定の発話者が発話した特定の発話内容を認識する処理手段と、前記処理手段によって特定された前記特定の発話内容を表示装置に対して送信する送信手段と、を有する、ことを特徴とする発話認識システムを提供する。

以上説明したように本発明によれば、マルチモーダル認識を利用した発話認識処理において、一度の処理で特定の発話者の認識と特定の発話内容の認識とを実行することができるようになるという効果を奏する。

本実施形態の適用場面の一例を示す図である。通信システムの全体構成の一例を示す図である。集録装置のハードウエア構成の一例を示す図である。発話認識装置、表示装置及び発話内容管理サーバのハードウエア構成の一例を示す図である。通信システムの機能構成の一例を示す図である。マルチモーダル発話認識処理における前段結合時の機能構成の一例を示す図である。口形パターン管理テーブルの一例を示す概念図である。発話認識結果管理テーブルの一例を示す概念図である。第１の実施形態に係る全体処理の一例を示すシーケンス図である。第１の実施形態に係るマルチモーダル発話者認識システムの前段結合時の処理の一例を示す概要図である。発話認識結果を示す表示装置における画面表示例である。マルチモーダル発話認識処理における後段結合時の機能構成の一例を示す図である。第２の実施形態に係る全体処理の一例を示すシーケンス図である。第２の実施形態に係るマルチモーダル処理の一例を示す全体フローチャートである。第２の実施形態に係るマルチモーダル認識結果の出力処理を示すフローチャートである。第２の実施形態に係るマルチモーダル発話者認識システムの後段結合時の処理の一例を示す概要図である。移動体制御システムの全体構成の一例を示す図である。

以下、図面を用いて、発明を実施するための形態について説明する。なお、図面の説明において同一要素には同一符号を付し、重複する部分があればその説明を省略する。

〔第１の実施形態〕
図１乃至図１１を用いて、第１の実施形態について説明する。

〔システムの概略〕
＜適用場面例＞
図１は、本実施形態の適用場面の一例を示す図である。図１では、例えば、参加者Ａ，Ｂ，Ｃ，Ｄの４人が参加する所定の会議において、会議机の上に集録装置２及び情報処理装置の一例を示す発話認識装置３が置かれている状態を示している。ここで、集録装置２及び発話認識装置３は有線又は無線により互いに接続されている。さらに、発話認識装置３は、有線ケーブル等によって表示装置５と接続されている。表示装置５は、例えば、電子ホワイトボード(ＩＷＢ：Interactive White Board)を一例とする表示装置であり、所定の会議における発話内容、画像、議事録等を表示することが可能である。なお、発話認識装置３と表示装置５は、無線により接続されていてもよい。

〔通信システムの全体構成〕
＜システム構成例＞
図２は、通信システムの全体構成の一例を示す図である。図２に示されているように、通信システム１は、集録装置２、発話認識装置３、表示装置５及び発話内容管理サーバ６を含み、それぞれの装置及びサーバが通信ネットワーク１００を介して互いに接続されている。通信システム１は、集録装置２及び発話認識装置３で構成される発話認識システム４を含んでいる。

また、通信ネットワーク１００は、不特定多数の通信が行われる通信ネットワークであり、インターネット、イントラネット、ＬＡＮ(Local Area Network)等によって構築されている。なお、通信ネットワーク１００には、有線通信だけでなく、３Ｇ(3rd Generation)、４Ｇ(4th Generation)、５Ｇ(5th Generation)、ＷｉＭＡＸ(Worldwide Interoperability for Microwave Access)、ＬＴＥ(Long Term Evolution)等の無線通信による通信ネットワークが含まれてもよい。

上述した通信システム１を一例として、本実施形態のマルチモーダル認識を利用した発話認識処理が行われる。以下に、通信システム１を構成する各装置について説明する。

＜集録装置＞
集録装置２は、例えば、会議等の所定のイベントに参加する一以上の参加者の被写体や風景等を撮影するとともに、参加者が発話した発話音声を集音するマイクを備えた装置である。集録装置２は、一以上の参加者を同時に撮影するために、複数のカメラ(デジタルカメラ)を内蔵した装置である。さらに集録装置２は、複数のカメラを内蔵する代わりに、全天球画像(映像)を撮影可能な全天球(全方位)カメラ(全天球撮影装置ともいう)であってもよい。集録装置２は、通信ネットワーク１００を介して、発話認識装置３、表示装置５及び発話内容管理サーバ６と通信が可能であるが、第１の実施形態では発話認識装置３と有線接続され、撮影した画像に係る画像情報及び集音した音声に係る音声情報を、発話認識装置３に送信する。

＜発話認識装置＞
発話認識装置３は、一般的なＯＳなどが搭載された通信を行うためのコンピュータシステムによって実現される。発話認識装置３は、通信ネットワーク１００を介して、集録装置２、表示装置５及び発話内容管理サーバ６と通信が可能である。但し、第１の実施形態では、発話認識装置３は集録装置２と有線接続され、集録装置２で撮影された画像に係る画像情報及び集音された音声に係る音声情報を受信する。また、発話認識装置３には、例えば、表示装置５と通信するためのブラウザアプリがインストールされている。

なお、発話認識装置３は、一般的に使用されるＰＣ(Personal Computer)、携帯型ノートＰＣ、携帯電話、スマートフォン、タブレット端末、ウェアラブル端末（サングラス型、腕時計型等）の通信機能を有する通信端末であってもよい。発話認識装置３は、更に、ブラウザソフトウエア等のソフトウエアを動作させることが可能な通信装置又は通信端末が用いられてもよい。

＜表示装置＞
表示装置５は、例えば、発話認識装置３が送信した画像(映像)情報、テキスト情報等を表示することにって発話内容を可視化する装置であり、電子ホワイトボードなどの一般的な表示端末である。

＜発話内容管理サーバ＞
発話内容管理サーバ６は、一般的なサーバＯＳなどが搭載された情報処理装置（コンピュータシステム）によって実現される。発話内容管理サーバ６は、発話認識装置３によって認識されテキスト化された発話内容を、表示装置５に対して表示させる代わりに通信ネットワーク１００を介して受信し、受信したテキスト情報を所定の記憶領域に保存する。さらに発話内容管理サーバ６は、会議等の所定のイベント終了後に、受信したテキスト情報を処理して会議議事録として出力してもよい。なお、発話内容管理サーバ６は、発話認識装置３によって認識されテキスト化された発話内容が表示装置５で表示されていた場合でも、テキスト化された発話内容を並行して受信し、受信したテキスト情報を所定の記憶領域に保存するようにしてもよい。

なお、発話内容管理サーバ６は、一般的に使用されるＰＣ(Personal Computer)、携帯型ノートＰＣ、タブレット端末等の通信機能を有する通信端末であってもよい。この場合、発話内容管理サーバ６は、単一のコンピュータによって構築されてもよいし、ストレージ等の各部（機能又は手段）を分割して任意に割り当てられた複数のコンピュータによって構築されてもよい。また、発話内容管理サーバ６の機能の全てまたは一部は、クラウド環境に存在するサーバコンピュータであってもよいし、オンプレミス環境に存在するサーバコンピュータであってもよい。

〔ハードウエア構成〕
続いて、図３及び図４を用いて、第１の実施形態に係る通信システムを構成する装置又はサーバのハードウエア構成について説明する。なお、図３及び図４に示されている装置又はサーバのハードウエア構成は、必要に応じて構成要素(ハードウエア資源)が追加又は削除されてもよい。

＜集録装置のハードウエア構成＞
まず、図３用いて、集録装置のハードウエア構成を説明する。図３は、集録装置のハードウエア構成の一例を示す図である。図３に示されているように、集録装置２は、例えば、ＣＰＵ(Central Processing Unit)２０１、ＲＯＭ(Read Only Memory)２０２、ＲＡＭ(Random Access Memory)２０３、ＥＥＰＲＯＭ(Electrically Erasable and Programmable ROM)２０４、近距離通信Ｉ／Ｆ２０８、ＣＭＯＳセンサ２０９、撮像素子Ｉ／Ｆ２１０、ネットワークＩ／Ｆ２１１、タッチパネル２１２、メディアＩ／Ｆ２１５、外部機器接続Ｉ／Ｆ２１６、音入出力Ｉ／Ｆ２１７、マイク２１８、スピーカ２１９及びバスライン２２０を備えている。

これらのうち、ＣＰＵ２０１は、集録装置２の全体の動作を制御する。ＲＯＭ２０２は、ＣＰＵ２０１の処理に用いられるプログラムを記憶する。ＲＡＭ２０３は、ＣＰＵ２０１のワークエリアとして使用される。ＥＥＰＲＯＭ２０４は、ＣＰＵ２０１の制御にしたがって、アプリ等の各種データの読出し又は書込みを行う。近距離通信Ｉ／Ｆ２０８は、ＮＦＣ(Near Field Communication)、Ｂｌｕｅｔｏｏｔｈ（登録商標。以下、省略）、ミリ波無線通信、Ｗｉ－Ｆｉ（登録商標。以下、省略）、ＱＲコード（登録商標。以下、省略）、可視光、環境音又は超音波等の無線通信インターフェイスを備える通信装置又は通信端末等と近距離無線通信を行うための通信回路である。

ＣＭＯＳセンサ２０９は、ＣＰＵ２０１の制御にしたがって被写体を撮像して画像データ又は動画データを得る内蔵型の撮像手段の一種である。なお、撮像手段は、ＣＭＯＳセンサではなく、ＣＣＤ(Charge Coupled Device)センサ等で構成される撮像手段であってもよい。撮像素子Ｉ／Ｆ２１０は、ＣＭＯＳセンサ２０９の駆動を制御する回路である。

また、上述したように集録装置２は、複数のカメラ(デジタルカメラ)を内蔵した装置に代えて、全天球(全方位)カメラでもよい。この場合、ＣＭＯＳセンサ２０９及び撮像素子Ｉ／Ｆ２１０は、それぞれ二つずつ有するものであってよい。集録装置２が全天球(全方位)カメラの場合、撮像ユニットとして各々半球画像を結像するための１８０°以上の画角を有する二つの広角レンズ（いわゆる魚眼レンズ）と、各広角レンズに対応させて設けられている二つの撮像素子を備えている。各撮像素子は、二つの魚眼レンズによる光学像を電気信号の画像データに変換して出力するＣＭＯＳセンサ、ＣＣＤ(Charge Coupled Device)センサなどの画像センサ、画像センサの水平又は垂直同期信号、画素クロック等を生成するタイミング生成回路、撮像素子の動作に必要な種々のコマンド、パラメータ等が設定されるレジスタ群などを有している。

ネットワークＩ／Ｆ２１１は、通信ネットワーク１００を介して他の機器と各種データ(情報)通信するための通信インターフェイスである。タッチパネル２１２は、画像や文字、各種アイコン等を表示する液晶、有機ＥＬ(Electro Luminescence)等の表示手段及び操作手段の一種である。メディアＩ／Ｆ２１５は、フラッシュメモリ等の記録メディア２１４に対するデータの読出し又は書込み(記憶)を制御する。外部機器接続Ｉ／Ｆ２１６は、各種の外部機器を接続するためのインターフェイスである。この場合の外部機器は、例えば、ＵＳＢ(Universal Serial Bus)メモリ等である。音入出力Ｉ／Ｆ２１７は、ＣＰＵ２０１の制御にしたがってマイク２１８及びスピーカ２１９との間で音信号の入出力を処理する回路である。マイク２１８は、音を電気信号に変える内蔵型の回路であり、外部のスピーカ等から発する音声や音波を取得して電気信号を用いた情報を取得する。スピーカ２１９は、電気信号を物理振動に変えて音楽、音声等の音を生み出す内蔵型の回路である。バスライン２２０は、ＣＰＵ２０１等の各構成要素を電気的に接続するためのアドレスバス、データバス等である。

＜発話認識装置、表示装置、発話内容管理サーバのハードウエア構成＞
次に、図４用いて、発話認識装置、表示装置及び発話内容管理サーバのハードウエア構成を説明する。図４は、発話認識装置、表示装置及び発話内容管理サーバのハードウエア構成の一例を示す図である。図４に示されているように、発話認識装置３は、例えばコンピュータによって構築されている。発話認識装置３は、例えば、ＣＰＵ３０１、ＲＯＭ３０２、ＲＡＭ３０３、ＥＥＰＲＯＭ３０４、ＨＤ３０５、ＨＤＤコントローラ３０６、ディスプレイ３０７、近距離通信Ｉ／Ｆ３０８、ＣＭＯＳセンサ３０９、撮像素子Ｉ／Ｆ３１０、ネットワークＩ／Ｆ３１１、キーボード３１２、ポインティングデバイス３１３、メディアＩ／Ｆ３１５、外部機器接続Ｉ／Ｆ３１６、音入出力Ｉ／Ｆ３１７、マイク３１８、スピーカ３１９及びバスライン３２０を備えている。

これらのうち、ＣＰＵ３０１、ＲＯＭ３０２、ＲＡＭ３０３、ＥＥＰＲＯＭ３０４、近距離通信Ｉ／Ｆ３０８、ＣＭＯＳセンサ３０９、撮像素子Ｉ／Ｆ３１０、ネットワークＩ／Ｆ３１１、メディアＩ／Ｆ３１５、外部機器接続Ｉ／Ｆ３１６、音入出力Ｉ／Ｆ３１７、マイク３１８及びスピーカ３１９は、図２に示した集録装置２のＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０３、ＥＥＰＲＯＭ２０４、近距離通信Ｉ／Ｆ２０８、ＣＭＯＳセンサ２０９、撮像素子Ｉ／Ｆ２１０、ネットワークＩ／Ｆ２１１、メディアＩ／Ｆ２１５、外部機器接続Ｉ／Ｆ２１６、音入出力Ｉ／Ｆ２１７、マイク２１８及びスピーカ２１９の各構成要素と同様であるため、説明を省略する。

ＨＤ３０５は、プログラム等の各種データを記憶する。ＨＤＤコントローラ３０６は、ＣＰＵ３０１の制御にしたがってＨＤ３０５に対する各種データの読出し又は書込みを制御する。ディスプレイ３０７は、画像や文字、各種アイコン等を表示する液晶、有機ＥＬ(Electro Luminescence)等の表示手段の一種である。キーボード３１２は、文字、数値、各種指示等を入力するための複数のキーを備えた入力手段の一種である。ポインティングデバイス３１３は、各種指示の選択、実行、処理対象の選択、カーソルの移動等を行う入力手段の一種である。

また、図４に示されているように表示装置５は、例えばコンピュータによって構築されている。表示装置５は、例えば、ＣＰＵ５０１、ＲＯＭ５０２、ＲＡＭ５０３、ＥＥＰＲＯＭ５０４、ＨＤ５０５、ＨＤＤコントローラ５０６、表示手段の一例としてのディスプレイ５０７、近距離通信Ｉ／Ｆ５０８、ネットワークＩ／Ｆ５１１、ポインティングデバイス５１３、メディアＩ／Ｆ５１５、外部機器接続Ｉ／Ｆ５１６及びバスライン５２０を備えている。これらの各ハードウエア資源は、図４に示した発話認識装置３のＣＰＵ３０１、ＲＯＭ３０２、ＲＡＭ３０３、ＥＥＰＲＯＭ３０４、ＨＤ３０５、ＨＤＤコントローラ３０６、ディスプレイ３０７、近距離通信Ｉ／Ｆ３０８、ネットワークＩ／Ｆ３１１、ポインティングデバイス３１３、メディアＩ／Ｆ３１５及び外部機器接続Ｉ／Ｆ３１６の各構成要素と同様であるため、説明を省略する。

また、図４に示されているように発話内容管理サーバ６は、例えばコンピュータによって構築されている。発話内容管理サーバ６は、例えば、ＣＰＵ６０１、ＲＯＭ６０２、ＲＡＭ６０３、ＥＥＰＲＯＭ６０４、ＨＤ６０５、ＨＤＤコントローラ６０６、近距離通信Ｉ／Ｆ６０８、ネットワークＩ／Ｆ６１１、キーボード６１２、ポインティングデバイス６１３、メディアＩ／Ｆ６１５、外部機器接続Ｉ／Ｆ６１６及びバスライン６２０を備えている。これらの各ハードウエア資源は、図４に示した発話認識装置３のＣＰＵ３０１、ＲＯＭ３０２、ＲＡＭ３０３、ＥＥＰＲＯＭ３０４、ＨＤ３０５、ＨＤＤコントローラ３０６、近距離通信Ｉ／Ｆ３０８、ネットワークＩ／Ｆ３１１、キーボード３１２、ポインティングデバイス３１３、メディアＩ／Ｆ３１５及び外部機器接続Ｉ／Ｆ３１６の各構成要素と同様であるため、説明を省略する。

更に、上述したプログラムは、インストール可能な形式又は実行可能な形式のファイルで、コンピュータで読取り可能な記録媒体に記録、又はネットワークを介してダウンロードを行い流通させるようにしてもよい。記録媒体の例として、ＣＤ－Ｒ(Compact Disc Recordable)、ＤＶＤ(Digital Versatile Disk)、Ｂｌｕ-ｒａｙＤｉｓｃ、ＳＤカード、ＵＳＢメモリ等が挙げられる。また、記録媒体は、プログラム製品(Program Product)として、国内又は国外へ提供されることができる。例えば、発話認識装置３は、本発明に係るプログラムが実行されることで、本発明に係る発話認識方法を実現する。

〔通信システムの機能構成〕
次に、図５乃至図８を用いて、本実施形態の機能構成について説明する。図５は、通信システムの機能構成の一例を示す図である。

＜集録装置の機能構成＞
図５に示されているように、集録装置２は、送受信部２１、操作受付部２２、撮像部２３、音入出力部２４及び記憶読出部２９を有する。これら各機能部は、図３に示された各ハードウエア資源のいずれかが、ＲＯＭ２０２及びＥＥＰＲＯＭ２０４のうち少なくとも一つからＲＡＭ２０３に展開された集録装置２用のプログラムに従ったＣＰＵ２０１からの命令により動作することで実現される機能又は手段である。また、集録装置２は、図３に示されているＲＯＭ２０２及びＥＥＰＲＯＭ２０４のうち少なくとも一つにより構築される記憶部２０００を有している。記憶部２０００には、発話認識装置３と通信を行うための通信プログラム(通信アプリ)、表示装置５及び発話内容管理サーバ６と通信ネットワーク１００を介して通信を行うための通信プログラム(通信アプリ)等が記憶されている。

<<集録装置の各機能構成>>
次に、集録装置２の各機能構成について詳細に説明する。図５に示されている集録装置２の送受信部２１は、主に、ネットワークＩ／Ｆ２１１及び近距離通信Ｉ／Ｆ２０８に対するＣＰＵ２０１の処理によって実現される。送受信部２１は、例えば、有線ケーブルを介して発話認識装置３との間で撮影画像(映像)データ及び音(音声)データの送受信を行う。さらに送受信部２１は、通信ネットワーク１００を介して表示装置５及び発話内容管理サーバ６との間で各種データ(又は情報)の送受信を行うこともできる。本実施形態において、送受信部２１は、送信手段及び受信手段のうち少なくとも一方の手段の一例として機能する。

操作受付部２２は、主に、タッチパネル２１２に対するＣＰＵ２０１の処理によって実現され、集録装置２における各種入力、設定等の操作を受け付ける。また、操作受付部２２は、被写体の撮像、音声の集音を行う際の操作を受け付ける。本実施形態において操作受付部２２は、操作受付手段の一例として機能する。

撮像部２３は、主に、ＣＭＯＳセンサ２０９及び撮像素子Ｉ／Ｆ２１０に対するＣＰＵ２０１の処理によって実現され、会議室等の空間に存在する一以上の参加者を被写体として被写体の顔等を撮像して画像(映像)を取得する。本実施形態において、撮像部２３は、撮像手段の一例として機能する。

音入出力部２４は、主に、マイク２１８、スピーカ２１９及び音入出力Ｉ／Ｆ２１７に対するＣＰＵ２０１の処理によって実現され、会議室等の空間に存在する一以上の参加者が発話する発話音声、その空間で発生する周囲音などをマイク２１８により集音して音(音声)データに変換する処理を行う。音入出力部２４は更に、所定の音(音声)データを音(音声)信号に変換してスピーカ２１９から出力する処理を行う。本実施形態において、音入出力部２４は、音入出力手段の一例として機能する。

記憶読出部２９は、主に、ＲＯＭ２０２及びＥＥＰＲＯＭ２０４のうち少なくとも一つに対するＣＰＵ２０１の処理によって実現され、記憶部２０００に各種データ(又は情報)を記憶したり、記憶部２０００から各種データ(又は情報)を読み出したりする。本実施形態において、記憶読出部２９は、記憶読出手段の一例として機能する。

＜発話認識装置の機能構成＞
図５に示されているように、発話認識装置３は、送受信部５１、操作受付部３２、取得部３３、表示制御部３４、処理部３５及び記憶読出部３９を有する。これら各機能部は、図４に示された各ハードウエア資源のいずれかが、ＲＯＭ３０２、ＥＥＰＲＯＭ３０４及びＨＤ３０５のうち少なくとも一つからＲＡＭ３０３に展開された発話認識装置３用のプログラムに従ったＣＰＵ３０１からの命令により動作することで実現される機能又は手段である。また、発話認識装置３は、図４に示されているＲＯＭ３０２、ＥＥＰＲＯＭ３０４及びＨＤ３０５のうち少なくとも一つにより構築される記憶部３０００を有している。記憶部３０００には、集録装置２と通信を行うための通信プログラム(通信アプリ)、表示装置５及び発話内容管理サーバ６と通信ネットワーク１００を介して通信を行うための通信プログラム(通信アプリ)等が記憶されている。記憶部３０００には更に、マルチモーダル発話認識処理において用いられる口唇特徴量算出モデル、マルチモーダル認識モデル、口形認識モデル、音声認識モデル等が記憶されている。

<<発話認識装置の各機能構成>>
次に、発話認識装置３の各機能構成について詳細に説明する。図５に示されている発話認識装置３の送受信部３１は、主に、ネットワークＩ／Ｆ３１１及び近距離通信Ｉ／Ｆ３０８に対するＣＰＵ３０１の処理によって実現される。送受信部３１は、例えば、有線ケーブルを介して集録装置２との間で撮影画像(映像)データ及び音(音声)データの送受信を行う。さらに送受信部３１は、通信ネットワーク１００を介して表示装置５及び発話内容管理サーバ６との間で各種データ(又は情報)の送受信を行う。本実施形態において、送受信部３１は、送信手段及び受信手段のうち少なくとも一方の手段の一例として機能する。

操作受付部３２は、主に、キーボード３１２及びポインティングデバイス３１３に対するＣＰＵ３０１の処理によって実現され、発話認識装置３における各種入力、設定等の操作を受け付ける。本実施形態において操作受付部２２は、操作受付手段の一例として機能する。

取得部３３は、主に、ＣＰＵ３０１の処理によって実現され、例えば、集録装置２が送信した撮影画像(映像)データ及び音(音声)データを、送受信部３１を介して取得する。本実施形態において取得部３３は、取得手段の一例として機能する。

表示制御部３４は、主に、ディスプレイ３０７に対するＣＰＵ３０１の処理によって実現され、発話認識装置３における各種画面及び情報(データ)の表示制御を行う。本実施形態において、表示制御部３４は、表示制御手段の一例として機能する。

処理部３５は、主に、ＣＰＵ３０１の処理によって実現され、発話認識装置３におけるマルチモーダル発話認識処理に係る処理全般を司る。本実施形態において、処理部３５は、一以上の発話者が発話した際に変化する各々の口唇画像に基づいて得られた口唇特徴量と、一以上の発話者が発話した各々の音声に基づいて得られた音声特徴量と、を用いて並列にマルチモーダル認識処理を行う。これにより、処理部３５は、一以上の発話者から特定の発話者を認識するとともに特定の発話者が発話した特定の発話内容を認識する。なお、本実施形態において処理部３５は、処理手段の一例として機能する。

＜マルチモーダル発話認識(前段結合)の機能構成＞
図６は、マルチモーダル発話認識処理における前段結合時の機能構成の一例を示す図である。なお、前段結合とは、以降に説明する口唇特徴量及び音声特徴量の段階で結合する手法であり、Early Fusionともいう。上述した処理部３５は、図６に示したような詳細な機能構成を有する。具体的には、処理部３５は、画像入力部３５１、画像変換部３５２、顔領域認識部３５３、口唇領域抽出部３５４、口唇画素数変換部３５５、口唇特徴量算出部３５７、口形認識部３５８を有する。また、口唇特徴量算出部３５７及び口形認識部３５８は、機械読唇事前学習部３５９を構成する。上述した機能構成は、集録装置２によって集録された画像(映像)データの処理に係る機能構成である。

処理部３５は更に、音声入力部３７１、音声特徴量算出部３７３、特徴量統合部３７４、第１マルチモーダル認識部３７５及び発話内容認識結果出力部３７６を有する。また、第１マルチモーダル認識部３７５は、予め得られたマルチモーダル認識モデル３７２を用いてマルチモーダル認識を行い、認識結果を発話内容認識結果出力部３７６に出力する。具体的には、第１マルチモーダル認識部３７５は、口唇特徴量と音声特徴量とを結合したマルチモーダル特徴量を入力してひらがなの系列を出力する。上述した機能構成は、集録装置２によって集録された音(音声)データの処理に係る機能構成である。

<<マルチモーダル発話認識(前段結合)の機能の詳細>>
次に、処理部３５を構成する各詳細機能について説明する。まず、画像入力部３５１は、上述した取得部３３によって取得された撮影画像(映像)データを入力する。

画像変換部３５２は、画像入力部３５１で入力された画像(映像)データが例えば、1920×1080pixel、30fpsの条件(パラメータ及び仕様)を有していたとすると、この条件で取得された画像(映像)データをフレーム画像シーケンスとして変換する。また、画像変換部３５２は、処理の高速化のためにRGB画像のグレースケールへの変換、及び画素数の変換等を行う。

顔領域認識部３５３は、取得した映像から会議等の所定のイベントに参加した参加者から取得した連続したフレーム画像に対して複数の参加者の顔の領域を認識する。

口唇領域抽出部３５４は、顔領域認識部３５３によって認識された顔の領域から口などの顔のパーツの詳細な座標を抽出する。なお、口唇領域抽出部３５４は、予め大量のデータをニューラルネットワークなどで学習させたモデルを利用してもよい。口唇領域抽出部３５４は更に、機械学習の機能を有するDlibなどの既存の技術を利用してもよい。

口唇画素数変換部３５５は、口唇画素数を所定の画像サイズに変換する。口唇領域抽出部３５４によって抽出された口唇領域は、集録装置２と会議等への参加者との距離によって大きさが異なる。そのため、口唇画素数変換部３５５は、口形認識モデル３６１で学習させた際の画像サイズに変換させるものであり、例えば、150×150pixelのような一律のサイズに拡大、または縮小する。これは口形認識モデル３６１を学習させた際の画像サイズにするものである。

口唇特徴量算出部３５７は、予め得られた口唇特徴量算出モデル３５６を用いて口唇特徴量を算出し、算出結果を口形認識部３５８及び後述する特徴量統合部３７４にそれぞれ出力する。なお、算出された口唇特徴量は、一以上の発話者のうちの特定の発話者の口形パターンを正解として学習させた口唇特徴量算出モデルから抽出された特徴量を表す。

口形認識部３５８は、口唇特徴量算出部３５７で算出された口唇特徴量を口形パターンの系列として認識する。なお、口形認識部３５８は、口形パターンの系列を正解ラベルとして、口唇特徴量算出部３５７と口形認識部３５８を事前学習するときだけに用いられる。本実施形態では、日本語をひらがなに変換し、それに応じた口形パターンに変換する。ひらがなと口形パターンの対応は、図７にて説明する。なお、口形とは参加者の口の形(唇の形でもよい)を意味するものであり、本実施形態では、単に「口形」と記載する。

上述した内容に基づいて、機械読唇事前学習部３５９は、口形パターンの系列を正解ラベルとして、口唇特徴量算出部３５７と口形認識部３５８を事前学習する。但し、口形認識部３５８は、事前学習する際に用いられるが、発話認識するときは除かれる。なお、口形パターンで事前学習したことにより、口唇特徴量の学習効率が向上することが期待できる。

音声入力部３７１は、上述した取得部３３によって取得された音(音声)データを入力する。本実施形態では、例えば、入力の際の条件を16kHz、16bitでサンプリングしたモノラルの非圧縮データとする。

音声特徴量算出部３７３は、音声入力部３７１で入力された音声波形から、例えば、25ms幅/11msシフトのハミング窓を用いて対数メルフィルタバンク特徴量を抽出する。

特徴量統合部３７４は、音声特徴量算出部３７３で抽出された音声特徴量と上述で学習された口唇特徴量算出モデルとを用いて、算出された口唇特徴量を結合し、マルチモーダル特徴量を得る。つまり、特徴量統合部３７４は、口唇特徴量と音声特徴量とを結合させることによって、特定の発話者及び特定の発話内容を認識する。特徴量統合部３７４は更に、口唇特徴量から所定の発話者の口形パターン系列を認識することで得られた口形パターン系列認識結果と、音声認識結果と、を結合することにより特定の発話内容を認識する。特徴量統合部３７４は更に、一以上の発話者が発話した発話内容のうち、一の発話を示す口唇画像シーケンスの１フレームレートあたりの口唇特徴量及び音声特徴量の比に応じて時間的な整合を取ることにより、マルチモーダル認識処理に係るマルチモーダル特徴量を得る。その事前学習済みのパラメータを用いて、既に学習されている口唇特徴量算出部３５７の出力である口唇特徴量を用いてマルチモーダル特徴量にする。その後、第１マルチモーダル認識部３７５でひらがなの正解ラベルを学習させる。

第１マルチモーダル認識部３７５は、口唇特徴量算出部３５７を含めてFine-Tuningすることにより、マルチモーダル認識モデル３７２を学習する。

発話内容認識結果出力部３７６は、マルチモーダル認識された発話内容を外部に出力する。

図５に戻り、記憶読出部３９は、主に、ＲＯＭ３０２、ＥＥＰＲＯＭ３０４及びＨＤ３０５のうち少なくとも一つに対するＣＰＵ３０１の処理によって実現され、記憶部３０００に各種データ(又は情報)を記憶したり、記憶部３０００から各種データ(又は情報)を読み出したりする。本実施形態において、記憶読出部３９は、記憶読出手段の一例として機能する。

●口形パターン管理テーブル●
図７は、口形パターン管理テーブルの一例を示す概念図である。記憶部３０００には、図７に示されているような口形パターン管理テーブルによって構成された口形パターン管理ＤＢ３００１が構築されている。口形パターン管理テーブルでは、口形パターンごとに対応するひらがながそれぞれ管理されている。これらのうち、口形パターンには、「-A」、「IA」、「UA」、「XA」、「-I」等が与えられる。この口形パターンは、参加者の口の形(口形)を、動かしはじめの初期口形、及び動かし終わりの終期口形の二つの状態で表現したものである。例えば、「-」は初期口形が無いことを表す。また「X」は閉唇口形を表す初期口形である。促音および撥音は口形として定義できないため、初期口形無し、且つ終期口形も無いものとし、「-*」と表現する。

例として、音声資源コンソーシアム(http://research.nii.ac.jp/src/ATR503.html)で公開されているATR音素バランス503文のサンプル「あらゆる現実をすべて自分のほうへねじ曲げたのだ。」を正解ラベルとすると、
「-A, IA, -U, -U, -E, -*, -I, -U, -O, -U, XE, IE, -I, -U, -*, UO, -O, -U, -E, IE, -I, XA, -E, IA, UO, IA」
となる。このとき、助詞「へ」は「え」に変換され、句点も除去される。これは口形認識部３５８の口形認識モデル３６１を学習させる際の正解ラベルとして用いるため、以下の非特許文献を参考に、口形認識結果もこの口形パターンの系列としている。
・非特許文献：宮崎剛;中島豊四郎.日本語発話時の特徴的口形のコード化と口形変化情報表示方法の提案.電気学会論文誌 C (電子・情報・システム部門誌), 2009, 129.12: 2108-2114.
上述した口形パターン管理テーブルを用いた事前学習は、例えば、システムの開発時に行われるが、利用者の環境でデータを集め、そのデータを用いて事前学習させてもよい。具体的には、通信システム１において集録装置２と発話認識装置３を用いてデータを集め、そのデータを用いて(日本語に関して)学習させるようにしてもよい。更に、口形パターン管理テーブルの対応表の内容を適宜変更すれば、外国語にも適用可能である。

なお、口形パターン管理ＤＢ３００１は、一般的に知られているレーベンシュタイン距離を算出するときの対応として用いられる。さらに、口形パターン管理ＤＢ３００１は、後述する第２の実施形態における発話認識処理の後段結合の場合にも用いられるＤＢである。

●発話認識結果管理テーブル●
図８は、発話認識結果管理テーブルの一例を示す概念図である。記憶部３０００には、図８に示されているような発話認識結果管理テーブルによって構成された発話認識結果管理ＤＢ３００２が構築されている。発話認識結果理テーブルでは、一つの音ごとにNo.(1),(2)・・・が与えられる(図８では、○数字で記載された部分。以下、No.の具体例を()内に数字の形式で記載する)。このNo.ごとに、正解、口形、口形認識結果、音声認識結果、操作及び補正結果がそれぞれ対応付けられて発話認識結果として記憶、管理される。

これらのうち、正解は、音声認識の正解ラベルを表し、実際に参加者によって発話された参加者ごとの発話音声に対して発話認識処理を行い、正解ラベルとして登録される。図７に示した例では、例えば、音声資源コンソーシアム：
http://research.nii.ac.jp/src/ATR503.htmlで公開されているATR音素バランス503文のサンプル「両手の指は変形し、関節の辺りが、こぶ状に盛り上がっていた」を認識させた際の上述の一文をひらがな化したものが示されている。

口形認識結果は、例えば、上述した「両手の指は変形し、関節の辺りが、こぶ状に盛り上がっていた」を一の発話を示す口唇画像シーケンスとした動画像で認識された口形の認識結果を表す。

音声認識結果は、参加者が発話した音声を認識した認識結果を表す。

操作は、一般的に用いられているレーベンシュタイン距離の算出時の操作を示したものであり、口形認識結果の口形パターンに対して音声認識結果のひらがなが誤って「挿入」されている場合には「INS」、削除されている場合には「DEL」、置換されている場合には「SUB」、正しい場合には「OK」がそれぞれ与えられる。

補正結果は、後述する発話認識処理の後段結合で動作する発話内容認識結果補正部３８２で補正された音声認識結果が与えられる。本実施形態では、高ノイズ環境下での認識を想定し、音声認識精度への信頼性が下がるため口形認識結果が正しいものであると考え、口形認識結果を用いて音声認識結果を補正する。

No.(1),(2),(39),(40),(41),(42),(43),(44),(45)の音声認識結果の発話の前後には、実際の発話者(特定の参加者)以外の周辺の参加者の話し声、ノイズ音等の影響で、実際の発話者の発話には関係のない文字が音声認識によって出力されている。この場合は実際の発話者の口形は存在しないため、実際の発話者による発話には関係無いものとして音声認識結果は出力されない。つまり、「口形認識結果がない(****)、且つ操作が「INS」」のときに音声認識結果の文字が削除される。また、(16),(21)の場合のように、参加者の発話中に口形は出力されているが、音声認識の出力がない場合は削除される。このような補正により、音声認識への悪影響としての周囲のノイズ音による挿入誤りを、口形認識結果によって補正することができ、更に、実際の発話者による発話区間を検出することもできる。この後、発話認識装置３は、IMEの技術等を用いて漢字を含む文章とすることも可能である。本実施形態では、この発話認識結果管理テーブルを会議等のイベントに参加した参加者の人数分作成して、実際の発話者及び発話区間を特定する。

なお、発話認識結果管理ＤＢ３００２は、後述する第２の実施形態における発話認識処理の後段結合の場合に用いられるＤＢである。

＜表示装置の機能構成＞
図５に示されているように、表示装置５は、送受信部５１、操作受付部５２、表示制御部５４、生成部５７及び記憶読出部５９を有する。これら各機能部は、図４に示された各ハードウエア資源のいずれかが、ＲＯＭ５０２、ＥＥＰＲＯＭ５０４及びＨＤ５０５のうち少なくとも一つからＲＡＭ５０３に展開された表示装置５用のプログラムに従ったＣＰＵ５０１からの命令により動作することで実現される機能又は手段である。また、表示装置５は、図４に示されているＲＯＭ５０２、ＥＥＰＲＯＭ５０４及びＨＤ５０５のうち少なくとも一つにより構築される記憶部５０００を有している。記憶部５０００には、集録装置２、発話認識装置３及び発話内容管理サーバ６と通信ネットワーク１００を介して通信を行うための通信プログラム(通信アプリ)等が記憶されている。

<<表示装置の各機能構成>>
次に、表示装置５の各機能構成について詳細に説明する。図５に示されている表示装置５の送受信部５１は、主に、ネットワークＩ／Ｆ５１１及び近距離通信Ｉ／Ｆ５０８に対するＣＰＵ５０１の処理によって実現される。送受信部５１は、例えば、通信ネットワーク１００を介して集録装置２、発話認識装置３及び発話内容管理サーバ６との間で各種データ(又は情報)の送受信を行うこともできる。本実施形態において、送受信部５１は、送信手段及び受信手段のうち少なくとも一方の手段の一例として機能する。

操作受付部５２は、主に、キーボード３１２及びポインティングデバイス３１３に対するＣＰＵ５０１の処理によって実現され、表示装置５における各種入力、設定等の操作を受け付ける。本実施形態において操作受付部５２は、操作受付手段の一例として機能する。

表示制御部５４は、主に、ディスプレイ５０７に対するＣＰＵ５０１の処理によって実現され、表示装置５における各種画面及び情報(データ)の表示制御を行う。また、表示制御部５４は、例えば、ブラウザを用いて、ＨＴＭＬ等により作成された表示画面を、表示装置５に表示させる。また、表示制御部５４は、特定の発話内容、並びに、特定の発話内容及び特定の発話者の顔画像を組み合わせた組合せ内容の少なくとも一方をディスプレイ５０７に表示する。本実施形態において、表示制御部５４は、表示制御手段の一例として機能する。

生成部５７は、主に、ＣＰＵ５０１の処理によって実現され、発話認識装置３が送信した発話認識結果としてのテキスト及び各参加者の顔画像をディスプレイ５０７に表示させるための画面データを生成する。この場合、表示装置５は集録装置２と通信を行うことにより、会議等の所定のイベントに参加している参加者全員の顔画像(映像)を、例えば、参加者識別情報と対応付けて記憶部５０００の所定領域に記憶しておいてもよい。そのうえで、生成部５７は、発話認識装置３が送信した発話認識結果としてのテキスト情報とテキスト情報に対応した参加者識別情報に基づいて、記憶部５０００に管理されている参加者の顔画像(映像)を読み出し、ディスプレイ５０７に表示させるための画面データを生成するようにしてもよい。本実施形態では、生成部５７は、生成手段の一例として機能する。

記憶読出部５９は、主に、ＲＯＭ３０２、ＥＥＰＲＯＭ３０４及びＨＤ３０５のうち少なくとも一つに対するＣＰＵ３０１の処理によって実現され、記憶部３０００に各種データ(又は情報)を記憶したり、記憶部３０００から各種データ(又は情報)を読み出したりする。本実施形態において、記憶読出部３９は、記憶読出手段の一例として機能する。

＜発話内容管理サーバの機能構成＞
図５に示されているように、発話内容管理サーバ６は、送受信部６１、取得部６３、生成部６７及び記憶読出部６９を有する。これら各機能部は、図４に示された各ハードウエア資源のいずれかが、ＲＯＭ６０２、ＥＥＰＲＯＭ６５０４及びＨＤ６０５のうち少なくとも一つからＲＡＭ６０３に展開された発話内容管理サーバ６用のプログラムに従ったＣＰＵ６０１からの命令により動作することで実現される機能又は手段である。また、発話内容管理サーバ６は、図４に示されているＲＯＭ６０２、ＥＥＰＲＯＭ６５０４及びＨＤ６０５のうち少なくとも一つにより構築される記憶部６０００を有している。記憶部６０００には、集録装置２、発話認識装置３及び表示装置５と通信ネットワーク１００を介して通信を行うための通信プログラム(通信アプリ)等が記憶されている。

<<発話内容管理サーバの各機能構成>>
次に、発話内容管理サーバ６の各機能構成について詳細に説明する。図５に示されている発話内容管理サーバ６の送受信部６１は、主に、ネットワークＩ／Ｆ６１１及び近距離通信Ｉ／Ｆ６０８に対するＣＰＵ６０１の処理によって実現される。送受信部６１は、例えば、通信ネットワーク１００を介して集録装置２、発話認識装置３及び表示装置５との間で各種データ(又は情報)の送受信を行うこともできる。本実施形態において、送受信部６１は、送信手段及び受信手段のうち少なくとも一方の手段の一例として機能する。

取得部６３は、主に、ＣＰＵ６０１の処理によって実現され、例えば、発話認識装置３が送信した撮影画像(映像)データ及び音(音声)データを、送受信部６１を介して取得する。本実施形態において取得部６３は、取得手段の一例として機能する。

生成部５７は、主に、ＣＰＵ５０１の処理によって実現される。生成部５７は、発話認識装置３が送信した発話認識結果としてのテキスト情報に基づいて、例えば、会議等の所定のイベントの議事録を生成する。本実施形態において生成部５７は、生成手段の一例として機能する。なお、本実施形態に係る通信システムにおいて生成部６７は、表示装置５が有する生成部５７の機能に代えて、上述した画面データを生成してもよい。または、表示装置５と発話内容管理サーバ６とを通信ネットワーク１００を介して互いに通信可能な他の装置が生成部５７又は生成部６７に相当する機能を有するような構成であってもよい。

記憶読出部７９は、主に、ＲＯＭ７０２、ＥＥＰＲＯＭ７０４及びＨＤ７０５のうち少なくとも一つに対するＣＰＵ７０１の処理によって実現され、記憶部７０００に各種データ(又は情報)を記憶したり、記憶部７０００から各種データ(又は情報)を読み出したりする。本実施形態において、記憶読出部７９は、記憶読出手段の一例として機能する。

〔実施形態の処理又は動作〕
次に、図９乃至図１１を用いて、第１の実施形態の処理又は動作について説明する。図９は、第１の実施形態に係る全体処理の一例を示すシーケンス図である。まず、発話認識装置３の処理部３５が有する機械読唇事前学習部３５９は、口唇特徴量算出モデル３５６を事前学習する（ステップＳ１）。より詳細には、口唇特徴量算出部３５７は、口唇特徴量算出モデル３５６を事前学習する。また、処理部３５は、口形パターン管理ＤＢ３００１（図７参照）を用いて機械読唇事前学習を行う。

次に、集録装置２の撮像部２３は、会議等の所定のイベントに参加している各参加者の顔の画像(映像)を撮像する。さらに、音入出力部２４は、各参加者が発話する音声及び周辺の音を集音する（ステップＳ１１）。なお、撮像部２３による各参加者の顔の画像(映像)の撮像は、全天球カメラのように略同時に撮像されてもよいし、複数のカメラでそれぞれの参加者の顔の画像(映像)を撮像するようにしてもよい。

続いて、送受信部２１は、ステップＳ１１で撮像した画像に係る画像情報及び集音した音声に係る音声情報、並びに各参加者の参加者識別情報を発話認識装置３に対して送信する（ステップＳ１２）。これにより、発話認識装置３の送受信部３１は、集録装置２が送信した画像情報及び音声情報、並びに各参加者の参加者識別情報を受信する。

次に、発話認識装置３の処理部３５は、発話認識処理を実行する（ステップＳ１３）。発話認識処理を実行する際に、処理部３５は、マルチモーダル認識モデル３７２を学習する。具体的には、第１マルチモーダル認識部３７５は、口唇特徴量算出部３５７を含めてFine-Tuningすることにより、マルチモーダル認識モデル３７２を学習する。そして、記憶読出部３９は、発話認識処理を実行した結果を発話認識結果管理ＤＢ３００２（図８参照）に登録して管理する。

次に、送受信部３１は、発話認識結果を表示装置５に対して送信する（ステップＳ１４）。これにより、表示装置５の送受信部５１は、発話認識装置３が送信した発話認識結果を受信する。このとき、発話認識結果には、参加者識別情報及び発話認識されたテキスト情報が含まれる。

続いて、表示装置５の生成部５７は、ステップＳ１４で受信した参加者識別情報及びテキスト情報に基づいて図１６に示すような表示画面を生成し、表示制御部５４は、生成された表示画面をディスプレイ５０７に発話認識結果を表示する（ステップＳ１５）。このときに生成される表示画面は、例えば、上述した生成部５７の説明で記載した方法によって実現されるものでよい。

本実施形態に係る通信システムでは、例えば、上述したステップＳ１４の処理が実行される場合、発話認識装置３と表示装置５との間に他の装置等が存在してもよい。つまり、発話認識装置３と表示装置５との間で送受信される各情報(データ)は、一度他の装置を介して送受信されるような構成であってもよい。上述した構成は、発話認識装置３と表示装置５との間に他の処理ステップが存在しても適用可能である。更に、ステップＳ１４において発話認識装置３から送信される発話認識結果を、表示装置５に代えて発話内容管理サーバ６に対して送信するようにしてもよい。その場合は、ステップＳ１５で表示される発話認識結果は、発話内容管理サーバ６から表示装置５に対して送信される発話認識結果の内容に基づく。

＜マルチモーダル発話者認識(前段結合)の処理概要＞
次に、マルチモーダル発話者認識(前段結合)の処理の概要について説明する。図１０は、第１の実施形態に係るマルチモーダル発話者認識システムの前段結合時の処理の一例を示す概要図である。まず、口唇特徴量算出部３５７は、一の発話を示す口唇画像シーケンス(動画像)を入力して口唇特徴量を取得する。このとき、口唇特徴量算出部３５７は、口形パターンの系列を正解ラベルとして口形認識部３５８で認識できるように、口唇特徴量算出モデル３５６を事前学習する。

また、音声特徴量算出部３７３は、音声入力部３７１で入力された音声波形を入力する。続いて、音声特徴量算出部３７３は、入力した音声波形に基づいて、25ms幅/11msシフトのハミング窓を用いて対数メルフィルタバンク特徴量として音声特徴量を得る。

続いて、特徴量統合部３７４は、口唇特徴量算出部３５７で事前学習した結果抽出された口唇特徴量と、音声特徴量算出部３７３によって得られた音声特徴量とを結合させて、マルチモーダル特徴量を得る。この場合、例えば、口唇画像シーケンスのフレームレートを30fps（≒33．3ms）とすると、入力した音声波形のフレームレートは25ms幅/11msであるから、音声特徴量の３フレームと結合することで、時間的な整合を取ることができる。これにより、例えば１フレームあたりの口唇特徴量を384次元とし、音声特徴量を40次元とすると、１フレームあたりのマルチモーダル特徴量は、384＋(40×3)＝504次元となる。図１０では、「●●●・・・●●●」一つが384次元の口唇特徴量を表し、「○○」一つが40次元の音声特徴量を表している。したがって、『「●●●・・・●●●」「○○」「○○」「○○」』一つで、１フレームあたり504次元を有するマルチモーダル特徴量が表される。

次に、第１マルチモーダル認識部３７５は、特徴量統合部３７４で得られたマルチモーダル特徴量を入力し、ひらがなの系列を正解ラベルとして口唇特徴量算出部３５７とマルチモーダル認識モデル３７２を学習(fine-tuning)する。

機械読唇において、ひらがなの系列を正解ラベルとすると、同口形異音によって同じ入力でも違う正解が与えられる。このため、口唇特徴量抽出のためのパラメータの学習が困難となる。但し、口形パターンの系列を正解ラベルとするとこの問題が解消されるため、効果的な特徴量抽出を口唇特量算出部で行うことが期待できる。そして、最終的な認識結果である日本語のひらがなとして、マルチモーダル認識をさせる。これにより、本実施形態では、口唇特徴量の抽出も含めたEnd-to-End構成でひらがなの系列を学習させるよりも、高精度で認識できるマルチモーダル認識モデルを学習することができる。この後、IMEの技術等を用いて漢字を含む文章とすることも可能である。なお、ここまでは日本語を前提に説明したが、本実施形態では、口形パターンが定義されている外国語にも適用可能である。

●画面表示例●
次に、表示装置５で表示される画面について説明する。図１１は、発話認識結果を示す表示装置における画面表示例である。図１１に示したように、表示装置５のディスプレイ５０７には、表示制御部５４によって、発話認識結果画面５１０１が表示される。発話認識結果画面５１０１では、所定の会議に参加している参加者Ａ、Ｂ，Ｃ，Ｄが発話した発話内容と発話者の顔の画像(映像)が対応付けられて表示される。この場合、時間の経過にしたがって表示内容がスクロールされるようにしてもよい。このような発話認識結果画面５１０１が表示されることで、各参加者は、どの発言を誰がしたかを会議等のイベント中にリアルタイムで視認することが可能になる。さらに、各参加者は、発話認識結果画面５１０１に表示された発話内容を簡易的な議事録として捉えることで、会議の理解、進行の効率化を図ることも可能になる。

〔第１の実施形態の主な効果〕
以上説明したように本実施形態によれば、発話認識装置３は、一以上の発話者が発話した各々の発話音声に基づいて得られた口唇特徴量と音声特徴量とを用いて並列にマルチモーダル認識処理を行うことにより、一以上の発話者から特定の発話者を認識するとともに特定の発話者が発話した特定の発話内容を認識する。これにより、マルチモーダル認識を利用した発話認識処理において、一度の処理で特定の発話者の認識と特定の発話内容の認識とを行うことができるようになるという効果を奏する。

更に、本実施形態によれば、発話区間を検出する発話区間検出機能を別途用意する必要がないため、システムの煩雑さを解消させることが可能になるという効果も期待できる。

更に、本実施形態によれば、機械読唇に関する事前学習結果を用いてマルチモーダル認識を実行するので、マルチモーダル認識処理の効率化を図ることも可能になるという効果も期待できる。

〔第２の実施形態〕
次に、図１１乃至図１６を用いて、第２の実施形態について説明する。第２の実施形態では、第１の実施形態に係るマルチモーダル発話認識処理において、処理部３５内の前段結合に代えて後段結合した場合について説明する。なお、第２の実施形態を実現するシステム構成、ハードウエア構成及び機能構成の基本部分は第１の実施形態と同様であるため、それらの説明を省略する。以下、発話認識装置３の処理部３５のマルチモーダル発話認識処理に係る後段結合時の詳細について説明する。なお、後段結合とは、上述した口形認識結果と音声認識結果とを結合する手法であり、Late Fusionともいう。

＜マルチモーダル発話認識(後段結合)の機能構成＞
図１２は、マルチモーダル発話認識処理における後段結合時の機能構成の一例を示す図である。なお、図１２に示した各機能構成において、図６に示した機能構成と同一の機能については説明を省略する。第１の実施形態と機能構成及び処理順序を同一にする箇所は、画像入力部３５１から口唇画素数変換部３５５まで、並びに、音声入力部３７１及び音声特徴量算出部３７３であるので、それらの説明を省略する。

マルチモーダル発話認識処理の後段結合時では、処理部３５は、口形認識部３５８、口形認識モデル３６１、音声認識モデル３７７、音声認識部３７９、発話区間推定部３８１及び発話内容認識結果補正部３８２の各機能が、第１の実施形態で説明した機能と異なる、若しくは追加された機能として有する。なお、発話区間推定部３８１及び発話内容認識結果補正部３８２は、第２マルチモーダル認識部３８３を構成する。

<<マルチモーダル発話認識(後段結合)の機能の詳細>>
次に、処理部３５を構成する各詳細機能のうち、第２の実施形態特有の機能を含めた機能について説明する。

口唇特徴量算出部３５７は、画像サイズが変更された連続の口唇画像シーケンスに対して、後述する口形認識部３５８で発話内容を認識しやすいように口唇特徴量を算出する。このとき、予め得られた口唇特徴量算出モデル３５６を学習する。

口形認識部３５８は、口唇特徴量算出部３５７で算出された口唇特徴量を口形パターンの系列として認識し、認識した結果を第２マルチモーダル認識部３８３に出力する。

本実施形態において発話認識装置３は、日本語をひらがなに変換し、ひらがなに応じた口形パターンに変換する。なお、ひらがなと口形パターンの対応については、上述した口形パターン管理ＤＢ３００１（図７参照）を用いる。発話認識装置３は、変換した口形パターンを正解ラベルとして口形認識モデル３６１を学習し、口形認識モデル３６１を用いて発話内容の認識を行うものとする。なお、本実施形態では口唇特徴量算出部３５７と口形認識部３５８は口唇特徴量の抽出(畳み込みパラメータの最適化)から認識までを一つのニューラルネットワークで実現するEnd-to-Endの構成を想定しているが、これらを分けて構成してもよい。

音声特徴量算出部３７３は、音声入力部３７１で入力された音声波形から、例えば、25ms幅/11msシフトのハミング窓を用いて対数メルフィルタバンク特徴量を抽出する。この特徴量のシーケンスに対して、音声認識部３７９で使用する音声認識モデル３７７を学習する。この際の正解ラベルは口形認識部のものではなく、ひらがなのものを利用する。

口形認識部３５８及び音声認識部３７９は、それぞれの認識結果である口形認識結果及び音声認識結果を、発話区間推定部３８１に出力する。

発話区間推定部３８１は、口形認識部３５８から入力した口唇画像シーケンスの区間、及び音声認識部３７９から入力した音声に基づいて、特定の発話者が発話した特定の発話内容を、特定の発話者が実際に発話した発話区間を抽出することによって認識する。

発話内容認識結果補正部３８２は、発話区間推定部３８１で誤って出力された音声認識結果を補正する。これら発話区間推定部３８１と発話内容認識結果補正部３８２とをまとめて第２マルチモーダル認識部３８３とし、画像の特徴と音声の特徴の双方を考慮した認識を行う。

発話内容認識結果出力部３７６は、第２マルチモーダル認識部３８３から出力された認識結果を最終的な発話内容の認識結果として表示装置５に送信する、又は発話内容管理サーバ６に認識結果を送信することで、認識結果を視覚的に表示又はテキストファイルとして保存する。

次に、第２の実施形態の処理又は動作について説明する。図１３は、第２の実施形態に係る全体処理の一例を示すシーケンス図である。ここで、ステップＳ２１及びステップＳ２２の各処理は、図９に示したステップＳ１１及びステップＳ１２と同様のため説明を省略する。

次に、発話認識装置３の処理部３５は、口形認識モデル及び音声認識モデルを用いて発話認識処理を実行する（ステップＳ２３）。

＜発話認識処理の詳細処理＞
次に、発話認識処理の詳細処理について説明する。図１４は、第２の実施形態に係るマルチモーダル処理の一例を示す全体フローチャートである。まず、音声入力部３７１は、音声情報を取得する（ステップＳ２３－１）。

次に、音声特徴量算出部３７３は、ステップＳ２３－１で取得した音声情報から音声特徴量を算出する（ステップＳ２３－２）。

次に、音声認識部３７９は、音声特徴量算出部３７３で算出した音声特徴量から音声を認識する（ステップＳ２３－３）。

続いて、処理部３５は、以下のステップＳ２３－４からステップＳ２３－１１までの処理を会議等のイベントに参加している参加者全員分繰り返す。すなわち、参加者一人ひとりについて、ステップＳ２３－４からステップＳ２３－１１までの処理を実行する（ステップＳ２３－４）。

まず、顔領域認識部３５３は、取得した音声と同じ区間で集録装置２が取得した入力画像(映像)に表示されている参加者一人分の顔領域を認識する（ステップＳ２３－５）。

次に、口唇領域抽出部３５４は、顔領域認識部３５３で認識された顔領域から口唇領域を抽出する（ステップＳ２３－６）。

次に、口唇特徴量算出部３５７は、口唇領域抽出部３５４で抽出された口唇領域から変換された口唇画素数に基づいて、口唇特徴量を算出する（ステップＳ２３－７）。

次に、口形認識部３５８は、口形認識モデル３６１を学習するとともに口形を認識する（ステップＳ２３－８）。

次に、第２マルチモーダル認識部３８３は、ステップＳ２３－８で認識された口形認識結果と音声認識部３７９で認識された音声認識結果とを対応付ける（ステップＳ２３－９）。

続いて、第２マルチモーダル認識部３８３は、複数参加者の口形認識結果の中から、マルチモーダル認識結果として一つの発話を選出する。具体的には、第２マルチモーダル認識部３８３は、音声認識結果と最も関連度の高い、つまり該当する音声に対して実際に発話していると推測される発話者の口形を用いて、音声認識結果と口形認識結果を用いたマルチモーダル認識結果として一つの発話を選出する（ステップＳ２３－１０）。

次に、最も関連度の高い口形の選出を行うため、上述したステップＳ２３－４からステップＳ２３－１１のループ処理を、参加者の人数に相当する回数だけ繰り返す（ステップＳ２３－１１）。なお、破線で囲んだ第２マルチモーダル認識部３８３によるステップＳ２３－９及びステップＳ２３－１０の具体的な処理フローについては、後述する図１５のフローチャートを用いてさらに説明する。

次に、発話内容認識結果出力部３７６は、第２マルチモーダル認識部３８３によって認識された発話内容認識結果を外部に出力してこのフローを抜ける（ステップＳ２３－１２）。

<<マルチモーダル認識結果の出力処理>>
次に、マルチモーダル認識結果の出力処理について説明する。図１５は、第２の実施形態に係るマルチモーダル認識結果の出力処理を示すフローチャートである。まず、第２マルチモーダル認識部３８３は、一人の口形認識結果と音声認識結果とのレーベンシュタイン距離を算出する（ステップＳ２００－１）。つまり、第２マルチモーダル認識部３８３を含む処理部３５は、発話区間を抽出する際にステップＳ２００－１の処理を参加人数分実行するので、一以上の発話者の各口形を認識した口形認識結果と一以上の発話者の各音声を認識した音声認識結果とのレーベンシュタイン距離を算出することになる。
ここでは、一人分の口形認識結果である口形パターンの系列を正解とし、それに対する音声認識結果のひらがなの系列とのレーベンシュタイン距離を算出する。一般的な音声認識等において、認識、出力されたテキストに対して何文字(何単語)を「削除」、「挿入」又は「置換」すれば、正解ラベルと一致するかという操作コストを算出する方法がある。発話認識装置３は、この方法により正解ラベルとの差異を文字誤り率(CER: Character Error Rate)、単語誤り率(WER: Word Error Rate)等として表現し、精度の評価を行う。このとき、文字誤り率及び単語誤り率の各値が小さい(距離が近い)ほど正解ラベルとの差異が少ない、つまり認識精度が高いということを示している。

本実施形態では、口形パターンの系列を正解とするが、それに対する音声認識結果はひらがなの系列であるため、一致する箇所が存在しない。但し、発話認識装置３は、日本語のひらがなに対応する口形パターン管理ＤＢ３００１（図７参照）を用いて、認識結果である口形パターンに対応するひらがなが認識された場合に、一致とする。その他の場合は、発話認識装置３は、一般的なレーベンシュタイン距離の算出方法と同様に、「削除」、「挿入」、「置換」の各操作を行い、レーベンシュタイン距離を算出する。例えば、図１５のフローチャートでは、第２マルチモーダル認識部３８３は、参加者人数分の口形認識結果と、一つの音声認識結果とのレーベンシュタイン距離を一つずつ算出していく。

次に、第２マルチモーダル認識部３８３は、レーベンシュタイン距離が最小であるかを判断する（ステップＳ２００－２）。レーベンシュタイン距離が最小である場合（ステップＳ２００－２：ＹＥＳ）、第２マルチモーダル認識部３８３は、認識された口形が発話者の口形であるとして採用する（ステップＳ２００－３）。

次に、第２マルチモーダル認識部３８３は、採用された口形認識結果と音声認識結果のそれぞれの系列から実際の発話区間を推定する（ステップＳ２００－４）。

次に、第２マルチモーダル認識部３８３は、音声認識結果の挿入誤りを削除することで、最終的なマルチモーダル認識結果として出力してこのフローを抜ける（ステップＳ２００－５）。

他方、レーベンシュタイン距離が最小でない場合（ステップＳ２００－３：ＮＯ）、第２マルチモーダル認識部３８３は、認識された口形と音声が同期していないものであると判断し、認識された口形が該当する音声を発話した発話者の口形でないとして認識結果を破棄(棄却)してこのフローを抜ける（ステップＳ２００－６）。このように、マルチモーダル認識部３８３は、算出されたレーベンシュタイン距離が最小の場合、算出に用いた口形を特定の発話者のものとして採用し、レーベンシュタイン距離が最小でない場合、算出に用いた口形を前記特定の発話者のものでないとして破棄する。なお、本実施形態では、「INS」処理（意図していないものが挿入されてしまったという処理）が行われた場合に、「挿入誤り」と判断し、「DEL」処理及び「SUB」処理は、「挿入誤り」の判断対象外とした。但し、上述した対象に限らず、例えば、「SUB」処理を行った場合でも「挿入誤り」と判断する仕様としてもよい。

なお、本実施形態ではレーベンシュタイン距離を使用したが、文字列の比較をすることによって編集コストを算出するための距離尺度は、この限りではない。

ここで図１３に戻るが、ステップＳ２４及びＳ２５の処理は、上述したステップＳ１４及びステップＳ１５の処理と同様であるため説明を省略する。

＜マルチモーダル発話者認識(後段結合)の処理概要＞
次に、マルチモーダル発話者認識(後段結合)の処理の概要について説明する。図１６は、第２の実施形態に係るマルチモーダル発話者認識システムの後段結合時の処理の一例を示す概要図である。まず、口唇特徴量算出部３５７は、一の発話を示す口唇画像シーケンス(動画像)を入力して口唇特徴量を算出する。

続いて、口形認識部３５８は、口形認識モデルと口唇特徴量から口形認識結果を認識する。

一方、音声特徴量算出部３７３は、音声入力部３７１で入力された音声波形を入力し、入力した音声波形に基づいて、25ms幅/11msシフトのハミング窓を用いて対数メルフィルタバンク特徴量として音声特徴量を算出する。

続いて、音声認識部３７９は、音声認識モデルと音声特徴量から音声認識結果を認識する。

続いて、第２マルチモーダル認識部３８３は、口形認識結果と音声認識結果とを並列に入力してマルチモーダル認識を行い、得られたマルチモーダル特徴量を発話内容認識結果出力部３７６に出力する。

なお、第２マルチモーダル認識部３８３で実行される認識処理は、第１マルチモーダル認識部３７５と同様であってよい。そのため、１フレームあたりのマルチモーダル特徴量を取得する処理過程、及びフレームレートに対する同期の考え方などの説明を省略する。

このように、図７に示した口形パターン管理ＤＢ３００１で管理される口形パターンで事前学習することにより、口唇特徴量の学習を効率よく行うことができる。これに伴い、システム設計者にかかる操作コスト、編集コスト等を低減できるという効果も期待できる。

〔第２の実施形態の主な効果〕
以上説明したように本実施形態によれば、発話認識装置３は、発話者が発話した発話内容に基づく口唇特徴量及び発話音声に基づいて発話区間の推定及び発話内容の補正を行う。これにより、第１の実施形態の効果に加えて、マルチモーダル認識における高い認識精度を得ることができるという効果を奏する。

更に、本実施形態によれば、口形パターンで事前学習することにより、口唇特徴量の学習を効率よく行うことができるとともに、システム設計者にかかる操作コスト、編集コスト等を低減できるという効果も期待できる。

［実施形態の他の応用例］
上述した実施形態に係る発話認識の他の応用例として、例えば、自動車(以下、車両ともいう)等の移動体に含まれる発話認識装置を有する移動体制御システムにおいて、車両の運転中及び各種機器の操作中に、一以上の発話者(搭乗者)が発話した内容をマルチモーダル認識により発話認識処理する例が考えられる。例えば、自動運転システムを搭載した車両に一以上の搭乗者が搭乗した利用シーンにおいて、ある目的地を発話音声によりカーナビゲーションシステムに入力するような場合に、一以上の発話者が同時に発話した発話音声を、本実施形態に係るマルチモーダル認識を適用した発話認識処理により、正確な目的地を入力可能にするような場合が想定される。なお、実施形態の他の応用例には、自動運転システムを搭載しない車両にも適用することが可能である。

〔移動体制御システムの全体構成〕
＜システム構成例＞
図１７は、移動体制御システムの全体構成の一例を示す図である。図１７に示されているように、移動体制御システム１１は、集録装置１２、発話認識装置１３、表示装置１５及び発話内容管理サーバ１６を含み、それぞれの装置及びサーバが通信ネットワーク１１０を介して互いに接続されている。但し、発話内容管理サーバ１６は、必ずしも移動体制御システム１１に含まれていなくてもよい。また、移動体制御システム１１は、集録装置１２及び発話認識装置１３で構成される発話認識システム１４を含んでいる。ここで、発話認識装置１３は、例えば、車両等に搭載された一般的なカーナビゲーションシステムに含まれる。また、表示装置１５は、例えば、一以上の発話者が所有し、各発話者の自宅等に設置されたＰＣ等でもよく、移動体制御１１において、移動体の移動に同期させて表示装置１５に音声記録が記録される仕組みを備える。その場合、移動体制御システム１１に発話内容管理サーバ１６が含まれている場合は、音声記録は発話内容管理サーバ１６に記憶、管理されてもよい。

なお、移動体制御システム１１を構成する集録装置１２、発話認識装置１３、表示装置１５及び発話内容管理サーバ１６は、第１の実施形態で説明した集録装置２、発話認識装置３、表示装置５及び発話内容管理サーバ６と同様のハードウエア構成を有する。更に、各機能構成も第１の実施形態で説明した各機能構成の内容と同様であるため、詳細の説明を省略する。

＜マルチモーダル認識による制御例＞
発話認識システム１４では、例えば、発話認識装置１３を含むカーナビゲーションシステムを搭載した自動車等の移動体において、発話音声に基づいて目的地等を入力するような利用シーンを想定した場合に、以下の制御が行われる。つまり、カーナビゲーションシステムに対して、一以上の発話者(搭乗者)が発話した各々の発話音声に基づいて得られた口唇特徴量と音声特徴量とを用いて並列にマルチモーダル認識処理を行い、一以上の発話者から特定の発話者を認識するとともに特定の発話者が発話した特定の発話内容を認識した結果を表示装置１５に送信する。この場合、例えば、第１の実施形態で説明したマルチモーダル発話者認識(前段結合)の処理を応用し、運転者の口唇特徴量算出モデルを事前学習しておくことで、後段のマルチモーダル認識処理を適確に行うことが可能となる。表示装置１５では更に、上述した実施形態を応用し、ドライブ、旅行等において運転者を含めた他の搭乗者の音声認識結果(会話等)を、それぞれの人物の顔写真と対応させて時系列に表示することも可能である。このとき、表示装置１５の背景に、その日時に走行していた場所の背景画像を表示させるような処理が行われてもよい。

このような利用シーンを想定することにより、例えば、ドライブや旅行などにおいて搭乗者の会話、音楽、動画再生等により発せられる他者の発話音声を気にすることなく特定の発話者の発話音声を認識することが可能になる。そのため、目的地等の入力においても、周りの雰囲気を壊さないドライブ、旅行等を楽しむことが可能となる。

〔実施形態の補足〕
上述した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウエアによって各機能を実行するようプログラミングされたデバイスを含むものとする。このデバイスとは、例えば、プロセッサ、上記で説明した各機能を実行するよう設計されたＡＳＩＣ(Application Specific Integrated Circuit)、ＤＳＰ（digital signal processor）、ＦＰＧＡ（field programmable gate array）、ＳＯＣ(System on a chip)、ＧＰＵ（Graphics Processing Unit）、及び従来の回路モジュール等をいう。

なお、上述した実施形態により得られる各種情報は、人工知能（ＡＩ）を利用した機械学習の学習効果によって取得されたものでもよい。この場合、例えば、発話認識装置３が機械学習を用いて、マルチモーダル認識処理で得られたテキストに基づく議事録等を作成する処理を行ってもよい。さらに、発話認識装置３と異なる装置、データベース等が機械学習を用いて得た各種情報を取得し、処理を行ってもよい。ここで、機械学習とは、コンピュータに人のような学習能力を獲得させるための技術であり、コンピュータが、データ識別等の判断に必要なアルゴリズムを事前に取り込まれる学習データから自律的に作成、新たなデータについてこれを適用して予測を行う技術のことをいう。機械学習のための学習方法は、教師あり学習、教師なし学習、半教師学習、強化学習、深層学習のいずれかの方法でもよい、更に、機械学習のための学習方法は、これらの学習方法を組み合わせた学習方法でもよく、機械学習のための学習方法は問わない。

これまで本発明の一実施形態に係る発話認識システム、通信システム、発話認識装置、移動体制御システム、発話認識方法及びプログラムについて説明してきたが、本発明は、上述した実施形態に限定されるものではなく、他の実施形態の追加、変更又は削除等、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。

１通信システム
２集録装置
３発話認識装置
４発話認識システム
５表示装置
１１移動体制御システム
１２集録装置
１３発話認識装置
１４発話認識システム
１５表示装置
３１送受信部（送信手段の一例、受信手段の一例）
３５処理部（処理手段の一例）
５４表示制御部（表示制御手段の一例）
５７生成部（生成手段の一例）
５０７ディスプレイ（表示手段の一例）

特開２０１１－０５９１８６号公報

Claims

一以上の発話者による発話に伴う画像及び音声を集録する集録装置と、前記集録装置が送信した前記画像に係る画像情報及び前記音声に係る音声情報を受信して発話内容を認識する発話認識装置と、を含む発話認識システムであって、
前記発話認識装置は、
前記一以上の発話者が発話した際に変化する各々の口唇画像に基づいて得られた口唇特徴量と、前記一以上の発話者が発話した各々の音声に基づいて得られた音声特徴量と、を用いて並列にマルチモーダル認識処理を行うことにより、前記一以上の発話者から特定の発話者を認識するとともに前記特定の発話者が発話した特定の発話内容を認識する処理手段と、
前記処理手段によって特定された前記特定の発話内容を表示装置に対して送信する送信手段と、
を有する、
ことを特徴とする発話認識システム。
前記処理手段は、
前記特定の発話者が発話した特定の発話内容を、前記特定の発話者が実際に発話した発話区間を抽出することによって認識する、
ことを特徴とする請求項１に記載の発話認識システム。
前記処理手段は、
前記口唇特徴量と前記音声特徴量とを結合させることによって前記特定の発話者及び前記特定の発話内容を認識する、
ことを特徴とする請求項１又は２に記載の発話認識システム。
前記口唇特徴量は、前記一以上の発話者のうちの特定の発話者の口形パターンを正解として学習させた口唇特徴量算出モデルから抽出された特徴量であって、
前記処理手段は、前記口唇特徴量と前記音声特徴量とを結合したマルチモーダル特徴量を入力してひらがなの系列を出力する、
ことを特徴とする請求項１乃至３のいずれか一項に記載の発話認識システム。
前記処理手段は、
前記一以上の発話者が発話した発話内容のうち、一の発話を示す口唇画像シーケンスの１フレームレートあたりの前記口唇特徴量及び前記音声特徴量の比に応じて時間的な整合を取ることにより、前記マルチモーダル認識処理に係るマルチモーダル特徴量を得る、
ことを特徴とする請求項１乃至４のいずれか一項に記載の発話認識システム。
前記処理手段は、
前記口唇特徴量から所定の発話者の口形パターン系列を認識することで得られた口形パターン系列認識結果と、前記音声認識結果と、を結合することにより前記特定の発話内容を認識する、
ことを特徴とする請求項１又は２に記載の発話認識システム。
前記処理手段は、
前記発話区間を抽出する際に、前記一以上の発話者の各口形を認識した口形認識結果と前記一以上の発話者の各音声を認識した音声認識結果とのレーベンシュタイン距離を算出する、
ことを特徴とする請求項６に記載の発話認識システム。
前記処理手段は、
前記算出されたレーベンシュタイン距離が最小の場合、前記算出に用いた口形を前記特定の発話者のものとして採用し、前記レーベンシュタイン距離が最小でない場合、前記算出に用いた口形を前記特定の発話者のものでないとして破棄する、
ことを特徴とする請求項７に記載の発話認識システム。
請求項１乃至８のいずれか一項に記載の発話認識システムと、前記発話認識システムが送信した画面情報に基づいて所定の画面を表示する表示装置と、を含む通信システムであって、
前記表示装置は、
前記特定の発話内容、並びに、前記特定の発話内容及び前記特定の発話者の顔画像を組み合わせた組合せ内容の少なくとも一方を表示手段に表示する表示制御手段を有する、
ことを特徴とする通信システム。
一以上の発話者による発話に伴う画像及び音声を集録する集録装置が送信した、前記画像に係る画像情報及び前記音声に係る音声情報に基づいて所定の発話内容を認識する発話認識装置であって、
前記一以上の発話者が発話した際に変化する各々の口唇画像に基づいて得られた口唇特徴量と、前記一以上の発話者が発話した各々の音声に基づいて得られた音声特徴量と、を用いて並列にマルチモーダル認識処理を行うことにより、前記一以上の発話者から特定の発話者を認識するとともに前記特定の発話者が発話した特定の発話内容を認識する処理手段と、
前記処理手段によって特定された前記特定の発話内容を表示装置に対して送信する送信手段と、
を有する、
ことを特徴とする発話認識装置。
請求項１乃至８のいずれか一項に記載の発話認識システムと、前記発話認識システムが送信した画面情報に基づいて所定の画面を表示する表示装置と、を含む移動体を制御するための移動体制御システムであって、
前記表示装置は、
前記特定の発話内容としての前記移動体を制御するための発話内容、並びに、前記移動体を制御するための発話内容及び前記特定の発話者の顔画像を組み合わせた組合せ内容の少なくとも一方を表示手段に表示する表示制御手段を有する、
ことを特徴とする移動体制御システム。
一以上の発話者による発話に伴う画像及び音声を集録する集録装置が送信した、前記画像に係る画像情報及び前記音声に係る音声情報に基づいて所定の発話内容を認識する発話認識装置が実行する発話認識方法であって、
前記一以上の発話者が発話した際に変化する各々の口唇画像に基づいて得られた口唇特徴量と、前記一以上の発話者が発話した各々の音声に基づいて得られた音声特徴量と、を用いて並列にマルチモーダル認識処理を行うことにより、前記一以上の発話者から特定の発話者を認識するとともに前記特定の発話者が発話した特定の発話内容を認識する処理ステップと、
前記処理ステップによって特定された前記特定の発話内容を表示装置に対して送信する送信ステップと、
を含む処理を実行する、
ことを特徴とする発話認識方法。
一以上の発話者による発話に伴う画像及び音声を集録する集録装置が送信した、前記画像に係る画像情報及び前記音声に係る音声情報に基づいて所定の発話内容を認識する発話認識装置に、
前記一以上の発話者が発話した際に変化する各々の口唇画像に基づいて得られた口唇特徴量と、前記一以上の発話者が発話した各々の音声に基づいて得られた音声特徴量と、を用いて並列にマルチモーダル認識処理を行うことにより、前記一以上の発話者から特定の発話者を認識するとともに前記特定の発話者が発話した特定の発話内容を認識する処理ステップと、
前記処理ステップによって特定された前記特定の発話内容を表示装置に対して送信する送信ステップと、
を含む処理を実行させるプログラム。