JP2023046127A - 発話認識システム、通信システム、発話認識装置、移動体制御システム、発話認識方法及びプログラム - Google Patents

発話認識システム、通信システム、発話認識装置、移動体制御システム、発話認識方法及びプログラム Download PDF

Info

Publication number
JP2023046127A
JP2023046127A JP2021154862A JP2021154862A JP2023046127A JP 2023046127 A JP2023046127 A JP 2023046127A JP 2021154862 A JP2021154862 A JP 2021154862A JP 2021154862 A JP2021154862 A JP 2021154862A JP 2023046127 A JP2023046127 A JP 2023046127A
Authority
JP
Japan
Prior art keywords
speech
speech recognition
utterance
feature amount
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021154862A
Other languages
English (en)
Inventor
悠斗 後藤
Yuto Goto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2021154862A priority Critical patent/JP2023046127A/ja
Publication of JP2023046127A publication Critical patent/JP2023046127A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

【課題】マルチモーダル認識を利用して一度の処理で特定の発話者の認識と特定の発話内容の認識とを実行する発話認識システム、通信システム、発話認識装置、移動体制御システム、発話認識方法及びプログラムを提供する。【解決手段】発話認識システムの発話認識装置において、処理部は、予め得られた口唇特徴量算出モデルを用いて口唇特徴量を算出する口唇特徴量算出部と、音声入力部で入力された音声波形から音声特徴量を抽出する音声特徴量算出部と、音声特徴量と口唇特徴量を結合しマルチモーダル特徴量を得る特徴量統合部と、予め得られたマルチモーダル認識モデルを用いてマルチモーダル認識を行うマルチモーダル認識部と、を備える。【選択図】図6

Description

本発明は、発話認識システム、通信システム、発話認識装置、移動体制御システム、発話認識方法及びプログラムに関する。
音響雑音の影響を抑制させるために、発声された音声信号に加えて発声時の口唇動画像を用いたマルチモーダル音声認識によって音声信号をテキストに変換する音声認識技術が存在する。このマルチモーダル音声認識において、取得した音声情報と画像情報を総合的に用いて、実際に発話がされている区間を特定するマルチモーダル音声区間検出技術が知られている(例えば、特許文献1参照)。
しかしながら、従来の技術では、マルチモーダル認識を利用した発話認識処理において、一度の処理で特定の発話者の認識と特定の発話内容の認識とを実行することができないという課題があった。
上述した課題を解決するために、請求項1に係る発明は、一以上の発話者による発話に伴う画像及び音声を集録する集録装置と、前記集録装置が送信した前記画像に係る画像情報及び前記音声に係る音声情報を受信して発話内容を認識する発話認識装置と、を含む発話認識システムであって、前記発話認識装置は、前記一以上の発話者が発話した際に変化する各々の口唇画像に基づいて得られた口唇特徴量と、前記一以上の発話者が発話した各々の音声に基づいて得られた音声特徴量と、を用いて並列にマルチモーダル認識処理を行うことにより、前記一以上の発話者から特定の発話者を認識するとともに前記特定の発話者が発話した特定の発話内容を認識する処理手段と、前記処理手段によって特定された前記特定の発話内容を表示装置に対して送信する送信手段と、を有する、ことを特徴とする発話認識システムを提供する。
以上説明したように本発明によれば、マルチモーダル認識を利用した発話認識処理において、一度の処理で特定の発話者の認識と特定の発話内容の認識とを実行することができるようになるという効果を奏する。
本実施形態の適用場面の一例を示す図である。 通信システムの全体構成の一例を示す図である。 集録装置のハードウエア構成の一例を示す図である。 発話認識装置、表示装置及び発話内容管理サーバのハードウエア構成の一例を示す図である。 通信システムの機能構成の一例を示す図である。 マルチモーダル発話認識処理における前段結合時の機能構成の一例を示す図である。 口形パターン管理テーブルの一例を示す概念図である。 発話認識結果管理テーブルの一例を示す概念図である。 第1の実施形態に係る全体処理の一例を示すシーケンス図である。 第1の実施形態に係るマルチモーダル発話者認識システムの前段結合時の処理の一例を示す概要図である。 発話認識結果を示す表示装置における画面表示例である。 マルチモーダル発話認識処理における後段結合時の機能構成の一例を示す図である。 第2の実施形態に係る全体処理の一例を示すシーケンス図である。 第2の実施形態に係るマルチモーダル処理の一例を示す全体フローチャートである。 第2の実施形態に係るマルチモーダル認識結果の出力処理を示すフローチャートである。 第2の実施形態に係るマルチモーダル発話者認識システムの後段結合時の処理の一例を示す概要図である。 移動体制御システムの全体構成の一例を示す図である。
以下、図面を用いて、発明を実施するための形態について説明する。なお、図面の説明において同一要素には同一符号を付し、重複する部分があればその説明を省略する。
〔第1の実施形態〕
図1乃至図11を用いて、第1の実施形態について説明する。
〔システムの概略〕
<適用場面例>
図1は、本実施形態の適用場面の一例を示す図である。図1では、例えば、参加者A,B,C,Dの4人が参加する所定の会議において、会議机の上に集録装置2及び情報処理装置の一例を示す発話認識装置3が置かれている状態を示している。ここで、集録装置2及び発話認識装置3は有線又は無線により互いに接続されている。さらに、発話認識装置3は、有線ケーブル等によって表示装置5と接続されている。表示装置5は、例えば、電子ホワイトボード(IWB:Interactive White Board)を一例とする表示装置であり、所定の会議における発話内容、画像、議事録等を表示することが可能である。なお、発話認識装置3と表示装置5は、無線により接続されていてもよい。
〔通信システムの全体構成〕
<システム構成例>
図2は、通信システムの全体構成の一例を示す図である。図2に示されているように、通信システム1は、集録装置2、発話認識装置3、表示装置5及び発話内容管理サーバ6を含み、それぞれの装置及びサーバが通信ネットワーク100を介して互いに接続されている。通信システム1は、集録装置2及び発話認識装置3で構成される発話認識システム4を含んでいる。
また、通信ネットワーク100は、不特定多数の通信が行われる通信ネットワークであり、インターネット、イントラネット、LAN(Local Area Network)等によって構築されている。なお、通信ネットワーク100には、有線通信だけでなく、3G(3rd Generation)、4G(4th Generation)、5G(5th Generation)、WiMAX(Worldwide Interoperability for Microwave Access)、LTE(Long Term Evolution)等の無線通信による通信ネットワークが含まれてもよい。
上述した通信システム1を一例として、本実施形態のマルチモーダル認識を利用した発話認識処理が行われる。以下に、通信システム1を構成する各装置について説明する。
<集録装置>
集録装置2は、例えば、会議等の所定のイベントに参加する一以上の参加者の被写体や風景等を撮影するとともに、参加者が発話した発話音声を集音するマイクを備えた装置である。集録装置2は、一以上の参加者を同時に撮影するために、複数のカメラ(デジタルカメラ)を内蔵した装置である。さらに集録装置2は、複数のカメラを内蔵する代わりに、全天球画像(映像)を撮影可能な全天球(全方位)カメラ(全天球撮影装置ともいう)であってもよい。集録装置2は、通信ネットワーク100を介して、発話認識装置3、表示装置5及び発話内容管理サーバ6と通信が可能であるが、第1の実施形態では発話認識装置3と有線接続され、撮影した画像に係る画像情報及び集音した音声に係る音声情報を、発話認識装置3に送信する。
<発話認識装置>
発話認識装置3は、一般的なOSなどが搭載された通信を行うためのコンピュータシステムによって実現される。発話認識装置3は、通信ネットワーク100を介して、集録装置2、表示装置5及び発話内容管理サーバ6と通信が可能である。但し、第1の実施形態では、発話認識装置3は集録装置2と有線接続され、集録装置2で撮影された画像に係る画像情報及び集音された音声に係る音声情報を受信する。また、発話認識装置3には、例えば、表示装置5と通信するためのブラウザアプリがインストールされている。
なお、発話認識装置3は、一般的に使用されるPC(Personal Computer)、携帯型ノートPC、携帯電話、スマートフォン、タブレット端末、ウェアラブル端末(サングラス型、腕時計型等)の通信機能を有する通信端末であってもよい。発話認識装置3は、更に、ブラウザソフトウエア等のソフトウエアを動作させることが可能な通信装置又は通信端末が用いられてもよい。
<表示装置>
表示装置5は、例えば、発話認識装置3が送信した画像(映像)情報、テキスト情報等を表示することにって発話内容を可視化する装置であり、電子ホワイトボードなどの一般的な表示端末である。
<発話内容管理サーバ>
発話内容管理サーバ6は、一般的なサーバOSなどが搭載された情報処理装置(コンピュータシステム)によって実現される。発話内容管理サーバ6は、発話認識装置3によって認識されテキスト化された発話内容を、表示装置5に対して表示させる代わりに通信ネットワーク100を介して受信し、受信したテキスト情報を所定の記憶領域に保存する。さらに発話内容管理サーバ6は、会議等の所定のイベント終了後に、受信したテキスト情報を処理して会議議事録として出力してもよい。なお、発話内容管理サーバ6は、発話認識装置3によって認識されテキスト化された発話内容が表示装置5で表示されていた場合でも、テキスト化された発話内容を並行して受信し、受信したテキスト情報を所定の記憶領域に保存するようにしてもよい。
なお、発話内容管理サーバ6は、一般的に使用されるPC(Personal Computer)、携帯型ノートPC、タブレット端末等の通信機能を有する通信端末であってもよい。この場合、発話内容管理サーバ6は、単一のコンピュータによって構築されてもよいし、ストレージ等の各部(機能又は手段)を分割して任意に割り当てられた複数のコンピュータによって構築されてもよい。また、発話内容管理サーバ6の機能の全てまたは一部は、クラウド環境に存在するサーバコンピュータであってもよいし、オンプレミス環境に存在するサーバコンピュータであってもよい。
〔ハードウエア構成〕
続いて、図3及び図4を用いて、第1の実施形態に係る通信システムを構成する装置又はサーバのハードウエア構成について説明する。なお、図3及び図4に示されている装置又はサーバのハードウエア構成は、必要に応じて構成要素(ハードウエア資源)が追加又は削除されてもよい。
<集録装置のハードウエア構成>
まず、図3用いて、集録装置のハードウエア構成を説明する。図3は、集録装置のハードウエア構成の一例を示す図である。図3に示されているように、集録装置2は、例えば、CPU(Central Processing Unit)201、ROM(Read Only Memory)202、RAM(Random Access Memory)203、EEPROM(Electrically Erasable and Programmable ROM)204、近距離通信I/F208、CMOSセンサ209、撮像素子I/F210、ネットワークI/F211、タッチパネル212、メディアI/F215、外部機器接続I/F216、音入出力I/F217、マイク218、スピーカ219及びバスライン220を備えている。
これらのうち、CPU201は、集録装置2の全体の動作を制御する。ROM202は、CPU201の処理に用いられるプログラムを記憶する。RAM203は、CPU201のワークエリアとして使用される。EEPROM204は、CPU201の制御にしたがって、アプリ等の各種データの読出し又は書込みを行う。近距離通信I/F208は、NFC(Near Field Communication)、Bluetooth(登録商標。以下、省略)、ミリ波無線通信、Wi-Fi(登録商標。以下、省略)、QRコード(登録商標。以下、省略)、可視光、環境音又は超音波等の無線通信インターフェイスを備える通信装置又は通信端末等と近距離無線通信を行うための通信回路である。
CMOSセンサ209は、CPU201の制御にしたがって被写体を撮像して画像データ又は動画データを得る内蔵型の撮像手段の一種である。なお、撮像手段は、CMOSセンサではなく、CCD(Charge Coupled Device)センサ等で構成される撮像手段であってもよい。撮像素子I/F210は、CMOSセンサ209の駆動を制御する回路である。
また、上述したように集録装置2は、複数のカメラ(デジタルカメラ)を内蔵した装置に代えて、全天球(全方位)カメラでもよい。この場合、CMOSセンサ209及び撮像素子I/F210は、それぞれ二つずつ有するものであってよい。集録装置2が全天球(全方位)カメラの場合、撮像ユニットとして各々半球画像を結像するための180°以上の画角を有する二つの広角レンズ(いわゆる魚眼レンズ)と、各広角レンズに対応させて設けられている二つの撮像素子を備えている。各撮像素子は、二つの魚眼レンズによる光学像を電気信号の画像データに変換して出力するCMOSセンサ、CCD(Charge Coupled Device)センサなどの画像センサ、画像センサの水平又は垂直同期信号、画素クロック等を生成するタイミング生成回路、撮像素子の動作に必要な種々のコマンド、パラメータ等が設定されるレジスタ群などを有している。
ネットワークI/F211は、通信ネットワーク100を介して他の機器と各種データ(情報)通信するための通信インターフェイスである。タッチパネル212は、画像や文字、各種アイコン等を表示する液晶、有機EL(Electro Luminescence)等の表示手段及び操作手段の一種である。メディアI/F215は、フラッシュメモリ等の記録メディア214に対するデータの読出し又は書込み(記憶)を制御する。外部機器接続I/F216は、各種の外部機器を接続するためのインターフェイスである。この場合の外部機器は、例えば、USB(Universal Serial Bus)メモリ等である。音入出力I/F217は、CPU201の制御にしたがってマイク218及びスピーカ219との間で音信号の入出力を処理する回路である。マイク218は、音を電気信号に変える内蔵型の回路であり、外部のスピーカ等から発する音声や音波を取得して電気信号を用いた情報を取得する。スピーカ219は、電気信号を物理振動に変えて音楽、音声等の音を生み出す内蔵型の回路である。バスライン220は、CPU201等の各構成要素を電気的に接続するためのアドレスバス、データバス等である。
<発話認識装置、表示装置、発話内容管理サーバのハードウエア構成>
次に、図4用いて、発話認識装置、表示装置及び発話内容管理サーバのハードウエア構成を説明する。図4は、発話認識装置、表示装置及び発話内容管理サーバのハードウエア構成の一例を示す図である。図4に示されているように、発話認識装置3は、例えばコンピュータによって構築されている。発話認識装置3は、例えば、CPU301、ROM302、RAM303、EEPROM304、HD305、HDDコントローラ306、ディスプレイ307、近距離通信I/F308、CMOSセンサ309、撮像素子I/F310、ネットワークI/F311、キーボード312、ポインティングデバイス313、メディアI/F315、外部機器接続I/F316、音入出力I/F317、マイク318、スピーカ319及びバスライン320を備えている。
これらのうち、CPU301、ROM302、RAM303、EEPROM304、近距離通信I/F308、CMOSセンサ309、撮像素子I/F310、ネットワークI/F311、メディアI/F315、外部機器接続I/F316、音入出力I/F317、マイク318及びスピーカ319は、図2に示した集録装置2のCPU201、ROM202、RAM203、EEPROM204、近距離通信I/F208、CMOSセンサ209、撮像素子I/F210、ネットワークI/F211、メディアI/F215、外部機器接続I/F216、音入出力I/F217、マイク218及びスピーカ219の各構成要素と同様であるため、説明を省略する。
HD305は、プログラム等の各種データを記憶する。HDDコントローラ306は、CPU301の制御にしたがってHD305に対する各種データの読出し又は書込みを制御する。ディスプレイ307は、画像や文字、各種アイコン等を表示する液晶、有機EL(Electro Luminescence)等の表示手段の一種である。キーボード312は、文字、数値、各種指示等を入力するための複数のキーを備えた入力手段の一種である。ポインティングデバイス313は、各種指示の選択、実行、処理対象の選択、カーソルの移動等を行う入力手段の一種である。
また、図4に示されているように表示装置5は、例えばコンピュータによって構築されている。表示装置5は、例えば、CPU501、ROM502、RAM503、EEPROM504、HD505、HDDコントローラ506、表示手段の一例としてのディスプレイ507、近距離通信I/F508、ネットワークI/F511、ポインティングデバイス513、メディアI/F515、外部機器接続I/F516及びバスライン520を備えている。これらの各ハードウエア資源は、図4に示した発話認識装置3のCPU301、ROM302、RAM303、EEPROM304、HD305、HDDコントローラ306、ディスプレイ307、近距離通信I/F308、ネットワークI/F311、ポインティングデバイス313、メディアI/F315及び外部機器接続I/F316の各構成要素と同様であるため、説明を省略する。
また、図4に示されているように発話内容管理サーバ6は、例えばコンピュータによって構築されている。発話内容管理サーバ6は、例えば、CPU601、ROM602、RAM603、EEPROM604、HD605、HDDコントローラ606、近距離通信I/F608、ネットワークI/F611、キーボード612、ポインティングデバイス613、メディアI/F615、外部機器接続I/F616及びバスライン620を備えている。これらの各ハードウエア資源は、図4に示した発話認識装置3のCPU301、ROM302、RAM303、EEPROM304、HD305、HDDコントローラ306、近距離通信I/F308、ネットワークI/F311、キーボード312、ポインティングデバイス313、メディアI/F315及び外部機器接続I/F316の各構成要素と同様であるため、説明を省略する。
更に、上述したプログラムは、インストール可能な形式又は実行可能な形式のファイルで、コンピュータで読取り可能な記録媒体に記録、又はネットワークを介してダウンロードを行い流通させるようにしてもよい。記録媒体の例として、CD-R(Compact Disc Recordable)、DVD(Digital Versatile Disk)、Blu-ray Disc、SDカード、USBメモリ等が挙げられる。また、記録媒体は、プログラム製品(Program Product)として、国内又は国外へ提供されることができる。例えば、発話認識装置3は、本発明に係るプログラムが実行されることで、本発明に係る発話認識方法を実現する。
〔通信システムの機能構成〕
次に、図5乃至図8を用いて、本実施形態の機能構成について説明する。図5は、通信システムの機能構成の一例を示す図である。
<集録装置の機能構成>
図5に示されているように、集録装置2は、送受信部21、操作受付部22、撮像部23、音入出力部24及び記憶読出部29を有する。これら各機能部は、図3に示された各ハードウエア資源のいずれかが、ROM202及びEEPROM204のうち少なくとも一つからRAM203に展開された集録装置2用のプログラムに従ったCPU201からの命令により動作することで実現される機能又は手段である。また、集録装置2は、図3に示されているROM202及びEEPROM204のうち少なくとも一つにより構築される記憶部2000を有している。記憶部2000には、発話認識装置3と通信を行うための通信プログラム(通信アプリ)、表示装置5及び発話内容管理サーバ6と通信ネットワーク100を介して通信を行うための通信プログラム(通信アプリ)等が記憶されている。
<<集録装置の各機能構成>>
次に、集録装置2の各機能構成について詳細に説明する。図5に示されている集録装置2の送受信部21は、主に、ネットワークI/F211及び近距離通信I/F208に対するCPU201の処理によって実現される。送受信部21は、例えば、有線ケーブルを介して発話認識装置3との間で撮影画像(映像)データ及び音(音声)データの送受信を行う。さらに送受信部21は、通信ネットワーク100を介して表示装置5及び発話内容管理サーバ6との間で各種データ(又は情報)の送受信を行うこともできる。本実施形態において、送受信部21は、送信手段及び受信手段のうち少なくとも一方の手段の一例として機能する。
操作受付部22は、主に、タッチパネル212に対するCPU201の処理によって実現され、集録装置2における各種入力、設定等の操作を受け付ける。また、操作受付部22は、被写体の撮像、音声の集音を行う際の操作を受け付ける。本実施形態において操作受付部22は、操作受付手段の一例として機能する。
撮像部23は、主に、CMOSセンサ209及び撮像素子I/F210に対するCPU201の処理によって実現され、会議室等の空間に存在する一以上の参加者を被写体として被写体の顔等を撮像して画像(映像)を取得する。本実施形態において、撮像部23は、撮像手段の一例として機能する。
音入出力部24は、主に、マイク218、スピーカ219及び音入出力I/F217に対するCPU201の処理によって実現され、会議室等の空間に存在する一以上の参加者が発話する発話音声、その空間で発生する周囲音などをマイク218により集音して音(音声)データに変換する処理を行う。音入出力部24は更に、所定の音(音声)データを音(音声)信号に変換してスピーカ219から出力する処理を行う。本実施形態において、音入出力部24は、音入出力手段の一例として機能する。
記憶読出部29は、主に、ROM202及びEEPROM204のうち少なくとも一つに対するCPU201の処理によって実現され、記憶部2000に各種データ(又は情報)を記憶したり、記憶部2000から各種データ(又は情報)を読み出したりする。本実施形態において、記憶読出部29は、記憶読出手段の一例として機能する。
<発話認識装置の機能構成>
図5に示されているように、発話認識装置3は、送受信部51、操作受付部32、取得部33、表示制御部34、処理部35及び記憶読出部39を有する。これら各機能部は、図4に示された各ハードウエア資源のいずれかが、ROM302、EEPROM304及びHD305のうち少なくとも一つからRAM303に展開された発話認識装置3用のプログラムに従ったCPU301からの命令により動作することで実現される機能又は手段である。また、発話認識装置3は、図4に示されているROM302、EEPROM304及びHD305のうち少なくとも一つにより構築される記憶部3000を有している。記憶部3000には、集録装置2と通信を行うための通信プログラム(通信アプリ)、表示装置5及び発話内容管理サーバ6と通信ネットワーク100を介して通信を行うための通信プログラム(通信アプリ)等が記憶されている。記憶部3000には更に、マルチモーダル発話認識処理において用いられる口唇特徴量算出モデル、マルチモーダル認識モデル、口形認識モデル、音声認識モデル等が記憶されている。
<<発話認識装置の各機能構成>>
次に、発話認識装置3の各機能構成について詳細に説明する。図5に示されている発話認識装置3の送受信部31は、主に、ネットワークI/F311及び近距離通信I/F308に対するCPU301の処理によって実現される。送受信部31は、例えば、有線ケーブルを介して集録装置2との間で撮影画像(映像)データ及び音(音声)データの送受信を行う。さらに送受信部31は、通信ネットワーク100を介して表示装置5及び発話内容管理サーバ6との間で各種データ(又は情報)の送受信を行う。本実施形態において、送受信部31は、送信手段及び受信手段のうち少なくとも一方の手段の一例として機能する。
操作受付部32は、主に、キーボード312及びポインティングデバイス313に対するCPU301の処理によって実現され、発話認識装置3における各種入力、設定等の操作を受け付ける。本実施形態において操作受付部22は、操作受付手段の一例として機能する。
取得部33は、主に、CPU301の処理によって実現され、例えば、集録装置2が送信した撮影画像(映像)データ及び音(音声)データを、送受信部31を介して取得する。本実施形態において取得部33は、取得手段の一例として機能する。
表示制御部34は、主に、ディスプレイ307に対するCPU301の処理によって実現され、発話認識装置3における各種画面及び情報(データ)の表示制御を行う。本実施形態において、表示制御部34は、表示制御手段の一例として機能する。
処理部35は、主に、CPU301の処理によって実現され、発話認識装置3におけるマルチモーダル発話認識処理に係る処理全般を司る。本実施形態において、処理部35は、一以上の発話者が発話した際に変化する各々の口唇画像に基づいて得られた口唇特徴量と、一以上の発話者が発話した各々の音声に基づいて得られた音声特徴量と、を用いて並列にマルチモーダル認識処理を行う。これにより、処理部35は、一以上の発話者から特定の発話者を認識するとともに特定の発話者が発話した特定の発話内容を認識する。なお、本実施形態において処理部35は、処理手段の一例として機能する。
<マルチモーダル発話認識(前段結合)の機能構成>
図6は、マルチモーダル発話認識処理における前段結合時の機能構成の一例を示す図である。なお、前段結合とは、以降に説明する口唇特徴量及び音声特徴量の段階で結合する手法であり、Early Fusionともいう。上述した処理部35は、図6に示したような詳細な機能構成を有する。具体的には、処理部35は、画像入力部351、画像変換部352、顔領域認識部353、口唇領域抽出部354、口唇画素数変換部355、口唇特徴量算出部357、口形認識部358を有する。また、口唇特徴量算出部357及び口形認識部358は、機械読唇事前学習部359を構成する。上述した機能構成は、集録装置2によって集録された画像(映像)データの処理に係る機能構成である。
処理部35は更に、音声入力部371、音声特徴量算出部373、特徴量統合部374、第1マルチモーダル認識部375及び発話内容認識結果出力部376を有する。また、第1マルチモーダル認識部375は、予め得られたマルチモーダル認識モデル372を用いてマルチモーダル認識を行い、認識結果を発話内容認識結果出力部376に出力する。具体的には、第1マルチモーダル認識部375は、口唇特徴量と音声特徴量とを結合したマルチモーダル特徴量を入力してひらがなの系列を出力する。上述した機能構成は、集録装置2によって集録された音(音声)データの処理に係る機能構成である。
<<マルチモーダル発話認識(前段結合)の機能の詳細>>
次に、処理部35を構成する各詳細機能について説明する。まず、画像入力部351は、上述した取得部33によって取得された撮影画像(映像)データを入力する。
画像変換部352は、画像入力部351で入力された画像(映像)データが例えば、1920×1080pixel、30fpsの条件(パラメータ及び仕様)を有していたとすると、この条件で取得された画像(映像)データをフレーム画像シーケンスとして変換する。また、画像変換部352は、処理の高速化のためにRGB画像のグレースケールへの変換、及び画素数の変換等を行う。
顔領域認識部353は、取得した映像から会議等の所定のイベントに参加した参加者から取得した連続したフレーム画像に対して複数の参加者の顔の領域を認識する。
口唇領域抽出部354は、顔領域認識部353によって認識された顔の領域から口などの顔のパーツの詳細な座標を抽出する。なお、口唇領域抽出部354は、予め大量のデータをニューラルネットワークなどで学習させたモデルを利用してもよい。口唇領域抽出部354は更に、機械学習の機能を有するDlibなどの既存の技術を利用してもよい。
口唇画素数変換部355は、口唇画素数を所定の画像サイズに変換する。口唇領域抽出部354によって抽出された口唇領域は、集録装置2と会議等への参加者との距離によって大きさが異なる。そのため、口唇画素数変換部355は、口形認識モデル361で学習させた際の画像サイズに変換させるものであり、例えば、150×150pixelのような一律のサイズに拡大、または縮小する。これは口形認識モデル361を学習させた際の画像サイズにするものである。
口唇特徴量算出部357は、予め得られた口唇特徴量算出モデル356を用いて口唇特徴量を算出し、算出結果を口形認識部358及び後述する特徴量統合部374にそれぞれ出力する。なお、算出された口唇特徴量は、一以上の発話者のうちの特定の発話者の口形パターンを正解として学習させた口唇特徴量算出モデルから抽出された特徴量を表す。
口形認識部358は、口唇特徴量算出部357で算出された口唇特徴量を口形パターンの系列として認識する。なお、口形認識部358は、口形パターンの系列を正解ラベルとして、口唇特徴量算出部357と口形認識部358を事前学習するときだけに用いられる。本実施形態では、日本語をひらがなに変換し、それに応じた口形パターンに変換する。ひらがなと口形パターンの対応は、図7にて説明する。なお、口形とは参加者の口の形(唇の形でもよい)を意味するものであり、本実施形態では、単に「口形」と記載する。
上述した内容に基づいて、機械読唇事前学習部359は、口形パターンの系列を正解ラベルとして、口唇特徴量算出部357と口形認識部358を事前学習する。但し、口形認識部358は、事前学習する際に用いられるが、発話認識するときは除かれる。なお、口形パターンで事前学習したことにより、口唇特徴量の学習効率が向上することが期待できる。
音声入力部371は、上述した取得部33によって取得された音(音声)データを入力する。本実施形態では、例えば、入力の際の条件を16kHz、16bitでサンプリングしたモノラルの非圧縮データとする。
音声特徴量算出部373は、音声入力部371で入力された音声波形から、例えば、25ms幅/11msシフトのハミング窓を用いて対数メルフィルタバンク特徴量を抽出する。
特徴量統合部374は、音声特徴量算出部373で抽出された音声特徴量と上述で学習された口唇特徴量算出モデルとを用いて、算出された口唇特徴量を結合し、マルチモーダル特徴量を得る。つまり、特徴量統合部374は、口唇特徴量と音声特徴量とを結合させることによって、特定の発話者及び特定の発話内容を認識する。特徴量統合部374は更に、口唇特徴量から所定の発話者の口形パターン系列を認識することで得られた口形パターン系列認識結果と、音声認識結果と、を結合することにより特定の発話内容を認識する。特徴量統合部374は更に、一以上の発話者が発話した発話内容のうち、一の発話を示す口唇画像シーケンスの1フレームレートあたりの口唇特徴量及び音声特徴量の比に応じて時間的な整合を取ることにより、マルチモーダル認識処理に係るマルチモーダル特徴量を得る。その事前学習済みのパラメータを用いて、既に学習されている口唇特徴量算出部357の出力である口唇特徴量を用いてマルチモーダル特徴量にする。その後、第1マルチモーダル認識部375でひらがなの正解ラベルを学習させる。
第1マルチモーダル認識部375は、口唇特徴量算出部357を含めてFine-Tuningすることにより、マルチモーダル認識モデル372を学習する。
発話内容認識結果出力部376は、マルチモーダル認識された発話内容を外部に出力する。
図5に戻り、記憶読出部39は、主に、ROM302、EEPROM304及びHD305のうち少なくとも一つに対するCPU301の処理によって実現され、記憶部3000に各種データ(又は情報)を記憶したり、記憶部3000から各種データ(又は情報)を読み出したりする。本実施形態において、記憶読出部39は、記憶読出手段の一例として機能する。
●口形パターン管理テーブル●
図7は、口形パターン管理テーブルの一例を示す概念図である。記憶部3000には、図7に示されているような口形パターン管理テーブルによって構成された口形パターン管理DB3001が構築されている。口形パターン管理テーブルでは、口形パターンごとに対応するひらがながそれぞれ管理されている。これらのうち、口形パターンには、「-A」、「IA」、「UA」、「XA」、「-I」等が与えられる。この口形パターンは、参加者の口の形(口形)を、動かしはじめの初期口形、及び動かし終わりの終期口形の二つの状態で表現したものである。例えば、「-」は初期口形が無いことを表す。また「X」は閉唇口形を表す初期口形である。促音および撥音は口形として定義できないため、初期口形無し、且つ終期口形も無いものとし、「-*」と表現する。
例として、音声資源コンソーシアム(http://research.nii.ac.jp/src/ATR503.html)で公開されているATR音素バランス503文のサンプル「あらゆる現実をすべて自分のほうへねじ曲げたのだ。」を正解ラベルとすると、
「-A, IA, -U, -U, -E, -*, -I, -U, -O, -U, XE, IE, -I, -U, -*, UO, -O, -U, -E, IE, -I, XA, -E, IA, UO, IA」
となる。このとき、助詞「へ」は「え」に変換され、句点も除去される。これは口形認識部358の口形認識モデル361を学習させる際の正解ラベルとして用いるため、以下の非特許文献を参考に、口形認識結果もこの口形パターンの系列としている。
・非特許文献:宮崎剛;中島豊四郎.日本語発話時の特徴的口形のコード化と口形変化情報表示方法の提案.電気学会論文誌 C (電子・情報・システム部門誌), 2009, 129.12: 2108-2114.
上述した口形パターン管理テーブルを用いた事前学習は、例えば、システムの開発時に行われるが、利用者の環境でデータを集め、そのデータを用いて事前学習させてもよい。具体的には、通信システム1において集録装置2と発話認識装置3を用いてデータを集め、そのデータを用いて(日本語に関して)学習させるようにしてもよい。更に、口形パターン管理テーブルの対応表の内容を適宜変更すれば、外国語にも適用可能である。
なお、口形パターン管理DB3001は、一般的に知られているレーベンシュタイン距離を算出するときの対応として用いられる。さらに、口形パターン管理DB3001は、後述する第2の実施形態における発話認識処理の後段結合の場合にも用いられるDBである。
●発話認識結果管理テーブル●
図8は、発話認識結果管理テーブルの一例を示す概念図である。記憶部3000には、図8に示されているような発話認識結果管理テーブルによって構成された発話認識結果管理DB3002が構築されている。発話認識結果理テーブルでは、一つの音ごとにNo.(1),(2)・・・が与えられる(図8では、○数字で記載された部分。以下、No.の具体例を()内に数字の形式で記載する)。このNo.ごとに、正解、口形、口形認識結果、音声認識結果、操作及び補正結果がそれぞれ対応付けられて発話認識結果として記憶、管理される。
これらのうち、正解は、音声認識の正解ラベルを表し、実際に参加者によって発話された参加者ごとの発話音声に対して発話認識処理を行い、正解ラベルとして登録される。図7に示した例では、例えば、音声資源コンソーシアム:
http://research.nii.ac.jp/src/ATR503.htmlで公開されているATR音素バランス503文のサンプル「両手の指は変形し、関節の辺りが、こぶ状に盛り上がっていた」を認識させた際の上述の一文をひらがな化したものが示されている。
口形認識結果は、例えば、上述した「両手の指は変形し、関節の辺りが、こぶ状に盛り上がっていた」を一の発話を示す口唇画像シーケンスとした動画像で認識された口形の認識結果を表す。
音声認識結果は、参加者が発話した音声を認識した認識結果を表す。
操作は、一般的に用いられているレーベンシュタイン距離の算出時の操作を示したものであり、口形認識結果の口形パターンに対して音声認識結果のひらがなが誤って「挿入」されている場合には「INS」、削除されている場合には「DEL」、置換されている場合には「SUB」、正しい場合には「OK」がそれぞれ与えられる。
補正結果は、後述する発話認識処理の後段結合で動作する発話内容認識結果補正部382で補正された音声認識結果が与えられる。本実施形態では、高ノイズ環境下での認識を想定し、音声認識精度への信頼性が下がるため口形認識結果が正しいものであると考え、口形認識結果を用いて音声認識結果を補正する。
No.(1),(2),(39),(40),(41),(42),(43),(44),(45)の音声認識結果の発話の前後には、実際の発話者(特定の参加者)以外の周辺の参加者の話し声、ノイズ音等の影響で、実際の発話者の発話には関係のない文字が音声認識によって出力されている。この場合は実際の発話者の口形は存在しないため、実際の発話者による発話には関係無いものとして音声認識結果は出力されない。つまり、「口形認識結果がない(****)、且つ操作が「INS」」のときに音声認識結果の文字が削除される。また、(16),(21)の場合のように、参加者の発話中に口形は出力されているが、音声認識の出力がない場合は削除される。このような補正により、音声認識への悪影響としての周囲のノイズ音による挿入誤りを、口形認識結果によって補正することができ、更に、実際の発話者による発話区間を検出することもできる。この後、発話認識装置3は、IMEの技術等を用いて漢字を含む文章とすることも可能である。本実施形態では、この発話認識結果管理テーブルを会議等のイベントに参加した参加者の人数分作成して、実際の発話者及び発話区間を特定する。
なお、発話認識結果管理DB3002は、後述する第2の実施形態における発話認識処理の後段結合の場合に用いられるDBである。
<表示装置の機能構成>
図5に示されているように、表示装置5は、送受信部51、操作受付部52、表示制御部54、生成部57及び記憶読出部59を有する。これら各機能部は、図4に示された各ハードウエア資源のいずれかが、ROM502、EEPROM504及びHD505のうち少なくとも一つからRAM503に展開された表示装置5用のプログラムに従ったCPU501からの命令により動作することで実現される機能又は手段である。また、表示装置5は、図4に示されているROM502、EEPROM504及びHD505のうち少なくとも一つにより構築される記憶部5000を有している。記憶部5000には、集録装置2、発話認識装置3及び発話内容管理サーバ6と通信ネットワーク100を介して通信を行うための通信プログラム(通信アプリ)等が記憶されている。
<<表示装置の各機能構成>>
次に、表示装置5の各機能構成について詳細に説明する。図5に示されている表示装置5の送受信部51は、主に、ネットワークI/F511及び近距離通信I/F508に対するCPU501の処理によって実現される。送受信部51は、例えば、通信ネットワーク100を介して集録装置2、発話認識装置3及び発話内容管理サーバ6との間で各種データ(又は情報)の送受信を行うこともできる。本実施形態において、送受信部51は、送信手段及び受信手段のうち少なくとも一方の手段の一例として機能する。
操作受付部52は、主に、キーボード312及びポインティングデバイス313に対するCPU501の処理によって実現され、表示装置5における各種入力、設定等の操作を受け付ける。本実施形態において操作受付部52は、操作受付手段の一例として機能する。
表示制御部54は、主に、ディスプレイ507に対するCPU501の処理によって実現され、表示装置5における各種画面及び情報(データ)の表示制御を行う。また、表示制御部54は、例えば、ブラウザを用いて、HTML等により作成された表示画面を、表示装置5に表示させる。また、表示制御部54は、特定の発話内容、並びに、特定の発話内容及び特定の発話者の顔画像を組み合わせた組合せ内容の少なくとも一方をディスプレイ507に表示する。本実施形態において、表示制御部54は、表示制御手段の一例として機能する。
生成部57は、主に、CPU501の処理によって実現され、発話認識装置3が送信した発話認識結果としてのテキスト及び各参加者の顔画像をディスプレイ507に表示させるための画面データを生成する。この場合、表示装置5は集録装置2と通信を行うことにより、会議等の所定のイベントに参加している参加者全員の顔画像(映像)を、例えば、参加者識別情報と対応付けて記憶部5000の所定領域に記憶しておいてもよい。そのうえで、生成部57は、発話認識装置3が送信した発話認識結果としてのテキスト情報とテキスト情報に対応した参加者識別情報に基づいて、記憶部5000に管理されている参加者の顔画像(映像)を読み出し、ディスプレイ507に表示させるための画面データを生成するようにしてもよい。本実施形態では、生成部57は、生成手段の一例として機能する。
記憶読出部59は、主に、ROM302、EEPROM304及びHD305のうち少なくとも一つに対するCPU301の処理によって実現され、記憶部3000に各種データ(又は情報)を記憶したり、記憶部3000から各種データ(又は情報)を読み出したりする。本実施形態において、記憶読出部39は、記憶読出手段の一例として機能する。
<発話内容管理サーバの機能構成>
図5に示されているように、発話内容管理サーバ6は、送受信部61、取得部63、生成部67及び記憶読出部69を有する。これら各機能部は、図4に示された各ハードウエア資源のいずれかが、ROM602、EEPROM6504及びHD605のうち少なくとも一つからRAM603に展開された発話内容管理サーバ6用のプログラムに従ったCPU601からの命令により動作することで実現される機能又は手段である。また、発話内容管理サーバ6は、図4に示されているROM602、EEPROM6504及びHD605のうち少なくとも一つにより構築される記憶部6000を有している。記憶部6000には、集録装置2、発話認識装置3及び表示装置5と通信ネットワーク100を介して通信を行うための通信プログラム(通信アプリ)等が記憶されている。
<<発話内容管理サーバの各機能構成>>
次に、発話内容管理サーバ6の各機能構成について詳細に説明する。図5に示されている発話内容管理サーバ6の送受信部61は、主に、ネットワークI/F611及び近距離通信I/F608に対するCPU601の処理によって実現される。送受信部61は、例えば、通信ネットワーク100を介して集録装置2、発話認識装置3及び表示装置5との間で各種データ(又は情報)の送受信を行うこともできる。本実施形態において、送受信部61は、送信手段及び受信手段のうち少なくとも一方の手段の一例として機能する。
取得部63は、主に、CPU601の処理によって実現され、例えば、発話認識装置3が送信した撮影画像(映像)データ及び音(音声)データを、送受信部61を介して取得する。本実施形態において取得部63は、取得手段の一例として機能する。
生成部57は、主に、CPU501の処理によって実現される。生成部57は、発話認識装置3が送信した発話認識結果としてのテキスト情報に基づいて、例えば、会議等の所定のイベントの議事録を生成する。本実施形態において生成部57は、生成手段の一例として機能する。なお、本実施形態に係る通信システムにおいて生成部67は、表示装置5が有する生成部57の機能に代えて、上述した画面データを生成してもよい。または、表示装置5と発話内容管理サーバ6とを通信ネットワーク100を介して互いに通信可能な他の装置が生成部57又は生成部67に相当する機能を有するような構成であってもよい。
記憶読出部79は、主に、ROM702、EEPROM704及びHD705のうち少なくとも一つに対するCPU701の処理によって実現され、記憶部7000に各種データ(又は情報)を記憶したり、記憶部7000から各種データ(又は情報)を読み出したりする。本実施形態において、記憶読出部79は、記憶読出手段の一例として機能する。
〔実施形態の処理又は動作〕
次に、図9乃至図11を用いて、第1の実施形態の処理又は動作について説明する。図9は、第1の実施形態に係る全体処理の一例を示すシーケンス図である。まず、発話認識装置3の処理部35が有する機械読唇事前学習部359は、口唇特徴量算出モデル356を事前学習する(ステップS1)。より詳細には、口唇特徴量算出部357は、口唇特徴量算出モデル356を事前学習する。また、処理部35は、口形パターン管理DB3001(図7参照)を用いて機械読唇事前学習を行う。
次に、集録装置2の撮像部23は、会議等の所定のイベントに参加している各参加者の顔の画像(映像)を撮像する。さらに、音入出力部24は、各参加者が発話する音声及び周辺の音を集音する(ステップS11)。なお、撮像部23による各参加者の顔の画像(映像)の撮像は、全天球カメラのように略同時に撮像されてもよいし、複数のカメラでそれぞれの参加者の顔の画像(映像)を撮像するようにしてもよい。
続いて、送受信部21は、ステップS11で撮像した画像に係る画像情報及び集音した音声に係る音声情報、並びに各参加者の参加者識別情報を発話認識装置3に対して送信する(ステップS12)。これにより、発話認識装置3の送受信部31は、集録装置2が送信した画像情報及び音声情報、並びに各参加者の参加者識別情報を受信する。
次に、発話認識装置3の処理部35は、発話認識処理を実行する(ステップS13)。発話認識処理を実行する際に、処理部35は、マルチモーダル認識モデル372を学習する。具体的には、第1マルチモーダル認識部375は、口唇特徴量算出部357を含めてFine-Tuningすることにより、マルチモーダル認識モデル372を学習する。そして、記憶読出部39は、発話認識処理を実行した結果を発話認識結果管理DB3002(図8参照)に登録して管理する。
次に、送受信部31は、発話認識結果を表示装置5に対して送信する(ステップS14)。これにより、表示装置5の送受信部51は、発話認識装置3が送信した発話認識結果を受信する。このとき、発話認識結果には、参加者識別情報及び発話認識されたテキスト情報が含まれる。
続いて、表示装置5の生成部57は、ステップS14で受信した参加者識別情報及びテキスト情報に基づいて図16に示すような表示画面を生成し、表示制御部54は、生成された表示画面をディスプレイ507に発話認識結果を表示する(ステップS15)。このときに生成される表示画面は、例えば、上述した生成部57の説明で記載した方法によって実現されるものでよい。
本実施形態に係る通信システムでは、例えば、上述したステップS14の処理が実行される場合、発話認識装置3と表示装置5との間に他の装置等が存在してもよい。つまり、発話認識装置3と表示装置5との間で送受信される各情報(データ)は、一度他の装置を介して送受信されるような構成であってもよい。上述した構成は、発話認識装置3と表示装置5との間に他の処理ステップが存在しても適用可能である。更に、ステップS14において発話認識装置3から送信される発話認識結果を、表示装置5に代えて発話内容管理サーバ6に対して送信するようにしてもよい。その場合は、ステップS15で表示される発話認識結果は、発話内容管理サーバ6から表示装置5に対して送信される発話認識結果の内容に基づく。
<マルチモーダル発話者認識(前段結合)の処理概要>
次に、マルチモーダル発話者認識(前段結合)の処理の概要について説明する。図10は、第1の実施形態に係るマルチモーダル発話者認識システムの前段結合時の処理の一例を示す概要図である。まず、口唇特徴量算出部357は、一の発話を示す口唇画像シーケンス(動画像)を入力して口唇特徴量を取得する。このとき、口唇特徴量算出部357は、口形パターンの系列を正解ラベルとして口形認識部358で認識できるように、口唇特徴量算出モデル356を事前学習する。
また、音声特徴量算出部373は、音声入力部371で入力された音声波形を入力する。続いて、音声特徴量算出部373は、入力した音声波形に基づいて、25ms幅/11msシフトのハミング窓を用いて対数メルフィルタバンク特徴量として音声特徴量を得る。
続いて、特徴量統合部374は、口唇特徴量算出部357で事前学習した結果抽出された口唇特徴量と、音声特徴量算出部373によって得られた音声特徴量とを結合させて、マルチモーダル特徴量を得る。この場合、例えば、口唇画像シーケンスのフレームレートを30fps(≒33.3ms)とすると、入力した音声波形のフレームレートは25ms幅/11msであるから、音声特徴量の3フレームと結合することで、時間的な整合を取ることができる。これにより、例えば1フレームあたりの口唇特徴量を384次元とし、音声特徴量を40次元とすると、1フレームあたりのマルチモーダル特徴量は、384+(40×3)=504次元となる。図10では、「●●●・・・●●●」一つが384次元の口唇特徴量を表し、「○○」一つが40次元の音声特徴量を表している。したがって、『「●●●・・・●●●」「○○」「○○」「○○」』一つで、1フレームあたり504次元を有するマルチモーダル特徴量が表される。
次に、第1マルチモーダル認識部375は、特徴量統合部374で得られたマルチモーダル特徴量を入力し、ひらがなの系列を正解ラベルとして口唇特徴量算出部357とマルチモーダル認識モデル372を学習(fine-tuning)する。
機械読唇において、ひらがなの系列を正解ラベルとすると、同口形異音によって同じ入力でも違う正解が与えられる。このため、口唇特徴量抽出のためのパラメータの学習が困難となる。但し、口形パターンの系列を正解ラベルとするとこの問題が解消されるため、効果的な特徴量抽出を口唇特量算出部で行うことが期待できる。そして、最終的な認識結果である日本語のひらがなとして、マルチモーダル認識をさせる。これにより、本実施形態では、口唇特徴量の抽出も含めたEnd-to-End構成でひらがなの系列を学習させるよりも、高精度で認識できるマルチモーダル認識モデルを学習することができる。この後、IMEの技術等を用いて漢字を含む文章とすることも可能である。なお、ここまでは日本語を前提に説明したが、本実施形態では、口形パターンが定義されている外国語にも適用可能である。
●画面表示例●
次に、表示装置5で表示される画面について説明する。図11は、発話認識結果を示す表示装置における画面表示例である。図11に示したように、表示装置5のディスプレイ507には、表示制御部54によって、発話認識結果画面5101が表示される。発話認識結果画面5101では、所定の会議に参加している参加者A、B,C,Dが発話した発話内容と発話者の顔の画像(映像)が対応付けられて表示される。この場合、時間の経過にしたがって表示内容がスクロールされるようにしてもよい。このような発話認識結果画面5101が表示されることで、各参加者は、どの発言を誰がしたかを会議等のイベント中にリアルタイムで視認することが可能になる。さらに、各参加者は、発話認識結果画面5101に表示された発話内容を簡易的な議事録として捉えることで、会議の理解、進行の効率化を図ることも可能になる。
〔第1の実施形態の主な効果〕
以上説明したように本実施形態によれば、発話認識装置3は、一以上の発話者が発話した各々の発話音声に基づいて得られた口唇特徴量と音声特徴量とを用いて並列にマルチモーダル認識処理を行うことにより、一以上の発話者から特定の発話者を認識するとともに特定の発話者が発話した特定の発話内容を認識する。これにより、マルチモーダル認識を利用した発話認識処理において、一度の処理で特定の発話者の認識と特定の発話内容の認識とを行うことができるようになるという効果を奏する。
更に、本実施形態によれば、発話区間を検出する発話区間検出機能を別途用意する必要がないため、システムの煩雑さを解消させることが可能になるという効果も期待できる。
更に、本実施形態によれば、機械読唇に関する事前学習結果を用いてマルチモーダル認識を実行するので、マルチモーダル認識処理の効率化を図ることも可能になるという効果も期待できる。
〔第2の実施形態〕
次に、図11乃至図16を用いて、第2の実施形態について説明する。第2の実施形態では、第1の実施形態に係るマルチモーダル発話認識処理において、処理部35内の前段結合に代えて後段結合した場合について説明する。なお、第2の実施形態を実現するシステム構成、ハードウエア構成及び機能構成の基本部分は第1の実施形態と同様であるため、それらの説明を省略する。以下、発話認識装置3の処理部35のマルチモーダル発話認識処理に係る後段結合時の詳細について説明する。なお、後段結合とは、上述した口形認識結果と音声認識結果とを結合する手法であり、Late Fusionともいう。
<マルチモーダル発話認識(後段結合)の機能構成>
図12は、マルチモーダル発話認識処理における後段結合時の機能構成の一例を示す図である。なお、図12に示した各機能構成において、図6に示した機能構成と同一の機能については説明を省略する。第1の実施形態と機能構成及び処理順序を同一にする箇所は、画像入力部351から口唇画素数変換部355まで、並びに、音声入力部371及び音声特徴量算出部373であるので、それらの説明を省略する。
マルチモーダル発話認識処理の後段結合時では、処理部35は、口形認識部358、口形認識モデル361、音声認識モデル377、音声認識部379、発話区間推定部381及び発話内容認識結果補正部382の各機能が、第1の実施形態で説明した機能と異なる、若しくは追加された機能として有する。なお、発話区間推定部381及び発話内容認識結果補正部382は、第2マルチモーダル認識部383を構成する。
<<マルチモーダル発話認識(後段結合)の機能の詳細>>
次に、処理部35を構成する各詳細機能のうち、第2の実施形態特有の機能を含めた機能について説明する。
口唇特徴量算出部357は、画像サイズが変更された連続の口唇画像シーケンスに対して、後述する口形認識部358で発話内容を認識しやすいように口唇特徴量を算出する。このとき、予め得られた口唇特徴量算出モデル356を学習する。
口形認識部358は、口唇特徴量算出部357で算出された口唇特徴量を口形パターンの系列として認識し、認識した結果を第2マルチモーダル認識部383に出力する。
本実施形態において発話認識装置3は、日本語をひらがなに変換し、ひらがなに応じた口形パターンに変換する。なお、ひらがなと口形パターンの対応については、上述した口形パターン管理DB3001(図7参照)を用いる。発話認識装置3は、変換した口形パターンを正解ラベルとして口形認識モデル361を学習し、口形認識モデル361を用いて発話内容の認識を行うものとする。なお、本実施形態では口唇特徴量算出部357と口形認識部358は口唇特徴量の抽出(畳み込みパラメータの最適化)から認識までを一つのニューラルネットワークで実現するEnd-to-Endの構成を想定しているが、これらを分けて構成してもよい。
音声入力部371は、上述した取得部33によって取得された音(音声)データを入力する。本実施形態では、例えば、入力の際の条件を16kHz、16bitでサンプリングしたモノラルの非圧縮データとする。
音声特徴量算出部373は、音声入力部371で入力された音声波形から、例えば、25ms幅/11msシフトのハミング窓を用いて対数メルフィルタバンク特徴量を抽出する。この特徴量のシーケンスに対して、音声認識部379で使用する音声認識モデル377を学習する。この際の正解ラベルは口形認識部のものではなく、ひらがなのものを利用する。
口形認識部358及び音声認識部379は、それぞれの認識結果である口形認識結果及び音声認識結果を、発話区間推定部381に出力する。
発話区間推定部381は、口形認識部358から入力した口唇画像シーケンスの区間、及び音声認識部379から入力した音声に基づいて、特定の発話者が発話した特定の発話内容を、特定の発話者が実際に発話した発話区間を抽出することによって認識する。
発話内容認識結果補正部382は、発話区間推定部381で誤って出力された音声認識結果を補正する。これら発話区間推定部381と発話内容認識結果補正部382とをまとめて第2マルチモーダル認識部383とし、画像の特徴と音声の特徴の双方を考慮した認識を行う。
発話内容認識結果出力部376は、第2マルチモーダル認識部383から出力された認識結果を最終的な発話内容の認識結果として表示装置5に送信する、又は発話内容管理サーバ6に認識結果を送信することで、認識結果を視覚的に表示又はテキストファイルとして保存する。
次に、第2の実施形態の処理又は動作について説明する。図13は、第2の実施形態に係る全体処理の一例を示すシーケンス図である。ここで、ステップS21及びステップS22の各処理は、図9に示したステップS11及びステップS12と同様のため説明を省略する。
次に、発話認識装置3の処理部35は、口形認識モデル及び音声認識モデルを用いて発話認識処理を実行する(ステップS23)。
<発話認識処理の詳細処理>
次に、発話認識処理の詳細処理について説明する。図14は、第2の実施形態に係るマルチモーダル処理の一例を示す全体フローチャートである。まず、音声入力部371は、音声情報を取得する(ステップS23-1)。
次に、音声特徴量算出部373は、ステップS23-1で取得した音声情報から音声特徴量を算出する(ステップS23-2)。
次に、音声認識部379は、音声特徴量算出部373で算出した音声特徴量から音声を認識する(ステップS23-3)。
続いて、処理部35は、以下のステップS23-4からステップS23-11までの処理を会議等のイベントに参加している参加者全員分繰り返す。すなわち、参加者一人ひとりについて、ステップS23-4からステップS23-11までの処理を実行する(ステップS23-4)。
まず、顔領域認識部353は、取得した音声と同じ区間で集録装置2が取得した入力画像(映像)に表示されている参加者一人分の顔領域を認識する(ステップS23-5)。
次に、口唇領域抽出部354は、顔領域認識部353で認識された顔領域から口唇領域を抽出する(ステップS23-6)。
次に、口唇特徴量算出部357は、口唇領域抽出部354で抽出された口唇領域から変換された口唇画素数に基づいて、口唇特徴量を算出する(ステップS23-7)。
次に、口形認識部358は、口形認識モデル361を学習するとともに口形を認識する(ステップS23-8)。
次に、第2マルチモーダル認識部383は、ステップS23-8で認識された口形認識結果と音声認識部379で認識された音声認識結果とを対応付ける(ステップS23-9)。
続いて、第2マルチモーダル認識部383は、複数参加者の口形認識結果の中から、マルチモーダル認識結果として一つの発話を選出する。具体的には、第2マルチモーダル認識部383は、音声認識結果と最も関連度の高い、つまり該当する音声に対して実際に発話していると推測される発話者の口形を用いて、音声認識結果と口形認識結果を用いたマルチモーダル認識結果として一つの発話を選出する(ステップS23-10)。
次に、最も関連度の高い口形の選出を行うため、上述したステップS23-4からステップS23-11のループ処理を、参加者の人数に相当する回数だけ繰り返す(ステップS23-11)。なお、破線で囲んだ第2マルチモーダル認識部383によるステップS23-9及びステップS23-10の具体的な処理フローについては、後述する図15のフローチャートを用いてさらに説明する。
次に、発話内容認識結果出力部376は、第2マルチモーダル認識部383によって認識された発話内容認識結果を外部に出力してこのフローを抜ける(ステップS23-12)。
<<マルチモーダル認識結果の出力処理>>
次に、マルチモーダル認識結果の出力処理について説明する。図15は、第2の実施形態に係るマルチモーダル認識結果の出力処理を示すフローチャートである。まず、第2マルチモーダル認識部383は、一人の口形認識結果と音声認識結果とのレーベンシュタイン距離を算出する(ステップS200-1)。つまり、第2マルチモーダル認識部383を含む処理部35は、発話区間を抽出する際にステップS200-1の処理を参加人数分実行するので、一以上の発話者の各口形を認識した口形認識結果と一以上の発話者の各音声を認識した音声認識結果とのレーベンシュタイン距離を算出することになる。
ここでは、一人分の口形認識結果である口形パターンの系列を正解とし、それに対する音声認識結果のひらがなの系列とのレーベンシュタイン距離を算出する。一般的な音声認識等において、認識、出力されたテキストに対して何文字(何単語)を「削除」、「挿入」又は「置換」すれば、正解ラベルと一致するかという操作コストを算出する方法がある。発話認識装置3は、この方法により正解ラベルとの差異を文字誤り率(CER: Character Error Rate)、単語誤り率(WER: Word Error Rate)等として表現し、精度の評価を行う。このとき、文字誤り率及び単語誤り率の各値が小さい(距離が近い)ほど正解ラベルとの差異が少ない、つまり認識精度が高いということを示している。
本実施形態では、口形パターンの系列を正解とするが、それに対する音声認識結果はひらがなの系列であるため、一致する箇所が存在しない。但し、発話認識装置3は、日本語のひらがなに対応する口形パターン管理DB3001(図7参照)を用いて、認識結果である口形パターンに対応するひらがなが認識された場合に、一致とする。その他の場合は、発話認識装置3は、一般的なレーベンシュタイン距離の算出方法と同様に、「削除」、「挿入」、「置換」の各操作を行い、レーベンシュタイン距離を算出する。例えば、図15のフローチャートでは、第2マルチモーダル認識部383は、参加者人数分の口形認識結果と、一つの音声認識結果とのレーベンシュタイン距離を一つずつ算出していく。
次に、第2マルチモーダル認識部383は、レーベンシュタイン距離が最小であるかを判断する(ステップS200-2)。レーベンシュタイン距離が最小である場合(ステップS200-2:YES)、第2マルチモーダル認識部383は、認識された口形が発話者の口形であるとして採用する(ステップS200-3)。
次に、第2マルチモーダル認識部383は、採用された口形認識結果と音声認識結果のそれぞれの系列から実際の発話区間を推定する(ステップS200-4)。
次に、第2マルチモーダル認識部383は、音声認識結果の挿入誤りを削除することで、最終的なマルチモーダル認識結果として出力してこのフローを抜ける(ステップS200-5)。
他方、レーベンシュタイン距離が最小でない場合(ステップS200-3:NO)、第2マルチモーダル認識部383は、認識された口形と音声が同期していないものであると判断し、認識された口形が該当する音声を発話した発話者の口形でないとして認識結果を破棄(棄却)してこのフローを抜ける(ステップS200-6)。このように、マルチモーダル認識部383は、算出されたレーベンシュタイン距離が最小の場合、算出に用いた口形を特定の発話者のものとして採用し、レーベンシュタイン距離が最小でない場合、算出に用いた口形を前記特定の発話者のものでないとして破棄する。なお、本実施形態では、「INS」処理(意図していないものが挿入されてしまったという処理)が行われた場合に、「挿入誤り」と判断し、「DEL」処理及び「SUB」処理は、「挿入誤り」の判断対象外とした。但し、上述した対象に限らず、例えば、「SUB」処理を行った場合でも「挿入誤り」と判断する仕様としてもよい。
なお、本実施形態ではレーベンシュタイン距離を使用したが、文字列の比較をすることによって編集コストを算出するための距離尺度は、この限りではない。
ここで図13に戻るが、ステップS24及びS25の処理は、上述したステップS14及びステップS15の処理と同様であるため説明を省略する。
<マルチモーダル発話者認識(後段結合)の処理概要>
次に、マルチモーダル発話者認識(後段結合)の処理の概要について説明する。図16は、第2の実施形態に係るマルチモーダル発話者認識システムの後段結合時の処理の一例を示す概要図である。まず、口唇特徴量算出部357は、一の発話を示す口唇画像シーケンス(動画像)を入力して口唇特徴量を算出する。
続いて、口形認識部358は、口形認識モデルと口唇特徴量から口形認識結果を認識する。
一方、音声特徴量算出部373は、音声入力部371で入力された音声波形を入力し、入力した音声波形に基づいて、25ms幅/11msシフトのハミング窓を用いて対数メルフィルタバンク特徴量として音声特徴量を算出する。
続いて、音声認識部379は、音声認識モデルと音声特徴量から音声認識結果を認識する。
続いて、第2マルチモーダル認識部383は、口形認識結果と音声認識結果とを並列に入力してマルチモーダル認識を行い、得られたマルチモーダル特徴量を発話内容認識結果出力部376に出力する。
なお、第2マルチモーダル認識部383で実行される認識処理は、第1マルチモーダル認識部375と同様であってよい。そのため、1フレームあたりのマルチモーダル特徴量を取得する処理過程、及びフレームレートに対する同期の考え方などの説明を省略する。
このように、図7に示した口形パターン管理DB3001で管理される口形パターンで事前学習することにより、口唇特徴量の学習を効率よく行うことができる。これに伴い、システム設計者にかかる操作コスト、編集コスト等を低減できるという効果も期待できる。
〔第2の実施形態の主な効果〕
以上説明したように本実施形態によれば、発話認識装置3は、発話者が発話した発話内容に基づく口唇特徴量及び発話音声に基づいて発話区間の推定及び発話内容の補正を行う。これにより、第1の実施形態の効果に加えて、マルチモーダル認識における高い認識精度を得ることができるという効果を奏する。
更に、本実施形態によれば、口形パターンで事前学習することにより、口唇特徴量の学習を効率よく行うことができるとともに、システム設計者にかかる操作コスト、編集コスト等を低減できるという効果も期待できる。
[実施形態の他の応用例]
上述した実施形態に係る発話認識の他の応用例として、例えば、自動車(以下、車両ともいう)等の移動体に含まれる発話認識装置を有する移動体制御システムにおいて、車両の運転中及び各種機器の操作中に、一以上の発話者(搭乗者)が発話した内容をマルチモーダル認識により発話認識処理する例が考えられる。例えば、自動運転システムを搭載した車両に一以上の搭乗者が搭乗した利用シーンにおいて、ある目的地を発話音声によりカーナビゲーションシステムに入力するような場合に、一以上の発話者が同時に発話した発話音声を、本実施形態に係るマルチモーダル認識を適用した発話認識処理により、正確な目的地を入力可能にするような場合が想定される。なお、実施形態の他の応用例には、自動運転システムを搭載しない車両にも適用することが可能である。
〔移動体制御システムの全体構成〕
<システム構成例>
図17は、移動体制御システムの全体構成の一例を示す図である。図17に示されているように、移動体制御システム11は、集録装置12、発話認識装置13、表示装置15及び発話内容管理サーバ16を含み、それぞれの装置及びサーバが通信ネットワーク110を介して互いに接続されている。但し、発話内容管理サーバ16は、必ずしも移動体制御システム11に含まれていなくてもよい。また、移動体制御システム11は、集録装置12及び発話認識装置13で構成される発話認識システム14を含んでいる。ここで、発話認識装置13は、例えば、車両等に搭載された一般的なカーナビゲーションシステムに含まれる。また、表示装置15は、例えば、一以上の発話者が所有し、各発話者の自宅等に設置されたPC等でもよく、移動体制御11において、移動体の移動に同期させて表示装置15に音声記録が記録される仕組みを備える。その場合、移動体制御システム11に発話内容管理サーバ16が含まれている場合は、音声記録は発話内容管理サーバ16に記憶、管理されてもよい。
なお、移動体制御システム11を構成する集録装置12、発話認識装置13、表示装置15及び発話内容管理サーバ16は、第1の実施形態で説明した集録装置2、発話認識装置3、表示装置5及び発話内容管理サーバ6と同様のハードウエア構成を有する。更に、各機能構成も第1の実施形態で説明した各機能構成の内容と同様であるため、詳細の説明を省略する。
<マルチモーダル認識による制御例>
発話認識システム14では、例えば、発話認識装置13を含むカーナビゲーションシステムを搭載した自動車等の移動体において、発話音声に基づいて目的地等を入力するような利用シーンを想定した場合に、以下の制御が行われる。つまり、カーナビゲーションシステムに対して、一以上の発話者(搭乗者)が発話した各々の発話音声に基づいて得られた口唇特徴量と音声特徴量とを用いて並列にマルチモーダル認識処理を行い、一以上の発話者から特定の発話者を認識するとともに特定の発話者が発話した特定の発話内容を認識した結果を表示装置15に送信する。この場合、例えば、第1の実施形態で説明したマルチモーダル発話者認識(前段結合)の処理を応用し、運転者の口唇特徴量算出モデルを事前学習しておくことで、後段のマルチモーダル認識処理を適確に行うことが可能となる。表示装置15では更に、上述した実施形態を応用し、ドライブ、旅行等において運転者を含めた他の搭乗者の音声認識結果(会話等)を、それぞれの人物の顔写真と対応させて時系列に表示することも可能である。このとき、表示装置15の背景に、その日時に走行していた場所の背景画像を表示させるような処理が行われてもよい。
このような利用シーンを想定することにより、例えば、ドライブや旅行などにおいて搭乗者の会話、音楽、動画再生等により発せられる他者の発話音声を気にすることなく特定の発話者の発話音声を認識することが可能になる。そのため、目的地等の入力においても、周りの雰囲気を壊さないドライブ、旅行等を楽しむことが可能となる。
〔実施形態の補足〕
上述した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウエアによって各機能を実行するようプログラミングされたデバイスを含むものとする。このデバイスとは、例えば、プロセッサ、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)、SOC(System on a chip)、GPU(Graphics Processing Unit)、及び従来の回路モジュール等をいう。
なお、上述した実施形態により得られる各種情報は、人工知能(AI)を利用した機械学習の学習効果によって取得されたものでもよい。この場合、例えば、発話認識装置3が機械学習を用いて、マルチモーダル認識処理で得られたテキストに基づく議事録等を作成する処理を行ってもよい。さらに、発話認識装置3と異なる装置、データベース等が機械学習を用いて得た各種情報を取得し、処理を行ってもよい。ここで、機械学習とは、コンピュータに人のような学習能力を獲得させるための技術であり、コンピュータが、データ識別等の判断に必要なアルゴリズムを事前に取り込まれる学習データから自律的に作成、新たなデータについてこれを適用して予測を行う技術のことをいう。機械学習のための学習方法は、教師あり学習、教師なし学習、半教師学習、強化学習、深層学習のいずれかの方法でもよい、更に、機械学習のための学習方法は、これらの学習方法を組み合わせた学習方法でもよく、機械学習のための学習方法は問わない。
これまで本発明の一実施形態に係る発話認識システム、通信システム、発話認識装置、移動体制御システム、発話認識方法及びプログラムについて説明してきたが、本発明は、上述した実施形態に限定されるものではなく、他の実施形態の追加、変更又は削除等、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。
1 通信システム
2 集録装置
3 発話認識装置
4 発話認識システム
5 表示装置
11 移動体制御システム
12 集録装置
13 発話認識装置
14 発話認識システム
15 表示装置
31 送受信部(送信手段の一例、受信手段の一例)
35 処理部(処理手段の一例)
54 表示制御部(表示制御手段の一例)
57 生成部(生成手段の一例)
507 ディスプレイ(表示手段の一例)
特開2011-059186号公報

Claims (13)

  1. 一以上の発話者による発話に伴う画像及び音声を集録する集録装置と、前記集録装置が送信した前記画像に係る画像情報及び前記音声に係る音声情報を受信して発話内容を認識する発話認識装置と、を含む発話認識システムであって、
    前記発話認識装置は、
    前記一以上の発話者が発話した際に変化する各々の口唇画像に基づいて得られた口唇特徴量と、前記一以上の発話者が発話した各々の音声に基づいて得られた音声特徴量と、を用いて並列にマルチモーダル認識処理を行うことにより、前記一以上の発話者から特定の発話者を認識するとともに前記特定の発話者が発話した特定の発話内容を認識する処理手段と、
    前記処理手段によって特定された前記特定の発話内容を表示装置に対して送信する送信手段と、
    を有する、
    ことを特徴とする発話認識システム。
  2. 前記処理手段は、
    前記特定の発話者が発話した特定の発話内容を、前記特定の発話者が実際に発話した発話区間を抽出することによって認識する、
    ことを特徴とする請求項1に記載の発話認識システム。
  3. 前記処理手段は、
    前記口唇特徴量と前記音声特徴量とを結合させることによって前記特定の発話者及び前記特定の発話内容を認識する、
    ことを特徴とする請求項1又は2に記載の発話認識システム。
  4. 前記口唇特徴量は、前記一以上の発話者のうちの特定の発話者の口形パターンを正解として学習させた口唇特徴量算出モデルから抽出された特徴量であって、
    前記処理手段は、前記口唇特徴量と前記音声特徴量とを結合したマルチモーダル特徴量を入力してひらがなの系列を出力する、
    ことを特徴とする請求項1乃至3のいずれか一項に記載の発話認識システム。
  5. 前記処理手段は、
    前記一以上の発話者が発話した発話内容のうち、一の発話を示す口唇画像シーケンスの1フレームレートあたりの前記口唇特徴量及び前記音声特徴量の比に応じて時間的な整合を取ることにより、前記マルチモーダル認識処理に係るマルチモーダル特徴量を得る、
    ことを特徴とする請求項1乃至4のいずれか一項に記載の発話認識システム。
  6. 前記処理手段は、
    前記口唇特徴量から所定の発話者の口形パターン系列を認識することで得られた口形パターン系列認識結果と、前記音声認識結果と、を結合することにより前記特定の発話内容を認識する、
    ことを特徴とする請求項1又は2に記載の発話認識システム。
  7. 前記処理手段は、
    前記発話区間を抽出する際に、前記一以上の発話者の各口形を認識した口形認識結果と前記一以上の発話者の各音声を認識した音声認識結果とのレーベンシュタイン距離を算出する、
    ことを特徴とする請求項6に記載の発話認識システム。
  8. 前記処理手段は、
    前記算出されたレーベンシュタイン距離が最小の場合、前記算出に用いた口形を前記特定の発話者のものとして採用し、前記レーベンシュタイン距離が最小でない場合、前記算出に用いた口形を前記特定の発話者のものでないとして破棄する、
    ことを特徴とする請求項7に記載の発話認識システム。
  9. 請求項1乃至8のいずれか一項に記載の発話認識システムと、前記発話認識システムが送信した画面情報に基づいて所定の画面を表示する表示装置と、を含む通信システムであって、
    前記表示装置は、
    前記特定の発話内容、並びに、前記特定の発話内容及び前記特定の発話者の顔画像を組み合わせた組合せ内容の少なくとも一方を表示手段に表示する表示制御手段を有する、
    ことを特徴とする通信システム。
  10. 一以上の発話者による発話に伴う画像及び音声を集録する集録装置が送信した、前記画像に係る画像情報及び前記音声に係る音声情報に基づいて所定の発話内容を認識する発話認識装置であって、
    前記一以上の発話者が発話した際に変化する各々の口唇画像に基づいて得られた口唇特徴量と、前記一以上の発話者が発話した各々の音声に基づいて得られた音声特徴量と、を用いて並列にマルチモーダル認識処理を行うことにより、前記一以上の発話者から特定の発話者を認識するとともに前記特定の発話者が発話した特定の発話内容を認識する処理手段と、
    前記処理手段によって特定された前記特定の発話内容を表示装置に対して送信する送信手段と、
    を有する、
    ことを特徴とする発話認識装置。
  11. 請求項1乃至8のいずれか一項に記載の発話認識システムと、前記発話認識システムが送信した画面情報に基づいて所定の画面を表示する表示装置と、を含む移動体を制御するための移動体制御システムであって、
    前記表示装置は、
    前記特定の発話内容としての前記移動体を制御するための発話内容、並びに、前記移動体を制御するための発話内容及び前記特定の発話者の顔画像を組み合わせた組合せ内容の少なくとも一方を表示手段に表示する表示制御手段を有する、
    ことを特徴とする移動体制御システム。
  12. 一以上の発話者による発話に伴う画像及び音声を集録する集録装置が送信した、前記画像に係る画像情報及び前記音声に係る音声情報に基づいて所定の発話内容を認識する発話認識装置が実行する発話認識方法であって、
    前記一以上の発話者が発話した際に変化する各々の口唇画像に基づいて得られた口唇特徴量と、前記一以上の発話者が発話した各々の音声に基づいて得られた音声特徴量と、を用いて並列にマルチモーダル認識処理を行うことにより、前記一以上の発話者から特定の発話者を認識するとともに前記特定の発話者が発話した特定の発話内容を認識する処理ステップと、
    前記処理ステップによって特定された前記特定の発話内容を表示装置に対して送信する送信ステップと、
    を含む処理を実行する、
    ことを特徴とする発話認識方法。
  13. 一以上の発話者による発話に伴う画像及び音声を集録する集録装置が送信した、前記画像に係る画像情報及び前記音声に係る音声情報に基づいて所定の発話内容を認識する発話認識装置に、
    前記一以上の発話者が発話した際に変化する各々の口唇画像に基づいて得られた口唇特徴量と、前記一以上の発話者が発話した各々の音声に基づいて得られた音声特徴量と、を用いて並列にマルチモーダル認識処理を行うことにより、前記一以上の発話者から特定の発話者を認識するとともに前記特定の発話者が発話した特定の発話内容を認識する処理ステップと、
    前記処理ステップによって特定された前記特定の発話内容を表示装置に対して送信する送信ステップと、
    を含む処理を実行させるプログラム。
JP2021154862A 2021-09-22 2021-09-22 発話認識システム、通信システム、発話認識装置、移動体制御システム、発話認識方法及びプログラム Pending JP2023046127A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021154862A JP2023046127A (ja) 2021-09-22 2021-09-22 発話認識システム、通信システム、発話認識装置、移動体制御システム、発話認識方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021154862A JP2023046127A (ja) 2021-09-22 2021-09-22 発話認識システム、通信システム、発話認識装置、移動体制御システム、発話認識方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2023046127A true JP2023046127A (ja) 2023-04-03

Family

ID=85776866

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021154862A Pending JP2023046127A (ja) 2021-09-22 2021-09-22 発話認識システム、通信システム、発話認識装置、移動体制御システム、発話認識方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2023046127A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117319886A (zh) * 2023-11-29 2023-12-29 深圳市掌锐电子有限公司 降低Android系统音频通路时延的方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117319886A (zh) * 2023-11-29 2023-12-29 深圳市掌锐电子有限公司 降低Android系统音频通路时延的方法及系统
CN117319886B (zh) * 2023-11-29 2024-03-12 深圳市掌锐电子有限公司 降低Android系统音频通路时延的方法及系统

Similar Documents

Publication Publication Date Title
US20240038218A1 (en) Speech model personalization via ambient context harvesting
US20210201550A1 (en) Method, apparatus, device and storage medium for animation interaction
US20180077095A1 (en) Augmentation of Communications with Emotional Data
US11556302B2 (en) Electronic apparatus, document displaying method thereof and non-transitory computer readable recording medium
US11847726B2 (en) Method for outputting blend shape value, storage medium, and electronic device
US10970909B2 (en) Method and apparatus for eye movement synthesis
WO2024000867A1 (zh) 情绪识别方法、装置、设备及存储介质
US20200342896A1 (en) Conference support device, conference support system, and conference support program
JP7292782B2 (ja) 遠隔会議システム、遠隔会議のための方法、およびコンピュータ・プログラム
US11676419B2 (en) Electronic apparatus and control method thereof
CN111522524B (zh) 一种基于会议机器人的演示文稿控制方法、装置、存储介质及终端
US9298971B2 (en) Method and apparatus for processing information of image including a face
JP2023046127A (ja) 発話認識システム、通信システム、発話認識装置、移動体制御システム、発話認識方法及びプログラム
WO2016206647A1 (zh) 用于控制机器装置产生动作的系统
TWI769520B (zh) 多國語言語音辨識及翻譯方法與相關的系統
US20180126561A1 (en) Generation device, control method, robot device, call system, and computer-readable recording medium
CN113223555A (zh) 视频生成方法、装置、存储介质及电子设备
US20230316952A1 (en) System and method for bidirectional automatic sign language translation and production
JP6754154B1 (ja) 翻訳プログラム、翻訳装置、翻訳方法、及びウェアラブル端末
US11997445B2 (en) Systems and methods for live conversation using hearing devices
EP4141867A1 (en) Voice signal processing method and related device therefor
WO2023033033A1 (ja) コミュニケーション支援システム、情報処理装置、コミュニケーション支援方法、及びプログラム
CN117633703A (zh) 一种基于智能手表的多模态交互系统及方法
JP2023107552A (ja) 情報処理装置、音声認識方法、発話区間検出方法及びプログラム
CN114745349A (zh) 一种点评方法、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20231023