JP2019208138A

JP2019208138A - 発話認識装置、及びコンピュータプログラム

Info

Publication number: JP2019208138A
Application number: JP2018102621A
Authority: JP
Inventors: 康野村; Yasushi Nomura; 柿井　俊昭; Toshiaki Kakii; 俊昭柿井
Original assignee: Sumitomo Electric Industries Ltd
Current assignee: Sumitomo Electric Industries Ltd
Priority date: 2018-05-29
Filing date: 2018-05-29
Publication date: 2019-12-05

Abstract

【課題】話者の周囲への音漏れを最低限にし、更に、ユーザの発話動作に基づく多様なコミュニケーション実現する発話認識装置、及びコンピュータプログラムを提供する。【解決手段】発話認識装置は、ユーザの発する音声の音声データを予め記憶しておく記憶部と、前記ユーザの口唇の動きを撮像した映像に基づき発話を認識する発話認識部と、発話認識部により認識された発話のテキストと、前記記憶部に記憶してある音声データとを用いて音声を作成する音声処理部とを備える。【選択図】図３

Description

本発明は、発話認識装置、及びコンピュータプログラムに関する。

携帯電話機を用いてどのような場所でも通話が可能である。携帯電話機は本体にマイクロフォンを備えるが、マイクロフォンが搭載されたイヤホンが普及しており、このイヤホンを本体に有線又は無線で接続することで本体を用いずにイヤホンをインタフェースとして通話することも可能である。本体を用いて通話する場合も、マイクロフォン搭載イヤホンをインタフェースとして通話する場合も、話者は周囲にも聞こえるように話す必要がある。したがって携帯電話機を用いた通話が周囲に対して迷惑であるのみならず、会話の内容が漏洩することにもなる。

特許文献１及び特許文献２には、携帯電話機での通話について音声が外部へ拡散してするための技術が提案されている。特許文献１には、ヘッドギアを用いて音漏れを防止する方法が開示されている。特許文献２では、ヘッドギアを用いる対策では携帯性が劇的に悪化するため、マイクロフォンで集音した話者からの音声を相殺する相殺音を生成して周囲へ向けて出力する携帯電話機が開示されている。

特開平１０−１５５１４４号公報特開２００６−１６６３００号公報

特許文献２に開示されている携帯電話機では、周囲への音漏れが相殺されることが期待される。しかしながらこの携帯電話機を実現するためには、周囲の全方向に向けて相殺音を発する外向けの高性能なスピーカが必要になる。通常の通話では不要であるから、特別なスピーカの利用はコストを要し実現性が低い。また、話者自身も自身の発声を聞き取りづらくなる可能性があり、通話にストレスが掛かる。

本願は、話者の周囲への音漏れを最低限にし、更に、ユーザの発話動作に基づく多様なコミュニケーション実現する発話認識装置、及びコンピュータプログラムを提供することを目的とする。

本開示に係る発話認識装置は、ユーザの発する音声の音声データを予め記憶しておく記憶部と、前記ユーザの口唇の動きを撮像した映像に基づき発話を認識する発話認識部と、発話認識部により認識された発話のテキストと、前記記憶部に記憶してある音声データとを用いて音声を作成する音声処理部とを備える。

本開示に係る発話認識装置は、ユーザの発する音声の音声データを予め記憶しておく記憶部と、前記ユーザから集音した集音音声を補完して認識する発話認識部と、発話認識部により認識された発話のテキストと、前記記憶部に記憶してある音声データとを用いて音声を作成する音声処理部とを備える。

なお、本願は、このような特徴的な処理部を備える発話認識装置として実現することができるだけでなく、発話認識装置の一部又は全部を実現する半導体集積回路として実現したり、発話認識装置を含む通話システム、その他のシステムとして実現したりすることができる。

上記によれば、話者の周囲への音漏れを最低限にし、更に、ユーザの発話動作に基づく多様なコミュニケーション実現することができる。

発話認識装置の構成を示すブロック図である。発話認識装置の態様を示す模式図である。実施の形態１における発話認識装置の処理部の機能の一例を示す機能ブロック図である。発話認識装置の処理部の機能の他の例を示す機能ブロック図である。実施の形態２における発話認識装置の処理部の機能の一例を示す機能ブロック図である。実施の形態３における発話認識装置の処理部の機能の一例を示す機能ブロック図である。学習モデルを用いた処理部の機能を示す機能ブロック図である。実施の形態４における発話認識装置の処理部の機能の一例を示す機能ブロック図である。コミュニケーションシステムの構成を示すブロック図である。実施の形態５における端末装置の処理部の機能の一例を示す機能ブロック図である。実施の形態５における端末装置の処理部の機能の他の一例を示す機能ブロック図である。端末アプリプログラムに基づく処理部の処理手順の一例を示すフローチャートである。端末アプリプログラムに基づく画面例を示す図である。端末アプリプログラムに基づく画面例を示す図である。端末アプリプログラムに基づく画面例を示す図である。端末アプリプログラムに基づく画面例を示す図である。関係性学習部の機能を示す機能ブロック図である。変形例における画面例を示す図である。

［本発明の実施形態の説明］
最初に本発明の実施態様を列記して説明する。また、以下に記載する実施形態の少なくとも一部を任意に組み合わせてもよい。

（１）本態様に係る発話認識装置は、ユーザの発する音声の音声データを予め記憶しておく記憶部と、前記ユーザの口唇の動きを撮像した映像に基づき発話を認識する発話認識部と、発話認識部により認識された発話のテキストと、前記記憶部に記憶してある音声データとを用いて音声を作成する音声処理部とを備える。

発話認識部は、ユーザの口唇の動きから発話を認識する。映像から認識するので、声が発せられておらずともよい。

音声処理部は、声が発せられていない場合に認識されたテキストを、予め記憶しておいたユーザの声で話す音声を作成する。作成された音声は、ユーザ自身に向けて出力されてもよいし、通話相手へ向けて送信されてもよい。

本態様にあっては、ユーザが声を出さずに口唇だけを動かした場合であっても、ユーザの声で再生される音声が作成される。

（２）本態様に係る発話認識装置は、前記発話認識部は、前記映像から前記ユーザの顔の口唇部分の部分画像を連続して抽出する画像処理部と、抽出された連続する部分画像から前記ユーザから発せられた発音を示す発音情報を判別する読唇処理部と、判別された一連の発音情報に基づき自然言語からなるテキストデータを作成する言語処理部とを備える。

本態様にあっては映像に基づく発話認識を、画像処理部にて映像から抽出される連続するフレーム画像の内、口唇部分を抽出した口唇部分画像から実施する。

読唇処理部は、連続する口唇部分画像から、パターン認識等によって発音情報を判別するとよい。発音情報は、母音及び子音の並びであるか、又は発音記号である。又は発音を示す文字列（日本語であればカタカナ、英語であればアルファベット等）であってもよい。

言語処理部は、判別された連続する発音情報の並びから、尤もらしい文字列を推定出力する。自然言語の辞書を用いてもよいし、学習モデル等を用いてもよい。

（３）本態様に係る発話認識装置は、前記読唇処理部は、前記ユーザの口唇部分の部分画像を入力とし、発音情報の判別結果を出力とする発音学習モデルに基づき判別する。

本態様にあっては、口唇部分の部分画像を入力した場合に、発音情報の判別結果を出力するニューラルネットワークを作成する等、深層学習を用いた学習モデルにより判別されるとよい。

（４）本態様に係る発話認識装置は、前記言語処理部は、一連の発音情報を入力とし、入力された発音情報に他の発音情報を補完して自然言語を推定出力する言語学習モデルを用いてテキストデータを作成する。

本態様にあっては、読唇処理部は、画像を入力として判別結果を出力する学習モデルと、発音情報を入力として自然言語を出力する学習モデルとを夫々分別して用いる。夫々の学習モデルで最適化されることで高精度な認識が達成される。

（５）本態様に係る発話認識装置は、ユーザの発する音声の音声データを予め記憶しておく記憶部と、前記ユーザから集音した集音音声を補完して認識する発話認識部と、発話認識部により認識された発話のテキストと、前記記憶部に記憶してある音声データとを用いて音声を作成する音声処理部とを備える。

発話認識部は、ユーザの小声、ささやき声から発話を認識する。小声、ささやき声であることを前提に言葉が補完されて認識される。

音声処理部は、小声又はささやき声で話された声に基づいてテキストとして認識されたユーザの声を、予め記憶しておいたユーザの声で話す音声として作成し直す。作成された音声は、ユーザ自身に向けて出力されてもよいし、通話相手へ向けて送信されてもよい。

本態様にあっては、ユーザが小声、又はささやき声で話した場合であっても、小声でないユーザの声で再生される音声が作成される。ユーザは音声認識を意識せずに周囲に気を配って小声、ささやき声で話したとしても十分に相手に伝わる。口元を隠して更に小声で話すことで周囲に不快感を生じさせず、通話を行なうことも可能になる。

（６）本態様に係る発話認識装置は、前記発話認識部は、前記集音音声に対して音声認識を行ない一連の発音情報、又はテキストとして出力する音声認識部と、該音声認識部から出力された一連の発音情報、又はテキスト、及び、自然言語を記憶してある自然言語辞書を用いて自然言語からなるテキストを推定出力する言語処理部とを備える。

本態様にあっては、途切れているか又は不鮮明な声から認識されたテキストから、自然言語辞書を用いて自然言語からなるテキストが推定出力される。

（７）本態様に係る発話認識装置は、前記言語処理部は、一連の発音情報又はテキストを入力とし、他の発音情報又は文字を補完して自然言語を推定出力する言語学習モデルを用いてテキストデータを作成する。

本態様にあっては、途切れているか又は不鮮明な声から認識されたテキストから、自然な言葉を推定出力するニューラルネットワーク等を用いた学習モデルにより、補完されたテキストが出力されるとよい。

（８）本態様に係る発話認識装置は、前記音声処理部によって作成された音声を前記ユーザへ向けて出力する音声出力部を備える。

本態様にあっては、認識された発話から作成された音声は、ユーザに向けてフィードバック音声として出力される。これによりユーザは、自身の発した言葉を認識することができ、声を発さずとも小声で話しても、相手に伝わる音声を認識して通話することができる。

（９）本態様に係る発話認識装置は、前記ユーザの感情を特定する特定部を備え、前記音声処理部は、前記特定部にて特定された感情の種別又は強弱に応じて音量、又は声色を変動させて音声を作成する。

本態様にあっては、特定部は発話者であるユーザの感情を特定する。特定部は、ユーザの表情を写した映像から感情を特定してもよいし、ユーザから発せられた小声、ささやき声の波形等から感情を特定してもよい。ユーザの感情の特定は、深層学習を用いた学習モデルに基づいて実施してもよい。

ユーザが声を発さずに、無表情で発話した場合であっても感情を載せた自然な音声を出力することができる。

（１０）本態様に係る発話認識装置は、前記発話認識部にて認識された発話のテキストの言葉遣いから、語気又は口調を判別する判別部を備え、前記音声処理部は、前記判別部が判別した語気又は口調に応じて音量、又は声色を変動させて音声を作成する。

ユーザが声を発さずに、又は小声、ささやき声で発話した場合であっても、ユーザの意図する語気又は口調が載せられた音声を出力することができる。

（１１）本態様に係る発話認識装置は、前記発話認識部にて認識された発話のテキストの言葉遣いから、発話の相手との関係性を判別する判別部を備え、前記音声処理部は、前記判別部が判別した関係性に応じて丁寧語の有無、又は声色を変動させて音声を作成する。

ユーザが声を発さずに、又は小声、ささやき声で発話した場合であっても、発話の相手との関係性に応じた語気又は口調、声色での音声を出力することができる。

（１２）本態様に係る発話認識装置は、ユーザの口唇の動きを撮像した映像に基づき発話を認識する発話認識部と、該発話認識部により認識された発話のテキストを前記ユーザへ向けて出力する出力部とを備える。

本態様にあっては、発話認識部により認識された発話は、音声として出力されるのではなくテキストのみで出力されるようにしてもよい。これにより、テキストでの気軽なコミュニケーションを生かしつつ、文字の入力操作では表現しきれない感情又は想いが載った口唇の動き、ささやき声、表情などから認識されたユーザの発話による新たなコミュニケーションが可能になる。

（１３）本態様に係る発話認識装置は、前記発話認識部は、前記ユーザの映像を入力とし、発話のテキストを出力とする学習モデルに基づき判別する。

本態様にあっては、発話はユーザを撮像した映像から学習モデルに基づき判別される。

（１４）本態様に係る発話認識装置は、ユーザから集音した集音音声を補完して認識する発話認識部と、該発話認識部により認識された発話のテキストを前記ユーザへ向けて出力する出力部とを備える。

本態様にあっては、発話はユーザの小声、ささやき声から認識される。小声、ささやき声であることを前提に言葉が補完されて認識され、テキストとして出力される。

（１５）本態様に係る発話認識装置は、前記発話認識部は、前記ユーザの集音音声を入力とし、発話のテキストを出力とする学習モデルに基づき判別する。

本態様にあっては、途切れているか又は不鮮明な声から認識されたテキストから、自然な言葉を推定出力するニューラルネットワーク等を用いた学習モデルにより、補完されたテキストが出力される。

（１６）本態様に係る発話認識装置は、前記ユーザの感情を特定する特定部を備え、前記出力部は、前記特定部にて特定された感情の種別又は強弱に応じて前記テキストの文字色、文字の大きさ、太さ、背景色、又は装飾画像を選択して出力する。

ユーザが声を発さずに、無表情で発話した場合であっても感情を表現した色、大きさ、太さ、動きなどを含むテキストが出力される。文字の入力操作では表現しきれない感情又は想いが載ったテキストでのコミュニケーションが可能になる。

（１７）本態様に係るコンピュータプログラムは、ユーザの発する音声の音声データを予め記憶しておく記憶部を備えるコンピュータに、前記ユーザの口唇の動きを撮像した映像に基づき発話を認識する発話認識部、及び認識された発話のテキストと、前記記憶部に記憶してある音声データとを用いて音声を作成する音声処理部として機能させる。

本態様にあっては、（１）同様にソフトウェア的処理によって、ユーザが声を出さずに口唇だけを動かした場合であっても、映像に基づいてユーザの声で再生される音声が作成される。

（１８）本態様に係るコンピュータプログラムは、ユーザの発する音声の音声データを予め記憶しておく記憶部を備えるコンピュータに、前記ユーザから集音した集音音声を補完して認識する発話認識部、及び、発話認識部により認識された発話のテキストと、前記記憶部に記憶してある音声データとを用いて音声を作成する音声処理部として機能させる。

本態様にあっては、（５）同様にソフトウェア的処理によって、ユーザが小声、又はささやき声で話した場合であっても、これを認識して小声でないユーザの声で再生される音声が作成される。ユーザは音声認識を意識せずに周囲に気を配って小声、ささやき声で話したとしても十分に相手に伝わる。口元を隠して更に小声で話すことで周囲に不快感を生じさせず、通話を行なうことも可能になる。

［本願発明の実施形態の詳細］
本発明の実施形態に係る発話認識装置の具体例を、以下に図面を参照しつつ説明する。なお、本発明は、これらの例示に限定されるものではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

（実施の形態１）
図１は、発話認識装置１の構成を示すブロック図である。発話認識装置１は、所謂スマートフォン等の携帯電話機である。発話認識装置１は、処理部１０、記憶部１１、通信部１２、撮像部１３、表示部１４、操作部１５、音声入力部１６及び音声出力部１７を備える。

処理部１０は、ＣＰＵ（Central Processing Unit ）、ＧＰＵ（Graphics Processing Unit）等のプロセッサと、クロック、内蔵メモリ等を用いる。なお処理部１０は、プロセッサ、クロック、内蔵メモリ、更には記憶部１１及び通信部１２を集積した１つのハードウェア（ＳｏＣ：System On a Chip）として構成されていてもよい。処理部１０は、記憶部１１に記憶してある発話認識プログラム１Ｐに基づき、汎用コンピュータを発話認識装置１として機能させる。

記憶部１１はフラッシュメモリ、ハードディスク、ＳＳＤ（Solid State Disk）等の不揮発性記憶媒体を用いる。記憶部１１には発話認識プログラム１Ｐが記憶されているほか、処理部１０が処理の際に参照する情報を記憶する。記憶部１１には、発話認識装置１のユーザの音声データ１１ａが記憶してある。音声データは、発話認識プログラム１Ｐを用いるにあたって初期的に特定の発話をさせて記憶してもよいし、通話中の発話を逐次記憶したものであってもよい。

通信部１２は、所定の移動通信規格による無線通信モジュールであり、通信事業者が提供する電話網への通信接続を実現する。通信部１２は、Wi-Fi 通信、又は通信事業者が提供する通信網のアクセスポイントへの通信接続が可能な無線通信ユニットを更に備えてもよい。

撮像部１３は、カメラモジュールを用いて得られる映像信号を出力する。処理部１０は、撮像部１３から出力される映像信号を取得して処理することが可能である。

表示部１４は液晶パネル又は有機ＥＬディスプレイ等のディスプレイ装置を用いる。操作部１５は、ユーザの操作を受け付けるインタフェースであり、物理ボタン、ディスプレイ内蔵のタッチパネルデバイス等を用いる。操作部１５は、物理ボタン又はタッチパネルにて表示部１４で表示している画面上で操作を受け付けてもよいし、音声入力部１６にて入力した音声から操作内容を認識して操作を受け付けてもよい。

音声入力部１６は、音声を集音するマイクロフォン及び集音された音声を信号処理する処理部である。音声入力部１６は、集音した音声の音声信号を作成して処理部１０へ出力する。

音声出力部１７は、音声を出力するスピーカである。音声出力部１７は、処理部１０に与えられた音声信号に基づき音声を出力する。実施の形態１では音声出力部１７は、外付けのイヤホンであって有線又は無線により発話認識装置１の本体に接続されていてもよい（図２Ｂ、図２Ｃ参照）。

図２は、発話認識装置１の態様を示す模式図である。図２Ａに示す態様では、所謂スマートフォンである発話認識装置１の矩形平板状の筐体の一短辺側に、音声入力部１６と、撮像部１３とが設けられており、撮像部１３は音声入力部１６に向けて話す話者の口元を撮像することが可能である。スマートフォンは汎用機として撮像部を備えているが、発話認識装置１は別途撮像部１３としてカメラモジュールを用いてもよい。

図２Ｂに示す態様では、発話認識装置１は別途特別なハードウェアを用いることなしに、スマートフォンに既存の撮像部１３を用い、音声出力部１７として本体に接続されているイヤホンを用いる。

図２Ｃに示す態様では、発話認識装置１はマイクロフォン搭載のイヤホンを用いる。図２Ｃに示す例におけるイヤホンは音声出力部１７を有し、ケーブルを介して発話認識装置１の本体に接続されている。イヤホンは、そのケーブルの中途部分に音声入力部１６が内蔵された操作部１５を備えている。操作部１５に更に撮像部１３が設けられている。イヤホンは、操作部１５と本体との間がケーブルレスであってもよい。

図３は、実施の形態１における発話認識装置１の処理部１０の機能の一例を示す機能ブロック図である。処理部１０は発話認識プログラム１Ｐに基づき、発話認識装置１の各構成部を用いて、発話認識部１０１、音声処理部１０２及び発話出力部１０３として機能する。各機能は発話認識プログラム１Ｐに基づきソフトウェア的に実現することは勿論、各機能の一部又は全部は集積回路としてハードウェア的に実現されることが好ましい。

発話認識部１０１は、画像処理部１０１ａ、読唇処理部１０１ｂ、及び言語処理部１０１ｃを含む。画像処理部１０１ａは、撮像部１３から取得する映像信号から取得できる連続するフレーム画像に対して画像処理を行ない各々から口唇部分を抽出し、連続する口唇部分画像として逐次出力する。読唇処理部１０１ｂは、記憶部１１に記憶してある認識パターン等の情報に基づいて画像処理部１０１ａによって抽出された連続する口唇部分画像から特徴量を導出し、発音を示す発音情報（母音及び子音、発音記号、又は文字列）を判別する。言語処理部１０１ｃは、記憶部１１に記憶してある自然言語辞書１１ｃを用い、読唇処理部１０ｂにより判別された一連の発音情報に基づいて自然言語からなるテキストデータを作成して出力する。言語処理部１０１ｃは、発音情報の組み合わせ、及び時系列の並びから尤もらしい文字列を推定出力する。

音声処理部１０２は、発話認識部１０１によって出力された発話を認識したテキストデータと、記憶部１１に記憶してあるユーザの音声データ１１ａを用いて音声信号を作成し、出力する。

発話出力部１０３は、音声処理部１０２によって出力された音声信号を音声出力部１７へ与え、ユーザの発話を認識したフィードバック音声として出力させる。発話出力部１０３は、音声信号を適宜デジタル化して通信部１２によって送信する。

発話出力部１０３は、音声の出力に限らず、撮像部１３で撮像している映像信号、又は記憶部１１に記憶してあるユーザの写真画像若しくはアバター画像を用いて、発話認識部１０１にて認識されたテキストデータに基づくユーザが発話する動作を再現する映像を作成してもよい。発話出力部１０３は、音声処理部１０２にて作成された音声信号と多重化させ、通信部２２から送信する。この場合、ビデオ通話が可能になる。

図４は、発話認識装置１の処理部１０の機能の他の例を示す機能ブロック図である。図３に示した機能との相違点は、発話認識部１０１が深層学習に基づく学習モデルを用いる点である。

図４の例において詳細には、図３の例に対し、読唇処理部１０１ｂが読唇学習モデル１０１ｄに置換される。読唇学習モデル１０１ｄは、画像処理部１０１ａによって抽出された連続する口唇部分画像を入力とし、判別される発音情報を出力するニューラルネットワークである。深層学習を用いて学習することで精度良い判別が可能になる。読唇学習モデル１０１ｄは初期的には一般的な口唇部分画像に基づき学習済みであり、使用によって逐次、ユーザ毎に学習が深められる。

図４の例では、言語処理部１０１ｃが言語学習モデル１０１ｅに置換される。言語学習モデル１０１ｅは、読唇学習モデル１０１ｄから出力される発音情報を入力とし、自然言語（単語、文）を出力するニューラルネットワークである。深層学習を用いて学習することで精度良い判別が可能になる。言語学習モデル１０１ｅは初期的には、話し言葉コーパスを用いて学習済みであり、使用によって逐次、ユーザ毎に学習が深められる。

図４の読唇学習モデル１０１ｄ及び言語学習モデル１０１ｅは一体的に学習されるモデルであってもよい。画像に基づく読唇学習と、言語処理について学習とでは夫々深層学習における適切なパラメータ、フィルタ等が異なる可能性があり、夫々特色を有して研究されている。分別して利用することで夫々を最適化し、高精度な判別及び出力が期待できる。また、各学習モデルは図３の非学習モデルの構成と適宜組み合わせてもよい。

実施の形態１に示した発話認識装置１を携帯電話機として用いることによって、ユーザは声を出さず、口唇のみを動かすことで相手と通話することができる。ユーザは声を出さずとも、発話出力部１０３によって自身の音声データ１１ａに基づく発話データが通信部１２から通話相手へ送信されるから、自然な通話が実現できる。発話出力部１０３によって自身の音声データ１１ａに基づくフィードバック音声を音声出力部１７から聞くことができるので、通話中に自身の発言を認識して自然な会話が可能である。

上述したように実施の形態１では、発話認識装置１の発話認識機能では、汎用機であるスマートフォンが備える表示部１４、操作部１５及び音声入力部１６は使用しなくてよい。音声入力部１６に骨伝導マイクロフォン、又は振動センサを用い、喉元付近の振動を検知して発話認識部１０１の処理に使用してもよい。

読唇処理部１０１ｂ又は読唇学習モデル１０１ｄは、種々の口唇部分画像について、同一の発音情報として出力する場合であっても、口唇の動きの激しさ、大きさによって発話の音量の大小を区別して判別することが好ましい。

画像処理部１０１ａは、フレーム画像中に複数人の顔画像を抽出できる場合には、夫々区別して読唇処理部１０１ｂへ与える。複数のユーザが１つの発話認識装置１を利用すべく撮像部１３の画角に写るようにした使用した場合であっても、各々の口唇の動きから発話を認識するとよい。発話認識装置１に予め音声データ１１ａを記憶させているユーザの顔画像からこれを識別し、識別されたユーザの口唇の動きについては、音声データ１１ａを利用して音声処理部１０２により音声信号を作成する。音声データ１１ａが存在しない他のユーザについては、合成音声を予め記憶部１１に記憶しておき、音声処理部１０２はこれを用いて音声信号を作成してもよい。

実施の形態１では、フィードバック音声を音声出力部１７から聞くことでユーザは、声を出さずとも、自身が話した内容を認識することができた。しかしながらフィードバックは音声に限らず、表示部１４にテキストデータを表示させる構成としてもよい。

（実施の形態２）
図５は、実施の形態２における発話認識装置１の処理部１０の機能の一例を示す機能ブロック図である。実施の形態２における発話認識装置１の構成は、処理部１０の機能以外のハードウェア的構成は、実施の形態１と同様であるから、共通部分には同一の符号を付して詳細な説明を省略する。

処理部１０は発話認識プログラム１Ｐに基づき、発話認識装置１の各構成部を用いて、発話認識部１０１、音声処理部１０２、発話出力部１０３及び感情特定部１０４として機能する。実施の形態２においても各機能は発話認識プログラム１Ｐに基づきソフトウェア的に実現することは勿論、各機能の一部又は全部は集積回路としてハードウェア的に実現されることが好ましい。

感情特定部１０４は、発話認識部１０１によって認識される発話に含まれる話者の感情を特定する。感情特定部１０４は、発話認識部１０１と同様に撮像部１３から取得する映像信号を入力し、並行的に処理を行なって感情を特定する。感情特定部１０４は、画像処理部１０４ａ、及び認識部１０４ｂを含む。画像処理部１０４ａは、撮像部１３から取得する映像信号から取得できるフレーム画像に対して画像処理を行ない各々からユーザの顔、顔内の目、鼻、口等の器官の輪郭、頂点等の特徴量を抽出する。連続するフレーム画像における各器官の動きを示す情報を出力してもよい。認識部１０４ｂは、抽出された特徴量と記憶部１１に記憶してあるパターン等に基づき喜怒哀楽の感情をベクトル表現して出力する。感情は喜怒哀楽のみで表現されるものではなく、悲しみ、驚き、戸惑い等で表されてもよい。喜怒哀楽夫々の度合いによって驚き、悲しみ、戸惑いといった種々の感情として特定されるようにしてもよい。認識部１０４ｂは、顔領域の画像を入力して喜怒哀楽の感情を判別する深層学習による学習モデルに代替されてもよい。

感情特定部１０４は、発話認識部１０１の言語処理部１０１ｃ又は言語学習モデル１０１ｅから出力された発話の口調から話者であるユーザの感情を特定してもよい。感情特定部１０４は、表情から緊張感を定量化して出力するようにしてもよい。

実施の形態２におい音声処理部１０２は、感情特定部１０４にて特定された感情に応じた声色の音声データ１１ａにより音声信号を作成する。音声信号を作成した後に感情に応じて声色を変更する加工を行なってもよい。発話出力部１０３は感情特定部１０４にて特定された感情に応じて音量を調整して音声として出力送信させる。

感情特定部１０４の機能として、画像処理部１０４ａにて表情から直接的に感情を読み取らずに口の動きの激しさから感情を推定してもよい。発話の口調（選択されている言葉）から感情を特定することで、ユーザが周囲を配慮して表情に出さずに口唇のみを動かして発話認識装置１を使用している場合でも、その口調に合わせた音量と声色で通話先にて音声が出力され、感情が伝わる。

（実施の形態３）
図６は、実施の形態３における発話認識装置１の処理部１０の機能の一例を示す機能ブロック図である。実施の形態３における発話認識装置１の構成は、処理部１０の機能の詳細以外は、実施の形態１又は実施の形態２と同様であるから、共通部分には同一の符号を付して詳細な説明を省略する。

処理部１０は発話認識プログラム１Ｐに基づき、発話認識装置１の各構成部を用いて、発話認識部１０５、音声処理部１０２、発話出力部１０３、感情特定部１０６及びキャンセル音作成部１０９として機能する。実施の形態３においても各機能は発話認識プログラム１Ｐに基づきソフトウェア的に実現することは勿論、各機能の一部又は全部は集積回路としてハードウェア的に実現されることが好ましい。

実施の形態３では発話認識部１０５は、音声認識部１０５ａ及び言語処理部１０５ｂを含む。音声認識部１０５ａは、音声入力部１６から出力される集音音声に対して記憶部１１に記憶してある認識パターン等の情報に基づいて音声認識し、テキストデータとして出力する。言語処理部１０５ｂは、不鮮明な音声に対して認識されたテキストデータを用い、記憶部１１に記憶してある自然言語辞書１１ｃを用いて音声を補完するようにして発話を推定認識する機能を強化したものである。これにより実施の形態３の発話認識部１０５は小声、ささやき声から発話を認識することができる。

実施の形態３では感情特定部１０６は、音声入力部１６にて集音された信号の音量の大小を参照し、小声又はささやき声であってもその音量の変動から語気の強弱を判別しつつ感情を特定するとよい。感情特定部１０６は、声の震えなどから緊張感を定量化して出力するようにしてもよい。感情特定部１０６は、特定した感情、語気の強弱の判別結果を音声処理部１０２へ出力する。

音声処理部１０２は、発話認識部１０５によって出力された発話を認識したテキストデータと、記憶部１１に記憶してあるユーザの音声データ１１ａを用いて音声信号を作成し、出力する。ユーザの音声データ１１ａは、小声、ささやき声ではない。音声処理部１０２は、感情特定部１０６から出力された感情及び語気の判別結果に応じて音量、破裂音等を調整した音声信号を作成する。

発話出力部１０３は、音声処理部１０２から出力された音声信号をデジタル化して通信部１２により送信する。発話出力部１０３は、音声入力部１６にて集音された音声信号をそのままフィードバック音声として音声出力部１７へ与える。これにより、話者は違和感なく小声、ささやき声のまま話し続けることができる。

キャンセル音作成部１０９は、ユーザが発する声をキャンセルさせる音声を作成する。キャンセル音作成部１０９は、図６に示すように、音声入力部１６から出力される音声信号、即ち集音された音声の位相を逆転させたキャンセル音を作成し、ユーザへのフィードバック音声を出力させる音声出力部１７とは別に設けられた音声出力部１８へ出力する。音声出力部１８は、例えば表示部１４の表示面全体をスピーカとして用いるものであってもよいし、発話認識装置１の筐体の表示部１４と反対側の面に外向けに設けられたスピーカであってもよい。キャンセル音作成部１０９は、音声入力部１６にて入力した音声をキャンセルするキャンセル音のみならず、超音波、ノイズ音、又は周囲にとって不快感を生じさせないような音楽を、ユーザの発話を消失させる音として作成してもよい。

図７は、学習モデルを用いた処理部１０の機能を示す機能ブロック図である。図６に示した機能との相違点は、音声認識部１０５ａが音声認識モデル１０５ｃ、言語処理部１０５ｂが言語学習モデル１０５ｄに置換されている点である。

音声認識モデル１０５ｃは、音声入力部１６から出力される音声信号を時系列にサンプリングした波形を逐次入力とし、判別される発音情報を出力するニューラルネットワークである。言語学習モデル１０５ｄは、音声認識モデル１０５ｃから出力される判別された発音情報を入力とし、自然言語（単語、文）を出力するニューラルネットワークである。音声認識モデル１０５ｃは予め学習済みのモデルをユーザの実際の発声によって学習を深めたものであるとよい。また言語学習モデル１０５ｄは初期的には、予め話し言葉コーパスを用いて学習済みであり、使用によって逐次、ユーザ毎に学習が深められる。音声認識モデル１０５ｃ及び言語学習モデル１０５ｄはまとめて１つの音声認識モデル１０５ｃとして、音声信号のサンプリング波形を入力として自然言語を出力するモデルとして学習されてもよい。いずれの場合もユーザの使用毎に学習が深められるとよい。

実施の形態３に示した発話認識装置１を携帯電話機として用いることによって、ユーザは小声、ささやき声で話すことで相手と通話することができる。ユーザは周囲に聞こえないような小声、ささやき声で話したとしても、発話出力部１０３によって自身の音声データ１１ａに基づく発話データが通信部１２から通話相手へ送信される。通話相手は、自然にユーザの声を聞くことができ、自然な通話が実現できる。ユーザの感情に応じた音量、声色で通話相手に向けて出力されるので、小声、ささやき声で話したままでも通話相手に伝わり易い。

実施の形態３の音声処理に基づく発話認識部１０５の構成は、実施の形態１及び２の画像処理に基づく発話認識部１０１の機能と適宜組み合わせることができる。組み合わせにより高精度に発話が認識され、語気、感情の伝達も適切となり得る。

（実施の形態４）
図８は、実施の形態４における発話認識装置１の処理部１０の機能の一例を示す機能ブロック図である。実施の形態４における処理部１０の機能は、認証部１０７が備えられている点以外、実施の形態１と同様である。実施の形態１と同様であるから、共通部分には同一の符号を付して詳細な説明を省略する。

認証部１０７は、ユーザのなりすましを防ぐため、撮像部１３から取得する映像信号から取得できるフレーム画像に写っている人物が正当なユーザであるか否かを判定する。認証部１０７は例えば、フレーム画像から抽出される顔領域から得られる特徴量と、発話認識装置１を使用する正当なユーザの顔画像の特徴量として予め記憶部１１に記憶してある特徴量とを照合することによって正当か否かを判定する。認証部１０７により不当なユーザであると判定された場合、処理部１０は発話認識部１０１、音声処理部１０２及び発話出力部１０３としての機能を停止する。

認証部１０７は、画像処理のみならず、音声入力部１６から出力される音声信号に基づき、発話している人物が正当なユーザであるか否かを判定することもできる。この場合、認証部１０７は、音声信号から抽出される特徴量と、発話認識装置１を使用する正当なユーザの声の特徴量として予め記憶部１１に記憶してある特徴量とを照合することによって正当か否かを判定する。

認証部１０７は、実施の形態１から３の発話認識装置１にも適用することが可能である。認証部１０７を用いることにより、発話認識装置１を使用する場合には、声を出さずとも通話相手と通話が可能であるところ、なりすましを防ぐことが可能になる。

（実施の形態５）
実施の形態１から４に示した発話認識装置１は、携帯電話機として使用するのみならず、発話をテキスト又は画像へ変換し、変換したテキスト又は画像を用いたコミュニケーションツールとして使用することも可能である。実施の形態５では、発話認識装置１を用いたコミュニケーションシステム１００を例に挙げて説明する。

図９は、コミュニケーションシステム１００の構成を示すブロック図である。コミュニケーションシステム１００は、複数の端末装置２及びサーバ装置３を含む。複数の端末装置２とサーバ装置３とは、ネットワークＮを介して通信が可能である。複数の端末装置２は、１対１でのネットワークＮを介した音声通話か、又は複数の端末装置２間でのテキスト若しくは画像に基づく対話が可能である。

端末装置２は所謂スマートフォン等の携帯電話機であって実施の形態１から４に示した発話認識装置１と同様の汎用機である。端末装置２は、処理部２０、記憶部２１、通信部２２、撮像部２３、表示部２４、操作部２５、音声入力部２６及び音声出力部２７を備える。

端末装置２のハードウェア構成は、実施の形態１から４に示した発話認識装置１と同様である。対応する符号を付して詳細な説明を省略する。端末装置２の記憶部２１には、発話認識プログラム１Ｐをモジュールとして含み、他の端末装置２との間で対話を実現する端末アプリプログラム２Ｐが記憶されている。

サーバ装置３は、処理部３０、記憶部３１、及び通信部３２を備える。処理部３０はＣＰＵ、ＧＰＵ等のプロセッサを用い、記憶部３１に記憶されているサーバプログラム３Ｐに基づいた各処理を実行し、汎用コンピュータをコミュニケーションシステム１００のサーバ装置３として機能させる。

記憶部３１は、ハードディスク又はフラッシュメモリ等の不揮発性記憶媒体を用いる。記憶部３１は、サーバプログラム３Ｐのほか、処理部３０が処理の際に参照する情報を記憶する。

通信部３２は、ネットワークカード又は無線通信デバイスを用い、ネットワークＮへの通信接続を実現する。サーバ装置３は通信部３２によりネットワークＮを介した通信接続を実現する。２つの端末装置２間で通話が行なわれる場合は、端末装置２間でセッションを確立させ、音声データの送受信を実現する。複数の端末装置２間での対話を行なうに際しては、サーバ装置３にて各端末装置２からデータを受信し、送信元を区別して時系列に記憶し、各端末装置２から要求されるとそれらのデータを送信する。端末装置２とのデータの送受信は、暗号化処理等により安全に実行される。

ネットワークＮは、所謂インターネットである公衆網、通信キャリアネットワーク、及びコミュニケーションシステム１００を実現する事業者の事業者ネットワーク、それらへの接続拠点である基地局ＢＳ、アクセスポイントＡＰ等を含む総称である。なおサーバ装置３は事業者ネットワークからネットワークＮへ接続している。

図１０は、実施の形態５における端末装置２の処理部２０の機能の一例を示す機能ブロック図である。処理部２０は、端末アプリプログラム２Ｐに基づき、各構成部を用いて、発話認識部２０１、音声処理部２０２、発話出力部２０３、感情特定部２０４、及びテキスト処理部２０８として機能する。

発話認識部２０１、音声処理部２０２、発話出力部２０３、及び感情特定部２０４の機能は、実施の形態１及び２にて説明した発話認識装置１の処理部１０の機能と同様であるから対応する符号を付して詳細な説明を省略する。

テキスト処理部２０８は、発話認識部２０１から出力される発話を認識したテキストデータを通信部２２へ出力してサーバ装置３向けに送信する。実施の形態５にてテキスト処理部２０８は、感情特定部２０４で特定された感情、語気の強弱の判別結果を加味してテキストの色、大きさ、アニメーション化した動き、装飾を施す処理を行なう。例えばテキスト処理部２０８は、特定された感情が「喜」である場合にはテキストの色を暖色系に設定したり、弾むようなアニメーション文字を設定したりする。またテキスト処理部２０８は、語気が強い場合はテキストを初期設定よりも大きくしたり、太くしたりする。テキスト処理部２０８は、特定された感情が「喜」である場合には、文字を表示させる吹き出し画像の色を暖色にしたり、吹き出し画像を弾むようなアニメーション画像に設定したりしてもよい。テキスト処理部２０８は、「喜」のみならず、「怒・哀・楽」等の感情又は語気の判別結果に応じた色、大きさ、画像を示すメタデータを、テキストデータと共に出力する。

テキスト処理部２０８は、発話認識部２０１から出力される発話を認識したテキストデータに加え、操作部２５にてテキスト入力操作を受け付けるとよい。発話認識部２０１にて認識されたテキストデータの修正を可能としてもよい。言語処理部２０１ｃで深層学習を実施する態様とする場合、修正された場合に修正結果を教師データとして学習モデルを更新してもよい。

テキスト処理部２０８はまた、サーバ装置３から送信される対話相手からの発話を認識したテキストデータを通信部２２にて受信すると、これを共に送信されるメタデータ（画像を含んでもよい）に基づき色、大きさ、アニメーション画像を設定して表示部２４に表示させる。テキスト処理部２０８は、通信部２２を介してサーバ装置３向けに送信するのみならず、自装置を使用しているユーザの発話については直接的に表示部２４に表示してもよい。

発話認識部２０１は小声、ささやき声などの音声に基づく認識を行なう実施の形態３における発話認識部１０５と同様の構成を有する発話認識部２０５に代替されてもよい。図１１は、実施の形態５における端末装置２の処理部２０の機能の他の一例を示す機能ブロック図である。図１１では、発話認識部２０５は音声入力部２６から出力された音声信号により発話を認識する音声認識部２０５ａ及び音声認識部２０５ａによって認識されて出力されるテキストデータを補完しながら発話を推定認識する言語処理部２０５ｂを含む。この場合、処理部２０は、音声入力部２６にて集音された信号の音量の大小を参照し、小声又はささやき声であってもその音量の変動から語気の強弱を判別しつつ感情を特定する感情特定部２０６としても機能する。

実施の形態５において端末装置２は、図１０及び図１１に示した機能を全て有し、口の動きのみでの発話を用いるか、小声、ささやき声の音声認識による発話を用いるかを選択できるようにしてもよいし、両者を併せて用いてもよい。

このように構成される端末装置２の処理部２０は、端末アプリプログラム２Ｐに基づいて、他の端末装置２とのコミュニケーションを実現する。図１２は、端末アプリプログラム２Ｐに基づく処理部２０の処理手順の一例を示すフローチャートである。処理部２０は端末アプリプログラム２Ｐの起動を操作部２５により受け付けると以下の処理を開始する。

処理部２０は、メニュー画面を表示し（ステップＳ２０１）、通話又は対話の相手の選択を受け付ける（ステップＳ２０２）。処理部２０は、ステップＳ２０２で選択された相手に対して音声による通話を行なうか、テキスト又は画像によるコミュニケーションを行なうかの選択を受け付ける（ステップＳ２０３）。音声通話の選択を受け付けた場合（Ｓ２０３：音声）、処理部２０は撮像部２３からの映像信号に基づき発話認識部２０１にて認識した発話のデータを音声処理部２０２へ渡し、音声処理部２０２及び発話出力部２０３の機能による通話を開始する（ステップＳ２０４）。音声入力部２６からの音声信号に基づく発話認識部２０５による処理でもよい。そして処理部２０は、通話中に発話認識部２０１で認識した発話のテキストデータを表示させる（ステップＳ２０５）。ステップＳ２０５は必須ではない。

処理部２０は、操作部２５により終了操作がされたか否かを判断し（ステップＳ２０６）、終了操作がされたと判断された場合（Ｓ２０６：ＹＥＳ）、発話認識部２０１、音声処理部２０２０及び発話出力部２０３の動作を終了する。終了操作がされていないと判断された場合（Ｓ２０６：ＮＯ）、処理部２０は処理をステップＳ２０６へ戻して処理を継続する。

ステップＳ２０３にてテキスト又は画像によるコミュニケーションを行なう選択を受け付けた場合（Ｓ２０３：テキスト）、処理部２０は撮像部２３からの映像信号に基づき発話認識部２０１にて認識した発話のデータをテキスト処理部２０８へ渡し、テキスト又は画像等による対話を開始する（ステップＳ２０７）。処理部２０はステップＳ２０６へ処理を進める。

図１３から図１６は、端末アプリプログラム２Ｐに基づく画面例を示す図である。図１３は、表示部２４に表示されるアプリ画面４０１の一例を示す。アプリ画面４０１には、選択画面４０２が含まれている。選択画面４０２では、音声通話を行なうのかテキスト等によるコミュニケーションを行なうのかの選択（Ｓ２０３）を受け付ける。

図１４は、音声通話が選択された場合の通話中画面４０３の一例を示している。図１４に示すように、通話中画面４０３には通話相手を示す画像（写真画像又はアバター画像）が表示される。ビデオ通話である場合には、撮像画像即ちライブ映像であってもよい。図１４に示すように、通話中画面４０３には、テキスト処理部２０８によりユーザ自身の発話を認識したテキストデータが表示する認識結果画面４０４が含まれている。通話中画面４０３に表示されるテキストデータも感情に応じた色、大きさ、アニメーション画像にて表示されてもよい。

図１５は、テキスト等によるコミュニケーションが選択された場合の対話画面４０５の一例を示している。所謂メッセージアプリ同様に、発話を認識したテキストデータが文単位、単語単位等、認識単位毎に吹き出し画像４０６中に表示されている。図１５に示すように、対話画面４０５に表示されるテキスト又は吹き出し画像４０６は、感情特定部２０４（２０６）にて特定された感情に応じた色、大きさ、又はアニメーション画像と共に表示されている。図１５に示す例では、「戸惑い」、「驚き」、及び「喜」が吹き出し画像４０６にて表されている。また、語気の強弱、口唇の動きの激しさ又は音量の大小に応じてテキストの大きさ、太さが表されている。

端末装置２は、図１０及び図１１に示した機能を全て有して口の動きのみでの発話を用いるか、小声、ささやき声の音声認識とするかの選択が可能である場合には、ステップＳ２０４又はステップＳ２０６の処理の前に、選択画面を表示して選択を受け付けてもよい。図１６は、選択画面４０７の内容例を示している。選択画面４０７には図１６に示すように、ユーザは口唇のみ即ち「口パク」にて発話するか、「小声」で発話するかを選択することができる。

このようにコミュニケーションシステム１００では、発話認識部２０１の機能を用い、ユーザが声を出さずとも、又は出したとしても小声、ささやき声であっても、発話を認識したテキストを用いて相手とコミュニケーションを行なうことができる。操作部２５を用いてテキストを入力する操作を行なわずに、口唇の動き、ささやき声、表情などから認識されたユーザの発話による新たなコミュニケーションツールを実現することも可能である。

実施の形態５において端末装置５の処理部２０は、発話認識部２０１にて認識した発話の口調、言葉遣い、感情特定部２０４で特定した感情から、通話又はテキストによる対話の相手との関係性を学習する関係性学習部２０９として機能してもよい。関係性を学習する関係性学習部２０９に基づき、言語処理部２０１ｃは語気又は口調に応じて丁寧語の有無を選択的に使用することができる。図１７は、関係性学習部２０９の機能を示す機能ブロック図である。関係性学習部２０９は、予め話し言葉コーパスに基づき関係性（友人、仕事、家族等）を学習しておいて発話データからこれを判別する。関係性学習部２０９は、感情特定部２０４で特定した感情を加味して学習してもよい。関係性学習部２０９は、深層学習を用いて学習モデルを作成し、通話、対話を行なう都度に学習を深めてもよい。関係性学習部２０９での学習に基づき、音声処理部２０２にて声色を変動させてもよい。関係性学習部２０９での学習に基づき、テキスト処理部２０８での出力形態を、関係性に応じた形態とすることもできる。

（変形例）
実施の形態５では、コミュニケーションシステム１００を例に挙げて説明した。端末装置２は、自身の発話をメモする装置として使用することも可能である。変形例における端末装置２の構成は、実施の形態５の構成と同様である。通話又は対話の相手が存在しないのみである。図１８は、変形例における画面例を示す図である。図１８には、ユーザの口唇の動き、又は小声若しくはささやき声に対する発話の認識結果をテキスト処理部２０８が表示部２４に出力しているメモ画面４０８が示されている。吹き出し画像４０６上に、ユーザの発話を認識したテキストが表示されている。ユーザは独り言のようにして音声メモをとるに際し、声を発することなくテキストメモを取ることができる。声を発する必要がないのでメモの内容が漏洩することを回避しつつ、また操作部２５の操作の煩わしさを低減し、思いついた言葉を即座にテキスト化することができる。

このように、発話認識装置１の機能により、話者の周囲への音漏れを最低限にし、更に、ユーザの発話動作に基づく多様なコミュニケーション実現することが可能である。

１発話認識装置
１０，２０処理部
１１，２１記憶部
１１ａ，２１ａ音声データ
１１ｃ，２１ｃ自然言語辞書
１２，２２通信部
１３，２３撮像部
１４，２４表示部
１５，２５操作部
１６，２６音声入力部
１７，２７音声出力部
１Ｐ発話認識プログラム
２Ｐ端末アプリプログラム
１０１，２０１発話認識部
１０１ａ，２０１ａ画像処理部
１０１ｂ，２０１ｂ読唇処理部
１０１ｃ，２０１ｃ言語処理部
１０１ｄ読唇学習モデル
１０１ｅ言語学習モデル
１０２，２０２音声処理部
１０３，２０３発話出力部
１０４，１０６，２０４，２０６感情特定部
１０４ａ，２０４ａ画像処理部
１０４ｂ，２０４ｂ認識部
１０５，２０５発話認識部
１０５ａ，２０５ａ音声認識部
１０５ｂ，２０５ｂ言語処理部
１０５ｃ音声認識モデル
１０５ｄ言語学習モデル
１０７認証部
１０９キャンセル音作成部
２０８テキスト処理部
２０９関係性学習部
３サーバ装置
３０処理部
３１記憶部
３Ｐサーバプログラム
３２通信部
４０１アプリ画面
４０２選択画面
４０３通話中画面
４０４認識結果画面
４０５対話画面
４０６吹き出し画像
４０７選択画面
４０８メモ画面
Ｎネットワーク
ＡＰアクセスポイント
ＢＳ基地局

Claims

ユーザの発する音声の音声データを予め記憶しておく記憶部と、
前記ユーザの口唇の動きを撮像した映像に基づき発話を認識する発話認識部と、
発話認識部により認識された発話のテキストと、前記記憶部に記憶してある音声データとを用いて音声を作成する音声処理部と
を備える発話認識装置。
前記発話認識部は、
前記映像から前記ユーザの顔の口唇部分の部分画像を連続して抽出する画像処理部と、
抽出された連続する部分画像から前記ユーザから発せられた発音を示す発音情報を判別する読唇処理部と、
判別された一連の発音情報に基づき自然言語からなるテキストデータを作成する言語処理部と
を備える請求項１に記載の発話認識装置。
前記読唇処理部は、前記ユーザの口唇部分の部分画像を入力とし、発音情報の判別結果を出力とする発音学習モデルに基づき判別する
請求項２に記載の発話認識装置。
前記言語処理部は、一連の発音情報を入力とし、入力された発音情報に他の発音情報を補完して自然言語を推定出力する言語学習モデルを用いてテキストデータを作成する
請求項２又は請求項３に記載の発話認識装置。
ユーザの発する音声の音声データを予め記憶しておく記憶部と、
前記ユーザから集音した集音音声を補完して認識する発話認識部と、
発話認識部により認識された発話のテキストと、前記記憶部に記憶してある音声データとを用いて音声を作成する音声処理部と
を備える発話認識装置。
前記発話認識部は、
前記集音音声に対して音声認識を行ない一連の発音情報、又はテキストとして出力する音声認識部と、
該音声認識部から出力された一連の発音情報、又はテキスト、及び、自然言語を記憶してある自然言語辞書を用いて自然言語からなるテキストを推定出力する言語処理部と
を備える請求項５に記載の発話認識装置。
前記言語処理部は、一連の発音情報又はテキストを入力とし、他の発音情報又は文字を補完して自然言語を推定出力する言語学習モデルを用いてテキストデータを作成する
請求項６に記載の発話認識装置。
前記音声処理部によって作成された音声を前記ユーザへ向けて出力する音声出力部を備える
請求項１から請求項７のいずれか一項に記載の発話認識装置。
前記ユーザの感情を特定する特定部を備え、
前記音声処理部は、前記特定部にて特定された感情の種別又は強弱に応じて音量、又は声色を変動させて音声を作成する
請求項１から請求項８のいずれか一項に記載の発話認識装置。
前記発話認識部にて認識された発話のテキストの言葉遣いから、語気又は口調を判別する判別部を備え、
前記音声処理部は、前記判別部が判別した語気又は口調に応じて音量、又は声色を変動させて音声を作成する
請求項１から請求項８のいずれか一項に記載の発話認識装置。
前記発話認識部にて認識された発話のテキストの言葉遣いから、発話の相手との関係性を判別する判別部を備え、
前記音声処理部は、前記判別部が判別した関係性に応じて丁寧語の有無、又は声色を変動させて音声を作成する
請求項１から請求項８のいずれか一項に記載の発話認識装置。
ユーザの口唇の動きを撮像した映像に基づき発話を認識する発話認識部と、
該発話認識部により認識された発話のテキストを前記ユーザへ向けて出力する出力部と
を備える発話認識装置。
前記発話認識部は、前記ユーザの映像を入力とし、発話のテキストを出力とする学習モデルに基づき判別する
請求項１２に記載の発話認識装置。
ユーザから集音した集音音声を補完して認識する発話認識部と、
該発話認識部により認識された発話のテキストを前記ユーザへ向けて出力する出力部と
を備える発話認識装置。
前記発話認識部は、前記ユーザの集音音声を入力とし、発話のテキストを出力とする学習モデルに基づき判別する
請求項１４に記載の発話認識装置。
前記ユーザの感情を特定する特定部を備え、
前記出力部は、前記特定部にて特定された感情の種別又は強弱に応じて前記テキストの文字色、文字の大きさ、太さ、背景色、又は装飾画像を選択して出力する
請求項１２から請求項１５のいずれか一項に記載の発話認識装置。
ユーザの発する音声の音声データを予め記憶しておく記憶部を備えるコンピュータに、
前記ユーザの口唇の動きを撮像した映像に基づき発話を認識する発話認識部、及び
認識された発話のテキストと、前記記憶部に記憶してある音声データとを用いて音声を作成する音声処理部
として機能させるコンピュータプログラム。
ユーザの発する音声の音声データを予め記憶しておく記憶部を備えるコンピュータに、
前記ユーザから集音した集音音声を補完して認識する発話認識部、及び、
発話認識部により認識された発話のテキストと、前記記憶部に記憶してある音声データとを用いて音声を作成する音声処理部
として機能させるコンピュータプログラム。