JP2019208138A - 発話認識装置、及びコンピュータプログラム - Google Patents

発話認識装置、及びコンピュータプログラム Download PDF

Info

Publication number
JP2019208138A
JP2019208138A JP2018102621A JP2018102621A JP2019208138A JP 2019208138 A JP2019208138 A JP 2019208138A JP 2018102621 A JP2018102621 A JP 2018102621A JP 2018102621 A JP2018102621 A JP 2018102621A JP 2019208138 A JP2019208138 A JP 2019208138A
Authority
JP
Japan
Prior art keywords
unit
utterance
voice
user
processing unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018102621A
Other languages
English (en)
Inventor
康 野村
Yasushi Nomura
康 野村
柿井 俊昭
Toshiaki Kakii
俊昭 柿井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sumitomo Electric Industries Ltd
Original Assignee
Sumitomo Electric Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sumitomo Electric Industries Ltd filed Critical Sumitomo Electric Industries Ltd
Priority to JP2018102621A priority Critical patent/JP2019208138A/ja
Publication of JP2019208138A publication Critical patent/JP2019208138A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】話者の周囲への音漏れを最低限にし、更に、ユーザの発話動作に基づく多様なコミュニケーション実現する発話認識装置、及びコンピュータプログラムを提供する。【解決手段】発話認識装置は、ユーザの発する音声の音声データを予め記憶しておく記憶部と、前記ユーザの口唇の動きを撮像した映像に基づき発話を認識する発話認識部と、発話認識部により認識された発話のテキストと、前記記憶部に記憶してある音声データとを用いて音声を作成する音声処理部とを備える。【選択図】図3

Description

本発明は、発話認識装置、及びコンピュータプログラムに関する。
携帯電話機を用いてどのような場所でも通話が可能である。携帯電話機は本体にマイクロフォンを備えるが、マイクロフォンが搭載されたイヤホンが普及しており、このイヤホンを本体に有線又は無線で接続することで本体を用いずにイヤホンをインタフェースとして通話することも可能である。本体を用いて通話する場合も、マイクロフォン搭載イヤホンをインタフェースとして通話する場合も、話者は周囲にも聞こえるように話す必要がある。したがって携帯電話機を用いた通話が周囲に対して迷惑であるのみならず、会話の内容が漏洩することにもなる。
特許文献1及び特許文献2には、携帯電話機での通話について音声が外部へ拡散してするための技術が提案されている。特許文献1には、ヘッドギアを用いて音漏れを防止する方法が開示されている。特許文献2では、ヘッドギアを用いる対策では携帯性が劇的に悪化するため、マイクロフォンで集音した話者からの音声を相殺する相殺音を生成して周囲へ向けて出力する携帯電話機が開示されている。
特開平10−155144号公報 特開2006−166300号公報
特許文献2に開示されている携帯電話機では、周囲への音漏れが相殺されることが期待される。しかしながらこの携帯電話機を実現するためには、周囲の全方向に向けて相殺音を発する外向けの高性能なスピーカが必要になる。通常の通話では不要であるから、特別なスピーカの利用はコストを要し実現性が低い。また、話者自身も自身の発声を聞き取りづらくなる可能性があり、通話にストレスが掛かる。
本願は、話者の周囲への音漏れを最低限にし、更に、ユーザの発話動作に基づく多様なコミュニケーション実現する発話認識装置、及びコンピュータプログラムを提供することを目的とする。
本開示に係る発話認識装置は、ユーザの発する音声の音声データを予め記憶しておく記憶部と、前記ユーザの口唇の動きを撮像した映像に基づき発話を認識する発話認識部と、発話認識部により認識された発話のテキストと、前記記憶部に記憶してある音声データとを用いて音声を作成する音声処理部とを備える。
本開示に係る発話認識装置は、ユーザの発する音声の音声データを予め記憶しておく記憶部と、前記ユーザから集音した集音音声を補完して認識する発話認識部と、発話認識部により認識された発話のテキストと、前記記憶部に記憶してある音声データとを用いて音声を作成する音声処理部とを備える。
なお、本願は、このような特徴的な処理部を備える発話認識装置として実現することができるだけでなく、発話認識装置の一部又は全部を実現する半導体集積回路として実現したり、発話認識装置を含む通話システム、その他のシステムとして実現したりすることができる。
上記によれば、話者の周囲への音漏れを最低限にし、更に、ユーザの発話動作に基づく多様なコミュニケーション実現することができる。
発話認識装置の構成を示すブロック図である。 発話認識装置の態様を示す模式図である。 実施の形態1における発話認識装置の処理部の機能の一例を示す機能ブロック図である。 発話認識装置の処理部の機能の他の例を示す機能ブロック図である。 実施の形態2における発話認識装置の処理部の機能の一例を示す機能ブロック図である。 実施の形態3における発話認識装置の処理部の機能の一例を示す機能ブロック図である。 学習モデルを用いた処理部の機能を示す機能ブロック図である。 実施の形態4における発話認識装置の処理部の機能の一例を示す機能ブロック図である。 コミュニケーションシステムの構成を示すブロック図である。 実施の形態5における端末装置の処理部の機能の一例を示す機能ブロック図である。 実施の形態5における端末装置の処理部の機能の他の一例を示す機能ブロック図である。 端末アプリプログラムに基づく処理部の処理手順の一例を示すフローチャートである。 端末アプリプログラムに基づく画面例を示す図である。 端末アプリプログラムに基づく画面例を示す図である。 端末アプリプログラムに基づく画面例を示す図である。 端末アプリプログラムに基づく画面例を示す図である。 関係性学習部の機能を示す機能ブロック図である。 変形例における画面例を示す図である。
[本発明の実施形態の説明]
最初に本発明の実施態様を列記して説明する。また、以下に記載する実施形態の少なくとも一部を任意に組み合わせてもよい。
(1)本態様に係る発話認識装置は、ユーザの発する音声の音声データを予め記憶しておく記憶部と、前記ユーザの口唇の動きを撮像した映像に基づき発話を認識する発話認識部と、発話認識部により認識された発話のテキストと、前記記憶部に記憶してある音声データとを用いて音声を作成する音声処理部とを備える。
発話認識部は、ユーザの口唇の動きから発話を認識する。映像から認識するので、声が発せられておらずともよい。
音声処理部は、声が発せられていない場合に認識されたテキストを、予め記憶しておいたユーザの声で話す音声を作成する。作成された音声は、ユーザ自身に向けて出力されてもよいし、通話相手へ向けて送信されてもよい。
本態様にあっては、ユーザが声を出さずに口唇だけを動かした場合であっても、ユーザの声で再生される音声が作成される。
(2)本態様に係る発話認識装置は、前記発話認識部は、前記映像から前記ユーザの顔の口唇部分の部分画像を連続して抽出する画像処理部と、抽出された連続する部分画像から前記ユーザから発せられた発音を示す発音情報を判別する読唇処理部と、判別された一連の発音情報に基づき自然言語からなるテキストデータを作成する言語処理部とを備える。
本態様にあっては映像に基づく発話認識を、画像処理部にて映像から抽出される連続するフレーム画像の内、口唇部分を抽出した口唇部分画像から実施する。
読唇処理部は、連続する口唇部分画像から、パターン認識等によって発音情報を判別するとよい。発音情報は、母音及び子音の並びであるか、又は発音記号である。又は発音を示す文字列(日本語であればカタカナ、英語であればアルファベット等)であってもよい。
言語処理部は、判別された連続する発音情報の並びから、尤もらしい文字列を推定出力する。自然言語の辞書を用いてもよいし、学習モデル等を用いてもよい。
(3)本態様に係る発話認識装置は、前記読唇処理部は、前記ユーザの口唇部分の部分画像を入力とし、発音情報の判別結果を出力とする発音学習モデルに基づき判別する。
本態様にあっては、口唇部分の部分画像を入力した場合に、発音情報の判別結果を出力するニューラルネットワークを作成する等、深層学習を用いた学習モデルにより判別されるとよい。
(4)本態様に係る発話認識装置は、前記言語処理部は、一連の発音情報を入力とし、入力された発音情報に他の発音情報を補完して自然言語を推定出力する言語学習モデルを用いてテキストデータを作成する。
本態様にあっては、読唇処理部は、画像を入力として判別結果を出力する学習モデルと、発音情報を入力として自然言語を出力する学習モデルとを夫々分別して用いる。夫々の学習モデルで最適化されることで高精度な認識が達成される。
(5)本態様に係る発話認識装置は、ユーザの発する音声の音声データを予め記憶しておく記憶部と、前記ユーザから集音した集音音声を補完して認識する発話認識部と、発話認識部により認識された発話のテキストと、前記記憶部に記憶してある音声データとを用いて音声を作成する音声処理部とを備える。
発話認識部は、ユーザの小声、ささやき声から発話を認識する。小声、ささやき声であることを前提に言葉が補完されて認識される。
音声処理部は、小声又はささやき声で話された声に基づいてテキストとして認識されたユーザの声を、予め記憶しておいたユーザの声で話す音声として作成し直す。作成された音声は、ユーザ自身に向けて出力されてもよいし、通話相手へ向けて送信されてもよい。
本態様にあっては、ユーザが小声、又はささやき声で話した場合であっても、小声でないユーザの声で再生される音声が作成される。ユーザは音声認識を意識せずに周囲に気を配って小声、ささやき声で話したとしても十分に相手に伝わる。口元を隠して更に小声で話すことで周囲に不快感を生じさせず、通話を行なうことも可能になる。
(6)本態様に係る発話認識装置は、前記発話認識部は、前記集音音声に対して音声認識を行ない一連の発音情報、又はテキストとして出力する音声認識部と、該音声認識部から出力された一連の発音情報、又はテキスト、及び、自然言語を記憶してある自然言語辞書を用いて自然言語からなるテキストを推定出力する言語処理部とを備える。
本態様にあっては、途切れているか又は不鮮明な声から認識されたテキストから、自然言語辞書を用いて自然言語からなるテキストが推定出力される。
(7)本態様に係る発話認識装置は、前記言語処理部は、一連の発音情報又はテキストを入力とし、他の発音情報又は文字を補完して自然言語を推定出力する言語学習モデルを用いてテキストデータを作成する。
本態様にあっては、途切れているか又は不鮮明な声から認識されたテキストから、自然な言葉を推定出力するニューラルネットワーク等を用いた学習モデルにより、補完されたテキストが出力されるとよい。
(8)本態様に係る発話認識装置は、前記音声処理部によって作成された音声を前記ユーザへ向けて出力する音声出力部を備える。
本態様にあっては、認識された発話から作成された音声は、ユーザに向けてフィードバック音声として出力される。これによりユーザは、自身の発した言葉を認識することができ、声を発さずとも小声で話しても、相手に伝わる音声を認識して通話することができる。
(9)本態様に係る発話認識装置は、前記ユーザの感情を特定する特定部を備え、前記音声処理部は、前記特定部にて特定された感情の種別又は強弱に応じて音量、又は声色を変動させて音声を作成する。
本態様にあっては、特定部は発話者であるユーザの感情を特定する。特定部は、ユーザの表情を写した映像から感情を特定してもよいし、ユーザから発せられた小声、ささやき声の波形等から感情を特定してもよい。ユーザの感情の特定は、深層学習を用いた学習モデルに基づいて実施してもよい。
ユーザが声を発さずに、無表情で発話した場合であっても感情を載せた自然な音声を出力することができる。
(10)本態様に係る発話認識装置は、前記発話認識部にて認識された発話のテキストの言葉遣いから、語気又は口調を判別する判別部を備え、前記音声処理部は、前記判別部が判別した語気又は口調に応じて音量、又は声色を変動させて音声を作成する。
ユーザが声を発さずに、又は小声、ささやき声で発話した場合であっても、ユーザの意図する語気又は口調が載せられた音声を出力することができる。
(11)本態様に係る発話認識装置は、前記発話認識部にて認識された発話のテキストの言葉遣いから、発話の相手との関係性を判別する判別部を備え、前記音声処理部は、前記判別部が判別した関係性に応じて丁寧語の有無、又は声色を変動させて音声を作成する。
ユーザが声を発さずに、又は小声、ささやき声で発話した場合であっても、発話の相手との関係性に応じた語気又は口調、声色での音声を出力することができる。
(12)本態様に係る発話認識装置は、ユーザの口唇の動きを撮像した映像に基づき発話を認識する発話認識部と、該発話認識部により認識された発話のテキストを前記ユーザへ向けて出力する出力部とを備える。
本態様にあっては、発話認識部により認識された発話は、音声として出力されるのではなくテキストのみで出力されるようにしてもよい。これにより、テキストでの気軽なコミュニケーションを生かしつつ、文字の入力操作では表現しきれない感情又は想いが載った口唇の動き、ささやき声、表情などから認識されたユーザの発話による新たなコミュニケーションが可能になる。
(13)本態様に係る発話認識装置は、前記発話認識部は、前記ユーザの映像を入力とし、発話のテキストを出力とする学習モデルに基づき判別する。
本態様にあっては、発話はユーザを撮像した映像から学習モデルに基づき判別される。
(14)本態様に係る発話認識装置は、ユーザから集音した集音音声を補完して認識する発話認識部と、該発話認識部により認識された発話のテキストを前記ユーザへ向けて出力する出力部とを備える。
本態様にあっては、発話はユーザの小声、ささやき声から認識される。小声、ささやき声であることを前提に言葉が補完されて認識され、テキストとして出力される。
(15)本態様に係る発話認識装置は、前記発話認識部は、前記ユーザの集音音声を入力とし、発話のテキストを出力とする学習モデルに基づき判別する。
本態様にあっては、途切れているか又は不鮮明な声から認識されたテキストから、自然な言葉を推定出力するニューラルネットワーク等を用いた学習モデルにより、補完されたテキストが出力される。
(16)本態様に係る発話認識装置は、前記ユーザの感情を特定する特定部を備え、前記出力部は、前記特定部にて特定された感情の種別又は強弱に応じて前記テキストの文字色、文字の大きさ、太さ、背景色、又は装飾画像を選択して出力する。
本態様にあっては、特定部は発話者であるユーザの感情を特定する。特定部は、ユーザの表情を写した映像から感情を特定してもよいし、ユーザから発せられた小声、ささやき声の波形等から感情を特定してもよい。ユーザの感情の特定は、深層学習を用いた学習モデルに基づいて実施してもよい。
ユーザが声を発さずに、無表情で発話した場合であっても感情を表現した色、大きさ、太さ、動きなどを含むテキストが出力される。文字の入力操作では表現しきれない感情又は想いが載ったテキストでのコミュニケーションが可能になる。
(17)本態様に係るコンピュータプログラムは、ユーザの発する音声の音声データを予め記憶しておく記憶部を備えるコンピュータに、前記ユーザの口唇の動きを撮像した映像に基づき発話を認識する発話認識部、及び認識された発話のテキストと、前記記憶部に記憶してある音声データとを用いて音声を作成する音声処理部として機能させる。
本態様にあっては、(1)同様にソフトウェア的処理によって、ユーザが声を出さずに口唇だけを動かした場合であっても、映像に基づいてユーザの声で再生される音声が作成される。
(18)本態様に係るコンピュータプログラムは、ユーザの発する音声の音声データを予め記憶しておく記憶部を備えるコンピュータに、前記ユーザから集音した集音音声を補完して認識する発話認識部、及び、発話認識部により認識された発話のテキストと、前記記憶部に記憶してある音声データとを用いて音声を作成する音声処理部として機能させる。
本態様にあっては、(5)同様にソフトウェア的処理によって、ユーザが小声、又はささやき声で話した場合であっても、これを認識して小声でないユーザの声で再生される音声が作成される。ユーザは音声認識を意識せずに周囲に気を配って小声、ささやき声で話したとしても十分に相手に伝わる。口元を隠して更に小声で話すことで周囲に不快感を生じさせず、通話を行なうことも可能になる。
[本願発明の実施形態の詳細]
本発明の実施形態に係る発話認識装置の具体例を、以下に図面を参照しつつ説明する。なお、本発明は、これらの例示に限定されるものではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
(実施の形態1)
図1は、発話認識装置1の構成を示すブロック図である。発話認識装置1は、所謂スマートフォン等の携帯電話機である。発話認識装置1は、処理部10、記憶部11、通信部12、撮像部13、表示部14、操作部15、音声入力部16及び音声出力部17を備える。
処理部10は、CPU(Central Processing Unit )、GPU(Graphics Processing Unit)等のプロセッサと、クロック、内蔵メモリ等を用いる。なお処理部10は、プロセッサ、クロック、内蔵メモリ、更には記憶部11及び通信部12を集積した1つのハードウェア(SoC:System On a Chip)として構成されていてもよい。処理部10は、記憶部11に記憶してある発話認識プログラム1Pに基づき、汎用コンピュータを発話認識装置1として機能させる。
記憶部11はフラッシュメモリ、ハードディスク、SSD(Solid State Disk)等の不揮発性記憶媒体を用いる。記憶部11には発話認識プログラム1Pが記憶されているほか、処理部10が処理の際に参照する情報を記憶する。記憶部11には、発話認識装置1のユーザの音声データ11aが記憶してある。音声データは、発話認識プログラム1Pを用いるにあたって初期的に特定の発話をさせて記憶してもよいし、通話中の発話を逐次記憶したものであってもよい。
通信部12は、所定の移動通信規格による無線通信モジュールであり、通信事業者が提供する電話網への通信接続を実現する。通信部12は、Wi-Fi 通信、又は通信事業者が提供する通信網のアクセスポイントへの通信接続が可能な無線通信ユニットを更に備えてもよい。
撮像部13は、カメラモジュールを用いて得られる映像信号を出力する。処理部10は、撮像部13から出力される映像信号を取得して処理することが可能である。
表示部14は液晶パネル又は有機ELディスプレイ等のディスプレイ装置を用いる。操作部15は、ユーザの操作を受け付けるインタフェースであり、物理ボタン、ディスプレイ内蔵のタッチパネルデバイス等を用いる。操作部15は、物理ボタン又はタッチパネルにて表示部14で表示している画面上で操作を受け付けてもよいし、音声入力部16にて入力した音声から操作内容を認識して操作を受け付けてもよい。
音声入力部16は、音声を集音するマイクロフォン及び集音された音声を信号処理する処理部である。音声入力部16は、集音した音声の音声信号を作成して処理部10へ出力する。
音声出力部17は、音声を出力するスピーカである。音声出力部17は、処理部10に与えられた音声信号に基づき音声を出力する。実施の形態1では音声出力部17は、外付けのイヤホンであって有線又は無線により発話認識装置1の本体に接続されていてもよい(図2B、図2C参照)。
図2は、発話認識装置1の態様を示す模式図である。図2Aに示す態様では、所謂スマートフォンである発話認識装置1の矩形平板状の筐体の一短辺側に、音声入力部16と、撮像部13とが設けられており、撮像部13は音声入力部16に向けて話す話者の口元を撮像することが可能である。スマートフォンは汎用機として撮像部を備えているが、発話認識装置1は別途撮像部13としてカメラモジュールを用いてもよい。
図2Bに示す態様では、発話認識装置1は別途特別なハードウェアを用いることなしに、スマートフォンに既存の撮像部13を用い、音声出力部17として本体に接続されているイヤホンを用いる。
図2Cに示す態様では、発話認識装置1はマイクロフォン搭載のイヤホンを用いる。図2Cに示す例におけるイヤホンは音声出力部17を有し、ケーブルを介して発話認識装置1の本体に接続されている。イヤホンは、そのケーブルの中途部分に音声入力部16が内蔵された操作部15を備えている。操作部15に更に撮像部13が設けられている。イヤホンは、操作部15と本体との間がケーブルレスであってもよい。
図3は、実施の形態1における発話認識装置1の処理部10の機能の一例を示す機能ブロック図である。処理部10は発話認識プログラム1Pに基づき、発話認識装置1の各構成部を用いて、発話認識部101、音声処理部102及び発話出力部103として機能する。各機能は発話認識プログラム1Pに基づきソフトウェア的に実現することは勿論、各機能の一部又は全部は集積回路としてハードウェア的に実現されることが好ましい。
発話認識部101は、画像処理部101a、読唇処理部101b、及び言語処理部101cを含む。画像処理部101aは、撮像部13から取得する映像信号から取得できる連続するフレーム画像に対して画像処理を行ない各々から口唇部分を抽出し、連続する口唇部分画像として逐次出力する。読唇処理部101bは、記憶部11に記憶してある認識パターン等の情報に基づいて画像処理部101aによって抽出された連続する口唇部分画像から特徴量を導出し、発音を示す発音情報(母音及び子音、発音記号、又は文字列)を判別する。言語処理部101cは、記憶部11に記憶してある自然言語辞書11cを用い、読唇処理部10bにより判別された一連の発音情報に基づいて自然言語からなるテキストデータを作成して出力する。言語処理部101cは、発音情報の組み合わせ、及び時系列の並びから尤もらしい文字列を推定出力する。
音声処理部102は、発話認識部101によって出力された発話を認識したテキストデータと、記憶部11に記憶してあるユーザの音声データ11aを用いて音声信号を作成し、出力する。
発話出力部103は、音声処理部102によって出力された音声信号を音声出力部17へ与え、ユーザの発話を認識したフィードバック音声として出力させる。発話出力部103は、音声信号を適宜デジタル化して通信部12によって送信する。
発話出力部103は、音声の出力に限らず、撮像部13で撮像している映像信号、又は記憶部11に記憶してあるユーザの写真画像若しくはアバター画像を用いて、発話認識部101にて認識されたテキストデータに基づくユーザが発話する動作を再現する映像を作成してもよい。発話出力部103は、音声処理部102にて作成された音声信号と多重化させ、通信部22から送信する。この場合、ビデオ通話が可能になる。
図4は、発話認識装置1の処理部10の機能の他の例を示す機能ブロック図である。図3に示した機能との相違点は、発話認識部101が深層学習に基づく学習モデルを用いる点である。
図4の例において詳細には、図3の例に対し、読唇処理部101bが読唇学習モデル101dに置換される。読唇学習モデル101dは、画像処理部101aによって抽出された連続する口唇部分画像を入力とし、判別される発音情報を出力するニューラルネットワークである。深層学習を用いて学習することで精度良い判別が可能になる。読唇学習モデル101dは初期的には一般的な口唇部分画像に基づき学習済みであり、使用によって逐次、ユーザ毎に学習が深められる。
図4の例では、言語処理部101cが言語学習モデル101eに置換される。言語学習モデル101eは、読唇学習モデル101dから出力される発音情報を入力とし、自然言語(単語、文)を出力するニューラルネットワークである。深層学習を用いて学習することで精度良い判別が可能になる。言語学習モデル101eは初期的には、話し言葉コーパスを用いて学習済みであり、使用によって逐次、ユーザ毎に学習が深められる。
図4の読唇学習モデル101d及び言語学習モデル101eは一体的に学習されるモデルであってもよい。画像に基づく読唇学習と、言語処理について学習とでは夫々深層学習における適切なパラメータ、フィルタ等が異なる可能性があり、夫々特色を有して研究されている。分別して利用することで夫々を最適化し、高精度な判別及び出力が期待できる。また、各学習モデルは図3の非学習モデルの構成と適宜組み合わせてもよい。
実施の形態1に示した発話認識装置1を携帯電話機として用いることによって、ユーザは声を出さず、口唇のみを動かすことで相手と通話することができる。ユーザは声を出さずとも、発話出力部103によって自身の音声データ11aに基づく発話データが通信部12から通話相手へ送信されるから、自然な通話が実現できる。発話出力部103によって自身の音声データ11aに基づくフィードバック音声を音声出力部17から聞くことができるので、通話中に自身の発言を認識して自然な会話が可能である。
上述したように実施の形態1では、発話認識装置1の発話認識機能では、汎用機であるスマートフォンが備える表示部14、操作部15及び音声入力部16は使用しなくてよい。音声入力部16に骨伝導マイクロフォン、又は振動センサを用い、喉元付近の振動を検知して発話認識部101の処理に使用してもよい。
読唇処理部101b又は読唇学習モデル101dは、種々の口唇部分画像について、同一の発音情報として出力する場合であっても、口唇の動きの激しさ、大きさによって発話の音量の大小を区別して判別することが好ましい。
画像処理部101aは、フレーム画像中に複数人の顔画像を抽出できる場合には、夫々区別して読唇処理部101bへ与える。複数のユーザが1つの発話認識装置1を利用すべく撮像部13の画角に写るようにした使用した場合であっても、各々の口唇の動きから発話を認識するとよい。発話認識装置1に予め音声データ11aを記憶させているユーザの顔画像からこれを識別し、識別されたユーザの口唇の動きについては、音声データ11aを利用して音声処理部102により音声信号を作成する。音声データ11aが存在しない他のユーザについては、合成音声を予め記憶部11に記憶しておき、音声処理部102はこれを用いて音声信号を作成してもよい。
実施の形態1では、フィードバック音声を音声出力部17から聞くことでユーザは、声を出さずとも、自身が話した内容を認識することができた。しかしながらフィードバックは音声に限らず、表示部14にテキストデータを表示させる構成としてもよい。
(実施の形態2)
図5は、実施の形態2における発話認識装置1の処理部10の機能の一例を示す機能ブロック図である。実施の形態2における発話認識装置1の構成は、処理部10の機能以外のハードウェア的構成は、実施の形態1と同様であるから、共通部分には同一の符号を付して詳細な説明を省略する。
処理部10は発話認識プログラム1Pに基づき、発話認識装置1の各構成部を用いて、発話認識部101、音声処理部102、発話出力部103及び感情特定部104として機能する。実施の形態2においても各機能は発話認識プログラム1Pに基づきソフトウェア的に実現することは勿論、各機能の一部又は全部は集積回路としてハードウェア的に実現されることが好ましい。
感情特定部104は、発話認識部101によって認識される発話に含まれる話者の感情を特定する。感情特定部104は、発話認識部101と同様に撮像部13から取得する映像信号を入力し、並行的に処理を行なって感情を特定する。感情特定部104は、画像処理部104a、及び認識部104bを含む。画像処理部104aは、撮像部13から取得する映像信号から取得できるフレーム画像に対して画像処理を行ない各々からユーザの顔、顔内の目、鼻、口等の器官の輪郭、頂点等の特徴量を抽出する。連続するフレーム画像における各器官の動きを示す情報を出力してもよい。認識部104bは、抽出された特徴量と記憶部11に記憶してあるパターン等に基づき喜怒哀楽の感情をベクトル表現して出力する。感情は喜怒哀楽のみで表現されるものではなく、悲しみ、驚き、戸惑い等で表されてもよい。喜怒哀楽夫々の度合いによって驚き、悲しみ、戸惑いといった種々の感情として特定されるようにしてもよい。認識部104bは、顔領域の画像を入力して喜怒哀楽の感情を判別する深層学習による学習モデルに代替されてもよい。
感情特定部104は、発話認識部101の言語処理部101c又は言語学習モデル101eから出力された発話の口調から話者であるユーザの感情を特定してもよい。感情特定部104は、表情から緊張感を定量化して出力するようにしてもよい。
実施の形態2におい音声処理部102は、感情特定部104にて特定された感情に応じた声色の音声データ11aにより音声信号を作成する。音声信号を作成した後に感情に応じて声色を変更する加工を行なってもよい。発話出力部103は感情特定部104にて特定された感情に応じて音量を調整して音声として出力送信させる。
感情特定部104の機能として、画像処理部104aにて表情から直接的に感情を読み取らずに口の動きの激しさから感情を推定してもよい。発話の口調(選択されている言葉)から感情を特定することで、ユーザが周囲を配慮して表情に出さずに口唇のみを動かして発話認識装置1を使用している場合でも、その口調に合わせた音量と声色で通話先にて音声が出力され、感情が伝わる。
(実施の形態3)
図6は、実施の形態3における発話認識装置1の処理部10の機能の一例を示す機能ブロック図である。実施の形態3における発話認識装置1の構成は、処理部10の機能の詳細以外は、実施の形態1又は実施の形態2と同様であるから、共通部分には同一の符号を付して詳細な説明を省略する。
処理部10は発話認識プログラム1Pに基づき、発話認識装置1の各構成部を用いて、発話認識部105、音声処理部102、発話出力部103、感情特定部106及びキャンセル音作成部109として機能する。実施の形態3においても各機能は発話認識プログラム1Pに基づきソフトウェア的に実現することは勿論、各機能の一部又は全部は集積回路としてハードウェア的に実現されることが好ましい。
実施の形態3では発話認識部105は、音声認識部105a及び言語処理部105bを含む。音声認識部105aは、音声入力部16から出力される集音音声に対して記憶部11に記憶してある認識パターン等の情報に基づいて音声認識し、テキストデータとして出力する。言語処理部105bは、不鮮明な音声に対して認識されたテキストデータを用い、記憶部11に記憶してある自然言語辞書11cを用いて音声を補完するようにして発話を推定認識する機能を強化したものである。これにより実施の形態3の発話認識部105は小声、ささやき声から発話を認識することができる。
実施の形態3では感情特定部106は、音声入力部16にて集音された信号の音量の大小を参照し、小声又はささやき声であってもその音量の変動から語気の強弱を判別しつつ感情を特定するとよい。感情特定部106は、声の震えなどから緊張感を定量化して出力するようにしてもよい。感情特定部106は、特定した感情、語気の強弱の判別結果を音声処理部102へ出力する。
音声処理部102は、発話認識部105によって出力された発話を認識したテキストデータと、記憶部11に記憶してあるユーザの音声データ11aを用いて音声信号を作成し、出力する。ユーザの音声データ11aは、小声、ささやき声ではない。音声処理部102は、感情特定部106から出力された感情及び語気の判別結果に応じて音量、破裂音等を調整した音声信号を作成する。
発話出力部103は、音声処理部102から出力された音声信号をデジタル化して通信部12により送信する。発話出力部103は、音声入力部16にて集音された音声信号をそのままフィードバック音声として音声出力部17へ与える。これにより、話者は違和感なく小声、ささやき声のまま話し続けることができる。
キャンセル音作成部109は、ユーザが発する声をキャンセルさせる音声を作成する。キャンセル音作成部109は、図6に示すように、音声入力部16から出力される音声信号、即ち集音された音声の位相を逆転させたキャンセル音を作成し、ユーザへのフィードバック音声を出力させる音声出力部17とは別に設けられた音声出力部18へ出力する。音声出力部18は、例えば表示部14の表示面全体をスピーカとして用いるものであってもよいし、発話認識装置1の筐体の表示部14と反対側の面に外向けに設けられたスピーカであってもよい。キャンセル音作成部109は、音声入力部16にて入力した音声をキャンセルするキャンセル音のみならず、超音波、ノイズ音、又は周囲にとって不快感を生じさせないような音楽を、ユーザの発話を消失させる音として作成してもよい。
図7は、学習モデルを用いた処理部10の機能を示す機能ブロック図である。図6に示した機能との相違点は、音声認識部105aが音声認識モデル105c、言語処理部105bが言語学習モデル105dに置換されている点である。
音声認識モデル105cは、音声入力部16から出力される音声信号を時系列にサンプリングした波形を逐次入力とし、判別される発音情報を出力するニューラルネットワークである。言語学習モデル105dは、音声認識モデル105cから出力される判別された発音情報を入力とし、自然言語(単語、文)を出力するニューラルネットワークである。音声認識モデル105cは予め学習済みのモデルをユーザの実際の発声によって学習を深めたものであるとよい。また言語学習モデル105dは初期的には、予め話し言葉コーパスを用いて学習済みであり、使用によって逐次、ユーザ毎に学習が深められる。音声認識モデル105c及び言語学習モデル105dはまとめて1つの音声認識モデル105cとして、音声信号のサンプリング波形を入力として自然言語を出力するモデルとして学習されてもよい。いずれの場合もユーザの使用毎に学習が深められるとよい。
実施の形態3に示した発話認識装置1を携帯電話機として用いることによって、ユーザは小声、ささやき声で話すことで相手と通話することができる。ユーザは周囲に聞こえないような小声、ささやき声で話したとしても、発話出力部103によって自身の音声データ11aに基づく発話データが通信部12から通話相手へ送信される。通話相手は、自然にユーザの声を聞くことができ、自然な通話が実現できる。ユーザの感情に応じた音量、声色で通話相手に向けて出力されるので、小声、ささやき声で話したままでも通話相手に伝わり易い。
実施の形態3の音声処理に基づく発話認識部105の構成は、実施の形態1及び2の画像処理に基づく発話認識部101の機能と適宜組み合わせることができる。組み合わせにより高精度に発話が認識され、語気、感情の伝達も適切となり得る。
(実施の形態4)
図8は、実施の形態4における発話認識装置1の処理部10の機能の一例を示す機能ブロック図である。実施の形態4における処理部10の機能は、認証部107が備えられている点以外、実施の形態1と同様である。実施の形態1と同様であるから、共通部分には同一の符号を付して詳細な説明を省略する。
認証部107は、ユーザのなりすましを防ぐため、撮像部13から取得する映像信号から取得できるフレーム画像に写っている人物が正当なユーザであるか否かを判定する。認証部107は例えば、フレーム画像から抽出される顔領域から得られる特徴量と、発話認識装置1を使用する正当なユーザの顔画像の特徴量として予め記憶部11に記憶してある特徴量とを照合することによって正当か否かを判定する。認証部107により不当なユーザであると判定された場合、処理部10は発話認識部101、音声処理部102及び発話出力部103としての機能を停止する。
認証部107は、画像処理のみならず、音声入力部16から出力される音声信号に基づき、発話している人物が正当なユーザであるか否かを判定することもできる。この場合、認証部107は、音声信号から抽出される特徴量と、発話認識装置1を使用する正当なユーザの声の特徴量として予め記憶部11に記憶してある特徴量とを照合することによって正当か否かを判定する。
認証部107は、実施の形態1から3の発話認識装置1にも適用することが可能である。認証部107を用いることにより、発話認識装置1を使用する場合には、声を出さずとも通話相手と通話が可能であるところ、なりすましを防ぐことが可能になる。
(実施の形態5)
実施の形態1から4に示した発話認識装置1は、携帯電話機として使用するのみならず、発話をテキスト又は画像へ変換し、変換したテキスト又は画像を用いたコミュニケーションツールとして使用することも可能である。実施の形態5では、発話認識装置1を用いたコミュニケーションシステム100を例に挙げて説明する。
図9は、コミュニケーションシステム100の構成を示すブロック図である。コミュニケーションシステム100は、複数の端末装置2及びサーバ装置3を含む。複数の端末装置2とサーバ装置3とは、ネットワークNを介して通信が可能である。複数の端末装置2は、1対1でのネットワークNを介した音声通話か、又は複数の端末装置2間でのテキスト若しくは画像に基づく対話が可能である。
端末装置2は所謂スマートフォン等の携帯電話機であって実施の形態1から4に示した発話認識装置1と同様の汎用機である。端末装置2は、処理部20、記憶部21、通信部22、撮像部23、表示部24、操作部25、音声入力部26及び音声出力部27を備える。
端末装置2のハードウェア構成は、実施の形態1から4に示した発話認識装置1と同様である。対応する符号を付して詳細な説明を省略する。端末装置2の記憶部21には、発話認識プログラム1Pをモジュールとして含み、他の端末装置2との間で対話を実現する端末アプリプログラム2Pが記憶されている。
サーバ装置3は、処理部30、記憶部31、及び通信部32を備える。処理部30はCPU、GPU等のプロセッサを用い、記憶部31に記憶されているサーバプログラム3Pに基づいた各処理を実行し、汎用コンピュータをコミュニケーションシステム100のサーバ装置3として機能させる。
記憶部31は、ハードディスク又はフラッシュメモリ等の不揮発性記憶媒体を用いる。記憶部31は、サーバプログラム3Pのほか、処理部30が処理の際に参照する情報を記憶する。
通信部32は、ネットワークカード又は無線通信デバイスを用い、ネットワークNへの通信接続を実現する。サーバ装置3は通信部32によりネットワークNを介した通信接続を実現する。2つの端末装置2間で通話が行なわれる場合は、端末装置2間でセッションを確立させ、音声データの送受信を実現する。複数の端末装置2間での対話を行なうに際しては、サーバ装置3にて各端末装置2からデータを受信し、送信元を区別して時系列に記憶し、各端末装置2から要求されるとそれらのデータを送信する。端末装置2とのデータの送受信は、暗号化処理等により安全に実行される。
ネットワークNは、所謂インターネットである公衆網、通信キャリアネットワーク、及びコミュニケーションシステム100を実現する事業者の事業者ネットワーク、それらへの接続拠点である基地局BS、アクセスポイントAP等を含む総称である。なおサーバ装置3は事業者ネットワークからネットワークNへ接続している。
図10は、実施の形態5における端末装置2の処理部20の機能の一例を示す機能ブロック図である。処理部20は、端末アプリプログラム2Pに基づき、各構成部を用いて、発話認識部201、音声処理部202、発話出力部203、感情特定部204、及びテキスト処理部208として機能する。
発話認識部201、音声処理部202、発話出力部203、及び感情特定部204の機能は、実施の形態1及び2にて説明した発話認識装置1の処理部10の機能と同様であるから対応する符号を付して詳細な説明を省略する。
テキスト処理部208は、発話認識部201から出力される発話を認識したテキストデータを通信部22へ出力してサーバ装置3向けに送信する。実施の形態5にてテキスト処理部208は、感情特定部204で特定された感情、語気の強弱の判別結果を加味してテキストの色、大きさ、アニメーション化した動き、装飾を施す処理を行なう。例えばテキスト処理部208は、特定された感情が「喜」である場合にはテキストの色を暖色系に設定したり、弾むようなアニメーション文字を設定したりする。またテキスト処理部208は、語気が強い場合はテキストを初期設定よりも大きくしたり、太くしたりする。テキスト処理部208は、特定された感情が「喜」である場合には、文字を表示させる吹き出し画像の色を暖色にしたり、吹き出し画像を弾むようなアニメーション画像に設定したりしてもよい。テキスト処理部208は、「喜」のみならず、「怒・哀・楽」等の感情又は語気の判別結果に応じた色、大きさ、画像を示すメタデータを、テキストデータと共に出力する。
テキスト処理部208は、発話認識部201から出力される発話を認識したテキストデータに加え、操作部25にてテキスト入力操作を受け付けるとよい。発話認識部201にて認識されたテキストデータの修正を可能としてもよい。言語処理部201cで深層学習を実施する態様とする場合、修正された場合に修正結果を教師データとして学習モデルを更新してもよい。
テキスト処理部208はまた、サーバ装置3から送信される対話相手からの発話を認識したテキストデータを通信部22にて受信すると、これを共に送信されるメタデータ(画像を含んでもよい)に基づき色、大きさ、アニメーション画像を設定して表示部24に表示させる。テキスト処理部208は、通信部22を介してサーバ装置3向けに送信するのみならず、自装置を使用しているユーザの発話については直接的に表示部24に表示してもよい。
発話認識部201は小声、ささやき声などの音声に基づく認識を行なう実施の形態3における発話認識部105と同様の構成を有する発話認識部205に代替されてもよい。図11は、実施の形態5における端末装置2の処理部20の機能の他の一例を示す機能ブロック図である。図11では、発話認識部205は音声入力部26から出力された音声信号により発話を認識する音声認識部205a及び音声認識部205aによって認識されて出力されるテキストデータを補完しながら発話を推定認識する言語処理部205bを含む。この場合、処理部20は、音声入力部26にて集音された信号の音量の大小を参照し、小声又はささやき声であってもその音量の変動から語気の強弱を判別しつつ感情を特定する感情特定部206としても機能する。
実施の形態5において端末装置2は、図10及び図11に示した機能を全て有し、口の動きのみでの発話を用いるか、小声、ささやき声の音声認識による発話を用いるかを選択できるようにしてもよいし、両者を併せて用いてもよい。
このように構成される端末装置2の処理部20は、端末アプリプログラム2Pに基づいて、他の端末装置2とのコミュニケーションを実現する。図12は、端末アプリプログラム2Pに基づく処理部20の処理手順の一例を示すフローチャートである。処理部20は端末アプリプログラム2Pの起動を操作部25により受け付けると以下の処理を開始する。
処理部20は、メニュー画面を表示し(ステップS201)、通話又は対話の相手の選択を受け付ける(ステップS202)。処理部20は、ステップS202で選択された相手に対して音声による通話を行なうか、テキスト又は画像によるコミュニケーションを行なうかの選択を受け付ける(ステップS203)。音声通話の選択を受け付けた場合(S203:音声)、処理部20は撮像部23からの映像信号に基づき発話認識部201にて認識した発話のデータを音声処理部202へ渡し、音声処理部202及び発話出力部203の機能による通話を開始する(ステップS204)。音声入力部26からの音声信号に基づく発話認識部205による処理でもよい。そして処理部20は、通話中に発話認識部201で認識した発話のテキストデータを表示させる(ステップS205)。ステップS205は必須ではない。
処理部20は、操作部25により終了操作がされたか否かを判断し(ステップS206)、終了操作がされたと判断された場合(S206:YES)、発話認識部201、音声処理部2020及び発話出力部203の動作を終了する。終了操作がされていないと判断された場合(S206:NO)、処理部20は処理をステップS206へ戻して処理を継続する。
ステップS203にてテキスト又は画像によるコミュニケーションを行なう選択を受け付けた場合(S203:テキスト)、処理部20は撮像部23からの映像信号に基づき発話認識部201にて認識した発話のデータをテキスト処理部208へ渡し、テキスト又は画像等による対話を開始する(ステップS207)。処理部20はステップS206へ処理を進める。
図13から図16は、端末アプリプログラム2Pに基づく画面例を示す図である。図13は、表示部24に表示されるアプリ画面401の一例を示す。アプリ画面401には、選択画面402が含まれている。選択画面402では、音声通話を行なうのかテキスト等によるコミュニケーションを行なうのかの選択(S203)を受け付ける。
図14は、音声通話が選択された場合の通話中画面403の一例を示している。図14に示すように、通話中画面403には通話相手を示す画像(写真画像又はアバター画像)が表示される。ビデオ通話である場合には、撮像画像即ちライブ映像であってもよい。図14に示すように、通話中画面403には、テキスト処理部208によりユーザ自身の発話を認識したテキストデータが表示する認識結果画面404が含まれている。通話中画面403に表示されるテキストデータも感情に応じた色、大きさ、アニメーション画像にて表示されてもよい。
図15は、テキスト等によるコミュニケーションが選択された場合の対話画面405の一例を示している。所謂メッセージアプリ同様に、発話を認識したテキストデータが文単位、単語単位等、認識単位毎に吹き出し画像406中に表示されている。図15に示すように、対話画面405に表示されるテキスト又は吹き出し画像406は、感情特定部204(206)にて特定された感情に応じた色、大きさ、又はアニメーション画像と共に表示されている。図15に示す例では、「戸惑い」、「驚き」、及び「喜」が吹き出し画像406にて表されている。また、語気の強弱、口唇の動きの激しさ又は音量の大小に応じてテキストの大きさ、太さが表されている。
端末装置2は、図10及び図11に示した機能を全て有して口の動きのみでの発話を用いるか、小声、ささやき声の音声認識とするかの選択が可能である場合には、ステップS204又はステップS206の処理の前に、選択画面を表示して選択を受け付けてもよい。図16は、選択画面407の内容例を示している。選択画面407には図16に示すように、ユーザは口唇のみ即ち「口パク」にて発話するか、「小声」で発話するかを選択することができる。
このようにコミュニケーションシステム100では、発話認識部201の機能を用い、ユーザが声を出さずとも、又は出したとしても小声、ささやき声であっても、発話を認識したテキストを用いて相手とコミュニケーションを行なうことができる。操作部25を用いてテキストを入力する操作を行なわずに、口唇の動き、ささやき声、表情などから認識されたユーザの発話による新たなコミュニケーションツールを実現することも可能である。
実施の形態5において端末装置5の処理部20は、発話認識部201にて認識した発話の口調、言葉遣い、感情特定部204で特定した感情から、通話又はテキストによる対話の相手との関係性を学習する関係性学習部209として機能してもよい。関係性を学習する関係性学習部209に基づき、言語処理部201cは語気又は口調に応じて丁寧語の有無を選択的に使用することができる。図17は、関係性学習部209の機能を示す機能ブロック図である。関係性学習部209は、予め話し言葉コーパスに基づき関係性(友人、仕事、家族等)を学習しておいて発話データからこれを判別する。関係性学習部209は、感情特定部204で特定した感情を加味して学習してもよい。関係性学習部209は、深層学習を用いて学習モデルを作成し、通話、対話を行なう都度に学習を深めてもよい。関係性学習部209での学習に基づき、音声処理部202にて声色を変動させてもよい。関係性学習部209での学習に基づき、テキスト処理部208での出力形態を、関係性に応じた形態とすることもできる。
(変形例)
実施の形態5では、コミュニケーションシステム100を例に挙げて説明した。端末装置2は、自身の発話をメモする装置として使用することも可能である。変形例における端末装置2の構成は、実施の形態5の構成と同様である。通話又は対話の相手が存在しないのみである。図18は、変形例における画面例を示す図である。図18には、ユーザの口唇の動き、又は小声若しくはささやき声に対する発話の認識結果をテキスト処理部208が表示部24に出力しているメモ画面408が示されている。吹き出し画像406上に、ユーザの発話を認識したテキストが表示されている。ユーザは独り言のようにして音声メモをとるに際し、声を発することなくテキストメモを取ることができる。声を発する必要がないのでメモの内容が漏洩することを回避しつつ、また操作部25の操作の煩わしさを低減し、思いついた言葉を即座にテキスト化することができる。
このように、発話認識装置1の機能により、話者の周囲への音漏れを最低限にし、更に、ユーザの発話動作に基づく多様なコミュニケーション実現することが可能である。
1 発話認識装置
10,20 処理部
11,21 記憶部
11a,21a 音声データ
11c,21c 自然言語辞書
12,22 通信部
13,23 撮像部
14,24 表示部
15,25 操作部
16,26 音声入力部
17,27 音声出力部
1P 発話認識プログラム
2P 端末アプリプログラム
101,201 発話認識部
101a,201a 画像処理部
101b,201b 読唇処理部
101c,201c 言語処理部
101d 読唇学習モデル
101e 言語学習モデル
102,202 音声処理部
103,203 発話出力部
104,106,204,206 感情特定部
104a,204a 画像処理部
104b,204b 認識部
105,205 発話認識部
105a,205a 音声認識部
105b,205b 言語処理部
105c 音声認識モデル
105d 言語学習モデル
107 認証部
109 キャンセル音作成部
208 テキスト処理部
209 関係性学習部
3 サーバ装置
30 処理部
31 記憶部
3P サーバプログラム
32 通信部
401 アプリ画面
402 選択画面
403 通話中画面
404 認識結果画面
405 対話画面
406 吹き出し画像
407 選択画面
408 メモ画面
N ネットワーク
AP アクセスポイント
BS 基地局

Claims (18)

  1. ユーザの発する音声の音声データを予め記憶しておく記憶部と、
    前記ユーザの口唇の動きを撮像した映像に基づき発話を認識する発話認識部と、
    発話認識部により認識された発話のテキストと、前記記憶部に記憶してある音声データとを用いて音声を作成する音声処理部と
    を備える発話認識装置。
  2. 前記発話認識部は、
    前記映像から前記ユーザの顔の口唇部分の部分画像を連続して抽出する画像処理部と、
    抽出された連続する部分画像から前記ユーザから発せられた発音を示す発音情報を判別する読唇処理部と、
    判別された一連の発音情報に基づき自然言語からなるテキストデータを作成する言語処理部と
    を備える請求項1に記載の発話認識装置。
  3. 前記読唇処理部は、前記ユーザの口唇部分の部分画像を入力とし、発音情報の判別結果を出力とする発音学習モデルに基づき判別する
    請求項2に記載の発話認識装置。
  4. 前記言語処理部は、一連の発音情報を入力とし、入力された発音情報に他の発音情報を補完して自然言語を推定出力する言語学習モデルを用いてテキストデータを作成する
    請求項2又は請求項3に記載の発話認識装置。
  5. ユーザの発する音声の音声データを予め記憶しておく記憶部と、
    前記ユーザから集音した集音音声を補完して認識する発話認識部と、
    発話認識部により認識された発話のテキストと、前記記憶部に記憶してある音声データとを用いて音声を作成する音声処理部と
    を備える発話認識装置。
  6. 前記発話認識部は、
    前記集音音声に対して音声認識を行ない一連の発音情報、又はテキストとして出力する音声認識部と、
    該音声認識部から出力された一連の発音情報、又はテキスト、及び、自然言語を記憶してある自然言語辞書を用いて自然言語からなるテキストを推定出力する言語処理部と
    を備える請求項5に記載の発話認識装置。
  7. 前記言語処理部は、一連の発音情報又はテキストを入力とし、他の発音情報又は文字を補完して自然言語を推定出力する言語学習モデルを用いてテキストデータを作成する
    請求項6に記載の発話認識装置。
  8. 前記音声処理部によって作成された音声を前記ユーザへ向けて出力する音声出力部を備える
    請求項1から請求項7のいずれか一項に記載の発話認識装置。
  9. 前記ユーザの感情を特定する特定部を備え、
    前記音声処理部は、前記特定部にて特定された感情の種別又は強弱に応じて音量、又は声色を変動させて音声を作成する
    請求項1から請求項8のいずれか一項に記載の発話認識装置。
  10. 前記発話認識部にて認識された発話のテキストの言葉遣いから、語気又は口調を判別する判別部を備え、
    前記音声処理部は、前記判別部が判別した語気又は口調に応じて音量、又は声色を変動させて音声を作成する
    請求項1から請求項8のいずれか一項に記載の発話認識装置。
  11. 前記発話認識部にて認識された発話のテキストの言葉遣いから、発話の相手との関係性を判別する判別部を備え、
    前記音声処理部は、前記判別部が判別した関係性に応じて丁寧語の有無、又は声色を変動させて音声を作成する
    請求項1から請求項8のいずれか一項に記載の発話認識装置。
  12. ユーザの口唇の動きを撮像した映像に基づき発話を認識する発話認識部と、
    該発話認識部により認識された発話のテキストを前記ユーザへ向けて出力する出力部と
    を備える発話認識装置。
  13. 前記発話認識部は、前記ユーザの映像を入力とし、発話のテキストを出力とする学習モデルに基づき判別する
    請求項12に記載の発話認識装置。
  14. ユーザから集音した集音音声を補完して認識する発話認識部と、
    該発話認識部により認識された発話のテキストを前記ユーザへ向けて出力する出力部と
    を備える発話認識装置。
  15. 前記発話認識部は、前記ユーザの集音音声を入力とし、発話のテキストを出力とする学習モデルに基づき判別する
    請求項14に記載の発話認識装置。
  16. 前記ユーザの感情を特定する特定部を備え、
    前記出力部は、前記特定部にて特定された感情の種別又は強弱に応じて前記テキストの文字色、文字の大きさ、太さ、背景色、又は装飾画像を選択して出力する
    請求項12から請求項15のいずれか一項に記載の発話認識装置。
  17. ユーザの発する音声の音声データを予め記憶しておく記憶部を備えるコンピュータに、
    前記ユーザの口唇の動きを撮像した映像に基づき発話を認識する発話認識部、及び
    認識された発話のテキストと、前記記憶部に記憶してある音声データとを用いて音声を作成する音声処理部
    として機能させるコンピュータプログラム。
  18. ユーザの発する音声の音声データを予め記憶しておく記憶部を備えるコンピュータに、
    前記ユーザから集音した集音音声を補完して認識する発話認識部、及び、
    発話認識部により認識された発話のテキストと、前記記憶部に記憶してある音声データとを用いて音声を作成する音声処理部
    として機能させるコンピュータプログラム。
JP2018102621A 2018-05-29 2018-05-29 発話認識装置、及びコンピュータプログラム Pending JP2019208138A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018102621A JP2019208138A (ja) 2018-05-29 2018-05-29 発話認識装置、及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018102621A JP2019208138A (ja) 2018-05-29 2018-05-29 発話認識装置、及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2019208138A true JP2019208138A (ja) 2019-12-05

Family

ID=68768660

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018102621A Pending JP2019208138A (ja) 2018-05-29 2018-05-29 発話認識装置、及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2019208138A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011245A (zh) * 2021-01-28 2021-06-22 南京大学 基于超声波感知与知识蒸馏的唇语识别系统及方法
WO2021192991A1 (ja) * 2020-03-23 2021-09-30 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
WO2021256318A1 (ja) * 2020-06-15 2021-12-23 ソニーグループ株式会社 情報処理装置、情報処理方法及びコンピュータプログラム
WO2022137654A1 (ja) * 2020-12-25 2022-06-30 パナソニックIpマネジメント株式会社 イヤフォンおよびイヤフォン制御方法
JP2022134600A (ja) * 2021-03-03 2022-09-15 VoiceApp株式会社 字幕表示処理プログラム、字幕表示処理装置、サーバ。
WO2023167212A1 (ja) * 2022-03-01 2023-09-07 株式会社KPMG Ignition Tokyo コンピュータプログラム、情報処理方法及び情報処理装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000349865A (ja) * 1999-06-01 2000-12-15 Matsushita Electric Works Ltd 音声通信装置
JP2005065252A (ja) * 2003-07-29 2005-03-10 Fuji Photo Film Co Ltd 携帯電話機
JP2005215888A (ja) * 2004-01-28 2005-08-11 Yasunori Kobori テキスト文の表示装置
JP2005244394A (ja) * 2004-02-25 2005-09-08 Nec Corp 撮像機能付き携帯電話機
JP2007087291A (ja) * 2005-09-26 2007-04-05 Toshiba Corp 携帯端末装置
JP2015215626A (ja) * 2015-07-03 2015-12-03 株式会社東芝 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム
CN105632497A (zh) * 2016-01-06 2016-06-01 昆山龙腾光电有限公司 一种语音输出方法、语音输出系统
JP2017049612A (ja) * 2013-01-29 2017-03-09 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 自動音声認識のための方法およびシステム
JP2018013549A (ja) * 2016-07-19 2018-01-25 株式会社デンソー 発話内容認識装置
JP2018066780A (ja) * 2016-10-17 2018-04-26 イノベーション・ラボラトリ株式会社 音声抑制システム及び音声抑制装置
JP2019060921A (ja) * 2017-09-25 2019-04-18 富士ゼロックス株式会社 情報処理装置、及びプログラム

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000349865A (ja) * 1999-06-01 2000-12-15 Matsushita Electric Works Ltd 音声通信装置
JP2005065252A (ja) * 2003-07-29 2005-03-10 Fuji Photo Film Co Ltd 携帯電話機
JP2005215888A (ja) * 2004-01-28 2005-08-11 Yasunori Kobori テキスト文の表示装置
JP2005244394A (ja) * 2004-02-25 2005-09-08 Nec Corp 撮像機能付き携帯電話機
JP2007087291A (ja) * 2005-09-26 2007-04-05 Toshiba Corp 携帯端末装置
JP2017049612A (ja) * 2013-01-29 2017-03-09 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 自動音声認識のための方法およびシステム
JP2015215626A (ja) * 2015-07-03 2015-12-03 株式会社東芝 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム
CN105632497A (zh) * 2016-01-06 2016-06-01 昆山龙腾光电有限公司 一种语音输出方法、语音输出系统
JP2018013549A (ja) * 2016-07-19 2018-01-25 株式会社デンソー 発話内容認識装置
JP2018066780A (ja) * 2016-10-17 2018-04-26 イノベーション・ラボラトリ株式会社 音声抑制システム及び音声抑制装置
JP2019060921A (ja) * 2017-09-25 2019-04-18 富士ゼロックス株式会社 情報処理装置、及びプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021192991A1 (ja) * 2020-03-23 2021-09-30 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
WO2021256318A1 (ja) * 2020-06-15 2021-12-23 ソニーグループ株式会社 情報処理装置、情報処理方法及びコンピュータプログラム
WO2022137654A1 (ja) * 2020-12-25 2022-06-30 パナソニックIpマネジメント株式会社 イヤフォンおよびイヤフォン制御方法
CN113011245A (zh) * 2021-01-28 2021-06-22 南京大学 基于超声波感知与知识蒸馏的唇语识别系统及方法
CN113011245B (zh) * 2021-01-28 2023-12-12 南京大学 基于超声波感知与知识蒸馏的唇语识别系统及方法
JP2022134600A (ja) * 2021-03-03 2022-09-15 VoiceApp株式会社 字幕表示処理プログラム、字幕表示処理装置、サーバ。
JP7148172B2 (ja) 2021-03-03 2022-10-05 VoiceApp株式会社 字幕表示処理プログラム、字幕表示処理装置、サーバ。
WO2023167212A1 (ja) * 2022-03-01 2023-09-07 株式会社KPMG Ignition Tokyo コンピュータプログラム、情報処理方法及び情報処理装置

Similar Documents

Publication Publication Date Title
JP2019208138A (ja) 発話認識装置、及びコンピュータプログラム
US10621968B2 (en) Method and apparatus to synthesize voice based on facial structures
US20200279553A1 (en) Linguistic style matching agent
US8849666B2 (en) Conference call service with speech processing for heavily accented speakers
JP2023022150A (ja) 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム
CN111583944A (zh) 变声方法及装置
KR102193029B1 (ko) 디스플레이 장치 및 그의 화상 통화 수행 방법
WO2019242414A1 (zh) 语音处理方法、装置、存储介质及电子设备
US20210256965A1 (en) Electronic device and control method thereof
CN115088033A (zh) 代表对话中的人参与者生成的合成语音音频数据
JP2009178783A (ja) コミュニケーションロボット及びその制御方法
JP2010034695A (ja) 音声応答装置及び方法
CN109754816B (zh) 一种语音数据处理的方法及装置
JP2004015478A (ja) 音声通信端末装置
JP2021117371A (ja) 情報処理装置、情報処理方法および情報処理プログラム
KR101609585B1 (ko) 청각 장애인용 이동 통신 단말기
KR102114365B1 (ko) 음성인식 방법 및 장치
JP2005283972A (ja) 音声認識方法及びこの音声認識方法を利用した情報提示方法と情報提示装置
JP2006259641A (ja) 音声認識装置及び音声認識用プログラム
JP4772315B2 (ja) 情報変換装置及び情報変換方法、並びに通信装置及び通信方法
KR102000282B1 (ko) 청각 기능 보조용 대화 지원 장치
JP2002132291A (ja) 自然言語対話処理装置およびその方法並びにその記憶媒体
WO2023210149A1 (ja) 情報処理装置及び情報処理方法、並びにコンピュータプログラム
EP4350690A1 (en) Artificial intelligence device and operating method thereof
US20210082427A1 (en) Information processing apparatus and information processing method

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191106

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20191223

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201123

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210716

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210820

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220304