JP2019208138A - 発話認識装置、及びコンピュータプログラム - Google Patents
発話認識装置、及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2019208138A JP2019208138A JP2018102621A JP2018102621A JP2019208138A JP 2019208138 A JP2019208138 A JP 2019208138A JP 2018102621 A JP2018102621 A JP 2018102621A JP 2018102621 A JP2018102621 A JP 2018102621A JP 2019208138 A JP2019208138 A JP 2019208138A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- utterance
- voice
- user
- processing unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004590 computer program Methods 0.000 title claims abstract description 9
- 210000000088 Lip Anatomy 0.000 claims abstract description 58
- 238000003384 imaging method Methods 0.000 claims abstract description 24
- 230000000295 complement Effects 0.000 claims description 8
- 241001122315 Polites Species 0.000 claims description 3
- 238000005034 decoration Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 46
- 238000010586 diagram Methods 0.000 description 26
- 238000000034 method Methods 0.000 description 12
- 230000014509 gene expression Effects 0.000 description 8
- 210000000214 Mouth Anatomy 0.000 description 7
- 230000001815 facial Effects 0.000 description 7
- 230000001537 neural Effects 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 6
- 239000000969 carrier Substances 0.000 description 5
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 230000000875 corresponding Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000006011 modification reaction Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 239000000203 mixture Substances 0.000 description 2
- 210000000056 organs Anatomy 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 210000000988 Bone and Bones Anatomy 0.000 description 1
- 210000001331 Nose Anatomy 0.000 description 1
- 210000003800 Pharynx Anatomy 0.000 description 1
- 206010044565 Tremor Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000002708 enhancing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001502 supplementation Effects 0.000 description 1
Images
Abstract
Description
最初に本発明の実施態様を列記して説明する。また、以下に記載する実施形態の少なくとも一部を任意に組み合わせてもよい。
本発明の実施形態に係る発話認識装置の具体例を、以下に図面を参照しつつ説明する。なお、本発明は、これらの例示に限定されるものではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
図1は、発話認識装置1の構成を示すブロック図である。発話認識装置1は、所謂スマートフォン等の携帯電話機である。発話認識装置1は、処理部10、記憶部11、通信部12、撮像部13、表示部14、操作部15、音声入力部16及び音声出力部17を備える。
図5は、実施の形態2における発話認識装置1の処理部10の機能の一例を示す機能ブロック図である。実施の形態2における発話認識装置1の構成は、処理部10の機能以外のハードウェア的構成は、実施の形態1と同様であるから、共通部分には同一の符号を付して詳細な説明を省略する。
図6は、実施の形態3における発話認識装置1の処理部10の機能の一例を示す機能ブロック図である。実施の形態3における発話認識装置1の構成は、処理部10の機能の詳細以外は、実施の形態1又は実施の形態2と同様であるから、共通部分には同一の符号を付して詳細な説明を省略する。
図8は、実施の形態4における発話認識装置1の処理部10の機能の一例を示す機能ブロック図である。実施の形態4における処理部10の機能は、認証部107が備えられている点以外、実施の形態1と同様である。実施の形態1と同様であるから、共通部分には同一の符号を付して詳細な説明を省略する。
実施の形態1から4に示した発話認識装置1は、携帯電話機として使用するのみならず、発話をテキスト又は画像へ変換し、変換したテキスト又は画像を用いたコミュニケーションツールとして使用することも可能である。実施の形態5では、発話認識装置1を用いたコミュニケーションシステム100を例に挙げて説明する。
実施の形態5では、コミュニケーションシステム100を例に挙げて説明した。端末装置2は、自身の発話をメモする装置として使用することも可能である。変形例における端末装置2の構成は、実施の形態5の構成と同様である。通話又は対話の相手が存在しないのみである。図18は、変形例における画面例を示す図である。図18には、ユーザの口唇の動き、又は小声若しくはささやき声に対する発話の認識結果をテキスト処理部208が表示部24に出力しているメモ画面408が示されている。吹き出し画像406上に、ユーザの発話を認識したテキストが表示されている。ユーザは独り言のようにして音声メモをとるに際し、声を発することなくテキストメモを取ることができる。声を発する必要がないのでメモの内容が漏洩することを回避しつつ、また操作部25の操作の煩わしさを低減し、思いついた言葉を即座にテキスト化することができる。
10,20 処理部
11,21 記憶部
11a,21a 音声データ
11c,21c 自然言語辞書
12,22 通信部
13,23 撮像部
14,24 表示部
15,25 操作部
16,26 音声入力部
17,27 音声出力部
1P 発話認識プログラム
2P 端末アプリプログラム
101,201 発話認識部
101a,201a 画像処理部
101b,201b 読唇処理部
101c,201c 言語処理部
101d 読唇学習モデル
101e 言語学習モデル
102,202 音声処理部
103,203 発話出力部
104,106,204,206 感情特定部
104a,204a 画像処理部
104b,204b 認識部
105,205 発話認識部
105a,205a 音声認識部
105b,205b 言語処理部
105c 音声認識モデル
105d 言語学習モデル
107 認証部
109 キャンセル音作成部
208 テキスト処理部
209 関係性学習部
3 サーバ装置
30 処理部
31 記憶部
3P サーバプログラム
32 通信部
401 アプリ画面
402 選択画面
403 通話中画面
404 認識結果画面
405 対話画面
406 吹き出し画像
407 選択画面
408 メモ画面
N ネットワーク
AP アクセスポイント
BS 基地局
Claims (18)
- ユーザの発する音声の音声データを予め記憶しておく記憶部と、
前記ユーザの口唇の動きを撮像した映像に基づき発話を認識する発話認識部と、
発話認識部により認識された発話のテキストと、前記記憶部に記憶してある音声データとを用いて音声を作成する音声処理部と
を備える発話認識装置。 - 前記発話認識部は、
前記映像から前記ユーザの顔の口唇部分の部分画像を連続して抽出する画像処理部と、
抽出された連続する部分画像から前記ユーザから発せられた発音を示す発音情報を判別する読唇処理部と、
判別された一連の発音情報に基づき自然言語からなるテキストデータを作成する言語処理部と
を備える請求項1に記載の発話認識装置。 - 前記読唇処理部は、前記ユーザの口唇部分の部分画像を入力とし、発音情報の判別結果を出力とする発音学習モデルに基づき判別する
請求項2に記載の発話認識装置。 - 前記言語処理部は、一連の発音情報を入力とし、入力された発音情報に他の発音情報を補完して自然言語を推定出力する言語学習モデルを用いてテキストデータを作成する
請求項2又は請求項3に記載の発話認識装置。 - ユーザの発する音声の音声データを予め記憶しておく記憶部と、
前記ユーザから集音した集音音声を補完して認識する発話認識部と、
発話認識部により認識された発話のテキストと、前記記憶部に記憶してある音声データとを用いて音声を作成する音声処理部と
を備える発話認識装置。 - 前記発話認識部は、
前記集音音声に対して音声認識を行ない一連の発音情報、又はテキストとして出力する音声認識部と、
該音声認識部から出力された一連の発音情報、又はテキスト、及び、自然言語を記憶してある自然言語辞書を用いて自然言語からなるテキストを推定出力する言語処理部と
を備える請求項5に記載の発話認識装置。 - 前記言語処理部は、一連の発音情報又はテキストを入力とし、他の発音情報又は文字を補完して自然言語を推定出力する言語学習モデルを用いてテキストデータを作成する
請求項6に記載の発話認識装置。 - 前記音声処理部によって作成された音声を前記ユーザへ向けて出力する音声出力部を備える
請求項1から請求項7のいずれか一項に記載の発話認識装置。 - 前記ユーザの感情を特定する特定部を備え、
前記音声処理部は、前記特定部にて特定された感情の種別又は強弱に応じて音量、又は声色を変動させて音声を作成する
請求項1から請求項8のいずれか一項に記載の発話認識装置。 - 前記発話認識部にて認識された発話のテキストの言葉遣いから、語気又は口調を判別する判別部を備え、
前記音声処理部は、前記判別部が判別した語気又は口調に応じて音量、又は声色を変動させて音声を作成する
請求項1から請求項8のいずれか一項に記載の発話認識装置。 - 前記発話認識部にて認識された発話のテキストの言葉遣いから、発話の相手との関係性を判別する判別部を備え、
前記音声処理部は、前記判別部が判別した関係性に応じて丁寧語の有無、又は声色を変動させて音声を作成する
請求項1から請求項8のいずれか一項に記載の発話認識装置。 - ユーザの口唇の動きを撮像した映像に基づき発話を認識する発話認識部と、
該発話認識部により認識された発話のテキストを前記ユーザへ向けて出力する出力部と
を備える発話認識装置。 - 前記発話認識部は、前記ユーザの映像を入力とし、発話のテキストを出力とする学習モデルに基づき判別する
請求項12に記載の発話認識装置。 - ユーザから集音した集音音声を補完して認識する発話認識部と、
該発話認識部により認識された発話のテキストを前記ユーザへ向けて出力する出力部と
を備える発話認識装置。 - 前記発話認識部は、前記ユーザの集音音声を入力とし、発話のテキストを出力とする学習モデルに基づき判別する
請求項14に記載の発話認識装置。 - 前記ユーザの感情を特定する特定部を備え、
前記出力部は、前記特定部にて特定された感情の種別又は強弱に応じて前記テキストの文字色、文字の大きさ、太さ、背景色、又は装飾画像を選択して出力する
請求項12から請求項15のいずれか一項に記載の発話認識装置。 - ユーザの発する音声の音声データを予め記憶しておく記憶部を備えるコンピュータに、
前記ユーザの口唇の動きを撮像した映像に基づき発話を認識する発話認識部、及び
認識された発話のテキストと、前記記憶部に記憶してある音声データとを用いて音声を作成する音声処理部
として機能させるコンピュータプログラム。 - ユーザの発する音声の音声データを予め記憶しておく記憶部を備えるコンピュータに、
前記ユーザから集音した集音音声を補完して認識する発話認識部、及び、
発話認識部により認識された発話のテキストと、前記記憶部に記憶してある音声データとを用いて音声を作成する音声処理部
として機能させるコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018102621A JP2019208138A (ja) | 2018-05-29 | 2018-05-29 | 発話認識装置、及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018102621A JP2019208138A (ja) | 2018-05-29 | 2018-05-29 | 発話認識装置、及びコンピュータプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019208138A true JP2019208138A (ja) | 2019-12-05 |
Family
ID=68768660
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018102621A Pending JP2019208138A (ja) | 2018-05-29 | 2018-05-29 | 発話認識装置、及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019208138A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021192991A1 (ja) * | 2020-03-23 | 2021-09-30 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、およびプログラム |
WO2021256318A1 (ja) * | 2020-06-15 | 2021-12-23 | ソニーグループ株式会社 | 情報処理装置、情報処理方法及びコンピュータプログラム |
WO2022137654A1 (ja) * | 2020-12-25 | 2022-06-30 | パナソニックIpマネジメント株式会社 | イヤフォンおよびイヤフォン制御方法 |
JP2022134600A (ja) * | 2021-03-03 | 2022-09-15 | VoiceApp株式会社 | 字幕表示処理プログラム、字幕表示処理装置、サーバ。 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000349865A (ja) * | 1999-06-01 | 2000-12-15 | Matsushita Electric Works Ltd | 音声通信装置 |
JP2005065252A (ja) * | 2003-07-29 | 2005-03-10 | Fuji Photo Film Co Ltd | 携帯電話機 |
JP2005215888A (ja) * | 2004-01-28 | 2005-08-11 | Yasunori Kobori | テキスト文の表示装置 |
JP2005244394A (ja) * | 2004-02-25 | 2005-09-08 | Nec Corp | 撮像機能付き携帯電話機 |
JP2007087291A (ja) * | 2005-09-26 | 2007-04-05 | Toshiba Corp | 携帯端末装置 |
JP2015215626A (ja) * | 2015-07-03 | 2015-12-03 | 株式会社東芝 | 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム |
CN105632497A (zh) * | 2016-01-06 | 2016-06-01 | 昆山龙腾光电有限公司 | 一种语音输出方法、语音输出系统 |
JP2017049612A (ja) * | 2013-01-29 | 2017-03-09 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | 自動音声認識のための方法およびシステム |
JP2018013549A (ja) * | 2016-07-19 | 2018-01-25 | 株式会社デンソー | 発話内容認識装置 |
JP2018066780A (ja) * | 2016-10-17 | 2018-04-26 | イノベーション・ラボラトリ株式会社 | 音声抑制システム及び音声抑制装置 |
JP2019060921A (ja) * | 2017-09-25 | 2019-04-18 | 富士ゼロックス株式会社 | 情報処理装置、及びプログラム |
-
2018
- 2018-05-29 JP JP2018102621A patent/JP2019208138A/ja active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000349865A (ja) * | 1999-06-01 | 2000-12-15 | Matsushita Electric Works Ltd | 音声通信装置 |
JP2005065252A (ja) * | 2003-07-29 | 2005-03-10 | Fuji Photo Film Co Ltd | 携帯電話機 |
JP2005215888A (ja) * | 2004-01-28 | 2005-08-11 | Yasunori Kobori | テキスト文の表示装置 |
JP2005244394A (ja) * | 2004-02-25 | 2005-09-08 | Nec Corp | 撮像機能付き携帯電話機 |
JP2007087291A (ja) * | 2005-09-26 | 2007-04-05 | Toshiba Corp | 携帯端末装置 |
JP2017049612A (ja) * | 2013-01-29 | 2017-03-09 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | 自動音声認識のための方法およびシステム |
JP2015215626A (ja) * | 2015-07-03 | 2015-12-03 | 株式会社東芝 | 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム |
CN105632497A (zh) * | 2016-01-06 | 2016-06-01 | 昆山龙腾光电有限公司 | 一种语音输出方法、语音输出系统 |
JP2018013549A (ja) * | 2016-07-19 | 2018-01-25 | 株式会社デンソー | 発話内容認識装置 |
JP2018066780A (ja) * | 2016-10-17 | 2018-04-26 | イノベーション・ラボラトリ株式会社 | 音声抑制システム及び音声抑制装置 |
JP2019060921A (ja) * | 2017-09-25 | 2019-04-18 | 富士ゼロックス株式会社 | 情報処理装置、及びプログラム |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021192991A1 (ja) * | 2020-03-23 | 2021-09-30 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、およびプログラム |
WO2021256318A1 (ja) * | 2020-06-15 | 2021-12-23 | ソニーグループ株式会社 | 情報処理装置、情報処理方法及びコンピュータプログラム |
WO2022137654A1 (ja) * | 2020-12-25 | 2022-06-30 | パナソニックIpマネジメント株式会社 | イヤフォンおよびイヤフォン制御方法 |
JP2022134600A (ja) * | 2021-03-03 | 2022-09-15 | VoiceApp株式会社 | 字幕表示処理プログラム、字幕表示処理装置、サーバ。 |
JP7148172B2 (ja) | 2021-03-03 | 2022-10-05 | VoiceApp株式会社 | 字幕表示処理プログラム、字幕表示処理装置、サーバ。 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2019208138A (ja) | 発話認識装置、及びコンピュータプログラム | |
US10621968B2 (en) | Method and apparatus to synthesize voice based on facial structures | |
US20200279553A1 (en) | Linguistic style matching agent | |
US8849666B2 (en) | Conference call service with speech processing for heavily accented speakers | |
KR102193029B1 (ko) | 디스플레이 장치 및 그의 화상 통화 수행 방법 | |
WO2019242414A1 (zh) | 语音处理方法、装置、存储介质及电子设备 | |
WO2019111346A1 (ja) | 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム | |
JP6841239B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN111583944A (zh) | 变声方法及装置 | |
JP2010034695A (ja) | 音声応答装置及び方法 | |
JP2005283972A (ja) | 音声認識方法及びこの音声認識方法を利用した情報提示方法と情報提示装置 | |
JP4772315B2 (ja) | 情報変換装置及び情報変換方法、並びに通信装置及び通信方法 | |
US20210256965A1 (en) | Electronic device and control method thereof | |
JP2004015478A (ja) | 音声通信端末装置 | |
JP2002244842A (ja) | 音声通訳システム及び音声通訳プログラム | |
KR101609585B1 (ko) | 청각 장애인용 이동 통신 단말기 | |
CN109754816B (zh) | 一种语音数据处理的方法及装置 | |
JP2009178783A (ja) | コミュニケーションロボット及びその制御方法 | |
JP2006259641A (ja) | 音声認識装置及び音声認識用プログラム | |
EP1336947A2 (en) | Learning method and device, mobile communication terminal and information recognition system based on the analysis of user articulation movements during speech | |
CN115088033A (zh) | 代表对话中的人参与者生成的合成语音音频数据 | |
JP2008021058A (ja) | 翻訳機能付き携帯電話装置、音声データ翻訳方法、音声データ翻訳プログラムおよびプログラム記録媒体 | |
KR102000282B1 (ko) | 청각 기능 보조용 대화 지원 장치 | |
US20210082427A1 (en) | Information processing apparatus and information processing method | |
KR102114365B1 (ko) | 음성인식 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191106 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20191223 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201123 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210716 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210820 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220304 |