JP2014182307A - 音声認識システム、および発話システム - Google Patents
音声認識システム、および発話システム Download PDFInfo
- Publication number
- JP2014182307A JP2014182307A JP2013057324A JP2013057324A JP2014182307A JP 2014182307 A JP2014182307 A JP 2014182307A JP 2013057324 A JP2013057324 A JP 2013057324A JP 2013057324 A JP2013057324 A JP 2013057324A JP 2014182307 A JP2014182307 A JP 2014182307A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- recognition
- server
- speech
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
【解決手段】音声応答システム(100)は、音声認識部(22)を備えた情報処理装置(1)と、音声認識部(61)を備えた音声認識サーバ(2)とを含み、情報処理装置(1)で取得した音声の認識処理を音声認識部(22)で行うとともに、音声認識部(61)で行う。
【選択図】図1
Description
〔音声応答システム100の概要〕
以下、本発明の一実施形態について、図1〜図9を参照して説明する。まず、図2を参照して、本実施形態に係る音声応答システム100の概要を説明する。図2は、音声応答システム100の概要を示す図である。
〔情報処理装置1〕
次に、音声応答システム100の詳細について、説明する。まず、情報処理装置1について、図1を参照して説明する。図1は、情報処理装置1の要部構成を示すブロック図である。図1に示すように、情報処理装置1は、制御部10、記憶部11、マイク12、スピーカ13、およびIR部14を含む構成である。
次に、音声認識サーバ2、配信サーバ3、および双方向通信サーバ4の要部構成について、図3を参照して説明する。図3は、音声認識サーバ2、配信サーバ3、および双方向通信サーバ4の要部構成を示すブロック図である。
次に、図8、9を参照して音声応答システム100における処理の流れについて説明する。図8、9は、音声応答システム100における処理の流れを示すシーケンス図である。
本実施形態に係る音声応答システム100では、情報処理装置1より発話される合成音声が、予め音声認識サーバ2で生成され、情報処理装置1に格納されている。まず、この予め合成音声が格納される処理の流れについて、図8を参照して説明する。
次に、ユーザが情報処理装置1に対し何らかの発話を行った場合の処理の流れについて、図9を参照して説明する。
上述した実施形態では、音声認識サーバ2において合成音声を生成する構成としたが、情報処理装置1に合成音声を生成する機能を持たせてもよい。これにより、音声認識サーバ2から合成音声が通知されてない場合であっても、情報処理装置1で生成した合成音声を出力することにより対応することができる。
また、上述した実施形態では、音声の内容に応じた処理を実行する構成を説明したが、これに限られず、音声の種類(男女、大人、子供、高齢者)に応じて、実行する処理を異ならせる(出力する音声の内容や口調(音声の高さや速さ等)を異ならせる)構成であってもよい。例えば、取得した音声が子供であれば、天気予報のみを通知し、大人の男性(父親)であれば、天気予報に加えて交通情報も通知し、大人の女性(母親)であれば、天気予報に加えて買い物情報も通知するという構成であってもよい。また、大人に対する通知は、やや早口(音声の速度大)で行い、高齢者に対する通知は、ゆっくり(音声の速度小)と行うという構成であってもよい。
以上のように、本実施形態では、情報処理装置1と音声認識サーバ2との2つ装置で音声認識処理を行うとともに、認識した音声に対し即答すべき音声がある場合は、まず即答し、さらに、配信サーバ3で決定した再生音声を情報処理装置1で出力させるものである。検知した音声、これに対する応答、その他の条件の例を一覧としてまとめると図6のようになる。
本発明の他の実施形態について説明する。上述した実施形態では、音声認識サーバ2が音声認識処理を実行する場合について限定していない。これに対し、本実施形態では、音声認識サーバ2が音声認識する場合を制御するものである。
また、通信部21が、情報処理装置1が検知した音声を音声認識サーバ2に送信する場合は、音や光等でユーザに対し報知する構成を備えていてもよい。これにより、ユーザに対し、発した音声が音声認識サーバ2に通知されていることを認識させることができる。
本発明のさらに他の実施形態について、図10〜図13に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
図10に、本実施形態における音声認識部22の要部構成を示す。図10に示すように、音声認識部22は、音声取得部201、音声判定部202、音声認識処理部203、確度算出部204、対話処理実行部205、認識結果決定部206、および判定テーブル207を含む。
次に、音声に応じて認識閾値を変える場合の処理の流れについて、図11、図12を参照して説明する。図11、図12は、音声に応じて認識閾値を変える場合の処理の流れを示すフローチャートである。
本発明のさらに他の実施形態について、図14に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
本発明のさらに他の実施形態について、図15に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
本発明のさらに他の実施形態について、図16に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
情報処理装置1、音声認識サーバ2、配信サーバ3、および双方向通信サーバ4の制御ブロック(制御部10(通信部21、音声認識部22、出力処理部23、動作処理部24)、応答判断処理部52、音声認識要求取得部53、配信情報取得部54、出力部55)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
本発明の態様1に係る音声認識システム(音声応答システム100)は、音声を取得し、取得した音声に対応した処理を行う音声処理装置(情報処理装置1)と、該音声処理装置と通信可能なサーバ(音声認識サーバ2、配信サーバ3、双方向通信サーバ4)とにより構成された音声認識システムであって、上記音声処理装置には、上記取得した音声の認識処理を行う第1音声認識手段(音声認識部22)と、上記取得した音声を上記サーバに送信する音声送信手段(通信部21)と、上記サーバから上記音声の認識結果を取得する音声認識結果取得手段(通信部21)と、上記第1音声認識手段が認識処理を行った結果である第1認識結果と、上記音声認識結果取得手段が取得した、上記サーバによる音声認識処理の結果である第2認識結果とに基づいて、該音声に対応した処理を実行する音声対応手段(出力処理部23)と、が備えられており、上記サーバには、上記音声処理装置が取得した音声を受信する音声受信手段(音声認識部61)と、上記音声受信手段が受信した上記音声の認識処理を行う第2音声認識手段(音声認識部61)と、上記第2音声認識手段が認識処理を行った結果を上記音声処理装置に送信する音声認識結果送信手段(出力部55)と、が備えられていることを特徴としている。
2 音声認識サーバ(サーバ)
3 配信サーバ(サーバ)
4 双方向通信サーバ(サーバ、処理内容送信手段)
21 通信部(音声受信手段、音声送信手段、音声認識結果取得手段)
22 音声認識部(音声受信手段、第1音声認識手段、音声送信制御手段)
23 出力処理部(音声対応手段、発話手段)
52 応答判断処理部(処理内容決定手段)
54 配信情報取得部(配信情報取得手段)
55 出力部(音声認識結果送信手段)
61 音声認識部(第2音声認識手段)
62 合成音声生成部(合成音声生成手段、合成音声送信手段)
100 音声応答システム(音声認識システム、発話システム)
Claims (10)
- 音声を取得し、取得した音声に対応した処理を行う音声処理装置と、該音声処理装置と通信可能なサーバとにより構成された音声認識システムであって、
上記音声処理装置には、
上記取得した音声の認識処理を行う第1音声認識手段と、
上記取得した音声を上記サーバに送信する音声送信手段と、
上記サーバから上記音声の認識結果を取得する音声認識結果取得手段と、
上記第1音声認識手段が認識処理を行った結果である第1認識結果と、上記音声認識結果取得手段が取得した、上記サーバによる音声認識処理の結果である第2認識結果とに基づいて、該音声に対応した処理を実行する音声対応手段と、が備えられており、
上記サーバには、
上記音声処理装置が取得した音声を受信する音声受信手段と、
上記音声受信手段が受信した上記音声の認識処理を行う第2音声認識手段と、
上記第2音声認識手段が認識処理を行った結果を上記音声処理装置に送信する音声認識結果送信手段と、が備えられていることを特徴とする音声認識システム。 - 上記サーバには、
上記音声処理装置に実行させる、上記第2認識結果と対応する処理を決定する処理内容決定手段と、
上記処理内容決定手段が決定した処理内容を上記音声処理装置に送信する処理内容送信手段と、が備えられ、
上記音声処理装置の上記音声対応手段は、上記第1認識結果に対応した処理を実行した後、上記処理内容決定手段が決定した処理を実行するものであることを特徴とする請求項1に記載の音声認識システム。 - 上記処理内容決定手段は、上記処理内容が複数存在する場合に、それぞれの処理内容に優先順位を設定し、優先順位の高い処理内容を、上記音声処理装置に実行させる処理内容として決定することを特徴とする請求項2に記載の音声認識システム。
- 上記サーバには、
上記音声処理装置に配信する情報を取得する配信情報取得手段と、
上記配信情報取得手段が取得した配信情報を音声情報として出力するための合成音声を生成する合成音声生成手段と、
上記合成音声生成手段が生成した合成音声を上記音声処理装置に送信する合成音声送信手段と、が備えられていることを特徴とする請求項1〜3のいずれか1項に記載の音声認識システム。 - 上記合成音声送信手段は、上記音声処理装置の上記音声対応手段が処理を実行する前に、上記合成音声を該音声処理装置に送信することを特徴とする請求項4に記載の音声認識システム。
- 上記第1音声認識手段、および上記第2音声認識手段は、認識結果の精度を示す認識結果精度が閾値を超えた場合、当該認識結果を自手段による認識処理の結果として出力するものであり、該閾値は、認識結果となる音声の内容によって異なることを特徴とする請求項1〜5のいずれか1項に記載の音声認識システム。
- 上記音声処理装置には、所定の条件を満たした場合、上記音声送信手段による音声の送信を許可する音声送信制御手段が備えられ、
上記音声送信手段は、上記音声送信制御手段の許可があった場合のみ、上記音声を上記サーバに送信することを特徴とする請求項1〜6のいずれか1項に記載の音声認識システム。 - 上記音声処理装置には、上記音声送信手段が上記音声を上記サーバに送信するときに、報知を行う報知手段が備えられていることを特徴とする請求項1〜7のいずれか1項に記載の音声認識システム。
- ユーザに対し発話する発話装置と、該発話装置と通信可能なサーバとにより構成された発話システムであって、
上記発話装置には、
音を取得する音取得手段と、
上記音取得手段が取得した音を上記サーバに送信する音送信手段と、
上記サーバから上記音の判定結果を取得する判定結果取得手段と、
上記判定結果取得手段が取得した判定結果が、人がいることを示すものである場合、ユーザに対し発話を行う発話手段と、が備えられ、
上記サーバには、
上記発話装置が取得した音を受信する音受信手段と、
上記音受信手段が取得した音が、人がいることを示すものであるか否かを判定する音判定手段と、
上記音判定手段が判定した結果を上記発話装置に送信する判定結果送信手段と、が備えられていることを特徴とする発話システム。 - ユーザに対し発話する発話装置と、該発話装置と通信可能なサーバとにより構成された発話システムであって、
上記発話装置には、
呼びかけを行う発話手段と、
音声を取得する音声取得手段と、
上記音声取得手段が取得した音声を上記サーバに送信する音声送信手段と、
上記サーバから上記音声の認識結果を取得する認識結果取得手段と、が備えられ、
上記サーバには、
上記発話装置が取得した音声を受信する音声受信手段と、
上記音声受信手段が取得した音声の認識処理を行う音声認識手段と、
上記音声認識手段が認識した結果を上記発話装置に送信する認識結果送信手段と、が備えられ
上記発話装置の上記発話手段は、上記認識結果取得手段が取得した認識結果が、上記呼びかけに対応する返答であることを示すものである場合、ユーザに対し発話を行うことを特徴とする発話システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013057324A JP5753212B2 (ja) | 2013-03-19 | 2013-03-19 | 音声認識システム、サーバ、および音声処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013057324A JP5753212B2 (ja) | 2013-03-19 | 2013-03-19 | 音声認識システム、サーバ、および音声処理装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015103920A Division JP5973030B2 (ja) | 2015-05-21 | 2015-05-21 | 音声認識システム、および音声処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014182307A true JP2014182307A (ja) | 2014-09-29 |
JP5753212B2 JP5753212B2 (ja) | 2015-07-22 |
Family
ID=51701056
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013057324A Active JP5753212B2 (ja) | 2013-03-19 | 2013-03-19 | 音声認識システム、サーバ、および音声処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5753212B2 (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016052164A1 (ja) * | 2014-09-30 | 2016-04-07 | シャープ株式会社 | 対話装置 |
JP2016071248A (ja) * | 2014-09-30 | 2016-05-09 | シャープ株式会社 | 対話装置 |
JP2016114744A (ja) * | 2014-12-15 | 2016-06-23 | オンキヨー株式会社 | 電子機器制御システム、端末装置、及び、サーバー |
JP2016218200A (ja) * | 2015-05-19 | 2016-12-22 | オンキヨー株式会社 | 電子機器制御システム、サーバー、及び、端末装置 |
JP2018045190A (ja) * | 2016-09-16 | 2018-03-22 | トヨタ自動車株式会社 | 音声対話システムおよび音声対話方法 |
CN110741362A (zh) * | 2018-05-03 | 2020-01-31 | 谷歌有限责任公司 | 音频查询的重叠处理的协调 |
JP2020134903A (ja) * | 2019-02-26 | 2020-08-31 | コニカミノルタ株式会社 | システム、画像形成装置、方法およびプログラム |
CN113450790A (zh) * | 2020-03-24 | 2021-09-28 | 夏普株式会社 | 电子设备的控制装置、记录介质、控制方法、电子设备 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113921016A (zh) * | 2021-10-15 | 2022-01-11 | 阿波罗智联(北京)科技有限公司 | 语音处理方法、装置、电子设备以及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259601A (ja) * | 1999-03-05 | 2000-09-22 | Masami Kato | 会話装置および方法 |
JP2001188786A (ja) * | 1999-12-28 | 2001-07-10 | Sony Corp | 会話処理装置および方法、並びに記録媒体 |
JP2003140691A (ja) * | 2001-11-07 | 2003-05-16 | Hitachi Ltd | 音声認識装置 |
JP2003316803A (ja) * | 2002-04-19 | 2003-11-07 | Nec Corp | 携帯端末装置およびサービス提供システム |
JP2003316385A (ja) * | 2002-04-24 | 2003-11-07 | Hitachi Ltd | 音声対話システム及び音声対話方法 |
JP2008009153A (ja) * | 2006-06-29 | 2008-01-17 | Xanavi Informatics Corp | 音声対話システム |
JP2010054897A (ja) * | 2008-08-29 | 2010-03-11 | Brother Ind Ltd | 音声認識装置、音声認識プログラム、受付装置および受付プログラム |
JP2012168349A (ja) * | 2011-02-15 | 2012-09-06 | Alpine Electronics Inc | 音声認識システムおよびこれを用いた検索システム |
WO2013027360A1 (ja) * | 2011-08-19 | 2013-02-28 | 旭化成株式会社 | 音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置 |
JP2013064777A (ja) * | 2011-09-15 | 2013-04-11 | Ntt Docomo Inc | 端末装置、音声認識プログラム、音声認識方法および音声認識システム |
-
2013
- 2013-03-19 JP JP2013057324A patent/JP5753212B2/ja active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259601A (ja) * | 1999-03-05 | 2000-09-22 | Masami Kato | 会話装置および方法 |
JP2001188786A (ja) * | 1999-12-28 | 2001-07-10 | Sony Corp | 会話処理装置および方法、並びに記録媒体 |
JP2003140691A (ja) * | 2001-11-07 | 2003-05-16 | Hitachi Ltd | 音声認識装置 |
JP2003316803A (ja) * | 2002-04-19 | 2003-11-07 | Nec Corp | 携帯端末装置およびサービス提供システム |
JP2003316385A (ja) * | 2002-04-24 | 2003-11-07 | Hitachi Ltd | 音声対話システム及び音声対話方法 |
JP2008009153A (ja) * | 2006-06-29 | 2008-01-17 | Xanavi Informatics Corp | 音声対話システム |
JP2010054897A (ja) * | 2008-08-29 | 2010-03-11 | Brother Ind Ltd | 音声認識装置、音声認識プログラム、受付装置および受付プログラム |
JP2012168349A (ja) * | 2011-02-15 | 2012-09-06 | Alpine Electronics Inc | 音声認識システムおよびこれを用いた検索システム |
WO2013027360A1 (ja) * | 2011-08-19 | 2013-02-28 | 旭化成株式会社 | 音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置 |
JP2013064777A (ja) * | 2011-09-15 | 2013-04-11 | Ntt Docomo Inc | 端末装置、音声認識プログラム、音声認識方法および音声認識システム |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016052164A1 (ja) * | 2014-09-30 | 2016-04-07 | シャープ株式会社 | 対話装置 |
JP2016071248A (ja) * | 2014-09-30 | 2016-05-09 | シャープ株式会社 | 対話装置 |
JP2016071247A (ja) * | 2014-09-30 | 2016-05-09 | シャープ株式会社 | 対話装置 |
JP2016114744A (ja) * | 2014-12-15 | 2016-06-23 | オンキヨー株式会社 | 電子機器制御システム、端末装置、及び、サーバー |
JP2016218200A (ja) * | 2015-05-19 | 2016-12-22 | オンキヨー株式会社 | 電子機器制御システム、サーバー、及び、端末装置 |
JP2018045190A (ja) * | 2016-09-16 | 2018-03-22 | トヨタ自動車株式会社 | 音声対話システムおよび音声対話方法 |
CN110741362A (zh) * | 2018-05-03 | 2020-01-31 | 谷歌有限责任公司 | 音频查询的重叠处理的协调 |
JP2022172090A (ja) * | 2018-05-03 | 2022-11-15 | グーグル エルエルシー | オーディオクエリのオーバーラップ処理の協調 |
JP7439186B2 (ja) | 2018-05-03 | 2024-02-27 | グーグル エルエルシー | オーディオクエリのオーバーラップ処理の協調 |
CN110741362B (zh) * | 2018-05-03 | 2024-05-14 | 谷歌有限责任公司 | 音频查询的重叠处理的协调 |
US11989229B2 (en) | 2018-05-03 | 2024-05-21 | Google Llc | Coordination of overlapping processing of audio queries |
JP2020134903A (ja) * | 2019-02-26 | 2020-08-31 | コニカミノルタ株式会社 | システム、画像形成装置、方法およびプログラム |
CN113450790A (zh) * | 2020-03-24 | 2021-09-28 | 夏普株式会社 | 电子设备的控制装置、记录介质、控制方法、电子设备 |
JP2021152589A (ja) * | 2020-03-24 | 2021-09-30 | シャープ株式会社 | 電子機器の制御装置、制御プログラム、制御方法、電子機器 |
Also Published As
Publication number | Publication date |
---|---|
JP5753212B2 (ja) | 2015-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5753212B2 (ja) | 音声認識システム、サーバ、および音声処理装置 | |
US11051139B2 (en) | Outputting notifications using device groups | |
CN110832579B (zh) | 音频播放系统、流音频播放器以及相关的方法 | |
US20170330566A1 (en) | Distributed Volume Control for Speech Recognition | |
WO2016052018A1 (ja) | 家電管理システム、家電、リモコン装置、ロボット | |
JP2019117623A (ja) | 音声対話方法、装置、デバイス及び記憶媒体 | |
JP2018181330A (ja) | 複数のインテリジェントパーソナルアシスタントサービスに対する管理レイヤ | |
KR20190075800A (ko) | 지능형 개인 보조 인터페이스 시스템 | |
CN111263962B (zh) | 信息处理设备和信息处理方法 | |
JP6783339B2 (ja) | 音声を処理する方法及び装置 | |
CN106067996B (zh) | 语音再现方法、语音对话装置 | |
US20190187953A1 (en) | Information processing apparatus, speech recognition system, and information processing method | |
JP6659514B2 (ja) | 電子機器及びその制御方法 | |
WO2017141530A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
WO2020003851A1 (ja) | 音声処理装置、音声処理方法及び記録媒体 | |
KR101889278B1 (ko) | 음성 명령에 기반하여 서비스를 제공하는 공용 단말 및 방법, 음성 명령에 기반하여 동작하는 캐릭터를 제공하는 공용 단말 | |
CN109195016B (zh) | 面向智能终端设备的视频弹幕的语音交互方法、终端系统及智能终端设备 | |
JP7095684B2 (ja) | 情報処理装置、情報処理方法、プログラム | |
JP6621593B2 (ja) | 対話装置、対話システム、及び対話装置の制御方法 | |
JP2019036174A (ja) | 制御装置、入出力装置、制御方法、および制御プログラム | |
KR20230133864A (ko) | 스피치 오디오 스트림 중단들을 처리하는 시스템들및 방법들 | |
WO2016052520A1 (ja) | 対話装置 | |
JP5973030B2 (ja) | 音声認識システム、および音声処理装置 | |
JP6151112B2 (ja) | 再生装置、再生装置の制御方法、サーバ、および、システム | |
WO2018023514A1 (zh) | 一种家居背景音乐控制系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140924 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141121 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150421 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150521 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5753212 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |